Kezdőlap Mesterséges inteligencia Google A Google DeepMind bemutatja a V2A-t: a MI, amely hangot ad a...

A Google DeepMind bemutatja a V2A-t: a MI, amely hangot ad a néma videókhoz

Írta:

-

2024.06.22.

242

A Google DeepMind nemrég bemutatta a video-to-audio (V2A) technológiát, egy innovatív MI eszközt, amely szinkronizált hangot generál a néma videókhoz. Két hónappal a Microsoft VASA-1 technológiájának bemutatása után a V2A forradalmasíthatja a néma videókhoz való interakció módját.

Mi az a V2A technológia?

A V2A (video-to-audio) lehetővé teszi, hogy egy szöveges prompt alapján hangot generáljunk, amely illeszkedik a néma videóhoz. Ez a technológia a videó pixeleit és a szöveges promptokat kombinálja, hogy gazdag hangképeket hozzon létre, amelyek illeszkednek a képernyőn zajló eseményekhez. A Google bemutatta a V2A képességeit olyan promptokkal, mint:

Prompt a hanghoz: Filmes, thriller, horror filmzene, feszültség, atmoszféra, lépések betonon.
Prompt a hanghoz: Egy dobos egy színpadon, villogó fények és egy éljenző tömeg körülvéve.

Korlátok és kihívások

Bár a V2A automatikusan szinkronizálja a hangot a videóval, kihívások adódnak a beszédhang generálásában, különösen a szájmozgások szinkronizálásában a hanggal. A Google dolgozik ezen szinkronizálás javításán, hogy elkerülje a természetellenes hatásokat.

Visszajelzések és védelem

A Google a kreatív közösség visszajelzéseit kéri, hogy biztosítsa a V2A technológia pozitív hatását. Az esetleges visszaélések megelőzése érdekében a Google integrálja a SynthID eszközkészletet, hogy megjelölje az MI által generált tartalmakat. Egyelőre nem ismert, mikor lesz a V2A technológia elérhető a nagyközönség számára.

Kövesd a Mobilissimo-t a Google Hírekben itt:

Google Hírek

TOVÁBBIAK