A Google DeepMind nemrég bemutatta a video-to-audio (V2A) technológiát, egy innovatív MI eszközt, amely szinkronizált hangot generál a néma videókhoz. Két hónappal a Microsoft VASA-1 technológiájának bemutatása után a V2A forradalmasíthatja a néma videókhoz való interakció módját.

Mi az a V2A technológia?

A V2A (video-to-audio) lehetővé teszi, hogy egy szöveges prompt alapján hangot generáljunk, amely illeszkedik a néma videóhoz. Ez a technológia a videó pixeleit és a szöveges promptokat kombinálja, hogy gazdag hangképeket hozzon létre, amelyek illeszkednek a képernyőn zajló eseményekhez. A Google bemutatta a V2A képességeit olyan promptokkal, mint:

  • Prompt a hanghoz: Filmes, thriller, horror filmzene, feszültség, atmoszféra, lépések betonon.
  • Prompt a hanghoz: Egy dobos egy színpadon, villogó fények és egy éljenző tömeg körülvéve.

Korlátok és kihívások

Bár a V2A automatikusan szinkronizálja a hangot a videóval, kihívások adódnak a beszédhang generálásában, különösen a szájmozgások szinkronizálásában a hanggal. A Google dolgozik ezen szinkronizálás javításán, hogy elkerülje a természetellenes hatásokat.

Visszajelzések és védelem

A Google a kreatív közösség visszajelzéseit kéri, hogy biztosítsa a V2A technológia pozitív hatását. Az esetleges visszaélések megelőzése érdekében a Google integrálja a SynthID eszközkészletet, hogy megjelölje az MI által generált tartalmakat. Egyelőre nem ismert, mikor lesz a V2A technológia elérhető a nagyközönség számára.