A Google DeepMind nemrég bemutatta a video-to-audio (V2A) technológiát, egy innovatív MI eszközt, amely szinkronizált hangot generál a néma videókhoz. Két hónappal a Microsoft VASA-1 technológiájának bemutatása után a V2A forradalmasíthatja a néma videókhoz való interakció módját.
Mi az a V2A technológia?
A V2A (video-to-audio) lehetővé teszi, hogy egy szöveges prompt alapján hangot generáljunk, amely illeszkedik a néma videóhoz. Ez a technológia a videó pixeleit és a szöveges promptokat kombinálja, hogy gazdag hangképeket hozzon létre, amelyek illeszkednek a képernyőn zajló eseményekhez. A Google bemutatta a V2A képességeit olyan promptokkal, mint:
- Prompt a hanghoz: Filmes, thriller, horror filmzene, feszültség, atmoszféra, lépések betonon.
- Prompt a hanghoz: Egy dobos egy színpadon, villogó fények és egy éljenző tömeg körülvéve.
Korlátok és kihívások
Bár a V2A automatikusan szinkronizálja a hangot a videóval, kihívások adódnak a beszédhang generálásában, különösen a szájmozgások szinkronizálásában a hanggal. A Google dolgozik ezen szinkronizálás javításán, hogy elkerülje a természetellenes hatásokat.
Visszajelzések és védelem
A Google a kreatív közösség visszajelzéseit kéri, hogy biztosítsa a V2A technológia pozitív hatását. Az esetleges visszaélések megelőzése érdekében a Google integrálja a SynthID eszközkészletet, hogy megjelölje az MI által generált tartalmakat. Egyelőre nem ismert, mikor lesz a V2A technológia elérhető a nagyközönség számára.