Az óriási technológiai vállalatok időnként olyan termékeket hoznak létre kutatólaboratóriumaikban, amelyek annyira veszélyesek, hogy végül úgy döntenek, nem piacra dobja őket. Ez történt a Meta esetében is, a Facebook anyavállalatánál, amely egy olyan generatív MI modellt fejlesztett ki, amely tökéletesen képes utánozni az emberi hangokat.
A mesterségesen generált arcképek és hangok előretörése kapcsán az azonnal eszembe jut, milyen hatással lehet ez a folyamat a jövő évi, nagy politikai eseményekre, mint például az amerikai elnökválasztás. Egyszerű lesz a TikTok-on terjeszteni olyan kandidátusok videóit, akik abszurd dolgokat mondanak, amit milliók vesznek majd tényként. De térjünk vissza a Meta projektjéhez: ez egy olyan MI rendszer, amely hat nyelven képes beszélni.
A Meta úgy döntött, hogy nem hozza nyilvánosságra ezt a rendszert, mivel „tendenciózus használat” veszélye áll fenn. A termék neve Voicebox, és forradalmat ígér az emberi nyelv generatív MI-jében. Itt egy „Fekete Tükör” epizód jut eszembe, ahol egy rendszer képes utánozni a hozzánk közel álló, már elhunyt személyek hangját, és ezt a technológiát fel lehetne használni egy virtuális társ létrehozására.
Mindemellett a Meta úgy látja, hogy ez a rendszer hasznos lehet a látássérült emberek számára, akik így saját barátaik hangján hallgathatják meg az üzeneteiket. Szintén hasznos lehet a tartalomkészítők számára, akik más nyelveken beszélő emberekhez szeretnének eljutni, vagy olyanok, akik hangalapú asszisztenseket készítenek, és természetesebben szeretnék azokat hangzani. A Meta Voicebox olyan, mint a ChatGPT és a Dall-E, csak hogy ez beszélt szavakat generál.
A rendszert több mint 50 000 órányi szűretlen audiofelvételen keresztül képezték angol, francia, német, spanyol, lengyel és portugál nyelven. Az így kifejlesztett rendszer hihetetlen pontossággal képes reprodukálni ezeknek a nyelveknek az összes jellegzetességét és finomságát.