Microsoft heeft een nieuwe tool aangekondigd die naar eigen zeggen de stem van een persoon kan nabootsen na analyse van slechts drie seconden audio.
De tool, die Microsoft VALL-E noemt, is iets dat het een “neural codec language model” noemt, iets dat Meta voor het eerst aankondigde in oktober 2022. Maar wat het zo interessant maakt, is Microsofts overtuiging dat VALL-E in staat is om de emotionele toon te behouden en na te bootsen wat het hoort in dat voorbeeld van drie seconden.
Over hoe Microsoft dat allemaal doet, zegt het bedrijf dat “VALL-E de bijbehorende akoestische tokens genereert op basis van de akoestische tokens van de opname van 3 seconden en de fonemische prompt, die respectievelijk de spreker en inhoudsinformatie beperken.” Daarna “worden de gegenereerde akoestische tokens gebruikt om de uiteindelijke golfvorm te synthetiseren met de bijbehorende neurale codec-decoder.”
Microsoft zegt dat de AI-tool is getraind op een Meta-geassembleerde audiobibliotheek die 60.000 uur Engelstalige spraak bevat. Er werden meer dan 7.000 individuele sprekers gebruikt om ervoor te zorgen dat de AI werd getraind op een breed scala aan stemmen.
Je kunt een indruk krijgen van hoe goed VALL-E werkt op Microsofts voorbeeldwebsite, waar veel audioclips worden aangeboden.
Ars Technica meldt dat “VALL-E niet alleen het stemtimbre en de emotionele toon van de spreker bewaart, maar ook de ‘akoestische omgeving’ van de voorbeeldaudio kan nabootsen”. Dat betekent dat als een voorbeeld uit een bepaalde omgeving komt, zoals aan het eind van een bijzonder slecht telefoongesprek, dat precies zo zal klinken als VALL-E het geluid nabootst.
Opvallend is dat Microsoft er niet voor heeft gekozen om mensen de VALL-E AI tool zelf te laten testen. Er is gesuggereerd dat het bedrijf bang is dat mensen er niets mee kunnen doen - een zorg die misschien terecht is.
“Aangezien VALL-E spraak zou kunnen synthetiseren met behoud van de identiteit van de spreker, kan het potentiële risico’s inhouden voor misbruik van het model, zoals het vervalsen van stemidentificatie of het zich voordoen als een specifieke spreker”, waarschuwt Microsoft. En ja, theoretisch zou je VALL-E een clip van een overleden persoon kunnen geven en hem tegen je laten praten.