Ny AI Microsoft kan efterligne enhver persons stemme

Torsdag, forskere Microsoft annonceret en ny kunstig intelligens (AI) model kaldet VALL-E, der nøjagtigt kan efterligne en menneskelig stemme, når den gives en tre-sekunders lydprøve. Når den først har lært en bestemt stemme, kan VALL-E syntetisere lyd af den person, der siger hvad som helst, samtidig med at højttalerens følelsesmæssige tone bevares.

Dets forfattere foreslår, at VALL-E kan bruges til tekst-til-tale, taleredigering af høj kvalitet, hvor en persons optagelse kan redigeres og ændres fra en teksttransskription (får dem til at sige ting, de ikke oprindeligt sagde), og til at skabe lydindhold kombineret med andre generative AI-modeller som f.eks GPT-3.

Microsoft AI VAL-E

Microsoft kalder ALL-E en "Neural Codec Language Model", og den er baseret på en teknologi kaldet EnCodec, som Meta annoncerede i oktober 2022. I modsætning til andre tekst-til-tale-metoder, som typisk syntetiserer tale ved at manipulere bølgeformer, genererer VALL-E diskret lyd codec-koder fra tekst og akustiske prompter. Den analyserer dybest set, hvordan en person lyder, opdeler den information i diskrete komponenter (kaldet "tokens") takket være EnCodec og bruger træningsdata til at matche, hvad den "ved" om, hvordan den stemme ville lyde, hvis den talte andre sætninger udenfor. af prøven på tre sekunder.

Microsoft trænede VALL-E's talesyntese-funktioner på et lydbibliotek kompileret af Meta kaldet LibriLight. Den indeholder 60 timers engelsksprogede udsendelser fra mere end 7 talere, for det meste taget fra offentligt tilgængelige LibriVox-lydbøger.

Ud over at bevare stemmeklangen og den følelsesmæssige tone fra announceren, kan VALL-E også simulere det "akustiske miljø" af lydeksemplet. For eksempel, hvis prøven blev opnået fra en telefonsamtale, vil det syntetiserede lydoutput simulere de akustiske og frekvensegenskaber af telefonsamtalen. Også prøver Microsoft demonstrere, at VALL-E kan generere vokale klangvariationer.

Microsoft AI VAL-E

Måske på grund af ALL-E's evne til potentielt at lette svindel og bedrag, Microsoft har ikke leveret ALL-E-koden, som andre kan eksperimentere med, så vi vil ikke være i stand til at teste dens muligheder. Forskere synes at være opmærksomme på den potentielle sociale skade, denne teknologi kan medføre. I afslutningen af artiklen skriver de:

"Fordi VALL-E kan syntetisere tale, der bevarer talerens identitet, kan det medføre potentielle risici for modelmisbrug, såsom spoofing stemmeidentifikation eller efterligning af en specifik taler. For at reducere sådanne risici vil der blive bygget en genkendelsesmodel for at skelne mellem, om et lydklip blev syntetiseret ved hjælp af VALL-E."

Du kan hjælpe Ukraine med at kæmpe mod de russiske angribere. Den bedste måde at gøre dette på er at donere midler til Ukraines væbnede styrker gennem Red livet eller via den officielle side NBU.

Læs også:

Dzhereloarttechnica

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

Ny AI Microsoft efterligner enhver persons stemme fra en 3-sekunders lydprøve

Seneste kommentarer