Ny Google AI-teknik kan isolere en enkelt stemme i en flok

Man står midt i en større menneskemængde, til en fest, en koncert eller lignende. Det er ikke altid let at skille én stemme ud fra de andre, ikke engang med vores menneskelige koncentration og muligheden for at bruge øjnene også. Forestil dig så, hvor svært det må være for et automatiseret system.

Talegenkendelse af ordentlig kvalitet er noget, der faktisk først er blevet brugbart inden for de seneste 10-15 år. Er der så flere stemmer, der taler samtidig, ja så bliver det for alvor svært.

AI fra Google kan skelne stemmer i grupper fra hinanden

Den udfordring har Google taget til sig, og forskere har arbejdet på at isolere lydkilder som tale i videoer. Nu har de lige præsenteret sine resultater, og det er ret vildt, samtidig med, at det er ret skræmmende.

At gøre som vi mennesker gør – at tune ind på blot én stemme i et hav af lyd – er umuligt for en mikrofon, det er ikke noget, den kan gøre af sig selv. Her skal den have hjælp, og det er netop det folkene fra Google har arbejdet med. De har skabt et system med machine learning, der kan isolere særlige lyde som for eksempel tale fra en videofil. Når vi siger isolere, taler vi her altså ikke bare om at fjerne baggrundsstøj, men at separere stemmer, der taler samtidigt, fra hinanden. Ser vi på de resultater, forskerne har fået, er deres system faktisk bedre til det her, end vi er.

Se også: De bedste priser på smartphones

Sådan gjorde udviklerne

Det hele er faktisk temmelig genialt. Det sværeste ved machine learning er netop at finde ud af, hvordan man lærer systemet det, der skal til for at få de resultater, man vil have. I dette tilfælde har forskerne skabt ”falske cocktailpartys”, hvor de har lagt flere såkaldt rene lydkilder (video- og lydfiler) ovenpå hinanden og tilført baggrundsstøj. Alt dette måtte systemet træne med sammen med ansigtsbevægelser fra videofilerne og spektogrammer af lydfilerne. På den måde lærte systemet hvilke frekvenser, der med størst sandsynlighed passede med en bestemt talende person, og det data blev trukket ud og isoleret til en separat lydfil. Det bliver ikke meget bedre end det.

Er to stemmer, der skal isoleres fra hinanden meget forskellige, er det måske ikke så svært. Frekvenserne for stemmerne vil være helt forskellige og opgaven ikke så svær. Men hvis man lægger to filer af den samme person oveni hinanden og vil skille dem ad, hvordan går det så?

Se også: Test af mobiltelefoner

Viste det frem på video – der nu er fjernet

Google har faktisk også præsenteret sådan et resultat, men den video har de siden fjernet, uden forklaring. Men flere nåede at se den, og resultatet var ganske forbløffende, lyder det. Der er kun få fejl, da de to stemmer er på næsten samme frekvens samtidigt, men stadigvæk er resultatet forbløffende. Man kan sagtens opleve at tale i telefon, hvor kvaliteten er dårligere på grund af meget baggrundsstøj.

Det, der kan diskuteres ved dette, er privatlivsudfordringer. Man tror sig relativt sikker, hvis man står i en stor flok mennesker og taler. Men med denne slags systemer under udvikling vil det være muligt at isolere en persons stemme og dermed høre, hvad netop den person siger på et tidspunkt, hvor vedkommende tror sig sikker. Teknologien er ikke helt nået så langt endnu, men det er kun et spørgsmål om tid, og det tidspunkt, hvor det kan lade sig gøre, er måske ikke så langt ude i fremtiden.

Se også: Nyheder om AI