Brněnská Phonexia jako první na světě využívá čistě jen neuronové sítě na hlasovou biometrii

Brněnská Phonexia, vyvíjející technologii pro analýzu řeči a hlasovou biometrii, vznikla už v roce 2006 jako spin-off týmu vědců Fakulty informačních technologii VUT. Jen za loňský rok dosáhla na obrat ve výši 49,33 milionu korun, což znamenalo růst o 90 procent a zisk 7,5 milionu korun.

Letos plánuje Phonexia růst na úrovni 60 procent a také rozšíření svého týmu z 50 na 60 zaměstnanců. A i když tato čísla nevypadají příliš závratně, ve skutečnosti je Phonexia uznávaným hráčem na světovém poli. Celých 80 procent jejích tržeb pochází ze 60 různých zemí světa.

Světově první oborové řešení založeno výhradně na neuronových sítích

Hlas je nezaměnitelnou biometrickou informací, stejně jako třeba otisk prstu nebo oční rohovka. Toho brněnská firma využívá ve svých technologiích. Na jaře Phonexia uvedla novou generaci hlasové biometrie nazvané Deep Embeddings, která jako první na světovém trhu pracuje výhradně s neuronovými sítěmi. Ty analyzují krátké úseky hovoru a samy se učí rozpoznávat unikátní prvky hlasu každé osoby.

Díky využití neuronových sítí dochází k zásadní zvýšení přesnosti a identifikace mluvčího. Oproti původní verzi je nová generace dvakrát rychlejší a 2,4krát přesnější. Už původní verze přitom patřila k jedněm z nejrychlejších a nejpřesnějších na trhu.

Michal Hrabí

„Předtím technologie fungovala na základě kombinace hlubokých neuronových sítí a statistických metod. Nikomu se doteď nepodařilo vytvořit systém pro rozeznávání a identifikaci řečníka bez statistiky, přesnost byla výrazně horší. Koncem loňského roku byl publikovaný vědecký článek, který dokázal vyřešit část problému, a my měli celý zbytek už vymyšlený. V podstatě jsme tak získali chybějící kousek do mozaiky,“ popisuje Michal Hrabí. Ten začal Phonexii z pozice ředitele vést v roce 2016, aby pomohl uvolnit ruce jejímu technologickému řediteli Petru Schwarzovi.

Podle Hrabího je hlavní výhodou současného systému to, že dokáže určit, v čem jsou jednotlivé hlasy odlišné. Jako ukázkový příklad (pro větší pochopitelnost mimo audio oblasti) uvádí zvířata. Původní technologie popisovala všechny atributy daného zvířete – savec, čtyři nohy, pije vodu, býložravec, velký, hnědá barva, srst… Ale pořád nevíte, o jaké zvíře jde.

Nová technologie je postavena na diskriminativním principu, kdy zvíře popisuje na základě toho, čím se liší od ostatních. Například chlupaté zvíře s rohy z prérií Severní Ameriky. A díky tomu dokáže v praxi rychleji a přesněji určit, jestli jde o osobu, za kterou se někdo vydává.

Využití v bankách i při únosech

V praxi se technologie běžně využívá například v bankách a pojišťovnictví. Jen na základě hlasu lze ověřit totožnost zákazníka a umožnit mu tak provádět operace přes telefonát. „Už teď existují pokročilé syntetizátory hlasu, které dokáží vytvořit nahrávku znějící jako my. Zatím to rozeznat jde, za rok už to bude velmi náročné. I proto některé scénáře nebudou dávat smysl. Zatímco jiné, jako například vícestupňové ověření mluvčího za použití hlasu s kombinací místa, odkud volá, nebo telefonního čísla, budou stále větším trendem,“ popisuje Hrabí.

Další využití je například ve forenzní analýze, kdy se porovnává, jestli je hlas podezřelého hlasem pachatele, nebo při pátraní po únoscích. Pokud už policie má nahrávku hlasu, například z předešlých výslechů, může ji porovnat s anonymními telefonáty, tedy jako při otiscích prstů.

Část týmu Phonexia

„Zlí hoši se baví se zlými hochy, takže se mohou objevit v oficiálních záznamech vyšetřování z jiných trestných činů. Díky prohledání archivů to může policii rychleji přivést na správnou stopu nebo dokonce posloužit odbornému znalci pro usvědčení pachatele u soudu,“ říká Hrabí.

Mezi zákazníky Phonexie z veřejného sektoru tak patří například Německý kriminalistický úřad (tamní ekvivalent FBI) nebo forenzní experti v České republice a Maďarsku. Ze soukromých společností jde často o banky nebo telekomunikační operátory, například české a slovenské O2, španělská Telefónica nebo call-centrum prodejce zájezdů Invia.

Dobré načasování

Phonexia se ovšem nezaměřuje jen na hlasovou biometrii, ale i řadu dalších řečových technologií, jako je přepis hlasu do textu, jeho rozeznávání a podobně. Jen na základě hlasu jsou schopní definovat pohlaví člověka, jeho věk a také jazyk. Tím pak klientům (například na základě dat z hovorů se zákaznickou péčí) umožňují třeba lepší cílení kampaní.

„Největší experti na světě v rámci těchto technologii – Google, Microsoft, Amazon, Nuance – jsou velké firmy, a proto svým klientům často nevyjdou vstříc, pokud vůbec svoje řešení dále prodávají. My jsme jako menší firma flexibilnější a přizpůsobujeme se požadavkům, například na podporu různých dialektů,“ vysvětluje Hrabí.

Díky svému širokému záběru má Phonexia mnoho dalších menších konkurentů po světě, kteří se ale často zaměřují jen na jednu z oblastí, ve kterých brněnská firma působí. A navíc opravdu dobrých a schopných konkurenčních firem existuje jen několik. Díky nízkému počtu se ve světové konkurenci moc neohrožují – trh roste o 20 procent ročně se stejnou vyhlídkou do dalších let.

„Doba nám nahrává. Trh roste, konkurence je málo a místa pro dobré hráče je dost. Měli jsme štěstí, že jsme začali už v roce 2006. Díky tomu jsme získali reference odborné komunity a dostali jsme se do pozice, ze které prodáváme po celém světě,“ dodává Hrabí na závěr.

Diskuze k článku