Policejní vyšetřovatele čekají každý den až desítky hodin audiozáznamů soudních odposlechů, které je třeba si poslechnout. Jsou k tomu ale často vybavení pouze počítačem s obyčejným přehrávačem, tužkou a papírem. Než se dostanou k pasáži, kde si překupníci zbraní domlouvají, kde a kdy si zboží předají, může být už dávno po akci. Na další příležitost by mohli čekat dalšího čtvrt roku. To se ale mění. Nyní budou moci využít hromadnou a automatickou analýzu nahrávek, která vytipuje podezřelé sekvence okamžitě. Službu na trh uvádí brněnská firma Phonexia, která se už patnáct let zabývá rozvojem hlasových technologií, analýzou řeči a hlasem coby biometrickým údajem.

Phonexia už několik let pomáhá usvědčovat pachatele německé, maďarské i české policii, dokáže totiž přesně identifikovat hlas pachatele. Své know-how, vzešlé původně z brněnského Vysokého učení technického (VUT), neposkytuje pouze policistům, ale i finančním institucím. I těm pomáhá bránit se podvodníkům anebo třeba jen ověřovat totožnost v telefonním bankovnictví. Mezi firmy, které používají její technologie, patří Škoda Auto, mobilní operátoři O2, T-Mobile nebo dodavatel elektřiny a zemního plynu innogy.

V Česku Phonexia aktuálně nejvíc řeší nárůst poptávky po technologiích voicebotů − hlasových robotů. „Letos před Vánoci budou čeští zákazníci mnohem víc než dosud při on-line nákupech hovořit s roboty,“ říká jeden ze spoluvlastníků Phonexie a aktuální ředitel Michal Hrabí. Jádro byznysu má ale Phonexia, která vloni dosáhla tržeb 65 milionů korun a nárůstu skoro o čtyřicet procent, mimo Česko − v západní Evropě, Kanadě a na Blízkém východě. A nejvíce roste v regionech bez internetu a s nízkou gramotností − v Jižní Americe a v Africe. Hlasové služby se totiž rychleji rozvíjí právě tam, kde lidé neumí číst a psát.

Je hlas stejně dokonalý biometrický údaj jako otisk prstu?

Ano, je srovnatelný, stejně jako u otisku prstu jsou i v otisku hlasu u každého člověka nezaměnitelné body. A platí tam to samé − když část otisku prstu zakryji, i v té zbylé lze najít kontrolní body, podle kterých lze poznat, o koho jde, i když spolehlivost klesá. U hlasu zase jistota identifikace člověka klesá s různými zastřeními, například nachlazením, když si mluvčí zacpe nos nebo hlas nějak mění. Ztrácí se tam určité frekvence.

Vaše technologie používají policisté v Česku, Německu nebo Maďarsku. Rozhodují podle nich soudy?

O primární důkaz nejde, otisk hlasu je vždy posuzován soudním znalcem. Naše nástroje používají vládní subjekty ve více než šedesáti zemích, třeba německá kriminální policie, konkrétně její nejprestižnější složka Bundeskriminalamt, obdoba americké FBI. Používá je jak při vyšetřování, tak při prokazování. Shodu ve stopě hlasu z nahrávky zločinu a hlasu podezřelého se podařilo najít už několikrát.

V jaké kauze třeba?

Před pár lety se téměř do 300 bankovních účtů nabourali podvodníci, kteří se vydávali za majitele účtu. Podařilo se jim to díky informacím získaným z černého trhu z internetu. Vytvořili si profily lidí a pak šli po účtech těch, o nichž měli v profilu nejvíc informací. Vytipovali si starší lidi a pak měnili hlas tak, aby jako starší i zněli. Pak už jen stačilo použít pár triků sociálního inženýrství, tedy manipulaci s lidmi, a své přesvědčovací dovednosti. Šlo původně o tři pachatele. Náš software ale potom pomohl odhalit ještě dalšího. Co nás ale zajímá víc, je to, co se děje u komerčních zákazníků. Protože na ně se zaměřujeme víc.

V čem pomáhají vaše nástroje jim?

Například mobilním operátorům pomáháme odhalovat podvodníky, kteří se od nich snaží vymámit služby či produkty. V lepším případě pod smyšlenou identitou, v horším pod kradenou. Na odhalování podvodů a identifikaci podvodníků mají operátoři vyhrazené celé týmy lidí.

Michal Hrabí

Vystudoval brněnskou Fakultu informatiky Masarykovy univerzity, od té doby se věnuje rozvoji podnikání v oblasti technologických inovací. Pracoval v inovačním centru Microsoftu a v Jihomoravském inovačním centru (JIC), kde se podílel na rozvoji mnoha technologických firem. Pod JIC rozjížděl první startupový akcelerátor ve střední Evropě StarCube, kterým prošly firmy jako Kiwi.com nebo Reservio. Šéfem firmy Phonexia, která vyvíjí inovativní technologie pro řečovou analytiku a hlasovou biometrii, se stal před šesti lety.

Telefonní spojení je častou bránou zločinu, protože nevidíte obličej zákazníka a podvodníkům stačí jen kradený občanský průkaz a pár dalších informací. Klasický příklad takové krádeže vypadá takto: instituce, která poskytuje půjčky po telefonu, má zákazníka, který splácí půjčku v hodnotě dva tisíce korun. Jednoho dne mu ale přijde požadavek na splátku deset tisíc korun. Zákazník se diví, jak je to možné. Někdo za něj navýšil půjčku. Ten někdo je velmi často nějaký rodinný příslušník majitele účtu, který si během návštěvy opatřil potřebné dokumenty a nové peníze si nechal poslat na jiný účet. Často to bývají synovci, neteře nebo vnoučata. Majitelé účtů se to dozvědí při reklamaci, když jim poskytovatel půjčky přehraje telefonát. Je to poměrně rychle rostoucí problém. Jeho rozsah máme vyčíslený od policie z Jižní Koreje: v podobných typech podvodů přišli lidé v roce 2019 až o půl miliardy dolarů. Tento problém právě řeší hlasové ověření.

Česká data nemáte?

Nemáme. Ne že by se to tu nedělo, ale buď to čeští poskytovatelé půjček nechtějí otevřeně řešit, nebo o tom ani nevědí. Většinou to totiž zůstane utajené v rámci rodiny − prostě se doma zpohlavkují. Pokud podvod spáchala neteř, tak navýšenou částku splácí její otec, bratr poškozeného. Často se to stává u nízkopříjmových skupin, u drogově závislých, jsou to smutné příběhy. Bavíme se o tom s jedním klientem, který tenhle problém přiznává. Ukazuje se, že se o tom poskytovatel dozví třeba jen v případě, když sekundární dlužník, tedy bratr, přestane rodině splácet. Jinak si to rodiny často nechávají pro sebe. Poskytovatel tím trpí jednak proto, že neví, že k něčemu takovému dochází, a zdánlivě nic ho netlačí, aby problém systémově řešil. Trpí ale i ztrátou důvěry a kreditu, protože to dopustil.

Ověřují české podniky hlas svých zákazníků a chrání se hlasovou verifikací proti podvodu?

Téměř vůbec. Pokud jde o verifikaci hlasu, tu jsme v Česku ještě u žádné instituce nenasazovali. Využívá to jen jedna z velkých bank, řešení má od našeho amerického konkurenta. A pokud jde o službu chránící proti podvodu, tak tu máme u jednoho českého mobilního operátora.

Prodat naše služby v Česku je těžké, firmy nám říkají, že se jim tato investice nevyplatí, protože chtějí telefonní bankovnictví omezit a nechat si jen to internetové a mobilní. Ale přesto ho stále mají, protože ho mít musí − stále je mnoho zákazníků, kteří jsou zvyklí raději telefonovat. Nejen senioři, ale i zákazníci s vysokými příjmy.

Je třeba si uvědomit, že je i tento kanál nutné chránit. K podvodům v něm dochází nejvíc, když internetové a mobilní bankovnictví nefunguje. Což není náhoda − i to je součást útoku. Na telefonní linku v tu chvíli volají tisíce rozhořčených zákazníků a operátoři, protože jsou pod tlakem, udělají víc chyb, a tak se stanou spoluobětí sofistikovaného podvodu.

Nevěnujete se jen bezpečnostním tématům, ale i automatizaci telefonního kontaktu se zákazníkem, hlasovým robotům a také službám pro call centra. V jaké oblasti je nejvíc byznysu?

V analýze hovorů na call centrech. Pomáháme jim zkvalitnit a zefektivnit jejich provoz. Když zavoláte jakémukoli operátorovi nebo velké firmě v Česku, uslyšíte hlášku „Tento hovor může být monitorován“. To je tam proto, že se ze všech hovorů vytváří analýza, která ukazuje, co lidé aktuálně řeší, o co mají zájem − tedy data pro další práci marketingu. Jiné informace z analýzy zase čerpá vedení kontaktního centra − zjišťuje, jestli byli agenti na zákazníky milí a jestli jim pomohli. To je klasický scénář takzvané hlasové analytiky.

Také se podle vašich analýz odměňují zaměstnanci, že?

Ano. Obvykle v call centrech, kde není nasazená naše analytika, probíhá zkvalitňování servisu prostřednictvím práce supervizorů. Ti chodí na náslechy nebo poslouchají nahrávky. Ale jsou takhle schopní sledovat jen malou výseč hovorů − většinou jen tak do čtyř procent. S naší technologií dostanou supervizoři už výběr ze všech nahrávek, které se něčím vymykají. Zase jen ta čtyři procenta, ale ta správná − nahrávky, v nichž operátor nenásledoval scénář nebo nebyly splněny všechny zákonné požadavky a tak podobně.

A roste zájem o hlasové roboty?

Letos rapidně − před předvánoční sezonou hlavně mezi firmami z oblasti e-commerce. Ale největší byznysový potenciál je v ověřování identity mluvčích, což je služba pro banky nebo pojišťovny, která zásadně šetří náklady. Při telefonním kontaktu díky analýze přes otisk hlasu nemusí operátoři pokládat tolik kontrolních otázek a jsou díky tomu schopni zkrátit hovor o 60 až 90 sekund. Pokud má call centrum 50 zaměstnanců, jedná se o úsporu ve statisících korunách, až miliony měsíčně ušetří call centra o více než 200 zaměstnancích. Ověřování z hlasu ale zároveň řeší i bezpečnost. Pokud ho instituce používá, musí se sejmutím otisku hlasu zákazník předem souhlasit.

Kolik lidí to zpravidla odmítne?

Přibližně třicet procent. Pro zbytek zákazníků je to pohodlnější. Nemusí už uvádět čtvrté písmeno hesla nebo číslo smlouvy, to typicky nikdo z hlavy neví a komplikuje to vyřešení požadavku. To, kam díky hlasové technologii spějeme, je svět bez hesel v našich zařízeních. Heslem je sám člověk − na základě tváře, hlasu, duhovky nebo otisku prstu. Toho můžeme využívat už dnes.

Co vidíte v budoucnu?

Budeme mít třeba kanceláře, které nám umožní dostat se k firemním informacím tak, že se prostě zeptáme. Budou v nich integrované digitální asistentky. Ty ale musí nejprve umět rozpoznat, kdo má k jaké informaci přístup − například mzdy může znát jen pár lidí. To je jeden typ problému, který bude hlasová technologie v digitální kanceláři řešit. Druhý je ten, že když se zeptají dva lidé: „Kolik peněz mi zbývá v rozpočtu?“, bude na to jiná odpověď u marketingového ředitele a jiná u ředitele vývoje. Digitální asistentka bude muset umět rozeznat hlasy a dát příkaz do kontextu, aby dokázala odpovědět správně. Tohle bude brzy, už tak za pět let, maximálně deset let naprostý standard. Další použití je třeba v nemocnicích. Když půjde primář na vizitu, nemusí mít s sebou ansámbl dalších doktorů, kteří by mu vysvětlovali stav pacienta a popis léčby. V místnostech se bude automaticky nahrávat celý příběh léčby pacienta, bude stačit se jen zeptat. I zde se bude uplatňovat hlasová biometrie tak, aby odpověď dostal pouze ten, kdo na ni má nárok.

Je alespoň část z toho už někde vidět v praxi?

Technologicky už to možné je, v praxi se nyní teprve dělají první seriózní testy. Jsme v jednání s jednou velkou firmou, která vyvíjí podnikové systémy. Má už vyřešené rozpoznávání příkazů, ale ne ověření identity mluvčího. Řešíme, jak je rozpoznávat, když je jich v zasedačce deset.

Spousta lidí na světě už používá domácí digitální asistenty, jako je Alexa nebo Siri. Kudy půjde další vývoj?

Půjde to přes automatizaci, na kterou si lidé brzy zvyknou, protože lenost je matka pokroku. Budou dva silné směry vývoje − jedním tahounem budou spotřebitelé a domácnosti. Skrze osobní hlasové asistenty si zvyknou na to, že mnoho služeb je jen „na zavolání“ − typu přehraj mi playlist ve Spotify, jaká je předpověď počasí, jak dlouho se má vařit vajíčko na hniličku. Budou hlasem aktivovat jiné služby a také budou moci dostávat odpovědi na znalostní otázky. Díky tomu, že budou takové úkoly považovat za samozřejmé a své domácnosti postupně více vybaví chytrými reproduktory, budou časem tlačit firmy k tomu, aby jim obdobně snadným způsobem poskytovaly další a další služby. Následně to budou očekávat i v zaměstnání. Druhým tahounem budou poskytovatelé firemního softwaru − firmy jako SAP, Microsoft, Salesforce nebo Atlassian. Když vyřeší, aby se lidé dostávali pouze k těm informacím, ke kterým mohou mít přístup, umožní to velký nárůst produktivity. V podstatě to bude taková malá kancelářská revoluce − i běžní zaměstnanci budou mít svou „sekretářku“, která jim bude rozšiřovat schopnosti a dovednosti a šetřit čas − například zpracovanými zápisy ze schůzek, vytvořením rešerší a tak podobně.

Jak technologické novinky přijímají Češi?

V Česku je pár oblastí, ve kterých jsou zákazníci progresivní − je to internetové bankovnictví nebo bezkontaktní platby. Pak je tady ale fůra novinek, které přijmout nechtějí, protože mají rádi staré pořádky a metody. Týká se to právě produktů s hlasovými službami, máme mnohem lepší zkušenosti s jejich přijetím v jiných, často zaostalejších státech − ve Střední a Jižní Americe, na Blízkém východě a v Africe. To jsou oblasti mnohem více nažhavené do nových technologií. Je to asi tím, že potřebují víc získávat konkurenční výhodu a víc se snažit o to, aby se měli lépe. Mám pocit, že u nás nikoho zas tak moc netlačí bota.

V Africe jsou do nových technologií víc zapálení. Musí se víc snažit, aby uspěli, v Česku nikoho zas až tak moc netlačí bota.

Kde vidíte největší obchodní potenciál?

V afrických zemích. Tam je velký zájem o hlasovou verifikaci. Je to dané tím, že tam mnoho lidí nemá chytrý telefon a připojení k internetu a polovina lidí neumí číst a psát, takže se nedá využívat ani SMS zpráv. Proto se tam nevyvíjí internetové bankovnictví, ale zato naopak zásadně právě hlasové služby.

Tím se ale asi schopnost psaní a čtení nezlepší…

Pravděpodobně ne. Je otázka, jestli rozvoj digitálních technologií a hlasových služeb nepovede k degenerování lidstva směrem k analfabetismu. I u nás už dochází k degradaci psaní rukou − už ani děti ze základních škol dnes neumí dobře psát. A kdo z nás dospělých dokáže napsat text v rozsahu A4 čitelně. Možná zmizí i dovednost psát vůbec, protože i na počítač a mobil budeme brzy víc mluvit než do nich psát. Určitě se to bude týkat pouze části populace a bude to ještě dlouho trvat. S technologiemi mizí i dovednost pamatovat si, všechny informace jsou přece pořád po ruce. Ale nemyslím si, že kompletně zdegenerujeme, protože dovednosti, které nepotřebujeme, nahradíme jinými. Třeba schopností přemýšlet v souvislostech nebo umět se přizpůsobit a rychle se učit novým věcem.

Související