Keeletegu: nutitelefon tuvastab kõne

4 minutit

Mida siis kõnes tuvastatakse ja kuidas see toimub, et sellest tekst saaks?

Alumäe: Kõnetuvastuses kasutatakse statistilisi mudeleid, mille parameetrid leitakse automaatselt suurte kõneandmebaaside põhjal. Kõneandmebaasis on paljude inimeste häälenäiteid koos lausetele vastava transkriptsiooniga. Keeruliste algoritmide abil saab häälenäited tekstis olevate sõnadega hääliku tasemel ajaliselt joondada. Sellise joonduse põhjal saab koostada mudeli, mis iseloomustab iga hääliku akustilisi iseärasusi. Lisaks sellele kasutatakse kõnetuvastuses keelemudelit, mis määrab selle, millised on keeles esinevad sõnad ja kuidas neid omavahel kombineeritakse. Keelemudeli „õpetamiseks” on vaja suuri tekstikorpusi (näit ajalehetekstid). Keelemudeli abil saab tuvastaja näiteks öelda, et häälikujada /kassaoledvalmis/ vastab lausele „Kas sa oled valmis?”, mitte „Kassa oled valmis?”. Kõnetuvastus toimib nii, et sisendiks olevale lausesalvestusele leitakse kõikvõimalike sõnakombinatsioonide seast selline lause, mis sobib akustiliselt ja keeleliselt sisendiga võimalikult hästi, s.t mille tõenäosus on kõige suurem. Tuvastusvead tekivad seetõttu, et me ei oska hääliku- ja keelemudelit veel piisavalt hästi „õpetada”.

Kas eesti kõnet on lihtsam tekstiks tuvastada kui näiteks inglise keelt, kus häälduse ja kirjapildi vahe suurem?

Alumäe: Häälduse ja kirjapildi sarnasus ei tee kõnetuvastust oluliselt lihtsamaks. Kõnetuvastus opereerib sõnadega. Eesti keele puhul on hääldus tuletatav kirjapildist, inglise keele puhul kasutatakse lihtsalt hääldussõnastikku. Pigem on eesti keele tuvastus keerulisem: eesti keel on grammatiliselt keerukam, lisaks sellele on inglise keele puhul kõneandmebaaside maht, mille abil mudeleid treenida, sadu kordi suurem.

Kui kaugel on see lahendus, et nutitelefoni saab hoida võõrkeelse rääkija suunas ja kuulata tema teksti emakeelset tõlget kõrvaklappides? On selliseid lahendusi juba loodud?

Kaarel Kaljurand: Selliseid lahendusi juba on, nt nutitelefonirakendus Google Translate (eesti keeles on selle rakenduse nimi „Tõlkimine”) võimaldab muu hulgas kõnest kõnesse tõlkimist 14 keele piires. Selline rakendus sisaldab palju keerulisi komponente (kõnetuvastus, masintõlge, kõnesüntees), millest ükski ei tööta praegu 100% täpsusega ning vead kipuvad komponentides kogu süsteemi mõttes võimenduma. Areng ideaali suunas toimub, aga ideaalile lähenedes see aeglustub, seega on raske hinnata, millal on süsteem piisavalt usaldusväärne, et kasutada seda nt suhtluses arsti, äripartneri või piirivalvuriga.

Mitme aasta kaugusel võib olla selline arvutikasutus, nagu nähtud Kubricku „Kosmoseodüsseias”, kus HALi-nimelise arvutiga inimkeeli suheldi?

Kaljurand: Jällegi, tooted nagu Apple’i Siri on juba turul, see tähendab, et suured firmad leiavad juba, et sellised tooted on võimalikud ning kasulikud (ja ostetavad). Areng HALi suunas toimub järk-järgult, aga võimalik, et päris HALini ei jõutagi, polegi ehk vaja jõuda. Näiteks selleks, et rääkida oma autoga läbi parim viis sõitmaks Narvast Kuressaarde, pole vaja teab mis suurt lingvistilist ja teadmiste pagasit. Selline vestlus võib kõlada masinlikult (inimene ütleb soovitud aadressi, masin loeb ette võimalikud teed, inimene kinnitab ühe esitatud variandi, öeldes selle järjekorranumbri), kuid sarnaneb ikkagi inimkeelse dialoogiga palju rohkem kui senised arvutikasutamise viisid (sõrmega nuppudele vajutamine).

Kas rääkivate ja kõnet mõistvate masinatega maailm on inimesele parem paik?

Meie töö eesmärgiks on kindlasti inimesele parema paiga loomine, mitte vastupidi, ja me usume, et kõnelevate masinatega maailm on parem maailmast, kus masinad keelt ei oska, samamoodi kui iseliikuva trepiga maailm on parem maailmast, kus inimene peab oma jõuga üles ronima. Kui inimesed hakkavad masinatega inimkeeles suhtlema, siis muutub keelekasutus ilmselt selgemaks ja ühemõttelisemaks. Kõnest kõnesse tõlkivate masinate tõttu väheneb inimeste vajadus võõrkeelte õppimise järele, kuid suureneb võimalus võrdsel pinnal välismaalastega suhtlemiseks, samal ajal oma keelt ja kultuuri säilitades. Seda loetelu saab hinnata erinevast vaatevinklist. Küllap hindavad tulevikuinimesed, kes kõnelevaid masinaid tegelikult kasutama ja usaldama hakkavad, seda veel omamoodi.

Jaga

Samal teemal

Jaga
Sirp