Miks masin tõlkija? Poiss ei tea grammatika

3 minutit

Setu-prantsuse masintõlke loomiseks pole praegu vaja kumbagi keelt osata. Masintõlkeprogrammi treenimiseks piisab universaalsest keelteülesest masintõlkemootorist ja treeningmaterjalist – hulgast asjakohaste keelte rööptekstidest. Milline on paras hulk? Olenevalt keelte keerukusest (nt muutevormide rohkusest jm parameetritest) on treenimiseks vaja sadu miljoneid sõnu. Sääraste süsteemide loomisest on kirjutanud Keeles ja Kirjanduses ladusalt Heiki-Jaan Kaalep ja Mare Koit.2
Eesti-inglise keelepaari jaoks on kogutud saja miljoni sõnaga rööpkorpus. Paraku on see tasakaalust väljas: enamasti seadusandlikud tekstid, organisatsioonide materjalid, tehnilised dokumendid, igapäevakeelt, kirjandust jms on näpuotsaga. Puudu on just see osa keelest, mida on vaja argikasutajal. Tuleks teha üldrahvalikud „Teeme ära!” stiilis talgud ning koguda kõikvõimalikke eesti- ja muukeelseid rööptekste, sest inimtõlgitud tekst on tänuväärt materjal masintõlke edendamiseks.
Seda, et on võimalik välja töötada Google Translate’i eesti-inglise-eesti masintõlke taset ületavaid süsteeme, näitavad Eesti keeletehnoloogia programmi projektid.3
Sel aastal täiendatakse eespool kirjeldatud statistilist meetodit eesti keele morfoloogiatarkvara ning järgmise kolme aasta jooksul teistegi keeletööriistadega. Hübriidmasintõlkesüsteem peaks märgatavalt parandama eestikeelse masintõlke kvaliteeti, mis on praeguses META-NETi valges raamatus „Eesti keel digiajastul” hinnatud kehvaks või olematuks.4
Google Translate või mõni muu üldkeelele keskendatud ja Interneti tekstidega treenitud masintõlketööriist ei anna valdkonna dokumentide tõlkimisel rahuldavat tulemust. Seega tuleb süsteemi treenida valdkondlike rööptekstidega, et õpetada talle ettevõtte- või alaspetsiifilist sõnavara. Suured tõlkevahendus- ja ka tootjafirmad (nt auto- või tarkvaratootjad), kes tegutsevad rahvusvahelisel turul ning kelle kätte on koondunud tõlketööd ning tõlkemälud ja terminibaasid, säästavad juba praegu valdkondliku masintõlkega raha ning kiirendavad oma kauba tarbijateni jõudmist.
Professionaalne masintõlgete järeltoimetamine (postediting) võib tõhusalt kiirendada tarbetekstide tõlkimist ja seega edendada kommunikatsiooni. Järeltoimetamine eeldab harjutamist ja masintõlkimise „lastehaiguse” läbipõdemist, s.t oskust ennast masinlikust tekstist piisavalt distantseerida. Masintõlgete kaudu võib eesti keelde imbuda lähtekeelepärane lauseehitus ja kirjavahemärgistus, seetõttu mängib suurt rolli masintõlketööriista kasutaja asjatundlikkus ning eesti keele oskus. Mida vilunum kasutaja, seda terasemalt märkab ta võõrapäraseid keelekonstruktsioone, oskab puude taga näha metsa, noppida konarlikust sõnastusest välja õige sisu ja loodetavasti „tõlkida” masina väljastatud teksti suupärasesse eesti keelde.

1 http://www.nap.edu/openbook.php?record_id=9547.

2 „Kuidas masin tõlgib“, keeljakirjandus.eki.ee/726-738.pdf.

3 http://tilde.ee/vordlev-hindamine-naitab-et-tilde-letsmt-toimib-paremini-kui-google-translate.

4 http://www.meta-net.eu/whitepapers/volumes/estonian, lk 63, joonis 9.

Jaga

Samal teemal

Jaga
Sirp