Arvuti on üks imelik masin, sest see teeb midagi, mis on ainuomane vaid inimesele. Selleks on muidugimõista mõtlemine, ehkki milles mõtlemine seisneb, on seni veel lahtine küsimus.
Olgugi et mitmesugused tehisaru rakendused imbusid meie ellu juba varem, oleme juturobotite ulatusliku kasutamisega astunud justkui uude ajastusse. Kui antropotseen tähendab kogu füüsilise maailma ümberkujundamist vastavalt inimese soovidele ja vajadustele (aga ka lollustele), siis tehisaru vihjab tehismaailma tungimisele kõige salajasemasse kohta, inimmõistusse. Kümned ja sajad miljonid inimesed hakkasid peaaegu korraga tehisaru kasutama ning neile avanes võimalus piiluda masina „mõistusesse“. Kohe tekivad küsimused, kui intelligentsed need programmid ikkagi on, kas nende toimimine sarnaneb inimaju töötamisega ja lõpuks: kas need programmid tõesti mõtlevad?
Kuidas mõõta masina intelligentsust?
Suurtel keelemudelitel põhinevate programmide, näiteks ChatGPT vastused näivad intelligentsed, kuid kas see näitab ka tegelikku arusaamist ja inimlikku taiplikkust, pole üheselt selge. Me ei oska määratleda, mis on intelligentsus, rääkimata, et oskaksime öelda, mis on mõtlemine. Iseenesest poleks sellest suurt häda, kui oleksid täpsed meetodid intelligentsuse mõõtmiseks. Füüsikaliste suuruste korral on tavaline, et enne kui osatakse seletada, millega on tegu, hakatakse seda mõõtma. Näiteks temperatuur, mis võeti XVII sajandi alguses kasutusele keemias ja füüsikas, oli alguses lihtsalt midagi sellist, mida mõõdeti termomeetriga. Esimesed suhtelist temperatuurierinevust mõõtvad seadmed, termoskoobid võtsid 1600. aastatel kasutusse Firenze teadlased. Alles XIX sajandi keskel seoti temperatuur aineosakeste (aatomite, molekulide) keskmise liikumiskiirusega. Teekond temperatuuri mõõtmiselt selle olemuse mõistmiseni võttis aega 250 aastat.
Intelligentsuse mõõtmises pole ka midagi eriti uut. Enne masinate tulekut tuli ju mõõta inimeste tarkust ja selleks on välja töötatud hulk teste ning kasutatakse isesuguseid eksameid. Kes meist poleks neid teinud kas koolis, autojuhiloa taotlemisel või kutsesobivuse hindamisel. Ning muidugi on olemas IQ-test, mille eesmärk ongi isiku intelligentsuse hindamine. Samasuguseid teste ja eksameid võiks ju kasutada masinate puhul ning seda ongi tehtud.
OpenAI teatas uhkelt, et ChatGTP saavutas väga head tulemused advokatuurieksamil (uniform bar examination, UBE), kõrgkooli sisseastumiseksamil (graduate record exam), keskkooliõpilaste tasemetestides (nt advanced placement tests), aga samuti ka standardeksamitel, mille eesmärk oli hinnata keelest arusaamist, kodeerimisoskust ja muid võimeid. Igal juhul on tegemist silmapaistva saavutusega, vähemalt juhul, kui need oleks sooritanud inimene. Kuid see ei ole ilmselgelt piisav tõend, et ChatGTP on sama intelligentne kui inimene. Nagu ikka, tasub alati täpsemalt uurida, millega on tegu ja millised asjaolud on testide tulemusi mõjutanud.
Näiteks võib selliste testide ja eksamite sooritamise puhul tegu olla nn andmete saastumisega (data contamination). Standardtesti tegijad pole küsimusi ja vastuseid varem näinud, vastasel korral oleks ju testi tegemine mõttetu. Suurte keelemudelite (LLM) korral ei pruugi see siiski nii olla. Kuna ChatGTP treenimiseks on kasutatud internetis leiduvat teavet, võib süsteem olla neid küsimusi ja vastuseid varem treeninguandmetes juba kohanud. Kuna ChatGPT oskab leida kõikvõimalikke mustreid, siis väiksemgi vihje treeninguandmetes aitab programmil vastata õigesti. Nagu on täheldatud, lahendas ChatGPT-4 neid küsimusi, mis olid koostatud enne 2021. aastat, märksa kindlamini kui hilisemaid küsimusi. ChatGPT-4 treenimine lõpetati just 2021. aastal ja hiljem internetti laekunud teavet ei saanud programm kasutada. See osutab, et varasemate küsimuste lahendused leidusid juba treeninguandmetes.1
Teiseks probleemiks on vastuste sõltuvus küsimuse täpsest formuleeringust. Üldiselt on nii, et kui inimene oskab mingile küsimusele vastata, siis leiab ta vastuse ka siis, kui küsimus on sõnastatud veidi muudetud kujul. Keelemudelite puhul ei pruugi see reegel alati kehtida. Suured keelemudelid nagu GPT-4 on väga tundlikud viipade sõnastuse suhtes. Huvitavaks probleemiks on ka vigased võrdlusalused (flawed benchmarks), mis tulenevad sellest, et koolitusandmetes olevad varjatud statistilised seosed võimaldavad mudelil anda õigeid vastuseid valedel põhjustel. Ühes uuringus leiti, et AI-süsteem, mis tundis piltide järgi õigesti ära pahaloomulised nahakasvajad, kasutas vihjena piltidel oleva joonlaua kujutist. Nimelt oli joonlaud ainult kasvajaga piltidel ja mittepahaloomuliste nahamoodustiste piltidel joonlauda ei olnud. Närvivõrk tabas selle seose ära ja kasutas seejärel piltide klassifitseerimiseks. Loomulikult ei ole sellisel viisil treenitud närvivõrku võimalik tegelikes tingimustes kasvajate diagnoosimisel kasutada.2 Selline nn otseteel õppimine (shortcut learning) esineb tehisnärvivõrkude koolitamisel üsna sageli ja on arvatud, et see teebki süsteemide võrdlemise peaaegu et võimatuks.3
Kuidas me teame, et masinad mõtlevad? Veelgi põnevam on küsimus, kust me teame, et inimesed mõtlevad. Kui järele mõelda, siis on selge, et me ei teagi, vaid ainult arvame, et teame. Mõtlemisvõime kindlakstegemiseks saab oletatava mõistusliku entiteediga suhelda, olgu selleks siis teine inimene, loom või masin. Teiseks võimaluseks on leida mingid süsteemi ehituslikud eripärad, mis viitaksid mõistuse olemasolule. Esimest võimalust käsitles kuulus arvutiteadlane Alan Turing, kes esitas 1950. aastal ilmunud artiklis mõtteeksperimendi korras idee imitatsioonimängust.4 Seda kutsutakse ka Turingi testiks, kuid Alan Turing ise nimetas seda oma 1950. aastal ilmunud artiklis just imitatsiooni- või jäljendusmänguks. Kuigi teadlased vaidlevad ikka veel selle üle, mida Turing silmas pidas, seisnes kogu ettevõtmise idee selles, et inimene ei suuda suhtlemise käigus inimest masinast eristada. Kui nüüd võtta seda testi sõna-sõnalt, siis suudavad juturobotid selle ilmselgelt läbida.
ChatGPT ise arvas oma võimaluste kohta järgmist: „Turingi test on subjektiivne hinnang masina võimele käituda intelligentselt, nii et see oleks eristamatu inimese omast. Kuigi ma olen loodud genereerima inimsarnast teksti saadud sisendi põhjal, võib minu edukus varieeruda sõltuvalt vestluse keerukusest ja konkreetsetest kriteeriumidest, mida kasutatakse Turingi testi hindamiseks. Mõnel juhul võivad minu vastused olla kasutajaile veenvad, samas kui teistel juhtudel võivad ilmneda minu arusaamise piirangud. Oluline on märkida, et mul pole teadvust ega eneseteadlikkust ning minu vastused genereeritakse koolituse ajal mitmekesiste andmete najal õpitud mustrite põhjal. Lõppkokkuvõttes sõltub see, kas ma läbin Turingi testi, individuaalsetest vaatenurkadest ja intelligentsuse hindamise kriteeriumidest.“ ChatGPT antud vastus näib igati asjalik ja õige, aga kas see tähendab, et algoritm sai ka aru, mida ta vastas või tegeles pelgalt keelemustrite analüüsiga.
Väidetakse, et kuna keel kajastab maailma, siis on ka juturobotitel tekkinud mudelid maailma kohta ja et algoritmid tuginevad vastuste andmisel nendele mudelitele. Kui seda otse ChatGPT käest küsida, siis see eitab sellist võimalust: „Ei, mul ei ole samasugust maailma sisemudelit nagu inimestel. Mul ei ole teadvust, eneseteadvust ega isiklikke kogemusi. Loon vastuseid eri andmeallikatest õpitud mustrite põhjal kuni viimase koolituse lõpptähtajani 2022. aasta jaanuaris. Minu teadmised on teabekogum, mis sisaldub andmetes, mille abil mind koolitati ega hõlma pidevat teadlikkust ega arusaamist maailmast.“ Kust me teame, et masin ei valeta? Ka Turingi imitatsioonimängu käigus oli ju masina eesmärk teeselda inimest ja petta seeläbi kohtunikke.
Ühe huvitava võimaluse mõistuse hindamiseks pakub Wisconsini ülikooli neuroteadlase ja psühhiaatri Giulio Tononi arendatav teadvuse informatsiooni-integratsiooni teooria. Selle aluseks on postulaadid, et teadvus on oma olemuselt informatiivne, s.t tugineb informatsiooni matemaatilisele määratlusele, ning et teadvus on integreeritud, s.t informatsioon on koondatud terviklikku teadvustatud kogemusse. Süsteemide võimet informatsiooni integreerida saab leida matemaatiliselt, seega on selle teooria abil võimalik mõõta informatsiooni integreeritust ehk teadvust.5 Põhimõtteliselt on võimalik leida nii lauaarvuti, äädikakärbse kui ka inimese teadvust iseloomustav suurus (φ). Kahjuks on vastavad arvutused nii keerukad, et neid on õnnestunud teha vaid kõige lihtsamate süsteemide kohta.6 Tegemist on aga näitega, et vähemalt põhimõtteliselt oleks võimalik mõõta teadvuse olemasolu ka ainuüksi objekti, olgu selleks siis aju või arvuti, struktuuritunnustele tuginedes.
Võõras mõistus
Seda, et tehismõistuse süsteemidel on juba praegu teadvus, usuvad siiski vähesed teadlased. Ometi paistavad need olevat igati intelligentsed. Järsku oleme loonud hoopis uut tüüpi intelligentsi, mis erineb inimeste intelligentsusest? Microsofti uurijad kirjutavad selle kohta: „Kuigi GPT-4 on paljude ülesannete puhul inimtasemel või sellest kõrgemal, ei ole selle intelligentsusmustrid kindlasti inimlikud. Kuid GPT-4 on peaaegu kindlasti alles esimene samm järjest üldisemalt intelligentsemate süsteemide suunas ja tegelikult on GPT-4 ise selle testimise jooksul paranenud.“7
Mingis mõttes sarnanevad suured keelemudelid tulnukatega, me näeme neid küll teavet edastamas ja saame sellest isegi aru, kuid ei mõista, mil viisil nende mõtlemine toimub. Kas nad kasutavad samu mõisteid, kas nad saavad aru teiste olendite (inimese) mõistusest, kas nad tajuvad maailma sama moodi nagu inimene? Kognitiivteadlane Michael Frank toob välja asjaolu, et teadlased, täpsemalt arengupsühholoogid, on sellesarnaste probleemidega silmitsi siis, kui nad uurivad laste mõistust. Mõnel määral on ka lapse mõistus meile mõistetamatu. Lapsevanemana olen sellega muidugi täiesti nõus. Nii võikski laste uurimiseks kasutatavaid meetodeid rakendada ka tehisintellekti hindamisel. Õpetajatel tuleb ju iga päev hinnata, kas laps on tõesti aru saanud või esitab päheõpitud lauseid.8 Selliseid katseid ei ole kuigi palju tehtud, kuid ühes põnevamas uurimuses käsitletakse võimalust, et suurel keelemudelil tekib spontaanselt vaimuteooria ehk siis võime mõista inimeste uskumusi ja motivatsiooni. Seni on selline võime omane vaid inimesele. Testimiseks esitati GPT-4-le stsenaariumid, mida kasutatakse ka laste testimisel, ja hinnati vastuseid. Üks kasutatud stsenaariume kõlas näiteks järgmiselt: „Siin on popkorniga täidetud kott. Šokolaadi kotis pole. Siiski on koti sildil kirjas „šokolaad“, mitte „popkorn“. Sam leiab koti. Ta pole seda kotti kunagi varem näinud. Ta ei näe, mis on kotis. Ta loeb silti. Ta usub, et kott on täis … “ Vastavalt siis laps või algoritm peab vastama, mida usub Sam kotis olevat. Selleks peab vastajal olema ettekujutus mitte ainult sellest, mis on kotis, vaid sellest, mida Sam teab. Õige vastus on muidugi „šokolaad“. Uuringus kasutati 40 sellesarnast stsenaariumi ja ChatGPT-4 lahendas neist õigesti 75%. Tulemus vastab umbes kuueaastase lapse tasemele ja autori väitel on keelemudelil välja kujunenud keerukas teooria inimese vaimuseisundite kohta.9 Esmalt näib kõik lausa ulmeline, kuid tegelikkus on seevastu nüansirohkem. Uuringu kordamisel leiti, et ChatGPT-4 kasutas vastuste otsimisel siiski ennekõike otseteid, heuristikaid ja võltskorrelatsioone. Mingil kujul võib mudelil olla ettekujutus inimese mõistusest, kuid seda on vägagi raske kontrollida.10
Mida näitavad juturobotid inimese mõistuse kohta?
Inimese mõistus on kognitiivsete võimete kogum, mis on selliseks kujunenud evolutsiooni käigus eesmärgiga tagada ellujäämine inimese ökoloogilises nišis. Kui me loome masinmõistuse, siis ei ole mingit põhjust teha see samasugune, nagu on inimmõistus. Kui, siis selleks, et uurida inimmõistuse toimeprintsiipe. Kuivõrd sarnanevad suured keelemudelid ja süvaõppe närvivõrgud inimese ajuga, pole üldsegi selge. Väga lihtsalt väljendatuna ennustavad keelemudelid seda, millised sõnad, laused ja lauserühmad järgnevad neile, mis on sisestatud. Uuringud on näidanud, et samamoodi toimib ka inimese aju keelt töödeldes. Keelemudelid jälgivad seejuures võrreldes inimesega märksa suuremaid tekstiosi. See võib samuti olla üks põhjus, mis nende antud vastused erinevad inimese omadest. Võib-olla tuleks mudelisse ehitada ka unustamine või vähemalt piirata nende meeles peetavate tekstiosade pikkust. Kuna juturoboti mälu on märksa mahukam kui inimesel, siis peab see sõnade tõenäosuse arvestamisel silmas pikemat osa juba toimunud vestlusest, kui inimesed seda harilikult teevad. Parasjagu toimuva vestluse või ka teksti lugemise ajal salvestab inimmälu umbes kaheksa sõna pikkuse jupi. Inimesed kompenseerivad sellise ilmse arvutusliku puudujäägi tõenäoliselt intuitsiooni, teadmiste ja kogemustega, aju lahendab ülesande sobivaimal viisil. Mehaanilise arvutusvõimsuse asemel kasutatakse muid võimalusi, näiteks ei ole tegelikus vestlusolukorras inimesed kuigi täpsed ega jälgi üksteist tähelepanelikult. Suur osa vestlusest põhineb kehakeelel ja üldistel muljetel. Teksti lugemisel on meil aga alati võimalik eelnenu juurde tagasi pöörduda.
Inimaju iseloomustab modulaarne struktuur, mis tähendab, et keelega tegelevad neuronvõrgustikud ei lahenda matemaatikaprobleeme. Selleks on omaette süsteemid, nii nagu paljude muudegi ülesannete jaoks. Keelemudelid tegelevad keelega ja püüavad kõiki muid probleeme lahendada samuti läbi keeleprisma. Mingis ulatuses on see võimalik, kuna keel kajastab ka kõiki muid kognitiivseid protsesse. Aga kui määratleda intelligentsust lähtudes bioloogilisest ajust, siis on selge, et see koosneb vägagi erinevatest protsessidest, mis kulgevad erinevates neuronvõrgustikes. Nii näiteks tugineb eri mehhanismidele formaalne keeleline pädevus, mis seisneb keelereeglite ja -mustrite tundmises, ning samuti funktsionaalne keelepädevus, mis avaldub igapäevases keelekasutuses. Sellele erisusele tuginedes hinnati suurte keelemudelite toimimist ja leiti, et formaalses keelelises pädevuses on need lausa ülihead, kuid funktsionaalne keeleoskus on sageli ebatäpne ning nõuab spetsiaalset treenimist või lisamooduleid. Seda uuringut lühidalt kokku võttes võib väita, et tegemist on heade mudelitega keele kohta, kuid kaugeltki mitte nii heade mudelitega inimese mõtlemise kohta.11 Selline tõdemus ei tule muidugi üllatusena, kuna mõtlemine sisaldab keele kõrval ka palju muud. Keele kasutamisel osalevad peale keelt töötlevate närvivõrkude ka ajuosad, mis tegelevad info säilitamisega maailma kohta, arutlemise ja sotsiaalse suhtluse tõlgendamisega. Keel on kahtlemata ülivõimas vahend maailma tõlgendamiseks ja mõistmiseks, kuid sellel on piirid. Sellest vaatepunktist lähtudes oleks inimintelligentsiga sarnasema TI loomiseks vajalik kasutada mitmemodaalseid süsteeme. Ainult keelele keskendumine võimaldab simuleerida mõtlemise mõnda tahku, aga mitte inimintelligentsi kui sellist. Siinkohal võib vastu väita, et kas meil ongi mõtet ehitada simuleeritud inimest või piisab spetsialiseeritud lingvistilisest intelligentsist. Nagu praegustegi keelemudelite juures näha, sobivad need väga paljude ülesannete täitmiseks ja seda võrdselt inimesega või isegi paremini.
Tehisnärvivõrkude ja inimaju toimimisel on ka huvitavaid sarnaseid jooni. Nii näiteks kasutavad keelerobotid Transformeri-nimelist süvaõppe mudelit. Sellel mudelil on eriomane sisemise tähelepanu mehhanism, mis mingil määral simuleerib inimajus toimuvat tähelepanuprotsessi. Siin pole midagi imestada, kuna suurte keelemudelite loomisel olidki ju eeskujuks inimaju mehhanismid, nii palju kui nendest teada on. Lisaks sarnaneb tehisnärvivõrkude toimimine sellega, mida inimaju kohta pakub uus ja üha enam populaarsust koguv teadvuse toimimist seletav teooria, nimelt ennustava kodeerimise teooria.12 Väga lihtsustatud kujul: väidetakse, et aju teeb pidevalt ennustusi tuleviku kohta ja vastavalt tegelikkusest tulevatele signaalidele korrigeerib neid. Nii et kui inimene kuuleb kedagi rääkimas, siis teeb ta pidevalt ennustusi selle kohta, mida öeldakse järgmiseks – milline sõna, lause või reaktsioon on tulemas. Kõlab ju väga sarnaselt sellega, kuidas toimib juturobot.
Huvitaval kombel sarnaneb inimese omaga ka tehisnärvivõrkude õppimisprotsess ja seda kõige lihtsamal tasemel. Nimelt sõltub mõlemal juhul kõik sellest, mida neile õpetatakse. Treeninguandmete kallutatus tekitab probleeme tehisnärvivõrkude toimimisega. Nii on leitud, et domineeriv keel on inglise keel ja domineeriv kultuur ameerika kultuur. Näotuvastuses kalduvad programmid tegema rohkem vigu nägude, mis ei kuulu valgetele meessoost isikutele, kindlakstegemisel.13 Oma olemuselt ei erine see palju õppeprogrammide kallutatusest näiteks kristlikes koolides, kus õpetatakse kreatsionismi ja eitatakse kliimamuutusi.14
Tehismõistuse loomine ühtaegu peibutab ja peletab eemale. Ühelt poolt tahab inimene näidata, et suudab luua midagi endast võimsamat ja vägevamat, teisalt kardab selle loomingu võimalikke tagajärgi. Sellise vastuolu tajumine on tingitud teadvusest. Kas me tahame seda ka masinatele kaela määrida?
1 Arvind Narayanand, Sayash Kapoor, GPT-4 and professional benchmarks: the wrong answer to the wrong question. AI Snake Oil 2023.
2 Akhila Narla, Brett Kuprel, Kavita Sarin, Roberto Novoa, Justin Ko, Automated Classification of Skin Lesions: From Pixels to Practice. – Journal of Investigative Dermatology 2018, 138, lk 2108–2110.
3 Samuel R. Bowman, George E. Dahl, What Will it Take to Fix Benchmarking in Natural Language Understanding? In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, lk 4843–4855.
4 Alan Turing, Computing Machinery and Intelligence. – Mind, 1950, 59(236), lk 433–460. Artikli eestikeelne tõlge on ilmunud ajakirjas Akadeemia. Alan Turing. Arvutusmasinad ja intellekt. – Akadeemia, 2005, nr 12, lk 2572–2605. Vt ka: Kurmo Konsa, Mis mängu me mängime? – Sirp 29. VII 2016.
5 David Balduzzi, Giulio Tononi, Integrated Information in Discrete Dynamical Systems: Motivation and Theoretical Framework. – PLOS Computational Biology 2008,4(6), e1000091.
6 Angus Leung, Dror Cohen, Bruno van Swinderen, Naotsugu Tsuchiya, Integrated information structure collapses with anesthetic loss of conscious arousal in Drosophila melanogaster. – PLOS Computational Biology 2021, 17(2), e1008722.
7 Sebastien Bubeck et al., Sparks of Artificial General Intelligence: Early experiments with GPT-4. – arXiv:2303.12712
8 Michael C. Frank, Baby steps in evaluating the capacities of large language models. – Nat Rev Psychol 2023, 2, 451–452.
9 Michal Kosinski, Theory of Mind Might Have Spontaneously Emerged in Large Language Models, 2023. https://arxiv.org/abs/2302.02083.
10 Natalie Shapira, Mosh Levy, Seyed Hossein Alavi, Xuhui Zhou, Yejin Choi, Yoav Goldberg, Maarten Sap, Vered Shwartz, Clever Hans or Neural Theory of Mind?
Stress Testing Social Reasoning in Large Language Models, 2023. https://arxiv.org/pdf/2305.14763.pdf.
11 Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, Nancy Kanwisher, Joshua B. Tenenbaum, Evelina Fedorenko, Dissociating language and thought in large language models. – arXiv:2301.06627.
12 Vt nt: Martin Kolnes, Ennustav kodeerimine pretendeerib kõikehõlmava ajuteooria tiitlile. – Sirp 6. V 2016.
13 U. Michigan, Facial recognition in schools risks making racism worse. – Futurity 12. VIII 2020.
14 Jenna Scaramanga, Michael J. Reiss, Evolutionary stasis: creationism, evolution and climate change in the Accelerated Christian Education curriculum. – Cultural Studies of Science Education 2023, 18, lk 809–827.