Disko, loitsud ja autoripositsioon

Pole olemas midagi tõeliselt originaalset – kõik on vaid töötluse ümbertöötlus. Samas kannab iga töötlus endas midagi uut. Generatiivse¹ digitaalkunsti² vallas lööb tantsu üks tont, kes on avanud täiesti uued väravad nii põrgusse kui taevasse. Selle tondi nimi on Disco Diffusion ning ta pole tulnud üksinda.³

Möödunud sügisel lõid protseduurilise ja generatiivse digikunsti foorumid kihama. Google Colabi programmeerimiskeskkonda hakkasid ilmuma käivitatavad koodilõigud, mis lõid lühikese sisestatud teksti põhjal täiesti uusi, põnevaid ja usutavaid visuaalseid objekte.

Selle tulemusena on plahvatuslikult kasvanud inimeste hulk, kes pole kunagi käes hoidnud pliiatsit ega avanud Photoshopi, kuid sellegipoolest peavad end täiesti õigustatult digikunstnikuks, hoolimata sellest, et ainus toiming on ühe lause kirjutamine. See lause on loits kõikvõimsale robotjumalale, et too annaks kunstnikule teose. Mida parem palve, seda originaalsem ja põnevam on teos.

Surnud jänese õpitud pildid

Sisend „Mäest ja metsast alla rulluv hullumeelsus, kassid“, Disco Diffusion, Photoshop.

Millest siis täpsemalt jutt? Lihtsalt seletades on tegu algoritmidega, mille sisendiks on kasutaja kirjutatud tekst ning väljundiks digipilt. Kuna mudeli kasutada on Google’i pildibaas, siis tunneb see põhjalikult meile teadaolevat piltsõnastikku, oskab järele aimata kunstnikke ja stiile ning allub peenele häälestusele. See kõik töötab nagu võluloits – ütle vaid ja sa näed! „Expelliarmus!“

Kuidas need pildid tekivad? Algoritm seostab kirjutatud sõna selle visuaalse representatsiooniga. Näiteks on algoritmile näidatud piisaval hulgal kassipilte, et ta teaks, kuidas kass välja näeb. Kui algoritmile anda sisend „kass“, siis hakkab ta ennustama detaile, mis tema meelest seostuvad kassiga.

Esialgu ilmub üldine kontuur, koloriit ning aimdus valgusest ja varjust. Iga järgmise sammuga jääb müra vähemaks ning detailid selginevad. Tõsi, praegu veel on tulemused rohkem abstraktsed kui anatoomiliselt korrektsed. Kuid mudeli käitumist on võimalik suunata, andes aluseks konkreetse pildi või pildid, mida algoritm omalt poolt vastavalt tekstisisendile tõlgendama asub.

Piltide loomiseks kasutatakse masinõppel põhinevat difusioonmudeli algoritmi VQGAN+CLIP,⁴ mille esimesed kasutuskõlblikud rakendused⁵ tekkisid eelmisel suvel. Sellest alates on areng olnud kiire ja märkimisväärne, vähem kui aasta jooksul on Disco Diffusionist⁶ ilmunud juba viies versioon, mis võimaldab muu hulgas ka animatsioonide loomist. NightCafe⁷ on mudelile andnud kasutajasõbraliku liidese ning nii arvutis kui ka telefonis kasutatav Wombo Dream⁸ loob tühiste sekunditega kasutaja tekstisisendist kõige veidramaid tulemusi pea kahekümnes stiilis. Prosepainteri⁹ abil on võimalik lihtsa pintslitööriista abil tekstisisendeid omavahel segada ning Adobe’i arendajad kindlasti juba töötavad oma difusioonpintsli kallal.

Katsetus visualiseerida haikut „Kiireneda, kuniks valgusest saab vaid ainus hetk“, Disco Diffusion, Adobe Illustrator.

Tekstprompt ise on vaid hästi unustatud vana, kuid Disco Diffusioni ja teiste sarnaste rakenduste kasutajakogemus on midagi täiesti uut. Inimmasina liidestus ei tugine enam jäikadele käskudele. Algoritm mõistab sõnu, isegi lauseid ning seob neid oma parima arusaamise järgi. Sa räägid arvutiga haikudes ning tema vastab sulle maalides. See on omamoodi müstiline kogemus. Vahetevahel ei ole sa tema pakutuga nõus, kuid siis on viga olnud sinus, sa pole teinud piisavalt hea loitsu.

Need on alles esimesed pääsukesed valdkonnas, mille potentsiaal on tohutu. Meie ees on lahti rullumas revolutsioon, mis on võrreldav fotograafia tulekuga. Kui foto vabastas kunstnikud realismipürgimusest, siis kood vabastab nad ka abstraktsioonipürgimusest. Teisalt muidugi vangistab olemasolevate tähenduste ja seoste mulli. Võib-olla hakkame nüüd nägema, et see mull ei olegi nii salapärane, kui kõrvalt vaadates paistab.

Autorsuse piirid

Põrguvärav Beksiński stiilis. Poola depresiivkunstnik Beksiński on üks populaarsemaid sisendeid tänu tema selgelt äratuntavale stiilile ning mahukale digitaalsele pildikogule.

Ridamisi kerkib intrigeerivaid küsimusi. Esiteks muidugi autorsus. Kui sinu sisend on vaid üks lause ning väljundiks on usutav visuaalteos – kas siis autor oled sina? Või on autoriks programmi autor? Või programm ise?

Seaduse järgi oled autor siiski sina, programm pole rohkem autoriks kui maali loomiseks kasutatud pintsel või Photoshopi programm tavapärase digikunsti puhul. Sina oma lausega oled autor. Tehniliselt saab Disco Diffusioni abil luua kogu näitusesaali hõlmava väljapaneku, kus kunstniku ainsaks liigutuseks on sõnade kirjutamine. Loitsimine. Iga sõna avaldab mõju, iga järgmine pilt on uus ja kordumatu. See sisend on ühtlasi autoripositsiooni viimine absoluutse mõeldava miinimumini. Teose pealkiri, tähendus, olemus – kõik saavad üheks, taandades ka autori enese vaid üksikuteks tähemärkideks. Needsamad sõnad, ühtaegu piltide pealkirjad kui ka läbivad teemad, võimaldavad oskusliku käsitluse korral luua nauditava ja mõtlemapaneva näituse.

Mõnevõrra intrigeerivam on olukord siis, kui genereerimisel kasutada sisendina olemasoleva kunstniku loomingut või mõnda tema tööd. Saadud tulemus on uus ja erinev, kuid koloriidi, kompositsiooni ja teemade poolest annab saavutada igati äratuntavaid tulemusi. Mida äratuntavam on kunstniku pildikeel, seda paremini oskab mudel seda ka järele aimata. Nii on küllalt populaarseteks kunstnikuviideteks näiteks H. R. Giger või Zdzisław Beksiński, kelle kohta on saada ka suur hulk referentsmaterjali. Kuid kas töö aluseks oleval kunstnikul on õigus kaasautorsusele ning tööst saadavale tulule, nii nagu on muusikatööstuses sämplimise puhul? Õiguslikult on vastus sellele küsimusele sama hägune nagu sämplimise korralgi ning vastust võib oodata alles siis, kui tekivad esimesed märkimisväärsed edulood ja valemisse siseneb raha. Kuid tehnoloogia on veel värske ja toores. Tuntud kunstigaleriide hindajate ärapetmisel on Saue noortekeskuse kunstiõpetaja praegu veel osavam kui ükski saadaolev programm.

Ainukordne geneerilisus

Sisend „Kaunis maal ulmelisest pilvelõhkujatega linnast, Salvador Dalí stiilis, kollane ja sinine värviskeem“, Disco Diffusion ja Photoshop.

Kas see tähendab, et igaüks võib nüüd kunsti teha? Jah, muidugi. See võimalus on alati olemas olnud. Õieti ei erine see millegi poolest nt Tommy Cashi, Jeff Koonsi või Kalev Mark Kostabi tegevusest, kus autor annab sisendi vaid mõttena ning oskuslikud käed valmistavad teose.

Seega ühegi loomemajanduses tegutseva kunstniku ametit need arengud ei ohusta, pigem aitavad kaasa. Kood on vaid tööriist. Nagu iga teise tööriistaga, on heade ja kontrollitud tulemusteni jõudmine küllaltki ajakulukas. Sätteid on palju ja nende tundmaõppimine võtab aega. Õige loitsu leidmine on keeruline töö. Iga uue pildi genereerimine võib võtta kümneid minuteid, enne kui on umbkaudseltki näha, kuidas kompositsioon areneb. Sisendite katsetus ja peenhäälestus on aeglane ning süsteemsust nõudev tegevus. Isegi võimalikult lihtsaks ja kiireks optimeeritud Wombo Dreamis peab häid kombinatsioone kaua otsima. Teisalt pakub selline otsimine ja katsetamine küllalt palju rahuldust. Kuidas näiteks võiks välja näha Salvador Dalí stiilis maalitud ulmeline linnamaastik? Kuidas paistavad abstraktsemad mõisted, näiteks metsadest-mägedest alla rulluv hullumeelsus? Kuidas mõistab algoritm elu mõtet? Milline on algoritmi silmis põrguvärav? Aga taevavärav?

Kuigi üldiste skitseeritud kompositsioonide ning toimivate värvikeelte loomine käib kergelt, siis äratuntavate struktuuride ja figuuride esiletoomine nõuab ülemaalimist ja lisatööd. Samas on praegugi ühe kontseptuaalse digiteose loomine suuresti mehaaniline töö – vaimusilmas ettekujutatava visuaali loomiseks otsitakse inspiratsiooni teistelt kunstnikelt ja suurest hulgast visuaalsest algmaterjalist ning segatakse need uueks teoseks aeganõudva, kuid mitte ülemäära loomingulise käsitöö tulemusena. Iseomane pildikeel luuakse tihti alles viimases viimistlusetapis. Algoritmid seega ei ohusta mingil määral autori omapära, kuid aitavad märkimisväärselt vähendada tehnilise töö hulka algetappides.

Samuti on koodi genereeritud pildid üsna äratuntavad. Kui neid piisaval hulgal vaadata, siis asendub esmatutvuse õhin kiiresti tõdemusega, et tegu on järjekordse geneerilise, s.t väheväärtusliku visuaalse ühikuga. Need tööriistad ei võimalda oma visuaalkeele loomist, aga kindlasti aitavad otsingutele kaasa.

Disco Diffusioni suhe nägude või anatoomiaga on abstraktne, suisa kubistlik. Algoritm paneb vaevu proportsioonidega täkkesse, isegi esmakursuslase visandatud krokiid on äratuntavamad inimesed. Samal ajal on esmajoones deepfake-valdkonnast tuntud GAN algoritmid¹⁰ nägude ja tegelaskujude genereerimisel äärmiselt edukad. Seega täiendavad GAN ja difusioon teineteist suurepäraselt ning on vaid aja küsimus, mil need professionaalsete tööriistakastidega liidetakse.

Võib ette kujutada pildistsenaariumide loomise tarkvara, mis sisestatud teksti põhjal genereerib kogu storyboard’i (süžeeskeemi) koos värvikeele, plaanivahetuste, näitlejatel põhinevate tegelaskujude ja kõige muu vajalikuga. Stsenaristi teha jääb vaid teksti kirjutamine, peaosaliste ja atmosfääri või žanri valimine ning algoritm genereerib teksti illustreerivad kaadrid, millega saab nii produtsentide, lavastaja kui ka peaosaliste jutule minna. Sellised generatiivsed vahendid leiaksid kindlasti kasutust mitte ainult teatris, filmitootmises ja reklaamiagentuurides, vaid pea kogu loomemajanduses. Kui lisada siia juurde veel tekstigeneraatorite areng siis polegi ulmeline ennustada, et loovisikutel piisab vaid ideest, et teos hakkaks iseeneslikult vormuma. Muidugi, saatan on detailides ning kui kõik teosed kannatavad generatiivse sarnasuse all, siis saab autori detailidesse lisatud isikupära üha määravamaks.

Masinõppealgoritmid on visuaaltööstuses juba tavalised. Videotöötlustarkvara Nuke kasutab masinõpet, et liita renderdatud materjal filmitud põhjadega. Digitaalsete taustade ning fotorealistlike illustratsioonide loomisel näitab NVidia Canvas GAN võrgustike tugevust. Stsenograafid projitseerivad võtteplatsil või ka teatrilaval reaalajas keskkondi ja maailmu, mis varem oli võimalik vaid üksikutes käsitsi loodud kaadrites. Houdini, Unity, Notchi, Processingi ja teiste sarnaste tööriistade abil muutub nähtavaks matemaatiliste abstraktsioonide olemus ning piir tehnoloogia ja kunsti, meta- ja pärismaailma vahel kahaneb aina õhemaks.

Tekstipõhised difusioonmudelid on astunud tihedalt täidetud lavale, kuid neis on uudsust ja võlu ning tohutu potentsiaal. Mitte väga kauges tulevikus hõljume ringi täies ulatuses genereeritud metaversumis, mille kangas on kaetud meie sõprade ja tuttavate väljendatud mõtete ja siseilma visuaalsete peegeldustega.

1 https://et.wikipedia.org/wiki/Generatiivne_kunst

2 https://www.facebook.com/groups/procgenart

3 https://pharmapsychotic.com/tools.html

4 Lj Miranda, The Illustrated VQGAN. 8. VIII 2021.

https://ljvmiranda921.github.io/notebook/2021/08/08/clip-vqgan/

5 Angus Russell, How to use VQGAN+CLIP to generate images from a text prompt. A complete, non-technical guide to go from beginner to expert. – medium.com 15, VIII 2021.

https://medium.com/nightcafe-creator/vqgan-clip-tutorial-a411402cf3ad

6 https://colab.research.google.com/github/alembics/disco-diffusion/blob/main/Disco_Diffusion.ipynb

7 https://creator.nightcafe.studio/create

8 https://www.wombo.art

9 https://www.prosepainter.com

10 https://80.lv/articles/using-gan-in-cg-concept-art-workflows/?amp=1

Jaga

Disko, loitsud ja autoripositsioon

Samal teemal

Tehisaru majandustegevuses: olen ise väike, kuid mu jõud on suur

Millest me räägime, kui räägime tehisintellektist hariduses?

Hästi väljapeetud paus

Sirp