Silvia Urgas: New York Times kaebas OpenAI kohtusse. Kes järgmisena?

12.02.2024 Silvia Urgas: New York Times kaebas OpenAI kohtusse. Kes järgmisena?

Vahetult enne seda, kui 2023. aasta enda järel ukse sulgeda jõudis, sai jala vahele New York Times (NYT), kes esitas hagi OpenAI ja Microsofti vastu. OpenAI ja Microsoft seisavad tekstiloova tehisintelligentsi igapäeva toonud ChatGPT taga, mis on integreeritud ka Bing otsingumootoriga.

Ajakirjandusgigant NYT väidab, et OpenAI ja Microsoft on oma tehisintelligentsi treenides kopeerinud muude allikate hulgas erilises mahus New York Timesi sisu, eesmärgiga lasta liugu NYT aastakümnete pikkuse investeeringu najal, samuti olevat ChatGPT abil võimalik mööda hiilida NYT maksumüürist ja ajalehe sisu tasuta lugeda.

Alahinnata ei maksa ka NYT kartust masinast konkurendi ees. Mitmed välismaised väljaanded, nt telest, filmist ja popkultuurist kirjutav AV Club on hakanud osade artiklite juurde märkima, et loo autoriks on AI, mitte lihast ja luust inimene, AI kirjutatud artiklite avaldamises kahtlustati ka Sports Illustratedit. Ilmne on, et palka küsivate ja tähtaegu üle laskvate ajakirjanike asemel on märksa odavam anda ChatGPT-le sisend ja saada artikkel vastu juba mõne sekundiga. Seega säästab AI eeskätt kasumile mõtleva meediakorporatsiooni jaoks nii raha kui ka aega. NYT-suguste väljaannete jaoks on samas nende ajakirjanike nimed ja maine üks peamisi müügiartikleid, inimeste asemel AI-le juhtohje andes kaotaks NYT suurema osa enda eksistentsi eesmärgist.

Sisuliselt koopia

Ajaleht väidab, et tehisintelligentsi õpetati NYT artiklitega sellisel määral, et ChatGPT poolt loodav tekst ei ole mõnel juhul enamat kui algartiklite koopia. Kui ChatGPT-le üles tunnistada, et ei saa maksumüüri tõttu NYT artiklile ligi, annab ChatGPT lahkelt vastusena artikli esimese lõigu, seejärel võib temalt küsida teist ja kolmandat lõiku ja nõnda edasi.

See, et tehisintelligents on võimeline artikli sisuliseks taasesitamiseks, näitab, et ChatGPT arendamiseks on NYT originaalmaterjale kasutatud ulatuslikult. NYT üheks nõudmiseks on ka kõigi selliste materjalide ja nende abil õpetatud mudelite hävitamine, mis tähendaks ChatGPT arengule olulist tagasilööki.

Tekstide kasutamiseks eesmärgiga ChatGPT-d õpetada ei ole NYT-ga litsentsilepingut sõlmitud ega neile tasu makstud, mistõttu on OpenAI ja Microsofti ainsaks õlekõrreks vaidluses tuginemine vaba kasutuse õigustatusele ehk juhtudele, mil autorilt või õiguste omajalt ei olegi vaja luba küsida ega talle tasu maksta. OpenAI väidab, et tervete lõikude reprodutseerimine on kahetsusväärne ja haruldane bug, mille kõrvaldamisega tegeletakse.

Tehisaru võib õpetada

Kuigi USA ja Eesti õigusaktid erinevad märgatavalt, siis on Eesti õigusesse üle võetud Euroopa Liidu DSM-direktiivi järgi samuti lubatud autori nõusolekuta ja autoritasu maksmiseta õiguspäraselt juurdepääsetava teose reprodutseerimine teksti- ja andmekaeve eesmärkidel. Üheks selliseks eesmärgiks on ka tehisintelligentsi õpetamine olemasoleva teksti põhjal.

Autor võib sellise vaba kasutuse küll sõnaselgelt välistada. Teksti- ja andmekaeve eesmärkidel teosest tehtud koopiat võib säilitada ainult nii kaua kui vajalik (autoriõiguse seaduse § 192). Seega tekibki küsimus: mis saab siis, kui tehisintelligents õpetamise käigus autoriõigusega kaitstud sisu nõnda hästi selgeks õpib, et seda ise taastootma hakkab?

Ega muidugi ChatGPT arendamisel ainult NYT artikleid ei kasutatud, NYT on lihtsalt üks vähestest, kel on piisavalt ressursse, et selline kohtutee ette võtta. Sarnaseid AI-teemalisi vaidlusi on USA-s teisigi, näiteks Jonathan Franzeni, George R. R. Martini ja teiste kirjanike nõuded OpenAI vastu, kuid kohtutee ootab ees näiteks ka Stability AI-d ja Midjourneyt.

Üritasin provotseerida ChatGPT 4 mudelit lootuses, et ta söödab mulle ette näiteks mõne Eesti Ekspressi artikli või otsese tsitaadi. Artiklist lõikude kopeerimisest ChatGPT keeldus, viidates seaduskuulekalt autoriõigusele. Näiteks oli tehisintelligents teadlik Eesti Päevalehe 2020. ja 2021. aasta mõjukate edetabelist, viidates sealjuures siiski nii originaalartiklile kui ka Vikipeediale.

Värsket sisu pole

Ka Eesti Covid-19 statistika kohta uurides kippus tehisintelligents eeskätt Vikipeediale viitama, hoolimata sellest, et sellist allikat ei kiidaks meelsasti heaks ükski õpetaja ega õppejõud. ChatGPT kaudu õnnestus millegipärast saada kokkuvõte näiteks 2019. ja 2021. aasta Ekspressi aasta albumitest, aga mitte 2020. aasta omadest. Siiski ei trükkinud tehisintelligents nimekirja ümber, vaid suunas kombekalt originaalartiklit lugema.

Kokkuvõtlikult on ilmne, et ChatGPT õpetamiseks on kasutatud ka Eesti väljaannete originaalsisu ja selle kaudu on võimalik saada vähemalt kokkuvõtteid muidu tasulistest artiklitest. ChatGPT 4 mudeli koolitusandmed lõppesid aprillis 2023 ja reaalajas andmeid ChatGPT veel ei otsi.

Seega ei ole ChatGPT seni reeglina alternatiiviks maksumüürile, et originaalartiklile sedakaudu ligi pääseda, samuti ei tundu kiire katsetuse tulemusena olukord olema nii hull kui väidetavalt NYT puhul ja massilist Eesti artiklite taasloomist ei toimu. Siiski on NYT poolt algatatud vaidluse tulemusi põnev oodata ning selle ja muude sarnaste kaasuste järellainetus jõuab kindlasti ka Euroopasse ja Eestisse.

Artikkel avaldati Eesti Päevalehes.

Article 3