Törmäsinpä jo tovi sitten ilmoitukseen, että OpenAssistant-projekti etsii esperantonkielisiä kirjoituksia. Koska nimi OpenAssistant ei sanonut minulle mitään, päätin ottaa asiasta selvää. Mutta aloitetaanpa alusta…
Mikä ihmeen GPT?
Ketään ei kai ole voinut olla törmäämättä termiin ChatGPT, joka tuli suuren maailman tietoisuuteen viime vuoden loppupuolella. Kyseessä on keskustelupohjainen käyttöliittymä, konversacia(?) uzantinterfaco, laajaa kielimallia1 hyödyntävästä ns. generatiivisesta tekoälystä, genera artefarita intelekto. Generatiivinen tekoäly viittaa tekoälyyn, joka tuottaa tekstiä, kuvia tai vastaavia vastauksena annettuun tehtävään – generas enhavon2. Generatiivista tekoälyä käytettäessä tehtävää ei kuvata yksityiskohtaisesti vaan tehtävä annetaan ns. kehotteena, instigilo(?). Esimerkiksi kehote voisi kuulua: luo taulu, joka esittää Edvard Munchin maalauksen Huuto Salvador Dalin tapaan maalattuna. Näin toimii ChatGPT:n luoneen OpenAI-tutkimuskeskuksen Dalle- ja Dalle 2 ‑kuvageneraattorit3. Olen liittänyt oheen Dallen tuotoksen tuohon kehotteeseen.
Sekä ChatGPT että Dallet perustuvat ns. generative pre-trained transformer (GPT) ‑kielimalliin. Tässä mallissa neuroverkkoa, neŭra reto4, opetetaan valtaisilla tekstikorpuksilla, esim. ilmaiseksi käytettävissä olevaa GTP-3-mallia on opetettu 570 gigatavulla tekstiä – tämä vastaa karkeasti ottaen määrää, jonka sata A4-sivua joka päivä lukeva ihminen lukisi vähän yli 6000 vuodessa. Opetuksen ansiosta neuroverkko ”tietää”5, mitkä sanat yleensä ilmenevät yhdessä, miten ne taipuvat ym. mitä tarvitaan luonnolliselta kuulostavan tekstin tuottamiseksi, tai tietää, mitä viittaukset Edvard Munchin tauluun ja Salvador Dalin tyyliin tarkoittavat ja osaa sitten generoida maalauksen, jossa näitä on yhdistetty.
Neuroverkot eivät osaa arvottaa tuottamaansa, joten GPT-3:hen on täytynyt rakentaa estoja, jotka estävät ChatGPT:tä kertomasta esim. miten kodin kemikaaleista rakennetaan pommi. Toinen seikka mikä täytyy muistaa on, etteivät neuroverkot tiedä, mikä on totta ja mikä ei. Jos ChatGPT:ltä kysyy jotain, joka sisältää valheen, vastaus on todennäköisesti täysin valheellinen. Tämähän on tuttua jo perinteisestä logiikasta, jossa epätodesta oletuksesta voi johtaa minkä tahansa johtopäätöksen. Tästä syystä ChatGPT:tä voi käyttää myös suurena puppugeneraattorina6.
Entä mikä on OpenAssistant?
Nimestään huolimatta OpenAI:n tuottamat ohjelmistot eivät ole avointa lähdekoodia eikä niiden käyttö jonkin ohjelmiston osana ole ilmaista. Alussa tarkoitus taisi olla avoin kehitys, mutta erinäisten käänteiden seurauksena yhtiö muutti liiketoimintatapaansa.
OpenAssistant-projekti sen sijaan on avoin kaikin tavoin: sekä muokata että käyttää (ks. projektin Github-koodisäilö). Projektin taustalla on saksalainen voittoatavoittelematon yhdistys nimeltään Large-scale Artificial Intelligence Open Network (LAION), jonka yhtenä tavoitteena on luoda vapaasti käytettäviä laajoja kielimalleja, joita lisäksi voisi ajaa kotikoneella. Kielimalleja käyttävä OpenAssistant olisi näin ollen virtuaaliavustaja, joka ei välittäisi käyttäjän tietoja eteenpäin toisin kuin Amazonin Alexa, Applen Siri, Googlen Assistant tai Microsoftin Cortana – ynnä muut kaupalliset virtuaaliavustajat.
Entäs Fin GPT?
Kymmenisen vuotta sitten Turun yliopiston luonnollisen kielen käsittelyjärjestelmiä tutkiva tutkimusryhmän pari tutkijaa saivat päähänpiston kerätä valtaisan määrän suomenkielistä tekstiä internetistä, vaikkei ollut käsitystä, mihin tätä korpusta tarvittaisiin (ks. Helsingin Sanomien artikkeli (maksumuurin takana) ). Onneksi Koneen säätiö lähti rahoittamaan hanketta niin, että nyt vuosia myöhemmin käsissä on arvokasta dataa, jonka pohjalta on mahdollista rakentaa suomeen erikoistuneita kielimalleja.
Tutkimusryhmä on toistaiseksi keskittynyt erityylisten tekstien analysointiin. Suunnitelmissa on tuottaa työkaluja biologian, biolääketieteen ja lääketieteen aloille. Suunnitelmien takana on tietysti ajatus terveydenhoidon palvelujen parantamisesta.
Miten nämä liittyvät minuun?
Jokainen meistä on törmännyt verkkosivuilla oleviin virtuaalisiin avustajiin, ja varmasti liki yhtä moni on noitunut niitä, kun nämä eivät ole ymmärtäneet käyttäjän mielestä yksinkertaisia kysymyksiä. Halusimmepa tai emme erilaisia virtuaalisia avustajia tulee koko ajan lisää, muuten valtiontalouden säästötavoitteet, hoitajien riittäminen ynnä monet muut yhteiskunnalliset ongelmat eivät ole ratkaistavissa. Parhaimmat virtuaaliset avustajat pohjautuvat juuri edellä kuvaamaani generatiiviseen tekoälyyn.
Koska kieli on ajattelun väline, ei ole yhdentekevää, mitä ja minkälaista kieltä nämä laajoja kielimalleja hyödyntävät tekoälyjärjestelmät käyttävät. Itsestään selvää lienee, että suomen ja ruotsin täytyy kuulua niihin. Entäs saamelaiskielet? Romani? Pitäisikö järjestelmien osata esperantoakin? Eri kielten osaaminen ei kuitenkaan riitä, vaan virtuaalisten avustajien on pystyttävä ymmärtämään erilaisia kielenkäyttäjiä: nuoria ja vanhoja, miehiä ja naisia, vammaisia ja vammattomia kaikista yhteiskuntaluokista. Pystyäkseen tähän järjestelmiä on opetettava eri ihmisten tuottamalla opetusmateriaalilla. Ei etelän isossa kaupungissa asuva metroseksuaali nörtti pysty imitoimaan Pihtiputaan mummoa, vaan mummon on opetettava järjestelmä mummon tavoille.
Mitä tämä sitten käytännössä tarkoittaa? Osallistumista! Opeta järjestelmiä osallistumalla hankkeisiin. Ylen Lahjoita puhetta ‑kampanjan avulla voit lahjoittaa puhuttua suomen kieltä. Mene Common voicen sivustolle ja anna äänesi esperantolle sekä arvioi muiden ääntämystä.
Entäs alussa mainitsemani OpenAssistant-projektin ilmoitus? Kirjaudu OpenAssistant-projektin sivustolle ja valitse, opetatko suomea vai esperantoa. Käytä yhdessä keskustelussa vain yhtä kieltä, luo tarvittaessa uusia keskusteluja. Huomaa, että OpenAssistant on hyvin alkuvaiheessa, joten se todennäköisesti tuottaa siansaksaa. OpenAssistantille on näemmä syötetty internetin keskustelupalstojen teksteihin verrattavia tekstejä, joten OpenAssistant kiroilee ja noituu suomeksi. Lisäksi OpenAssistant sekoittaa esperanton ja espanjan keskenään – taitaapa rutata idoakin väliin. Mutta opettamaton neuroverkko pitää ymmärtää lapseksi, joka vaatii paljon opettamista.
- Lyhyt selitys kielimalleista on esim. suomenkielisen Wikipedian artikkelissa. ↩︎
- Tämä tietysti herättää kysymyksen, mitä on ei-generatiivinen tekoäly. Perinteinen, ei-generatiivinen, tekoäly on luokittelevaa, tunnistavaa tai ennustavaa. Esimerkiksi omenoita luokittelevan järjestelmän tuottama vastaus on tarkastelussa olevan omenan laatuluokka. ↩︎
- Nimi Dalle (tai alkujaan Dall-e) on kielitieteestä tuttu kontaminaatio eli kahdesta sanasta muodostettu uusi sana, tässä tapauksessa Salvador Dalista ja animaatioelokuvan Wall-e nimiosaa esittäneestä robotista. ↩︎
- Hermosto koostuu lukuisista yksinkertaisista soluista, jotka joko päästävät hermosignaalin eteenpäin tai estävät sen kulun. Näistä yksinkertaisista soluista koostuvat esimerkiksi ihmisen aivot, joissa on n. 100 miljardia hermosolua. Neuroverkko mallintaa tätä rakennetta, mutta luonnollisesti mittakaava on yleensä huomattavan paljon pienempi. ↩︎
- ”Tietää” on tässä kohdin harhaanjohtava sana, koska nykyiset neuroverkot eivät ole tietoisia valinnoistaan eivätkä osaa päätellä eli eivät pysty tuottamaan mitään, mistä niillä ei ole ennakolta tietoa. Näistä syistä niille ei voi uskoa esimerkiksi lääketieteellisiä päätöksiä. ↩︎
- Kaverini testasti tätä kysymällä Urho Kekkosen korvakoruista. ChatGPT antoi vastauksena uskomattoman tarinan Kekkosen korvakoruista. ↩︎