Hero
Author
Laura Isotalo ja Ada-Maaria Hyvärinen
17.04.2023
Koneellinen tekstianalyysi kertoo, mistä vaalikoneessa oikeasti puhutaan ja kenen äänellä
Yle News Lab otti vastausten tutkimiseen avuksi koneelliset tekstianalyysimenetelmät.

Tämän blogipostauksen kirjoittajat Ada-Maaria Hyvärinen ja Laura Isotalo työskentelevät journalistisina datatieteilijöinä Yle News Labissa.

Kansanedustajaehdokkaiden vaalikonevastauksissa on paljon tietoa ehdokkaiden kannoista. Ehkä vähän liikaakin tietoa – on hankalaa muodostaa mielikuva kaikista yli kahdestatuhannesta vastauksesta pelkästään ihmissilmin. Yle News Lab otti vastausten tutkimiseen avuksi koneelliset tekstianalyysimenetelmät.

Tarkastelimme kaikkia ehdokkaiden vaalikoneessa antamia tekstivastauksia ja etsimme niistä yhtäläisyyksiä puolueiden ja etujärjestöjen vaaliohjelmiin. Sitten syvennyimme ehdokkaiden antamien vaalilupausten kieleen ja niissä esiin nostettuihin aiheisiin.

Kaikkien tekstivastausten vertailu

Halusimme tietää, kenen ääni kuuluu ehdokkaiden vaalikonevastauksissa. Ehdokkaan itsensä, puolueen vai kenties erilaisten ehdokkaiden vaalityötä rahoittavien etujärjestöjen? Tämän selvittääksemme otimme käsittelyyn kaikki ehdokkaiden vaalikoneeseen kirjoittamat tekstimuotoiset perustelut.

Sanatarkat vertailut puolueohjelmiin

Huomasimme, että aika moni ehdokas on käyttänyt ainakin jossakin vaalikonevastauksessaan sanasta sanaan puolueensa vaaliohjelmasta löytyvää lausetta osana sanallista perusteluaan johonkin vaalikoneen väittämään. Kaikista yleisintä tämä oli vasemmistoliiton ehdokkailla – heistä jopa 33% oli käyttänyt ainakin yhdessä kysymyksessä ainakin yhtä suoraan vaaliohjelmasta lainattua muotoilua, kuten lausetta “veropohjaa on vahvistettava verovälttelyä suitsimalla”. Jotkut ehdokkaat hyödynsivät suoraa lainaamista yli puolessa vaalikoneen tekstikysymyksistä.

Eniten lainaamiseen tuntuivat innoittavan talouteen ja veroihin liittyvät kysymykset, kuten väittämät “Valtion on mieluummin otettava lisää velkaa kuin vähennettävä palveluita” ja “Pääomatulojen verotusta on kiristettävä”. Myös väite “Työperäistä maahanmuuttoa tarvitaan suomalaisen hyvinvointiyhteiskunnan ylläpitämiseksi” innosti lainaamaan puolueohjelmaa.

Vertailu etujärjestöjen vaaliohjelmiin

Arvelimme, että puolueohjelmien lisäksi etujärjestöjen, kuten Akavan, EK:n, SAK:n ja Metsäliiton, julkaisemien vaaliohjelmien vaikutus saattaisi näkyä ehdokkaiden vastauksissa.

Puolueiden vaaliohjelmiin verrattuna ehdokkaat tekivät vähemmän sanatarkkoja lainauksia etujärjestöjen vaaliohjelmista. Jonkin verran samoilla sanoilla käytettyjä muotoiluja onnistuimme silti löytämään.

Etujärjestöt pyrkivätkin vaaliohjelmillaan vaikuttamaan ehdokkaiden kantoihin, mutta vaikutus ei välttämättä näy sanatarkkana kopiointina. Yritimme löytää myös tällaisia samankaltaisuuksia hyödyntämällä koneoppimismallia, joka tunnistaa samaa asiaa tarkoittavia sanoja ja ilmaisuja.

On kuitenkin vaikea tietää, milloin jokin teema on nostettu esiin etujärjestön vaikutuksesta ja milloin ehdokkaan omasta innostuksesta. Jos ehdokas puhuu vaikka talouden saattamisesta kuntoon, johtuuko se vaaliohjelmasta, jossa ajetaan samaa asiaa? Vaaliohjelmien kieli usein välttelee konkretiaa niin suuressa määrin, että voi olla vaikea sanoa pelkkien lauseiden perusteella, ajaako ehdokas oikeastaan edes etujärjestön tarkoittamaa asiaa.

Kiinnostava jatkojutun aihe olisi lähteä selvittämään, miksi ehdokkaat oikeastaan lainaavat puolueohjelmien ja etujärjestöjen asiakirjoja. Onko puolueohjelman muotoilu vain niin iskevä, vai onko heidän vaikea muodostaa omaa mielipidettä asiasta? Jotkut vastaajista ovat epäilemättä olleet myös laatimassa puolueohjelmaa, jolloin samoilla sanoilla vastaaminen on kenties aivan luonnollista. Paljon on puhuttu myös ehdokkaiden kuormittumisesta kaikkien tahojen vaalikoneiden täyttämisen kanssa. Onkohan kopiointi selviytymiskeino sen suhteen?

Ehdokkaille tärkeät aiheet

Useimmissa vaalikonevastauksissa ehdokas ei voi täysin vapaasti nostaa esiin itselle tärkeitä aiheita, vaan kysymys ohjaa ottamaan kantaa tiettyyn asiaan. Halusimme tarkastella myös ehdokkaiden vapaasti esiin nostamia teemoja. Tähän tarkoitukseen sopivat parhaiten ehdokkaiden tekemät vaalilupaukset.

Lähdimme selvittämään kahdella eri menetelmällä, millaiset aiheet toistuivat ehdokkaiden lupauksissa. Millaiset sanat ovat tyypillisiä eri puolueiden vaalilupauksissa? Mitkä teemat toistuvat useiden ehdokkaiden kohdalla?

Sanoja listaamalla alkuun

Yksinkertainen tapa saada jotain mielikuvaa käsillä olevasta tekstiaineistosta on tehdä tilasto siitä, mitkä sanat tekstissä korostuvat. Halusimme tutkia, millaisilla sanoilla ehdokkaat vastaavat kysymykseen “Mitkä ovat kolme vaalilupaustasi?”.

Tätäkin ideaa varten täytyy edetä muutamassa vaiheessa. Ensin sanat täytyy muuttaa perusmuotoon, jotta “talouden” ja “taloutta” lasketaan samaksi sanaksi “talous”. Tämä aiheutti käytetylle avoimen lähdekoodin kirjastolle välillä haasteita: genetiivimuodon “sosiaaliturvan” perusmuodoksi se tulkitsi sanan “sosiaaliturpa”.

Jos ihan vain laskee, mikä sana on yleisin vaalikonevastauksissa, saa sellaisia tuloksia kuin “olla” tai “ja”. Jos poistaa tällaiset vain vähän merkitystä kantavat sanat, huomataan, että kaikkien puolueiden vaalilupauksissa yleisiä sanoja ovat “luvata” ja “Suomi”. Tämän takia teimme tilaston kullekin puolueelle tyypillisistä sanoista, eli sellaisista, jotka nousivat juuri sen puolueen vastauksissa esiin, kun niitä verrattiin toisten puolueiden sanoihin. Nyt saimme jutun visualisoinnissa hyödynnettyjä mielenkiintoisia tuloksia: vihreiden vastauksissa nousi “kantokyky”, perussuomalaisten “paljousalennus” ja kokoomuksella “ahkeruus”. Pienpuolueista joukosta erottuu Valta kuuluu kansalle -puolue, jonka edustajat ovat erityisen huolissaan Ylen vaalikoneen puolueellisuudesta ja epärehellisyydestä.

Sanoista sisältöön - lupauksista nousevat vaaliteemat

Toinen tapa saada kokonaiskuva vaalilupauksista on tarkastella sitä, mistä teemoista ehdokkaat eniten puhuvat. Lähdimme tutkimaan ehdokkaiden vapaasti muotoilemissa lupauksissa esiintyviä pääasiallisia vaaliteemoja aihemallinnuksen keinoin. Pelkkien sanojen tarkasteluun verrattuna tämä lähestymistapa kertoo enemmän lupausten sisällöstä.

Mitä sitten on aihemallinnus ja mihin se sopii?

Kuvittele, että sinulla olisi käytössä kokonaisen somealustan sisältö: tuhansia, jollei miljoonia postauksia koskien erilaisia asioita ja näkökulmia. Miten pystyisit hahmottamaan kaikkien postausten joukosta tärkeimmät teemat?

Ihmiset ovat hyviä tunnistamaan ja nimeämään yksittäisestä tekstistä keskeisiä teemoja. Meitä eivät hämää erilaiset sanakäänteet, vaan ymmärrämme jopa epäsuoria tai puutteellisia ilmaisuja sekä vertauskuvia. Miljoonien twiittien lukeminen ja aiheiden kartoittaminen käsin olisi kuitenkin äärimmäisen vaikea ja aikaavievä, jollei jopa täysin mahdoton tehtävä. Tällaisissa tehtävissä tietokoneet pystyvät meitä auttamaan.

Aihemallinnus on tilastollinen menetelmä, jossa tietokone järjestää ilman ihmisen ohjausta tekstejä erillisiin ryhmiin. Samaan ryhmään tai klusteriin kuuluvia tekstejä yhdistävät tekstissä esiintyvät samankaltaisuudet, joita voidaan tulkita myös tekstien yhteiseksi aiheeksi. Menetelmä tuottaa suurille tekstimassoille rakenteen, jonka avulla ihmiset pystyvät paremmin hahmottamaan yleisellä tasolla, millaisia sisältöjä teksteissä esiintyy.

Aihemallinnuksen vahvuudet ja heikkoudet

Aihemallinnusmenetelmät ovat kehittyneet viime vuosina valtavasti, johtuen pääasiassa kieliteknologian hurjasta edistysvauhdista. Samat innovaatiot, jotka ovat viime vuosina tuottaneet suuria harppauksia chatbot-teknologiaan, mahdollistavat entistä parempilaatuisen aiheiden tunnistuksen. Kielimalleilla on entistä parempi kyky käsitellä sellaisia haasteellisia kielellisiä ilmiöitä kuin synonyymit ja suomenkielisten sanojen taivutus.

Monet ovat kuulleet kielimalleista, kuten OpenAI:n Chat GPT, jonka kanssa voi keskustella. Suurelle yleisölle vähemmän tuttu kielimallien sovellus on tekstien samankaltaisuuden vertailu. Kielimallin avulla kaksi tekstinpätkää, kuten vaikka Twitter-postaus ja päivän etusivun uutinen, voidaan muuntaa eräänlaiseen numeeriseen muotoon. Sen jälkeen niiden samankaltaisuudelle voidaan laskea numeerinen arvo. Samankaltaisuuden vertailu puolestaan mahdollistaa sen, että voidaan tunnistaa tekstiryppäitä, joiden jäsenet ovat keskenään samankaltaisia. Tästä aihemallinnuksessa on olennaisesti kyse.

Kehittyneempien kielimallien käyttö tekee aihemallinnnuksesta tarkemman, ja mahdollistaa sen, että samaa aihetta eri sanankäänteillä käsittelevät tekstit yhdistyvät samaan klusteriin. Vaalilupausten analysoinnissa käytimme Turun yliopiston julkaisemaa suomenkielistä kielimallia, joka on koulutettu tunnistamaan parafraaseja, eli samaa tarkoittavia, mutta eri sanoin kirjoitettuja tekstinpätkiä. Lisäksi käytössä oli avoimen lähdekoodin klusterointialgoritmi.

Aihemallinnukseen sisältyy luontaisesti epävarmuustekijöitä. Ihmisetkään eivät aina ole samaa mieltä siitä, mikä jonkin tekstin keskeinen aihe on. Lisäksi ihmiset voivat usein tunnistaa samalle tekstinpätkälle useamman kuin yhden aiheen, joista osa saattaa olla yksityiskohtaisemmalla tasolla ja osa korkeammalla tasolla. Sekä ihmistyö että koneelliset menetelmät myös tuottavat lähes aina jonkin määrän virheitä. Koneoppimismenetelmien käyttö tarjoaa kuitenkin varsinkin suuriin aineistoihin sellaista näkyvyyttä, jonka saavuttaminen vaatisi ihmiseltä kohtuuttoman työmäärän ja saattaisi olla jopa mahdotonta. Vaalikonelupauksia koskevassa aiheanalyysissa teimme käsityönä testiarvion, jonka perusteella n. 96% jutussa esiteltyihin aiheisiin yhdistetyistä lauseista oli oikein tunnistettu.

Vaalilupausten teemat

Aihemallinnuksen perusteella vaalilupausten keskeisiksi teemoiksi nousivat: koulutus, turvallisuus, terveydenhuolto, luonto, talous, lapset, mielenterveys, omavaraisuus, ikäihmiset ja maahanmuutto. Lisäksi joukossa oli runsaasti pienempiä klustereita, jotka kuvasivat harvempien ehdokkaiden vaalilupauksissa esiintyviä teemoja. Osalle lauseista aihemalli ei tunnistanut aihetta. Jotkut vaalilupausten lauseet olisivat sisällön perusteella myös hyvin voineet esiintyä useammassa aiheklusterissa.

Osa teemoista esiintyi yli puoluekentän ja yhdisti hyvin erilaistenkin puolueiden ehdokkaita. Esimerkiksi koulutuksesta kannettiin huolta erityisesti SDP:ssä ja vihreissä, mutta myös kokoomuksessa ja perussuomalaisissa. Ei varmaankaan ole yllätys, että myös terveydenhuolto puhutti runsaasti kaikissa puolueissa. Huomattavaa on silti, että mielenterveys nousi vahvasti esiin erillisenä aiheena muusta terveydenhuollosta, ja tästä aiheesta puhuivat erityisesti vihreiden ehdokkaat.

Mielenterveyden lisäksi lasten ja nuorten hyvinvointi sekä ikäihmisistä huolehtiminen nousivat monen ehdokkaan huomion kohteeksi, erillisenä yleisestä terveydenhuollosta. Lapsista ja nuorista kannettiin huolta melko tasaisesti puoluerajojen yli, kun taas ikäihmisten hoivasta ja palveluista puhuivat erityisesti SDP, kristillisdemokraatit ja keskusta.

Toiset aiheet toivat esiin puolueiden välisiä eroja. Esimerkiksi talouden tasapainottamisesta ja turvallisuudesta puhuttiin erityisesti puoluekentän oikealla laidalla ja keskustassa. Turvallisuudella tässä yhteydessä tarkoitettiin joko ulkoista tai sisäistä turvallisuutta, ja usein molempia. Samoissa lupauksissa esiintyivät usein siis sekä maanpuolustus että katujen turvallisuus. Lisäksi yhtenä mielenkiintoisena teemana omavaraisuus puhutti erityisesti keskustan, perussuomalaisten ja kristillisdemokraattien ehdokkaita. Omavaraisuusteemaan liittyivät sellaiset asiat kuin kotimaisen ruoan- ja energiantuotannon turvaaminen sekä huoltovarmuus.

Luontoteema, johon sisältyivät esimerkiksi luonnonsuojeluun ja ilmastonmuutoksen vastaiseen taisteluun liittyvät lupaukset, korostui pääasiassa vihreiden, vasemmistoliiton ja SDP:n lupauksissa. Sitä vastoin esimerkiksi perussuomalaisissa aihetta käsiteltiin hyvin kriittisesti esimerkiksi ‘ilmastohulluuden’ lopettamisen näkökulmasta.

Lue juttu: https://yle.fi/a/74-20022819