Kunnan suosituimman puolueen ennustaminen

Suomen kunnat poikkeavat toisistaan useilta ominaisuuksiltaan. Myös tässä blogissa olen erilaisten tarkastelujen yhteydessä kiinnittänyt erityishuomiota alueellisiin poikkeamiin ja niiden vertailuun. Kuntien väliset erot voivat esimerkiksi liittyä väestön ikärakenteeseen, asukkaiden koulutusrakenteeseen tai kunnan talouteen ja elinkeinoelämään. Tässä artikkelissa tarkastelen sitä, mitkä kuntien ominaisuudet mahdollisesti vaikuttavat eri poliittisten puolueiden suosioon kuntatasolla.

Yksinkertaisin tapa mitata puolueen suosiota kunnassa on tarkastella, mikä puolue saa eniten kuntalaisten ääniä vaaleissa. Kirjoitushetkellä tuoreimmat Suomessa käydyt valtakunnalliset vaalit ovat kevään 2017 kuntavaalit. Suomessa on neljä puoluetta, joista jokin sai kevään kuntavaaleissa eniten ääniä lähes jokaisessa kunnassa: Keskusta, Kokoomus, SDP ja RKP. Ainoastaan viidessä kunnassa jokin muu puolue oli ääneissä mitattuna suosituin. Jyväskylässä ja Nokialla suosituin puolue oli Vihreät, Karkkilassa ja Kemissä Vasemmistoliitto sekä Luodossa Kristillisdemokraatit.

Tämänkertaisessa tarkastelussa haen vastausta seuraavaan kysymykseen: mitkä kunnan ominaisuudet ennustavat suosituinta puoluetta?

 

Menetelmästä

Viime aikoina olen harjoitellut ns. decision tree eli päätöspuu -koneoppimisalgoritmin käyttöä, joka soveltuu mainiosti tähän harjoitukseen. Menemättä sen tarkemmin algoritmin yksityiskohtiin, päätöspuumenetelmällä voidaan havainnon eri ominaisuuksien perusteella ennustaa, mihin luokkaan kyseinen havainto kuuluu. Tämänkertaisen tarkastelun tapauksessa havainto = kunta ja luokka = suosituin puolue. Lopputuloksena syntyy prosessikaaviota muistuttava ennustemalli, jolloin malli on helppo ymmärtää ja visualisoida. Erityisesti visualisoinnin mahdollisuus on menetelmän valinnassa minulle tärkeää, sillä tämän blogin nimi on ”Näytä Data” eikä ”Kerro Datasta”.

Mikäli äskeinen sepustus vaikutti kovin kryptiseltä, luultavasti alempana esitetyt kuviot selkeyttävät asiaa.

Rakennan neljä mallia, joilla ennustan erikseen RKP:n, Kokoomuksen, SDP:n sekä Keskustan suosiota kunnallisvaaleissa. Mallien rakentamisessa olen hyödyntänyt yli 40:tä eri kunnan ominaisuuksiin liittyvää muuttujaa. Nämä muuttujat liittyvät esimerkiksi demografisiin tekijöihin (mm. asukkaiden ikä, kotitalouksien rakenne ja kunnan maaseutumaisuus), asukkaiden työllisyys- ja tulotietoihin sekä kunnan talouselämään (mm. eri sektoreiden osuus työpaikoista).

 

RKP:n ennustemalli

Aloitetaan helpoimmasta eli RKP:stä, joka oli kunnallisvaalien suosituin puolue 8 %:ssa kunnista. RKP:n tapauksessa päätöspuumalli ennustaa arviolta 100 % tarkkuudella* puolueen ykkösasemaa kunnittain:

 

 

Mallin erinomainen ennustustustarkkuus selittyy mallin hyvin yksinkertaisella rakenteella. Jos kunnassa vähintään 20 % asukkaista on ruotsinkielisiä, RKP oli vaalien suosituin puolue. Vertailun vuoksi mainittakoon, että koko maan väestöstä 5 % on ruotsinkielisiä. Tuskin kovinkaan moni lukija yllättyy ruotsin kielen merkityksestä Suomen ruotsalaisen kansanpuolueen suosion ennustamisessa.

 

Kokoomuksen ennustemalli

Kokoomus oli kunnallisvaaleissa suosituin puolue 10 %:ssa kunnista. Alla oleva päätöspuumalli ennustaa 92 % varmuudella puolueen suosiota kuntatasolla:

 

Jotta eri raja-arvoja olisi mielekkäämpää arvioida, ohessa ovat keskiarvot koko maan väestölle:

  • Korkea-asteen tutkinnon suorittaneiden osuus: 30 %
  • Perusasteen tutkinnon varassa olevien osuus: 29 %
  • Pariskunnasta ja lapsista muodostuvien perheiden osuus: 37 %

 

Kokoomuksen suosion selittämisessä kuntalaisten koulutustaso on keskeinen tekijä. Mikäli kunnassa asuu keskivertoa vähemmän korkeakoulutettuja, Kokoomus ei luultavasti ole suosituin puolue. Myös hyvin matalasti koulutettujen osuus on ratkaiseva. Kunnissa, joissa Kokoomus oli suosituin puolue, asuu selvästi maan keskiarvoa vähemmän enintään perusasteen suorittaneita.

Vaikka kunta ”läpäisisi” koulutuskriteerit myös kunnassa asuvien perheiden rakenteella on merkitystä. Tilastokeskuksen määritelmän mukaisesti perhe voi muodostua joko yhdessä asuvasta pariskunnasta sekä näiden mahdollisista lapsista tai vaihtoehtoisesti yhdestä vanhemmasta ja hänen lapsesta/lapsista. Kokoomus on todennäköisesti suosituin niissä kunnista, joissa perheet muodostuvat keskivertoa useammin pariskunnasta ja näiden lapsista. 

Karkeana yhteenvetona todettakoon siis, että Kokoomus näyttäisi olevan erityisen suosittu kunnissa, joissa asuu suhteellisen paljon korkeasti koulutettuja ydinperheitä.

 

SDP:n ennustemalli

Seuraavaksi siirrytään hieman vasemmalle kohti SDP:tä. Kuntavaaleissa SDP oli suosituin puolue 13 %:ssa kunnista. Myös SDP:n tapauksessa oheinen päätöspuumalli ennustaa 92 % tarkkuudella puolueen ykkösaseman:

 

Jälleen kerran alla keskiarvot koko maan väestölle:

  • Rivi- ja pientaloissa asuvien asuntokuntien osuus: 40 %
  • Korkea-asteen tutkinnon suorittaneiden osuus: 30 %
  • Ajokilometrit vuodessa: 16 800 km

 

Mikäli kunnassa asuu huomattavasti keskimääräistä enemmän porukkaa rivi- ja pientaloissa, SDP ei todennäköisesti ollut kuntavaalien ykkössuosikki. Myöskään kunnissa, joissa korkeakoulutettujen osuus vastaa vähintään maan keskiarvoa, SDP ei luultavasti ole erityisen suosittu. Mielenkiintoista kyllä, yksityisautoilijoille kertyvillä ajokilometreillä on merkitystä SDP:n suosion ennustamisessa. SDP:lle eivät lämpene kunnat, joissa henkilöautoilla ajetaan keskimääräistä enemmän. Ajokilometrit kunnallistasolla olen arvioinut eräässä aiemmassa tarkastelussani. Ajoneuvojen lukumäärällä sitä vastoin ei näyttäisi olevan tässä yhteydessä merkitystä.

Suurien ajokilometrimäärien voisi luulla viittaavan harvaanasuttuihin kuntiin, mutta toisaalta kunnan maaseutumaisuutta kuvaavat muuttujat (mm. väestön lukumäärä, asumistiheys sekä taajamissa asuvien osuus) eivät SDP:n suosion ennustamisessa vaikuttaisi itsessään olevan merkittäviä muuttujia.

Mallista rakentuvan kokonaiskuvan perusteella voidaan karkeasti sanoa, että kunnat, joissa ei ole erityisen korkea koulutustaso eikä asukkaat autoile hirveän paljon kuuluvat todennäköisemmin SDP:n kannatusalueeseen. Poikkeuksen muodostavat kunnat, joissa huomattavan monet kotitaloudet asuvat rivi- tai pientaloissa.

 

Keskustan ennustemalli

Viimeiseksi käsittelyssä on Keskusta. Keskusta on suosituin puolue peräti 68 %:ssa Suomen kunnista. Toisaalta keskustalaisten kuntien asukasluvut tuppaavat olemaan melko pieniä. Keskustan tapauksessa päätöspuumalli ennustaa puolueen suosiota hieman edellisiä malleja huonommin, mutta silti 87 % tarkkuudella:

 

Keskiarvot koko maan väestölle:

  • Maa- metsä- ja kalatalouden osuus työpaikoista: 3,2 %
  • Ruotsinkielisten osuus väestöstä: 5,3 %
  • Uskontokuntiin kuulumattomien osuus: 25 %
  • Ajokilometrit vuodessa: 16 800 km
  • Vuokra-asunnoissa asuvien asuntokuntien osuus: 32 %

 

Keskustan tapauksessa päätöspuu on muita puolueita haarautuneempi eli ennustemalli on hieman monimutkaisempi. Mallin mukaan Keskusta on suosituin puolue yksikielisesti suomenkielisissä kunnissa, joissa suhteellisen suuri osuus asukkaista työskentelee alkutuotannon (= lähinnä maatalouden) parissa. Entiselle maalaisliitolle lämpenevät toki muutkin kuin maanviljelijät. Tosin Keskustaa suosivien kuntien asukkaat näyttäisivät olevan keskimääräistä uskovaisempia, mikäli uskovaisuuden mittarina käytetään uskontokuntiin kuulumista.

Keskivertoa uskovaisemmissa kunnissa kahdenlaisissa Keskustalla on erityinen paikka kuntalaisten sydämissä. Joko kuntalaiset ovat keskimääräistä ahkerampia autoilijoita tai vuokra-asumisen suosio on suhteellisen harvinaista. Myöskään Keskustan tapauksessa suoraan kunnan maaseutumaisuutta kuvailevat muuttujat, kuten taajama-aste ja väkiluku, eivät itsessään ennusta yhtä hyvin puolueen suosiota. Toisaalta kaupunkimaisissa kunnissa ei yleensä ole kovin paljon alkutuotannon työpaikkoja ja vuokra-asuminen tuppaa olemaan kaupungeissa suositumpaa.

Hieman kärjistäen voisi todeta, että Keskustalaisia kuntia näyttäisi asuttavan suomenkieliset maanviljelijät tai jumalaapelkäävät yksiyisautoilijat/omistusasujat.

 

Yhteenveto

Yllä esitettyjen päätöspuumallien kenties oleellisin anti on malleissa esiintyvät muuttujat, jotka nousevat esille keskeisinä tekijöinä eri puolueiden suosion ennustamisessa. Ne antavat hyvän yleiskäsityksen siitä, millaiset kunnat äänestävät sankoin joukoin mitäkin puoluetta. Vaikka valikoidut muuttujat ovat objektiivisen algoritmin poimimia, niistä rakentuvat kokonaiskuvat eri puolueita kannattavista kunnista ovat paikoitellen melko stereotyyppissä.

Erityishuomion ansaitsevat myös osa niistä kunnan ominaisuuksista, jotka eivät esiinny esittämissäni ennustemalleissa. Alussa mainitsin, että ennustemallien rakentamisessa hyödynsin yli 40:tä eri muuttujaa. Algoritmi poimi malleihin yhteensä kuitenkin vain yhdeksän eri muuttujaa. Hieman yllättäen monet melko oleellisilta vaikuttavat muuttujat uupuivat kokonaan malleista. Muun muassa asukkaiden tulot, työmarkkina-asema tai ikärakenne eivät näyttäisi selittävän kovin hyvin suosituimman puolueen asemaan kevään 2017 kuntavaaleissa. Samoin mm.  kunnan väkiluku, väestönmuutos ja asukkaiden ikääntyminen loistivat poissaolollaan ennustemalleissa.

 

* Kuntatason aineiston olen jakanut sattumanvaraisesti kahteen osaan, joilla ensimmäisellä kehitän päätöspuumallin ja toisella testaan mallin toimivuutta. Tämän testauksen perusteella on mahdollista antaa numeerinen arvio mallin ennustustarkkuudesta.

Artikkelin lähteet: Oikeusministeriön vaalien tulospalvelu, Tilastokeskus, Trafi ja omat laskelmat

2 comments

RKP-mallihan ei ilmeisesti ole ihan 100% kun kerran luodossa kristillisdemokraatit valloillaan. Pisti vaan silmään.

NäytäData

Odotinkin, että joku tarkkaavainen lukija tekee tämän erittäin hyvän huomion! Totta puhuen nuo ennustetarkkuudet ovat arvioita, kuten mainitsen aivan artikkelin lopussa. Noin 300 Suomen kuntaa olen jakanut sattumanvaraisesti mallin kehittämis- ja testiosioihin. Tässä tapauksessa Luoto ei osunut mukaan tuohon testiaineistoon, jolla testaan mallin toimivuutta, jolloin ennustetarkkuuden arvioksi sain juurikin 100 %.

Luoto on itseasiassa ainoa Suomen kunta, jossa merkittävä enemmistö asukkaista on ruotsinkielisiä, mutta RKP ei ole kunnallisvaalien suosituin kunta. Voisi jopa sanoa Luodon olevan eräänlainen poikkeus, joka vahvistaa säännön.

Vastaa