Bittien takana

Netin suosituimmat sanat

Mitkä ovat suomen kielen yleisimmät sanat? Analysoin sanojen esiintymistä 25 miljoonalla suomenkielisellä nettisivulla. Yhteensä sanoja, numeroita ja välimerkkejä aineistossa oli yli 11 miljardia. Aineistona oli C4-tekstipankin suomenkielinen osuus. Kerroin tarkemmin C4:stä aikaisemmassa kirjoituksessani.

Kymmenen yleisintä sanaa aineistossa ovat: ja, on, ei, että, tai, oli, myös, ovat, se, mutta. Jos mukaan otetaan myös välimerkit, niin kärkeen ja-sanan edelle nousevat piste ja pilkku.

Lukumääriä laskettaessa jokainen sanamuoto on laskettu erikseen. Siksi siis esimerkiksi on ja ovat esiintyvät tuloksissa erillisinä sanamuotoina eikä niitä ole yhdistetty yhteen olla-perusmuotoon. Erottelin myös isoilla ja pienillä kirjaimilla kirjoitetut muodot. Esimerkiksi pienellä kirjaimella kirjoitettu ja on noin 40 kertaa yleisempi kuin isolla kirjaimella alkava Ja. Ilmeisesti nettikirjoittajilla on hyvin muistissa äidinkielen opettajien ohje, että lausetta ei pidä koskaan aloittaa ja-sanalla.

Yleisin hymiö on :), joka esiintyy yli kolme kertaa useammin kuin seuraavaksi yleisin :D. Muutkin kärkipään hymiöt ja emojit kuvaavat varsin positiivisia tuntemuksia: <3 ;) 🙂 ♥ 8) :-) ★ ja 😀.

Tuloksista pistää silmään erikoisuuksia, jotka johtuvat siitä, että analysoinnin kohteena on nimenomaan nettisivut. Yllättäen yleisin substantiivi aineistossa on lyhenne klo. Kellonajan lyhenteen yleisyys johtuu siitä, että monilla nettisivuilla on ilmoitettu viimeisin päivitysajankohta kellonaikoineen (esimerkiksi: Julkaistu: 22.9.2019 klo 6:10). Aineistossa on myös paljon blogeja ja keskustelupalstoja, joissa käyttäjien jättämien kommenttien yhteydessä on yleensä aikaleima (esimerkiksi: Anonyymi 15. joulukuuta 2014 klo 15.38).

Toinen nettikielen aiheuttama poikkeama yleiskielestä on englannin sanojen yleisyys vaikka olenkin suodattanut täysin ei-suomenkieliset sivut pois. Analysointiin mukaan on kuitenkin jäänyt mukaan sivuja, joissa käytetään sekaisin suomea ja englantia tai muuta kieltä. Siksi sadan yleisimmän sanan/välimerkin joukoon päätyivät englannin sanat the, of ja and.

Tutki itse lisää lataamalla sanojen esiintymislukumäärät (xz-pakattu tiedosto). Sanaston tuottamiseen käyttämäni skriptit ovat myös saatavilla.

Aiheet: Kieliteknologia