Perusmuotoistaminen

Perusmuotoistamisella (lemmatization), synonyymejä lemmaus ja lemmatisointi, tarkoitetaan tiedonhaussa hakutermin muuttamista sen perusmuotoon. Tiedonhakuprosessissa haun kohteelle ja hakijan kyselylle tehdään kielellinen normalisointiselvennä.

Kielitieteellinen perusmuotoistaminen

Kielitieteessä perusmuotoistaminen on osa leksikaalista morfologiaa. Sanan taivutusmuoto koostuu vartalosta ja taivutustunnuksesta. Vartalo on siis se osa sananmuotoa, joka jää jäljelle kun taivutustunnukset erotetaan. Vartalo voi olla kaikissa sanan taivutusmuodoissa sama, tai sitten se vaihtelee. Esimerkiksi: puhu-a : puhu-n : puhu-taan : puhu-nut ja keppi : kepi-n : keppe-jä. [1]

Perusmuotoistaminen ja stemmaus

Perusmuotoistaminen on läheistä sukua stemmaukselle. Perusmuotoistamisessa indeksiin tallennetaan sanan perusmuoto, kun taas stemmauksessa indeksiin tallennetaan sanan vartalo.[2] Toisin kuin perusmuoto-ohjelmat, stemmerit eivät ymmärrä sanojen kontekstia ja osa sanoista joilla on useita merkityksiä eri asiayhteyksissä jää löytämättä.[3]

Perusmuotoistamisen ja erilaisten perusmuoto-ohjelmien toimintaperiaatteena on palauttaa sanat niiden perusmuotoon ja tunnistaa yhdyssanoista osasanat.[4] Ne pohjautuvat morfologisiin sääntöihin sekä laajaan perusmuodot sisältävään sanakirjaan.[5]

Perusmuotoistamista pidetään stemmausta tarkempana ja perusteellisempana tapana käsitellä tekstiä tiedonhakua varten. Vertailtaessa perusmuotoistamista ja stemmausta, eroja niiden välillä on kuitenkin lähes mahdotonta havaita. [6]

Perusmuotoistamisen etuja ja ongelmia

Perusmuotoistamisen etuna on se, että sen avulla indeksiin saadaan luotua sanakirjamuoto. Perusmuotoistamista pidetään parhaana vaihtoehtona luonnollisen kielen käsittelyyn laajan morfologian omaavissa kielissä, kuten suomen kielessä.[5]

Perusmuotoistamisen huonona puolena on hakujen tarkkuutta heikentävä ylitulkinta. Ylitulkintaa tapahtuu, koska perusmuotoistamismenetelmät löytävät kaikki mahdolliset tulkintavaihtoehdot,[4] esimerkiksi Kokkola-sanan taivutusmuoto kokkolasta on tulkittu kokko- ja lasta-sanojen perusmuodoista koostuvaksi yhdyssanaksi.[7] Ongelmia aiheuttavat myös sanakirjasta puuttuvat sanat, kuten ulkomaalaiset erisnimet.[5]

Lähteet

Aiheesta muualla