Automaattinen sisällönkuvailu

u

Automaattinen sisällönkuvailu on yleiskäyttöinen, alasta ja dokumenttityypeistä riippumaton menetelmä, jolla voidaan tuottaa yksityiskohtaisia kuvailuja nopeasti ja kustannustehokkaasti.[1] Tunnettuja esimerkkejä automaattista sisällönkuvailua käyttävistä palveluista tai teknologioista ovat Googlen hakukone ja Facebookin automaattinen kasvojentunnistus.[2][3] Automaattisen sisällönkuvailun ongelmakohtia ovat luonnollisen kielen monitulkintaisuus sekä merkitysten tulkinnan vaikeus.[1]

Automaattisen sisällönkuvailun menetelmät

Automaattinen sisällönkuvailu voidaan jakaa kolmeen osaan kuvailtavan sisällön mukaan: keinotekoiseen kieleen, luonnolliseen kieleen ja ei-kielelliseen välineeseen.[4] Tutkijat ovat väitelleet manuaalisen ja automaattisen sisällönkuvailun paremmuudesta, sillä molemmille menetelmille löytyy käyttökelpoisia kohteita.[1] Automaattisten kuvailumenetelmien käyttö on perusteltua erityisesti silloin, kun manuaalinen kuvailu ei paranna hakutuloksia riittävästi suhteessa sen tuottamiin lisäkustannuksiin.

Taulukko 1. Automaattisen sisällönkuvailun vaihtoehtoja[4]

Automaattisen sisällönkuvailun vaihtoehtoja

Keinotekoinen kieliTietokonetuettu asiasanoitus
Luonnollinen kieliKokoteksti-indeksointi
Klusterointi
Automaattiset tiivistelmät
Ei-kielellinen välineViittausindeksointi
Linkki-indeksointi
Hahmoindeksointi

Keinotekoinen kieli

Tietokonetuettu asiasanoitus

Tietokonetuettu asiasanoitus tarkoittaa viitetietokantojen käyttöön kehitettyä algoritmista asiasanojen alustavaa valintaa.[4]

Luonnollinen kieli

Kokoteksti-indeksointi

Kokoteksti-indeksointi (eng. Full text indexing) on automaattinen menetelmä, jolla dokumentin jokainen sana voidaan viedä tietokannan hakemistoon mahdollistaen sen hakemisen minkä tahansa sisältöön kuuluvan sanan perusteella.[4]Kokoteksti-indeksointia sovelletaan Boolen malliin perustuvissa tiedonhakujärjestelmissä, ja sitä hyödynnetään seuraavasti:

  1. Indeksointiohjelma tunnistaa dokumentista erilliset merkkijonot.
  2. Kuhunkin merkkijonoon liitetään osoitetiedot, kuten dokumentin tunniste, niin sanottu kenttätieto (esiintyikö otsikossa, tiivistelmässä, leipätekstissä, tekijänimenä, tai vastaavana) sekä sijainti kentän sisällä (esimerkiksi 3. merkkijono).
  3. Merkkijonot osoitetietoineen aakkostetaan hakemistoksi eli käänteistiedostoksi (inverted file).

Painokerroin (kokoteksti-)indeksointimenetelmä ottaa huomioon sanojen painoarvon dokumentin sisällönkuvaajina. Tällöin sanan tärkeys määräytyy yleensä termifrekvenssin (kuinka monta kertaa sana esiintyy dokumentissa) sekä käänteisen dokumenttifrekvenssin (verrannollinen sanan harvinaisuuteen koko tietokannassa) mukaan. Täsmäytysalgoritmi laskee eri dokumenteille vertailuluvut hakukyselyssä esiintyvien sanojen painokerrointen mukaan ja tuottaa hakutuloksen lajittelun vertailulukujen perusteella.[5]

Klusterointi

Klusterointi (eng. Clustering) on automaattinen luokitusmenetelmä, jolla kootaan toisiaan muistuttavat dokumentit yhteen klustereiksi.[4] Se perustuu ryhmiteltävien dokumenttien samankaltaisuuden mittaamiseen niissä esiintyvien sanojen perusteella.[6]

Erikseen säädetään myös kynnysarvo, joka toimii samankaltaisuuden raja-arvona. Mikäli kahden dokumentin samankaltaisuus ylittää asetetun kynnysarvon, ne voidaan sijoittaa samaan ryhmään. Jos samaan ryhmään sijoitetaan useita dokumentteja, eri ryhmittelymenetelmät asettavat erilaisia vaatimuksia sille, kuinka monen muun ryhmään kuuluvan dokumentin kanssa kultakin dokumentilta vaaditaan samankaltaisuutta ja kuinka suurta sen tulee olla. Vähimmillään vaaditaan kynnysarvon ylittävä yhteys edes yhteen muuhun ryhmän dokumenttiin, enimmillään kaikkiin.[7]

Tekstin automaattinen tiivistäminen

Tekstin automaattinen tiivistäminen (engl. Automatic summarization) on kuvailumenetelmä, jossa tekstidokumentin sisällöstä tuotetaan automaattisesti lyhyempi tiivistelmä pyrkien samalla säilyttämään sen kannalta oleellinen sisältö. Tietokoneohjelman avulla tekstistä pyritään löytämään sitä parhaiten kuvaavat osiot, joista muodostetaan koherentteja lauserakenteita esimerkiksi valitsemalla sisällön kannalta merkitykselliseksi sijoitettuja avainsanoja. Lisäksi turhia siirtymäsanoja, lausekkeita ja pitkiä kuvailu- ja tarkennusketjuja poistetaan.[8]

Pääosin automaattisesti tuotetut tiivistelmät ovat luettavia, tiiviitä, ja niistä löytyy keskeisiä asioita. Ongelmia saattaa esiintyä: esimerkiksi useita aiheita sisältävistä teksteistä, joissa on monikollinen otsikko, tuotetut automaattiset tiivistelmät saattavat sisältää lauseita vain yhdestä aiheesta. Usein tiivistelmän lauserakenteen yhtenäisyys voi kärsiä pääosin anaforisten viittausten johdosta.[9]

Ei-kielellinen väline

Viittausindeksointi

Viittausindeksoinnissa analysoidaan tieteellisissä julkaisuissa käytettyjä viittauksia.[4] Tunnettu esimerkki on Thomson Reutersin Web of Science -tietokanta, johon on indeksoitu 2,6 miljoonaa dokumenttia yli 100 vuoden ajalta.[10]

Linkki-indeksointi

Linkki-indeksointi on tekniikka, jolla verkkosivulla olevien linkkien avulla määritellään sivun suhde muihin verkkosivuihin.[4] Hakupalvelu voi käyttää näin muodostunutta kuvailutietoa hyödyksi.

Hahmoindeksointi

Piirrepohjainen kuva-analyysi tuottaa kuvan sisältöä, kuten värisisältöä ja tekstuuria edustavat piirrevektorit, joita voidaan verrata verrokkikuvasta valmiiksi laskettuihin malleihin, eli piirrevektoreihin.[11]

Piirrepohjaisten algoritmien ongelmana on ollut se, että ne ovat pystyneet tunnistamaan kuvista vain suhteellisen matalan abstraktiotason piirteitä. Aiemmin piirrevektoreita sovellettiinkin sisällön luokittelussa vain erityistarpeisiin, kuten kuvahakuun lääketieteen kuvajärjestelmistä. Sosiaalisen median suosion myötä piirrepohjaisen kuva-analyysin, etenkin kasvojentunnistuksen sovellusalueella tutkimus on edennyt huomattavasti. Esimerkiksi Facebookin kasvojentunnistusominaisuudet tulivat käyttäjien saataville vuonna 2011.[12]

Kasvojentunnistustehtävä voidaan määritellä yksinkertaisesti: etsitään ennalta tunnettujen henkilökuvien joukosta tiedonhaussa määriteltyä tuntematonta henkilöä vastaava kuva.[13]

Taulukko 2. Kasvojentunnistusprosessin eteneminen

Kasvojentunnistusprosessin eteneminen

0. kuva
1. havaitseminen
2. normalisointi
3. erottaminen
4. tunnistaminen
5. tunniste

1. Syötekuvasta arvioidaan kasvojen sijainti
2. Kuva normalisoidaan kääntämällä kasvot suoraan ja mahdollisesti poistamalla ylimääräinen tausta kuvasta.
3. Algoritmiriippuvaiset piirrevektorit eristetään kuvasta. Näin jäljelle jää vain tunnistusalgoritmin kannalta tarpeellinen informaatio. Ihannetapauksessa muodostunut piirrevektori on yleispätevä, immuuni muutoksille valaistuksessa, kasvojen ilmeessä tai asennossa.
4. Syötekuvan tunnistevektoreita verrataan hakutietokannan tunnistevektoreihin ja etsitään vastaavuus.
5. Tulokset, eli tunnisteet järjestetään vastaavuusjärjestykseen. Parhaimman vastaavuuden saanut hakutietokannan kuva on todennäköisesti samasta henkilöstä kuin syötekuva. Hakutietokannasta voidaan osuman tai lähimmän vastaavuuden kohdalta palauttaa indeksoitu tieto, yleensä nimi.

Piirrepohjaisilla videoanalyysimenetelmillä on samoja rajoituksia kuin kuva-analyysissa, mutta kameran ja kohteen liike antavat lisää mahdollisuuksia. Liikkuvalla kuvalla on aikaan perustuva rakenne, joka koostuu yksittäisistä kuvista, otoista sekä kohtauksista.[11] Tämän rakenteen tunnistaminen ja merkitseminen on yksi prosessin vaiheista. Kuvien lisäksi videosta voidaan analysoida ääntä, erityisesti puhetta.

Jatkuvan puheen puheentunnistin on menetelmä, jossa puhe tunnistetaan ja puretaan kirjoitetuiksi sanoiksi. Tunnistusvirheitä vähennetään käyttämällä useampia tunnistusalgoritmeja rinnakkain, jotka voivat tunnistaa sekä erillisiä sanoja että sanaliittoja. Jos tunnistin ei tunnista sanaa tai tunnistaa sen väärin, voi virhe levitä ja vaikeuttaa puhedokumentin muidenkin sanojen tunnistamista. Ongelmana on myös se, että sanojen taivutusmuodot kasvattavat nopeasti tunnistettavan sanaston määrää. Foneemien tunnistaminen perustuu puhutun kielen pienimpien merkityksiä erottavan yksikön tunnistamiseen. Koska menetelmä ei yritä tunnistaa sanoja, tuntemattomat sanat tai taivutusmuodot eivät muodosta tunnistukselle ongelmia. Tunnistuksen mielekkyyttä on tosin mahdotonta tarkastaa. Puhesyöte käännetään äänneasuesitykseksi, jota verrataan sumeiden merkkijonomenetelmien avulla hakukantaan. Puhujariippumattomuus on haaste puheentunnistukselle käytetystä menetelmästä riippumatta.

Katso myös

Lähteet

  • Informaatiotutkimus 1 (HTML) (Tiedon organisointi, luku 5) 2005. Tampereen yliopisto, Otavan Opisto / Internetix. Arkistoitu 22.12.2015. Viitattu 2.12.2015. (suomeksi)
  • Järvelin, Sormunen: ”Tiedon tallennus ja haku”, Ote informaatiosta. Johdatus informaatiotutkimukseen ja interaktiiviseen mediaan, s. 155-207. BTJ Kustannus, 2010.
  • Patosalmi: ”Organisaatioiden ratkaisut ongelmiin”, Sosiaalisen median uhat yksittäisille käyttäjille - yliopisto-opiskelijan näkökulma, s. 30-32. Oulun yliopisto, 2014.
  • Web of Science (HTML) (Etusivu) 2015. Thomson Reuters. Viitattu 2.12.2015. (englanniksi)

Viitteet