911

Uutiset

Väitös: Tehokkaampi vihapuheen tunnistus voi lisätä myös tietoturvariskejä

Kieliteknologian kehittyminen helpottaa paitsi moderointia myös sensuuria, sanoo kieliteknologiamenetelmistä väittelevä Tommi Gröndahl.
Neural networks process language effectively, but not necessarily the same way as humans. Picture: Matti Ahlgren, 911.
Neuroverkot prosessoivat kieltä tehokkaasti, mutta eivät välttämättä samoin kuin ihminen. Kuva: Matti Ahlgren, Aalto-yliopisto.

Tohtorikoulutettava Tommi Gröndahl väittelee 23. elokuuta kieliteknologioista Aalto-yliopistossa. Kieliteknologia on yksi yleisimmistä tekoälyn muodoista, ja Gröndahl testasi sen menetelmiä muun muassa valheiden ja vihapuheen tunnistamisessa.

”Tekoälyä tarvitaan, kun massiivista datamääristä pitää seuloa ja siivilöidä haluttuja asioita. Kieliteknologiat ovat kuitenkin olleet musta laatikko eli niitä on käytetty ilman, että on oikeastaan ymmärretty, miten ne prosessoivat kieltä”, Gröndahl sanoo.

Gröndahlia kiinnostivat erityisesti menetelmien seuraukset tietoturvan ja yksityisyydensuojan näkökulmasta.

”Jos kieliteknologiamenetelmiä kehitetään, se parantaa sekä moderoinnin että sensuroinnin mahdollisuuksia. Tekniikat ovat ihan samoja, on tekstin luokittelulla mitä tahansa seurauksia kirjoittajalle”, Gröndahl sanoo.

Gröndahl vertasi tutkimuksessa syväoppivia neuroverkkoja perinteisempiin sääntöpohjaisiin menetelmiin. Niissä ihminen luo järjestelmään säännön, jota sitten hyödynnetään automatisoinnissa. Menetelmien väliltä löytyi suuria eroja.

”Monimutkaisissa neuroverkkomalleissa on niin valtavasti numeroita, että on vaikea tietää, mitä tekstin piirrettä kukin edustaa ja mitä tekstille tapahtuu, kun jokin numeroista muuttuu. Kun teksti kaipaa yksityiskohtaista jäsentämistä, yleisimmin käytetyt neuroverkkomallit eivät aina ole luotettavia. Neuroverkkomallilla saattaa esimerkiksi olla vaikeuksia tehdä eroa lauseen ja sen kielteisen vastineen välillä”, Gröndahl sanoo.

Sääntöpohjaisten menetelmien vahvuus taas ei ole isojen datamäärien seulomisessa. Siksi on oleellista yhdistää eri menetelmien parhaat puolet.

Menetelmät helposti huijattavissa

Tekstin luokittelu perustuu tyypillisesti melko yksinkertaisiin piirteisiin, kuten tiettyihin yksittäisiin sanoihin. Esimerkiksi valheentunnistuksessa menetelmät eivät oikeastaan tunnista valheita vaan juuri näitä yksinkertaisia piirteitä datassa. Monimutkaiset koneoppimismallit jäävät kiinni tällaisiin piirteisiin yhtä lailla kuin yksinkertaisemmat mallit. Tämä asettaa mallit alttiiksi hyökkäyksille; esimerkiksi vihapuheentunnistimet ovat helposti ihmisten huijattavissa, kun tekstistä poistetaan välilyöntejä tai tekstin sekaan lisätään esimerkiksi sana ’rakkaus’.

Gröndahlin mukaan annettu tehtävä ja harjoitusdata vaikuttavat siihen, miten hyvin tekoälyyn perustuva luokittelija onnistuu tehtävässään.

”Kun koneoppimismallit ovat massiivisia, on tärkeää, että luokittelija saa tarpeeksi harjoitusdataa. Se voi helposti jäädä kiinni myös ei-toivottuihin piirteisiin, jos harjoitusdata on vinoutunutta eli jollain tapaa epäedustavaa. Monimutkaiset koneoppimismallit eivät tiedä, milloin joku sana tai merkki kannattaa ottaa huomioon ja milloin ei vaan toimivat annetun harjoitusdatan perusteella”, Gröndahl sanoo.

Gröndahl tutki vihapuheen ja valheentunnistuksen lisäksi myös kieliteknologian mahdollisuuksia kirjoitustyylin automaattisessa muuttamisessa sekä automaattisessa tekstinmuokkauksessa. Tavoitteena voi olla esimerkiksi se, että kirjoittajaa ei pystytä tunnistamaan.

Esimerkiksi kirjoitustyylin automaattisessa muuttamisessa neuroverkko tuotti konekäännöksen tapaisen muunnoksen, jonka lopputuloksena saattoi olla saman tekstin toistaminen tai tekstisisällön merkityksen muuttuminen. Sääntöpohjaisissa menetelmissä pystytään kontrolloimaan yksityiskohtaisemmin esimerkiksi tietyn sanan, vaikkapa synonyymin tai vastakohdan, vaikutusta lauseen muunnokseen.

Tommi Gröndahl

Poikkeuksellinen polku

Tietoturvan tohtorikoulutettavaksi ei voi yleensä päästä ilman tietotekniikan maisteri- tai kandidaattiopintoja. Näin kävi kuitenkin Gröndahlille, joka oli Helsingin yliopiston kognitiotieteilijänä aiemmin suuntautunut kielen tutkimukseen. Hän päätyi professori N. Asokanin tutkimusryhmään, kun hän oli kesäharjoittelun aikana ensin avustanut ryhmää käyttäjätutkimuksissa.

”Kun Tommi Gröndahl aloitti jatko-opinnot, hänellä ei ollut minkäänlaisia taustatietoja tietoturvan alueelta. Siitä huolimatta hän on menestynyt erinomaisesti sekä julkaisujen että medianäkyvyyden osalta”, Asokan sanoo.

Gröndahl on viimeistelemässä myös toista väitöskirjaa kääntämisen kognitiotieteestä Helsingin yliopistolle.

äپٴᲹ:

Google Perspective arvioi verkkokommentteja loukkaavuuden perusteella. Vihapuheeksi alun perin tunnistettu lause läpäisee seulan, kun se sotketaan kirjoitusvirheellä ja sanalla ’rakkaus’.

Vihapuhetta tunnistavat tekoälyt menevät sekaisin ”rakkaudesta”

Tutkijat osoittivat, että sosiaalisessa mediassa ja verkkopalveluissa käytettävät vihapuheentunnistimet ovat helposti ihmisten huijattavissa.

Uutiset
  • äٱٳٲ:
  • Julkaistu:
Jaa
URL kopioitu

Lue lisää uutisia

Kollaasi työpajoista, ryhmäkuvista ja esityksistä Aalto Inventors -ohjelman ensimmäisen vuoden ajalta.
۳ٱ𾱲ٲö, Tutkimus ja taide Julkaistu:

Aalto Inventors juhlii ensimmäistä vuottaan: Rakentamassa siltaa tutkimuksesta vaikuttavuuteen

Aalto Inventors juhlii ensimmäistä vuosipäiväänsä: se on osallistuttanut kuuden kurssin kautta 190 tutkijaa eri aloilta kuten tekoäly, kvanttiteknologia ja biomateriaalit. Uusia kursseja on suunnitteilla seuraavalle lukuvuodelle – pysy kuulolla ja liity postituslistalle.
Kolme ihmistä juttelee pyöreän pöydän ääressä; naisella muki kädessä, puhelin pöydällä
Tutkimus ja taide Julkaistu:

Kuinka saada työntekijät takaisin toimistolle

Työpaikalle paluuta koskevat ohjeistukset miellyttävät työnantajia. Jotta työntekijät suhtautuisivat niihin myönteisesti, heille tulee tarjota kohtuullinen vastine autonomian rajoittamisesta.
Yritykset raportoivat kyberturvallisuudesta
Tutkimus ja taide Julkaistu:

Yritykset raportoivat kyberturvallisuudesta enemmän, mutta markkinat eivät reagoi

Yhdysvaltalaiset yritykset raportoivat kyberturvallisuudestaan entistä tarkemmin, mutta osakemarkkinoilla reaktiot jäävät vaisuiksi. Vaasan yliopiston ja Aalto-yliopiston uusi tutkimus osoittaa, että pakollinen kyberraportointi ei innosta sijoittajia tai osakeanalyytikkoja. Sen sijaan suurin hyöty näyttää syntyvän yritysten sisällä.
Kaksi miestä frakeissa seisoo lavalla mikrofonin äärellä ja puhuu sisätiloissa istuvalle yleisölle.
Mediatiedotteet Julkaistu:

Walter Ahlströmin säätiö lahjoittaa 3 miljoonaa euroa Aalto-yliopistolle

Lahjoituksella Aalto perustaa kestävän teollisen tuotannon professuurin.