Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja...
Transcript of Puheentutkimuksen resurssit Suomessaettä ihminen voi välittää tietoa sisäisistä tarpeistaan ja...
PUHEENTUTKIMUKSEN RESURSSIT
SUOMESSA
PUHEENTUTKIMUKSEN RESURSSIT
SUOMESSA
toimittaneetJuhaniToivanenja ManneMiettinen
CSC– TieteellinenlaskentaOy
c�
CSC– TieteellinenlaskentaOy2001
ISBN 952-9821-76-X����������������� ������� ����������������������������� �
PuheentutkimuksenresurssitSuomessa 5
Esipuhe
Ideatämänesiselvityksentekemiseenon lähtöisinopetusministeriönomista-mantieteentietotekniikankeskuksenCSC:nkielitieteenpalvelun johtoryh-mästä.Esiselvityson toteutettuopetusministeriöltäsaadun100000 markanmäärärahanturvin. Esiselvitykselleasetettiinkaksi tavoitetta:ensimmäinentavoiteoli kartoittaakattavastisuomenkielistäpuhettatutkivien tieteenalojennykytila ja tulevaisuudennäkymätSuomessa,toinentavoiteoli esittääkartoi-tuksenpohjaltajoukko toimenpiteitä,joilla puheentutkimuksenedellytyksiävoitaisiin parantaamaassamme.
Esiselvityshankealkoi marraskuussa2000.SyksynpohjatyökulminoituiHel-singin yliopistossa13. joulukuuta 2000 järjestettyynseminaariinPuheen-tutkimuksenresurssitSuomessa.Kyselylomakkeet lähetettiinhelmikuussa2001 44:äänpuheentutkimustaharjoittavaan tutkimuslaitokseenja yrityk-seen.Toukokuussa2001pyydettiin lisäksikuuttapuheentutkimukseneri alo-jen asiantuntijaakirjoittamaanasiantuntija-arvioalansanykytilasta,tulevai-suudennäkymistäja kehittämistarpeista.
Hankkeenohjausryhmänmuodostivat professoriMatti Karjalainen(Teknil-linen korkeakoulu), professoriKimmo Koskenniemi(Helsingin yliopisto),tutkimusjohtajaKari Laurila (Nokia ResearchCenter),erikoistutkijaMarja-LeenaSorjonen(Kotimaistenkielten tutkimuskeskus),kehittämispäällikköJuhaSylberg (Näkövammaistenkirjasto), tutkija Martti Vainio (Helsinginyliopisto) ja arkistonjohtajaLauri Vihonen(Yleisradio).Haluammetoimit-tajina kiittää ohjausryhmääkannustavastaohjauksesta.Lisäksi asiantuntija-arvioidenkirjoittajat Lauri Carlson,Matti Karjalainen,Matti Laine,Unto K.Laine, Mikko Sams,Kari Suomi ja Martti Vainio, kyselyynvastanneetpu-heentutkijatsekäeri tavoin omanpanoksensaraportinsyntyynantaneetToo-masAltosaar, RoopeHavu, Jyrki Hokkanenja Eija Koskenlinnaansaitsevatniin ikäänlämpimätkiitoksemme.
Kaikki raportinmahdollisetvirheet ja epätarkkuudetovat toimittajien vas-tuulla.
Espoossaja Oulussa13.8.2001
JuhaniToivanenja ManneMiettinen
6 PuheentutkimuksenresurssitSuomessa
Tiivistelmä
Puhettatutkitaaneri puolellaSuomeapienissämuutamanhengentutkimus-ryhmissä.Yhteiskunnanmuutosja teknologisoituminenovatluoneetpuheen-tutkimukselleuusiatehtäviä,joihin vanhatrakenteeteivätpystyvastaamaan.Puheentutkimusyksiköidenmaantieteellinenja tieteenalakohtaineneristynei-syyssekäyksiköidenpienikoko haittaavatmerkittävästipuheentutkimuksenedistymistäSuomessa.
Tutkimuksenrahoittajatvoisivat parantaapuheentutkimuksenedellytyksiäSuomessatukemalla:
! vähintäänyhdenyli 20 tutkijan kokoisenyksikön syntymistä,jonkatutkimuksellaonselväpainopistealue
! tutkimushankkeita,joissaluodaansiltojaeri puheentutkimuksenaluei-den, erityisestihumanistisenpuheentutkimuksenja puheteknologiantutkijoidenvälille
! puheentutkimukseneri alueidenverkostoitumista
! tutkimusaineistojenkokoamistaja käyttöäkoskevien yhteistenstan-dardienja pelisääntöjenlaatimista
! olemassaolevientutkimusaineistojenkäytönkoordinointia
! pitkänaikavälin monitieteistäperustutkimustapuhutunkielenolemuk-senselvittämiseksi
! perus-ja jatkokoulutuksenuudelleenorganisointiamonitieteiseensuun-taan
PuheentutkimuksenresurssitSuomessa 7
English summar y
Speechandspokenlanguageis studiedby anumberof smallresearchgroupsscatteredaroundFinland.Thefastpaceof globalisationandinformationtech-nologyhave creatednew demandsfor speechresearch,thatarenot suppor-ted by the existing organisationalstructures.Especiallythe small size andgeographicaldispersionof the researchunits createseriousbarriersfor theadvancementof speechresearchin Finland.
Theresearchfundingandpolicy shouldbedirectedsothat:
! at leastonelargerandfocusedresearchunit with over 20 researcherswill becreated
! new multidisciplinaryresearchprogramsarelaunchedto bring toget-her thedifferenttraditionsof humanisticandtechnologicalspeechre-search.
! commonstandardsandrecommendationsarecreatedfor thecompila-tion anduseof speechdatabases
! useof existing resourcesis bettercoordinated
! therewill be long-termmultidisciplinarybasicresearchto understandtheessenceof spokenlanguage
! educationis reorganizedin a moremultidisciplinaryway
8 PuheentutkimuksenresurssitSuomessa
Sisältö
Esipuhe 5
Tiivistelmä 6
English summar y 7
1 Johdanto 91.1 PuheentutkimuksenmerkitysSuomelle. . . . . . . . . . 91.2 Raportintarkoitusja rakenne . . . . . . . . . . . . . . . 10
2 Monim uotoinen puhe 122.1 Fysikaalinenpuhe . . . . . . . . . . . . . . . . . . . . . 122.2 Sosiaalinenpuhe . . . . . . . . . . . . . . . . . . . . . 14
3 Asiantuntija-ar vioiden tiivistelmä 163.1 Tutkimuksennykytila . . . . . . . . . . . . . . . . . . . 163.2 Tulevaisuudennäkymät . . . . . . . . . . . . . . . . . . 173.3 Puhetietokannat. . . . . . . . . . . . . . . . . . . . . . 17
4 Vastausten analyysi 184.1 Yhteenveto . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Puheentuottamisenja havaitsemisenperustutkimus. . . 194.3 Puheteknologiantutkimus. . . . . . . . . . . . . . . . . 204.4 Puhekielenja kielellisenvariaationtutkimus . . . . . . . 214.5 Dialogin ja kielellisenvuorovaikutuksentutkimus . . . . 224.6 Kaupallinenpuheteknologiantutkimus . . . . . . . . . . 23
5 Toimenpide-ehdotukset 24
Sisältö 9
Liitteet 25
A Asiantuntija-ar viot 26
B Vastaukset 40B.1 Akustiikanja äänenkäsittelytekniikanlaboratorio(TKK) 40B.2 Digitaali- ja tietokonetekniikanlaitos(TTKK) . . . . . . 43B.3 Digitaalisenmedianinstituutti (TTKK) . . . . . . . . . . 45B.4 Elisantutkimuskeskus. . . . . . . . . . . . . . . . . . . 47B.5 Fonetiikanlaitos(HY) . . . . . . . . . . . . . . . . . . . 48B.6 Fonetiikka(TUY) . . . . . . . . . . . . . . . . . . . . . 51B.7 Institutionaalisenvuorovaikutuksentutkimusyksikkö . . 53B.8 Kognitiivisentieteenja teknologiantutkimusryhmä(TKK) 54B.9 Kotimaistenkieltentutkimuskeskus. . . . . . . . . . . . 56B.10 Lingsoft Oy . . . . . . . . . . . . . . . . . . . . . . . . 58B.11 MediaTeam(OY) . . . . . . . . . . . . . . . . . . . . . 59B.12 Neuroverkkojentutkimusyksikkö(TKK) . . . . . . . . . 61B.13 Nokiantutkimuskeskus . . . . . . . . . . . . . . . . . . 62B.14 Näkövammaistenkeskusliitto . . . . . . . . . . . . . . . 63B.15 Puheopinlaitos(TAY) . . . . . . . . . . . . . . . . . . . 64B.16 Suomenkielenlaitos(HY) . . . . . . . . . . . . . . . . 69B.17 Suomenkielenlaitos(JYU) . . . . . . . . . . . . . . . . 71B.18 Suomalaisenja yleisenkielitieteenlaitos(TUY) . . . . . 73B.19 Suomenkielenja kulttuuritieteidenlaitos(JOY) . . . . . 75B.20 Suomenkielenja yleisenkielitieteenlaitos(TAY) . . . . 76B.21 Suomenkielenjaos(OY) . . . . . . . . . . . . . . . . . 78B.22 TAUCHI-tutkimusryhmä(TAY) . . . . . . . . . . . . . . 80B.23 TimehouseOy . . . . . . . . . . . . . . . . . . . . . . . 83B.24 Vieraidenkieltenlaitos(JOY) . . . . . . . . . . . . . . . 84
10 PuheentutkimuksenresurssitSuomessa
1 Johdanto
1.1 Puheentutkim uksen merkitys Suomelle
Globalisaatioyhdessätieto- ja viestintäteknologiankanssamuodostavat en-nennäkemättömänsuurenuhansuomenja muidenkotimaistenkielten ase-malle.Automaattiseenpuheentunnistukseenja puhesynteesiin(eli puhetek-nologiaan)perustuvat sovelluksetja palvelut yleistynevät lähivuosinaosaksiihmistenarkipäivää.Pientenkielten asemaon vaarassaheikentyäellei nii-denavulla voi käyttäämyösuusiapuheteknologiaanperustuviasovelluksiaja palveluita.
Kansainvälisetsuuryritykseteivät juurikaanhuolehdipientenkielten sovel-luksista,sillä niidenkeskinäisessäkilpailussaja markkinoidenturvaamisessaavainasemassaovat suuretja vauraatkielialueet, joiden puhujamäärätlas-ketaankymmenissämiljoonissa.Microsoftin kaltaisetjättiläisyrityksetovatporrastaneeteri kielille annettavan tuen tärkeysjärjestykseenmarkkinoidenkoon mukaan.Suomenkieli ei tällä listalla yllä kovinkaankorkealle sijal-le. Tuki pienille kielille voi kokonaanjäädätoteutumattatai aikataulutetaanhuomattavasti englanninkieltä myöhemmäksi.Kansainvälisetsuuryritykseteivätvälttämättäasetasamojavaatimuksiapientenkieltentuenlaadullekuinvaltakielille.Monetsuomalaisetovat jo nyt sopeutuneetkäyttämääntietoko-neohjelmienenglanninkielisiäversiota.Saako suomalainenpuheteknologiansovelluksenkäyttäjälähitulevaisuudessaasiansaparemminhoidetuksipuhu-malla huonoaenglantiakuin äidinkieltään?Tällainenkehitys uhkaisi koti-maistenkielten asemaaja johtaisi vanhempienja vähemmänkoulutettujenihmistensyrjäytymiseen.
Kotimaisten kielten puheteknologian saatavuuden takaaminen on siis tär-keä kansallinen tehtävä . Tavoitettaei kuitenkaansaavutetayksinkertaisestieikälyhytjänteisesti.Tehtävänvaativuusjohtuuennenkaikkeasiitä,ettäpu-he on erittäin monimutkainenja vaikea tutkimuskohde.Seuraavat tosiasiatsaattavatyllättäämaallikon:
! Puheon ääntä,muttaäänenfysikaalisistaominaisuuksistaei edespe-rinpohjaisillalaskennallisillamenetelmilläolenykyäänmahdollistatar-kastipäätellä,mitääänteitäsignaalissamissäkinkohdassaon.
! Ihminenvoi kokeaerilaisetfysikaalisetäänetsamaksiäänteeksi– ja
1. Johdanto 11
toisaaltasamafysikaalinenäänivoidaankokeaeri äänteiksi,jos sesi-joitetaankeinotekoisestiosaksierilaisiasanoja.
! Eri puhujientuottamatpuheäänetovat keskenäänerilaisiakutenmyössamankinpuhujaneri kerroilla tai eri sanojenosinatuottamatäänteet.
! Puhuttukieli eroaarakenteeltaanmerkittävästinormitetustakirjakie-lestä,erityisestilauserakenteenosalta.
Kotimaisten kielten puheteknologian saatavuus on tur vattava parantamal-la puheentutkim uksen edell ytyksiä sekä lyhyellä että pitkällä tähtäyksellä .Lyhyellätähtäykselläon tuettava vähintäänyhdensuuremmanpuheteknolo-giaankeskittyväntutkimusyksikönsyntymistä.Lisäksi tutkimusyksiköidenverkostoitumistaon tuettava yhteisillä tutkimushankkeilla ja koordinoimallatutkimusaineistojenkäyttöä.Pitemmällätähtäyksellätarvitaanpaljonlaajem-paaja pitkäjänteisempääperustutkimustapuhutunkielenolemuksenselvittä-miseksija kuvaamiseksi,jossaotetaanhuomioonhavainnotpuhutunkielenfysikaalisista,neuraalisista,kognitiivisista ja sosiaalisistapiirteistä.Pitem-mälläaikavälillä myöspuheentutkimukseenliittyvä opetusja tutkijakoulutusonorganisoitavauudelleen.
Maammeei voi heittäytyäpassiiviseksimuuallatehtäväntutkimuksenseu-raajaksi,vaanuusiainnovaatioitapitäisivoidaripeästisoveltaaomiin kieliin,silloinkin kunmenetelmätovatmuuallakeksittyjä.Maallammeontoki myösedellytyksiäviedätutkimustajoillakin sektoreillaeteenpäinkansainvälisesti-kin merkittävällätavalla.
Tämäkansallisenkulttuurin ja omintakeisuudenturvaamiseksikäynnistet-tävätoiminta loisi pohjaamyöskotimaisellepuheteknologiaanpanostavalleteollisuudelle,jokasaattaisihyvinkin noustamaallemmemerkittäväksivien-tialaksi.
1.2 Rapor tin tark oitus ja rakenne
Tällä raportillaonkaksitavoitetta:
! Kartoittaapuheentutkimuksennykytila ja kehittämistarpeetSuomessaerityisestitutkimusaineistojenosalta.
! Ehdottaatutkimusrahoittajilletoimenpiteitä,joilla puheentutkimuksenedellytyksiävoitaisiin parantaaSuomessa.
Raporttipyrkii kokoamaanyhteentietoajostaolisi hyötyäsekätutkijayhtei-sölleitselleenettätiedepolitiikanja tutkimusrahoituksenpäättäjille.Raportinnäkökulmaon painottunutniille puheentutkimuksenaloille, joissatietokan-noilla ja laskennallisillamenetelmilläon keskeinenasema.Painotusjohtuuesiselvityksenalullepanijan,CSC – TieteellinenlaskentaOy:n, toimenku-vastatukeaja edistäälaskennallistatiedettäSuomessa.
12 PuheentutkimuksenresurssitSuomessa
Raporttirakentuusiten,ettäluvun 2 tarkoituson perehdyttäälukija pääpiir-teissäänpuhutunkielenominaispiirteisiinsekäfysikaalisestaettäsosiaalises-tanäkökulmasta.Luvussa3 ja4esitetääntoimittajientiivistämässämuodossaasiantuntija-arvioidenja kyselyjentulokset.Viimeisessäluvussa5 esitetäänraportintoimittajien ja ohjausryhmänlaatimattoimenpide-ehdotukset.Liit-teisiinA ja B onkoottuasiantuntija-arviotja vastauksetkokonaisuudessaan.
2. Monimuotoinenpuhe 13
2 Monim uotoinen puhe
2.1 Fysikaalinen puhe
Puheei koostu toisiaanseuraavista helposti erotettavista yksiköistäkutenäänteistäja sanoista,vaanmonistatoisiinsahierarkisessasuhteessaolevis-ta tekijöistä.Puhetuotetaanerilaisinääntöelintenelein,jotka ovat ajallisestisekätoisiaanseuraavia ettäsamanaikaisia.Puheonjatkuvaafysiologisentoi-minnanaiheuttamaavirtaa,jonkayksiköt muodostuvat vastaaivoissamoni-mutkaistenkognitiivistenprosessienseurauksena.Kognitiivistenprosessiennäkymättömyysja näennäinenhelppousaiheuttaasen,ettäpuhettapidetäänjollakin tapaaitsestäänselvänäja helpostiohitettavanailmiönä.Seuraavansi-vunkuvahavainnollistaamitenvaikeastikielellisetyksikötovathavaittavissaäänisignaalista.
Puheentutkijoitalukuunottamattamonikaanei tule problematisoineeksisitä,ettäihminenvoi välittäätietoasisäisistätarpeistaanja ulkoisestaolemukses-taanorganisoimallaliikk eeseenilmanmolekyylejäkeuhkojenja suunavulla.Puheon monientapahtumienkoostamahierarkinenrakenne,joka tuotetaansuurellamäärälläerilaisiaajassatoisiaanseuraavilla ja toisaaltasamanaikai-silla eleillä. Tämärakenneon ainajonkinlaisessasuhteessakielelliseenra-kenteeseenja sisältöön,muttapuheja sensisältämäkielellinen viesti eivätkuitenkaanole yksi ja sama;puhesisältääyleensäpaljon lingvistisenkoo-din ulkopuolellejäävääinformaatiotamm. puhujanasenteista,tunnetiloistaja vaikkapaiästä,sukupuolestatai terveydentilasta.
Puhetapahtumassavoidaanyksinkertaistetustierottaaviisi erilaistavaihetta:puhujantarkoitus tai intentio, neuraalinenja fysiologinentoiminta puheentuottamisessa,ääniaalto,neuraalinenja fysiologinentoimintapuhetuotoksenvastaanottamisessasekäsanomanymmärtäminen.Toisaaltavoidaanpuhuasanomankielentämisestäja sanomantulkinnasta.Huomionarvoistaon, ettävain artikulaatioja senaikaansaamaääniaaltoeli puheenartikulatorisetjaakustisetaspektitovatpuheketjunhelpostihavainnoitavia osia.
Aivojentoimintapuheentuottamisessaja ymmärtämisessäon ollut metodo-logisestivaikeampitutkimuskohdekuin puheketjunartikulatorinenja akusti-nenvaihe.Jokatapauksessaonselvää,ettäakustisensignaalintulkitseminenonhyvin monimutkainenkognitiivinenprosessi,jossaonsekäkielellisiäettäkulttuurisidonnaisiaulottuvuuksia.
Puheenhavaitsemiseenliittyy ns. invarianssiongelma:puhe on akustisesti
14 PuheentutkimuksenresurssitSuomessa
Kuva2.1:Spektrogrammi,aaltomuotoja transkriptiolauseesta»tarkkakirur-gi varoonäköään».Sanat,äänteetja äänteidenkestoteivät erotusignaalistaselkeinäyksiköinä,esim.tarkka-sananpitkä [k] on samanpituinenkirurgi-sananensimmäisen[k]:n kanssaja toisaaltaensimmäinen[a] sanassatarkkaon toistayli kaksikertaapidempi.
2. Monimuotoinenpuhe 15
täynnävaihteluaja kielellisetyksiköt ovat useinfoneettisestihyvinkin puut-teellisestituotettuja.Silti kuulijat yleensätunnistavat erilaisetvariantit sa-maksi yksiköksi. Ilmeisestikuulija pystyy normalisoimaanpuhujanäänen,eli poistamaanäänenhavaitsemisprosessistavain puhujastaaiheutuvat omi-naisuudet.Toisaaltakontekstionainamukanapuheenhavaitsemisessa:ihmi-nenvoi aistiatietyn äänteen,vaikka sitä ei objektiivisestivoida havaitapu-hesignaalista.Kontekstinja normalisaationvaikutuspuheenhavaitsemisessaon hyvin monimutkainenkokonaisuus,ja on ilmeistä,ettäkoneeteivät vieläpitkäänaikaankykenehavaitsemaanja tunnistamaanpuhettaihmisentavoin.
2.2 Sosiaalinen puhe
Puhutunkielenomin esiintymäympäristöon kahdentai useammanhenkilönvälinenkeskustelu.Puhettaei voi viime kädessätulkita ymmärtämättäsenluonnettatoimintanaja erityisestiyhteistoimintana– niitä kulttuurisiaja so-siaalisiaehtoja(mukaanlukien institutionaalisetehdot),jotka ohjaavat tul-kintaavähintäänyhtäsuuressamäärinkuin aikasidonnaisuusja prosodiakin.Tästäsyystäpuheentutkiminenei voi pysähtyävain äänisignaalintai perät-täistensanojenyhteismerkityksentutkimiseen.
Puheenavulla kieliyhteisönjäsenettekevät ymmärrettäväksitarkoitusperi-ääntoisilleenja tulkitsevat toisiaan– hoitavat erilaisiaarjentehtäviäja toi-mintoja.Puheelääpuheenvuoroistakoostuvinakielellisinä tekoina ja niistäkoostuvinalaajempinatoimintakokonaisuuksina.Puheenolennainenosaonprosodia,ilman sitäpuhettaei ole.Kasvokkaisviestintäänkuuluuerottamat-tomastimyöspuheenja erilaisenei-kielellisenmerkityksenannonyhteispeli:puheensuhdekatseeseen,eleisiin,ilmeisiin, nauruunja hymyyn.Seuraavas-saon kaksi katkelmaaKelassatapahtuvan asumistukeakoskevan asioinninalusta:
Katkelma1."$#�%�&('()�%�*�%,+,)�- .0/21�34&�5�3�67 8 ":9<;0= 8�8>4? %0)�'�) ? % ? 1�@�@01�@�@0=�=A >4? %,)�'() ? - B0*�%�'�CD%�E0)�FG1,/ ? 1�) 8 ":9H;0=I) ? @�J�% ? 1�@03 ? 1�)K9LF�/4&MJ�)�)�*,% ? 1�)�9ONP N�1KQH@,*�%�FI'�R ? R�S�R�FT9U #�%�&('()�%�*�%,+,)�- Q V�/�/�W(/�X�SY 8[Z 9\,=;$#�%�&('()�%�*�%,+,)�- ]�%,3�^ 8�Z 9H;0=_J�%�'(C ?I? @,*G/�F_1�%�*,)�F,F03_1�C�*�*0C`E�3�1�'�3�*,*,C 8[Z 9H;�=\ 1,/�%�J�3�3�F01�@,*0/�1�%,*,)�F�F03K6
Katkelma2."$#�%�&('()�%�*�%,+,)�- .0/aF,%�%�FIE03�%K67 >4? %,)�'() ? - b,3�%:6c1�@�/�1�)D*,) ? '�3�1�1�3�'(/_10R�d2)4&�5�%0/�%(5�)�W 8[Z 9 Y =A ) ? @(J�% ? 1�@�'0%K9P 8 ":9 Z =U #�%�&('()�%�*�%,+,)�- >4? @(J�% ? 1�@�3 ? 1�)�6ONY >4? %,)�'() ? - N�.�%,%I3,1 ? )�% ?I? 3,J�J�/ ? 3�Fe)4&�5�%0/�Fe3�1�1,C 8[Z 9 U =GJ�%�'(C ? 3; 1�@TQ<*,3�3 ? %,1�1,3G/�*,3,J�)�S,)�F:6\f#�%�&('()�%�*�%,+,)�- Q V�/,/�W(/g6<Sh #�%�&('()�%�*�%,+,)�- i(R�*:-<*,C�E0C�FjJ�3�%�*�*0CG/�F:6" Z 8[Z 9\,=
16 PuheentutkimuksenresurssitSuomessa
"�"f#�%�&('�)�%,*�%,+�)�- k�%�F�'�C ? *,)�%�F�3�F:-�-l) ? @�F�1,/,^ 8[Z 9<;0=_J�%�F�'�C ? *,)�% ? 1�)" 7 ) ? @�J�% ? 1�@�'�'(3�3�6mN�J�%�'�C ? @�FeJg-�-,6
Puhetulkitaansuhteessasekäkielelliseenettäei-kielelliseenesiintymäkon-tekstiinsa.Puheenvuoro (ja sensisältämätkielelliset ainekset)tuotetaanai-na tietyssäkontekstissa,ja se ymmärretäänpuhekumppaninedellisenpu-heenvuoron ja yhteisenlaajemmanmeneilläänolevan toimintakokonaisuu-den luomaataustaavasten.Niinpä katkelman1 virkailija ilmaiseerivin 5vuorollaan»Joo-o?»ymmärtäneensäasiakkaanasianennenkuin tämäonpäässytkäynninsyynkertomisensaloppuun,kun taaskatkelmassa2 rivin 4hiljaisuusja virkailijan rivillä 5 esittämätoistoilmaisevatasiakkaankäynninsyynolevanvirkailijalle vielä epäselvä.
Vuorovaikutuksenrakentumisenja etenemisenperuspilareitaovat vuorotte-lu eli puheenvuorojensiirtyminen puhujaltatoiselle, puheenjäsentyminenpuheenvuoroalaajemmiksikokonaisuuksiksi(sekvensseiksi)ja keinot,joillapuhujaja vastaanottajakäsittelevätpuheentuottamisessa,vastaanottamisessaja ymmärtämisessäesiintyviäongelmia.Vuorotteluaanalysoitaessakiinnite-täänhuomiotapoihin,joilla puheenvuorot vaihtuvat puhujaltatoiselle:mil-loin ja mitenvaikkapapalvelupuhelimeensoittavaasiakasonosoittanutsoit-tonsasyynpäättyneeksi;vastaako lääkärinvastaanotollaoleva potilaslääkä-rin kysymykseenhetivai esimerkiksivastamahdollistaongelmaailmaisevanhiljaisuudenjälkeen.
Monienpuhutunkielenrakennepiirteidenvoi nähdämuotoutuneennimeno-maanihmistenvälistäsosiaalistavuorovaikutustapalvelemaan.Niinpä esi-merkiksierilaisinavastauksinatoimivilla puheenvuoroillaonuseinomanlai-sensa,ei-lausemainenrakenne.Toisaaltapuheenajassaetenevä, tietylle vas-taanottajallemuotoiltu luonnenäkyy esimerkiksierilaisinasyntaktisenra-kenteenkorjaus-,täydennys-,toisto-ja limittymisilmiöinä, joilla voidaanha-keavastaanottajaltatietynlaistareaktiotatai estääkumppaniaottamastapu-heenvuoroajossakintietyssäkohdin.Erilaisetlauseytimenulkopuolellejää-vät partikkelit puolestaanovat keskeisiäpuheenvuorontoimintaluonteenil-maisemisessa.Erirakenteistenkieltenkäyttämienvuorovaikutuskeinojenero-jen ja yhtäläisyyksienselvittäminenon parhaillaanyksi puhutunkielen tut-kimuksenkeskeisalueita.
3. Asiantuntija-arvioidentiivistelmä 17
3 Asiantuntija-ar vioidentiivistelmä
Varsinaisenkyselynohellapyydettiin kuudeltapuheentutkimukseneri alanasiantuntijaltalyhyitä asiantuntija-arvioitatutkimusalansanykytilasta,tule-vaisuudennäkymistäja kehittämistarpeista.Arvioita pyydettiin neurotieteel-lisen puheentutkimuksen(Mikk o Sams ja Matti Laine), dialogin ja vuo-rovaikutuksentutkimuksen(Lauri Carlson), fonetiikantutkimuksen(KariSuomi), puheentunnistuksentutkimuksen(Unto K. Laine), puhesynteesintutkimuksen(Martti Vainio) ja puhetietokantojenkehitystyön(Matti Kar -jalainen) alalta.Asiantuntija-arviotkokonaisuudessaanlöytyvät tämänra-portin liitteestäA. Alla on toimittajientekemäyhteenvetoarvioista.
3.1 Tutkim uksen nykytila
Perustutkimuksentuomatietämyspuheenluonteestaja inhimillisestäkom-munikaatiostaonmoniltaosinriittämätöntä.Ääntöelimistöneri osientoimin-taperiaatteetja osuuspuheentuottamisessatunnetaanpääpiirteissään,muttamonetyksityiskohdatja osientoimintakokonaisuutenatunnetaanvieläpuut-teellisesti.
Yksi suurimmistamysteereistäon miten ihmisaivot pystyvät tunnistamaanpuhettaniin nopeastija vaivattomasti.Moderneillaaivojenkuvantamismene-telmillä on saatutärkeitä alustavia tuloksiasiitä miten ihmisaivot käsittele-vätkieltä.Aivotutkimuksenresurssitja metodivalikoimaovatSuomessaerin-omaisellatasolla,muttametodiikanlisäksitarvitaanvälttämättälisääteoreet-tista työtäaiempaaosuvimpientutkimuskysymystenja -asetelmienmuotoi-lemiseksi.
Puheteknologiantutkimuson tällä hetkellä keskittynyt lyhyen aikavälin ta-voitetutkimukseenja tunnettujenmenetelmiensoveltamiseen.Pienensanas-tonpuhujastariippumattomatpuheentunnistimetovat jo kaupallisellaasteel-la. Pisimmälläollaanenglanninkielenpuheentunnistuksessa.Suurensanas-tonpuhujastariippumatontunnistusonkuitenkinedelleenkaukainentavoite.Puhesynteesionmyöskehittynyt hyödyllistensovellustenasteelle.Luonnol-lisenkuuloistasynteettistäpuhettatuottavaunit-selection-synteesimenetelmäei kuitenkaanolekovin joustava.
Viime aikoinapuheteknologiantutkijat ovatalkaneetyhäenenevässämäärin
18 PuheentutkimuksenresurssitSuomessa
kiinnostualuonnollisestakeskustelusta,eleidenja prosodiansekävisuaaliseninformaationmerkityksestäpuheessa.Tätäkauttapuheteknologiantutkimuson lähentymässähumanistis-yhteiskuntatieteellisenpuheentutkimusta,jon-ka piirissäon tutkittu empiirisestiluonnollistakeskustelua1970-luvultaläh-tien.Luonnollisenkeskusteluntutkimusaineistojenkeruuonerittäintyölästäja vaikeaa,jotenlaajojatai kvantitatiivisia tuloksiaei olevielä esitetty.
3.2 Tulevaisuudennäkymät
Puheteknologianalalla tullaanlähivuosinanäkemääntodennäköisestiasteit-taistalaadunparanemista,muttamerkittäviäharppauksiaei ole näköpiiris-sä.Lähitulevaisuudenuudetperustutkimuksellisettuloksetliittynevätpuheenprosessoinninpsykologistenmallientarkentumiseensekävanhojenpsykolo-gistenja lingvististenperusolettamustenja teorioidenuudelleenarviointiin.Merkittäviäinnovaatioitaei voi syntyäilmanmittavaapanostustamonitietei-seenperustutkimukseen,jossayhdistetäänkielitieteen,foneetiikan,psyko-logian, neurologian,matemaattisenmallintamisenja aivokuvannuksenosa-alueidenasiantuntemus.
3.3 Puhetietokannat
Puhetietokannoistaon tullut yhäolennaisempiapuvälineniin puheenperus-tutkimuksellekuin puheteknologiankehitystyöllekin.Tutkimusrahoituksenjärjestäminenpuhetietokantojenkehitystyöhönon kuitenkin vaikeaa,koskarahoittajatovat haluttomiamaksamaantutkimuksenapuvälineistäja infra-struktuurista.Puhetietokantojenkehitystyöonuseinhidasta,työlästäja tark-kuuttavaativaa.
Tulevaisuudessaolisi toivottavaapäästäeroonnykyistenpuhetietokantojenkäyttöähaittaavastayhteensopimattomientallenne-ja esitysformaattienkir-jostaja siirtyäyhtenäiseen,mielelläänkansainväliseenstandardiin.Tietokan-tojen käsittelyävartentarvitaanmyöshelppokäyttöisempiäpuhetietokanta-järjestelmiä,joilla voisi käsitellämyösaudiovisuaalistamateriaalia.
Korkealuokkaistasuomenkielistämateriaaliaon puhetietokannoissatoistai-seksiliian vähän.Suomenkielisenpuhetietokannankehittäminenon tärkeääsekäkulttuurisistaettäteknisistäsyistä,vaikkasuomion tieteenja teknolo-gianmaailmassamarginaalinentekijä.
4. Vastaustenanalyysi 19
4 Vastausten analyysi
Esiselvitystävartenlaadittiin kyselylomake, joka lähetettiin44:äänpuhettatutkivaantutkimusyksikköönja yritykseen.Vastauksiapalautettiinyhteensä24, joista 19 edustierilaisiayliopistollisia tutkimusyksikköjäja 4 yrityksiä.Lisäksi kyselyynvastasiNäkövammaistenkeskusliitto,jonka mittava ääni-kirjasto on merkittäväpotentiaalinenpuheentutkimuksentutkimusaineisto.Kyselynkohderyhmäoli pieni ja saadutvastauksetnoudattavat kysymyslo-makettavapaamuotoisesti,joten vastauksetesitetäänalla toimittajien tiivis-tämänä.Täydellisetvastauksetlöytyvät liitteestäB.
4.1 Yhteenveto
Puhettatutkitaan Suomessapienissämuutamanhengentutkimusryhmissäeri puolilla maata.Yliopistojentulosohjausja ulkopuolisenrahoituksenkas-vu näkyy erityisen selvästiperustutkimuksenvirkojen lakkauttamisenajapuheteknologiantavoitetutkimuksenlisääntymisenä.Puheteknologiantutki-musperustuulähestäysinulkopuoliseenrahoitukseen.Yksiköt ovat verkot-tuneetmelko heikosti keskenään.Aivanviime vuosinapuheteknologiantut-kijat ovat alkaneetverkottuaTekesinUSIX-teknologiaohjelmanja kielitek-nologianopetusverkoston1 myötä.Kieliteknologianopetusverkosto tarjoaamyösmonipuolistaopetustapuheteknologianalalla.Humanistis-yhteiskun-tatieteellinenpuheentutkimuson verkostoitunutkeskustelunanalyysinja so-siolingvistiikan ympärille. Puheteknologiantutkimus ja humanistis-yhteis-kuntatieteellinenpuheentutkimuseivät ole toistaiseksiverkottuneetkeske-nään.
Kyselyynvastanneidentutkimusyksiköidenkäytössäolevat tutkimusaineis-tot ovat hyvin erilaisia ja niiden yhteiskäyttöei useinkaanole mahdollis-ta. Tutkimusaineistojenyhteiskäyttöärajoittavat yhtäältätutkimustavoittei-denerilaisuus,toisaaltaaineistojenkäyttöönliittyvät teknisetja juridiseton-gelmat.Teknisiä ja juridisia ongelmiapitäisi kiireellisesti ryhtyä ratkaise-maanyhteistenstandardienja suositustenavulla. Pitemmälläaikavälillä onodotettavissaettäeri tutkimustraditiotlähenevät toisiaan,erityisestiluonnol-lisen keskusteluntutkimuksessa,jolloin tutkimustavoitteidenerilaisuudestajohtuvatongelmattulevatvähenemään.
1 E�1�1�n:-mo,o�p�p�pq9*�%�F0r�9<E�3�* ? %�F�'�%K9ts�%�o�'0%�3�*�%01,3�',F�/�*0/�r,%,)�o,5�3�&('u/ ? 10/
20 PuheentutkimuksenresurssitSuomessa
Kyselynvastauksetonluokiteltuallatutkimusalueittainviiteenryhmään:pu-heentuottamisenja havaitsemisenperustutkimukseen,puheteknologiantut-kimukseen,kielellisenvuorovaikutuksenja puhekielentutkimukseen,dialo-gin ja vuorovaikutuksentutkimukseensekäkaupallisenpuheteknologiantut-kimukseen.On selvää,ettäluokittelu ei ole ainoamahdollinenja ettäkaik-ki tutkimusyksikötja tutkimusaiheeteivät sovi yksiselitteisestiminkäänyh-denkategorianalle.Luokituksenainoatarkoitusonkinhelpottaalukijaahah-mottamaanparemminsuomalaisenpuheentutkimuksenkenttäkokonaisuu-dessaan.
4.2 Puheen tuottamisen ja havaitsemisen perustutkim us
Puheentuottamisenja havaitsemisenperustutkimuksellatarkoitetaantutki-musta,jonka tavoitteenaon löytää ja selittääuusiatosiasioitapuheenbio-logisesta,neuraalisesta,akustisestaja auditiivisestaperustasta.Tutkimusonluontaisestimonitieteistäja läheisessäsuhteessasoveltavaankliiniseenja pu-heteknologiseentutkimukseen.
Kyselyynvastanneistaperustutkimustaedustavat Helsinginyliopiston fone-tiikan laitoksella tehtävävokaalitutkimus,prosodiantutkimus sekälapsenäänteellisenkehityksentutkimus(ks.48), Turunyliopistonfonetiikanoppia-neentekemävokaalijärjestelmienvertaileva tutkimusja foneettistenproses-sienbiologisenperustantutkimus(ks. 51), Teknillisenkorkeakoulunkogni-tiivisentieteenja teknologiantutkimusryhmässätehtävävisuaalisenpuheenhavaitsemisenneurokognitiivistenmekanismientutkimus(ks. 54), Jyväsky-län yliopiston suomenkielen laitoksenharjoittamasuomenkielen omaksu-misenja dysleksiantutkimus(ks. 71), Tampereenyliopistonsuomenkielenja yleisenkielitieteenlaitoksellaharjoitettavalapsenkielenomaksumisentut-kimus (ks. 76), Joensuunyliopistonvieraidenkielten laitoksellaharjoitetta-va puheenprosodistenilmiöiden mallintamisentutkimus(ks.84) sekäKoti-maistenkieltentutkimuskeskuksessaharjoitettava suomenmurteidenproso-diikan tutkimus(ks.56).
Monet lähtökohdiltaansoveltavat tieteenalatja tutkimushankkeetlähestyvätperustutkimuksenkysymyksenasetteluja.Toisaaltasoveltava tutkimus tuot-taauseinperustutkimustaedistäviähavaintojaja menetelmiä.Tämäntyyppi-seentutkimukseenvoidaanvastaajistalukeaTampereenyliopistonpuheopinlaitoksellatehtäväpuheteknistennormienja äänenlaaduntutkimus(ks. 64),Teknillisenkorkeakoulunakustiikanja äänenkäsittelytekniikanlaboratorios-saharjoitettava ihmisenpuheentuottomekanismienlaskennallinenmallinnussekäpuheteknologiaanliittyvien kognitiivistentekijöidentutkimus(ks. 40)sekäOulunyliopistonMediaTeam-tutkimusryhmässäharjoitettava puheen-aiheidenpuhujantunnetilojenidentifioinnintutkimus(ks.59).
Perustutkimuksentutkimusongelmatasettavat tutkimusaineistolleuseinvaa-timuksia,joihin olemassaolevataineistoteivätvoi vastata.Perustutkimuksentutkimusaineistoton useinkoottava kunkin tutkimuskysymyksenedellyttä-mällätavalla.Tästäsyystäolisi tärkeää,ettäperustutkimuksenrahoituksessaotettaisiinhuomioonmyösuusientutkimusaineistojenkokoaminen.
4. Vastaustenanalyysi 21
Tässäraportissamainituistatutkimusaineistoistayleiskäyttöisimmätpuheenperustutkimukseensoveltuvat aineistotlienevät suomenkielinenpuhetieto-kanta(ks. 49) ja mittava puheopinlaitoksenäänitearkisto(ks. 67). Uuden-tyyppinenmerkittäväaineistoonTeknillisenkorkeakoulunkognitiivisentie-teenja teknologiantutkimusryhmänkeräämäaudiovisuaalinenpuhetietokan-ta (ks.55).
4.3 Puheteknologian tutkim us
Puheteknologiantutkimuksellatarkoitetaanpuhettakäsitteleväntekniikantie-teellistätutkimustasekäsiihenliittyvien matemaattistenja tietoteknistenme-netelmienkehittämistä.Perinteisestipuheteknologiaaon tutkittu teknillisis-säkorkeakouluissaosanasignaalinkäsittelyn,neurolaskennantai tietoteknii-kantutkimusta,muttanykyäänyhäuseamminmyösfonetiikanja kielitekno-logianpiirissä.Tekesinvuonna1999käynnistämälläUSIX-teknologiaohjel-mallajavuonna2001käynnistyneelläkieliteknologianopetuksenverkostollaonhuomattavavaikutusalanverkostoitumiseenja monitieteistymiseen.Tois-taiseksikuitenkin dialogin ja puheenvariaationtutkimuson jäänyt verkos-tojenulkopuolelle.Keskeisetpuheteknologiantutkimuskohteetovatpuheen-koodaus,puheentunnistus,puhujantunnistus,puhesynteesi,tiedonhakupu-hedatasta,dialogijärjestelmätja puhetietokantojenkehitystyö.
Puheteknologiantutkimustaedustavatvastanneista:
! Teknillisenkorkeakoulunakustiikanja äänenkäsittelytekniikanlabora-toriossaharjoitettavapuhesynteesiin,puheentunnistuksenja puhetieto-kantatekniikantutkimus.QuickSig-puhetietokantajärjestelmääja suo-menkielenpuhetietokantaalaboratorioonkehittänyt yhteistyössäHel-singinyliopistonfonetiikanlaitoksenkanssa.Viimeksimainitunkehit-tämiseenosallistuunykyäänmyösJoensuunyliopistonvieraidenkiel-tenlaitos.
! USIX-ohjelmaankuuluvasuomenkielisenpuheteknologianyhteishan-ke (ks. 84) osahankkeineen(puhesynteesi,puhujantunnistusja suo-menkielenpuhetietokannanlaajentaminen).HankettakoordinoiJoen-suunyliopistonvieraidenkieltenlaitosja siihenosallistuvatmyösHel-singinyliopiston fonetiikanlaitos ja Helsinginyliopistonyleisenkie-litieteenlaitos.
! Tampereenteknillisenkorkeakoulundigitaali-ja tietokonetekniikanlai-toksentutkimushankkeet,joissatutkitaanmonikielistäpuheentunnis-tusta,matalanbittinopeudenpuheenkoodaustasekäääniportaalinke-hittämistä(ks.43).
! Tampereenteknillisen korkeakoulun Digitaalisenmedianinstituutintutkimusprojektit,joissakehitetäänmonikielistäpuheentunnistustate-lepalveluita vartensekäpuheentunnistustatiedonhauntarpeisiin(ks.45).
22 PuheentutkimuksenresurssitSuomessa
! Teknillisenkorkeakoulunneuroverkkojentutkimusyksikössäharjoitet-tavapuheentunnistusalgoritmienjadialogijärjestelmientutkimusjake-hitystyö(ks.61).
! Tampereenyliopiston TAUCHI-tutkimusryhmässätehtäväadaptiivis-tenpuhekäyttöliittymienkehitysja multimodaalisenihmisenja koneenvälisenvuorovaikutuksentutkimus(ks.80).
Raportissamainitutpuheteknologiantutkimusaineistotonkoottuallaolevaantaulukkoon.Monetpuheteknologiantutkijat tarvitsisivatlaajempiaja tarkem-min annotoitujaaineistoja,joihin sisältyisimyösluonnollistakeskustelua.
Aineiston nimi Lisätietoa sivulla
Suomenkielinenpuhetietokanta 49Lingsoft FinnishSpeechDatabase 59SpeechDatII 46Audiovisuaalinenpuhetietokanta 55Suomenvokaalit 50Puhuvasuomenkielensanakirja 50Karjalainen-puhekorpus 85MediaTeaminpuheaineisto 60Neuroverkkojentutkimusyksikönpuhetietokanta 61TAUCHI:n puheenvuoroaineistot 81
4.4 Puhekielen ja kielellisen variaation tutkim us
Puhekielenja kielellisenvariaationtutkimustarkoittaapuheenalueellisenjasosiaalisenvaihtelunkuvaamistaja selittämistä.Tutkimus on luonteeltaanperustutkimustaja sitäharjoitetaanlähinnähumanistisenkielentutkimuksenosanasosiolingvistiikanja murteentutkimuksenmenetelmin.
Alan merkittäväkeskusSuomessaonTampereenyliopistonsuomenkielenjayleisenkielitieteenlaitos(ks.76), jokavastaasosiolingvistiikantutkimuksenja opetuksenkehittämisestävaltakunnallisesti.Laitoksessatutkitaan myössuomenkielenfonetiikkaaja pragmatiikkaa.Muita puhekielenja kielellisenvariaationtutkimuslaitoksiaovatvastaajistaKotimaistenkieltentutkimuskes-kus (ks. 56), Turun yliopiston suomalaisenja yleisenkielitieteenlaitos (ks.73), Joensuunyliopistonsuomenkielenja kulttuuritieteidenlaitos(ks.75) jaOulunyliopistonsuomenkielenjaos(ks.78).
Puhekielenja kielellisenvariaationtutkijoilla on useitalaajojanauhoitear-kistoja, joilla on sekätutkimuksellistaettäkulttuurihistoriallistamerkitystä.Moniennauhoitearkistojenhistoriaulottuuyli 40 vuodenpäähänja vanhim-matnauhoitteetolisi tärkeäpelastaatuhoutumiselta.Toistaiseksivain hyvinpieni osanauhoitteistaon digitaalisessamuodossa.Huolellisesti toteutettuaineistojendigitointi laajentaisimerkittävästiniidenkäyttömahdollisuuksia,vaikkaäänitteidenlaatuei useimmissatapauksissariitä akustisenanalyysintarpeisiin.Digitoinnin suunnittelussaja toteutuksessaolisi suurtahyötyäyh-teisistästandardeistaja teknisimminsuuntautuneidenpuheentutkijoidentie-totaidosta.
4. Vastaustenanalyysi 23
Alla olevaantaulukkoonon kootturaportissamainitutpuhekielenja kielelli-senvariaationtutkimuksentutkimusaineistot.
Aineiston nimi Lisätietoa sivulla
Tampereenpuhekieli 77Tampereenmuuttujatutkimus 77Sanastoja maailmankuva-aineisto 77Virtain aineisto 77Meänkielenaineisto 77PekkaLehtimäenaineisto 78KlausLaalonaineisto 78EsaLehtisenaineisto 78Suomenkielennauhoitearkisto 57Suomenkielenäänitearkisto 73Lauseopinarkisto 74Oulunnauhoitearkisto 78
4.5 Dialogin ja kielellisen vuor ovaikutuksen tutkim us
Dialogin ja kielellisenvuorovaikutuksentutkimuspyrkii selvittämäänluon-nollisen arkikeskustelunlainalaisuuksia,vuorovaikutuksenkielioppia. Eni-ten dialogiaja kielellistä vuorovaikutustatutkitaanhumanististenja yhteis-kuntatieteidenpiirissäkeskustelunanalyyttisellämenetelmällä.Toisaaltamyösteknistentieteidenpiirissä on herännyt yhä enenevässämäärin kiinnostusluonnolliseendialogiinpuhekäyttöliittymiäja dialogijärjestelmiäkehitettäes-sä.Toistaiseksinäidentieteenalojenvälille ei kuitenkaanolesyntynyt yhteis-työtä. Humanistis-yhteiskuntatieteelliselläpuolella tutkimuson keskittynyterityisesti institutionaalistenvuorovaikutustilanteidentutkimukseen.Tutki-musalanympärilleonsyntynyt Tampereenyliopiston,HelsinginyliopistonjaKotimaistenkielten tutkimuskeskuksenyhteishanke, Institutionaalisenvuo-rovaikutuksentutkimusyksikkö(ks.53).
Tekniselläpuolellavuorovaikutustatutkitaanosanadialogijärjestelmiä,joil-la pyritäänparantamaanihmisenja koneenvälistävuorovaikutusta.Dialo-gijärjestelmiin liittyvää tutkimustaharjoitetaanmm. TampereenyliopistonTAUCHI-ryhmässä(ks. 80), Tampereenteknillisenkorkeakoulun Digitaali-senmedianinstituutissa(ks. 45) sekäTeknillisenkorkeakoulunneuroverko-jentutkimusyksikössäosanaUSIX-ohjelmaankuuluvaaINTERACT-hanket-ta (ks.61).
Institutionaalisenvuorovaikutuksentutkimusyksikköon koonnuttutkimus-projektienyhteydessämerkittäviäaudio- ja videoaineistojalitterointeineen,jotka koostuvat aidoistavuorovaikutustilanteista.Aineistoaon useitakym-meniä tunteja,mutta aineistoteivät ole arkaluonteisuudenvuoksi muidenkäytettävissä.Humanistis-yhteiskuntatieteellisetvariaationtutkijatovat pää-osintyytyväisiänykyisiin aineistoihinsa,joskineräilläosa-alueillakutenpro-sodiananalysoinnissapidettiin toivottavanaläheisempääyhteistyötäfonee-tikkojenkanssa.
Raportissamainitutdialoginja kielellisenvuorovaikutuksentutkimuksentut-kimusaineistotonkoottuallaolevaantaulukkoon.
24 PuheentutkimuksenresurssitSuomessa
Aineiston nimi Lisätietoa sivulla
Hoitoideologiat-aineisto 53Mini-interventio-aineisto 53Psykoanalyysi-aineisto 53Keskusteluntutkimuksenarkisto(HY) 70AsiointitilanteetKelassa(Kotus) 56TAUCHI-ryhmändialogiaineisto 81
4.6 Kaupallinen puheteknologian tutkim us
Kaupallinenpuheteknologiantutkimuskehittääloppukäyttäjilletarkoitettujapuheteknologiaanperustuviatuotteitaja palveluita.Puheteknologiansovel-luksilla on erittäinmerkittäväkaupallinenpotentiaali,sillä esimerkiksimat-kapuhelimienmaailmanlaajuinenkäyttäjäkuntaonsuuri.
VastaajistakaupallistapuheteknologiaaedustaaLingsoft Oy (ks. 58), Time-houseOy (ks.83), Nokiantutkimuskeskus(ks.62) ja Elisantutkimuskeskus(ks.47).
5. Toimenpide-ehdotukset 25
5 Toimenpide-ehdotukset
Puhettatutkitaaneri puolellaSuomeapienissämuutamanhengentutkimus-ryhmissä.Yhteiskunnanmuutosja teknologisoituminenovatluoneetpuheen-tutkimukselleuusiatehtäviä,joihin vanhatrakenteeteivätpysty vastaamaan.Puheentutkimusyksiköidenmaantieteellinenja tieteenalakohtaineneristynei-syyssekäyksiköidenpieni koko haittaavatmerkittävästipuheentutkimuksenedistymistäSuomessa.
Tutkimuksenrahoittajatvoisivat parantaapuheentutkimuksenedellytyksiäSuomessatukemalla:
! vähintäänyhdenyli 20 tutkijan kokoisenyksikön syntymistä,jonkatutkimuksellaonselväpainopistealue
! tutkimushankkeita,joissaluodaansiltojaeri puheentutkimuksenaluei-den, erityisestihumanistisenpuheentutkimuksenja puheteknologiantutkijoidenvälille
! puheentutkimukseneri alueidenverkostoitumista
! tutkimusaineistojenkokoamistaja käyttöäkoskevien yhteistenstan-dardienja pelisääntöjenlaatimista
! olemassaolevientutkimusaineistojenkäytönkoordinointia
! pitkänaikavälin monitieteistäperustutkimustapuhutunkielenolemuk-senselvittämiseksi
! perus-ja jatkokoulutuksenuudelleenorganisointiamonitieteiseensuun-taan
Liitteet
A. Asiantuntija-arviot 27
A Asiantuntija-ar viot
Neurotieteellinen puheentutkim usMikk o Sams (TKK) ja Matti Laine (ÅA)
Mitä aivojentoiminnastapuheentuottamisessaja havaitsemisessatiedetääntällä hetkellä?
Puheenhavaitseminenperustuusekäkuulon että näönvälityksellä saadunpuhesignaalinprosessointiin.Suurinosapuheentutkimuksestaon tähänastikeskittynyt akustiseenpuheeseenja vastaviime aikoina visuaalisenpuheentärkeämerkitysonoivallettu.Tämänseurauksenamm.akustisenja visuaali-senpuheenintegraatiomekanismientutkimuson lisääntynyt. Puheenhavait-semisessaon keskeinenrooli myössiihenliittyville eleillä, joiden roolia japrosessointiatunnetaanvielähyvin vähän.
Moderneillaaivojen kuvantamismenetelmilläon voitu osoittaa,ettäpuhettaprosessoitaessaaktivoituu laajahermoverkosto,jokavaihteleetilanne-ja yk-silökohtaistentekijöidenmukaan.Puheenprosessointiinliittyy siis massiivi-sia,osinajallis-paikallisestieriytyneitäja osinsamanaikaisiaaivoaktivaatioi-ta.Aivovauriotutkimuksetovat osoittaneet,ettätietyt vasemmanaivopuolis-kon alueetovat aikuisilla kielenkäyttäjilläkriittisiä puheenja kielenproses-soinninkannalta.Tämäkoskeesekäpuhuttuaettäviitottuakieltä,eli »kielenydin» on jotainmuutakuin siihenkäytetytaistikanavat.Vasemmanaivopuo-liskon alueidensisälläon myöstoiminnallistaerikoistumistaEräätpotilasta-pauksetviittaavat siihen,ettäkielenrakenteellisillakategorioilla on yhteyttäaivojen järjestäytymiseen(esim.merkitysjärjestelmä,syntaksi,sanojenään-teellisetja kirjoitetut hahmot).Puheenja kielen vahvasti vuorovaikutuksel-lista luonnettakuvaavat tulokset,joiden mukaanlukutaidonomaksuminenmuuntaaaivojentapaakäsitellääännetasonkielellistä(fonologista)tietoa.
Mitä uusiatuloksiaonodotettavissaseuraavanviidenvuodenaikana?
Tietokoneilla tapahtuvan mallintamisenkehittymisenmyötätulevat puheenprosessoinninpsykologisetmallit aiempaayksityiskohtaisemmiksija dynaa-misemmiksi.Eräätsimulaatioihinpohjautuvatteoreettisettuloksetovatjo ky-seenalaistamassasekäkognitiivisenneuropsykologianperusolettamuksiaet-tä ns.nativistista(sisäsyntyistä)näkökulmaapuheenja kielen olemukseen.Teoriakehityksenmyötävoidaanpuheenkehittymisenja senhäiriöidenai-votaustansuhteenasettaatutkimuksessaaiempaatarkempiakysymyksiäjaetsiäniihin vastaustamm. kuvantamistekniikoilla. Kuvantamistutkimukset
28 PuheentutkimuksenresurssitSuomessa
ovat vielä pioneerivaiheessaeikä ko. metodienja niiden yhdistelmienpo-tentiaalistaole vielä selvyyttä.Näillä metodeillaluodaanlähinnä»yleiskart-taa»aivostollisistatapahtumistapuheenprosessoinninyhteydessä.Tarkem-paananalyysiinpyrittäessätarvittaisiin myösyksi- ja monisolurekisteröin-tejä, mutta näitä voidaanluonnollisestikintehdäihmisillä vain erittäin ra-joitetussamäärin,eräidenneurologistenpotilaidenkirurgistenhoitotoimienyhteydessä.
Eräspuheenprosessointimekanismientutkimuksenkannaltatärkeäuusi tut-kimustulosonollut »peilineuronien»löytämineneläintenja ihmistenaivojeneri osista.Nämäneuronitaktivoituvat liikk eitäsuoritettaessaja hyvin samal-la tavoin silloin kunorganismihavaitseetoisenorganisminsuorittavansamaaliik että.Tällaisetpeilineuronitvoivat osoittautuatärkeiksi puheenhavaitse-misessa,ja luovat myöslinkin puheenhavaitsemisenja tuottamisenvälille.On esimerkiksivoitu näyttää,ettäomanpuheenaikanapuhujankuuloaivo-kuorentoimintamuokkautuugeneroidunpuheenmukaisesti.Puheeseenliit-tyvät sensoris-motorisetinteraktiot tulevatkin olemaantärkeätutkimuskoh-de.
Mitkä ovat suurimmataukot tiedossaaivojentoiminnastapuheentuottami-sessaja havaitsemissa?
Suurimpiinhaasteisiinkuuluvatseuraavatkysymykset:
1. Mihin perustuuse,ettäpuheja kieli on tuntemassammemuodossaai-noastaanihmisenominaisuus?Onko ihmisaivoissasisäsyntyinenkie-likyky vai perustuuko se ihmisaivojen ylivoimaiseenlaskennalliseentehoon?Millaisia geneettisiälinkkejä liittyy puhekykyyn ja senkehi-tyksenhäiriöihin?Mihin neuraalisiinjärjestelmiineläintenkommuni-kointikyvyt perustuvat?
2. Puheenymmärtäminenja tuottaminentapahtuunormaalistierittäinno-peastija vaivattomastivaikka tehtäväon osoittautunuterittäinhanka-laksi koneellisellepuheentunnistuksellepuhesignaalinsuurenvaihte-lun takia. Puheentunnistusvaatii hyvin vaihtelevan signaalinvertaa-mistakielellisiin muistiedustumiin.Miten vertaistaminentapahtuujamitennämämuistiedustumatovat järjestäytyneetaivoissa?Tarvitaan-ko jonkinlaistanormalisointia?
3. Puheenja kielenoppimiseenliittyy selvästikintietty »herkkyyskausi»,jonkajälkeenkielentai kieltentäydellinenomaksuminenmuuttuuhan-kalaksi.Mihin aivostollisiin kehitysprosesseihintämäherkkyyskausiliittyy? Miksi sekoskettaaenemmäntiettyjä kielen osa-alueita?Laa-jasti määritellenon suurinosaihmiskunnastakaksikielisiä.Mitkä ai-vostollisettapahtumatliittyvät useammankuin yhdenkielen oppimi-seenja hallintaan?
4. Mikä onpuheennäkemisenosuuskielenymmärtämisessäja mihin me-kanismeihinseperustuu?Onko »puheennäkemisellä»merkitystäpu-heenoppimisessaja selittävätköhäiriöt nähdynja kuullun puheenin-tegraatiomekansimeissajoitakin kielellisiähäiriöitä?
A. Asiantuntija-arviot 29
Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?
Puheenja kielen tutkimuksessatulee tukea monitieteisiälähestymistapojajoissayhdistyykielitieteen,fonetiikan,psykologian,matemaattisenmallinta-misen,neurologianja aivokuvannukseneri osa-alueidenasiantuntemus.Li-säksionhuomioitavasuomenkielenerityispiirteet:nämävaativatkansallistatutkimustaja toisaaltasuomenkieltävoisi aiempaaenemmänhyödyttääkont-rastiivisissatutkimuksissaetsittäessäuniversaalejaja kielispesifejäpuheenjakielenprosessoinninpiirteitä.
Mitä tutkimusresursseihinliittyviä esteitätai rajoituksiapuheentuottamiseenja havaitsemiseenkeskittyvälläaivotutkimuksellaon?
Monitieteisten,humanistisistateknisiintieteisiinulottuvientutkimusryhmienmuodostuminenon keskeinenhaaste.Monitieteisenkielen ja tutkimustradi-tion syntyminenvaatii paljonaikaa.Aivotutkimuksenresurssitja metodiva-likoima on Suomessaerinomainen(EEG, MEG, PET, fMRI, TMS). Erin-omaisenmetodiikanlisäksi tarvitaanvälttämättäteoreettistatyötä aiempaaosuvampientutkimuskysymystenja -asetelmienmuotoilemiseksi.Kognitii-viseenneuropsykologiaanja yksityiskohtaiseenpotilastutkimukseenpohjau-tuva traditio, joka on kansainvälisestitärkeässäasemassapuheenja kielenmekanismientutkimuksessa,onSuomessapuolestaanheikomminkehittynyt.Tällä hetkellä puhettatutkitaanmaassammehyvin pienissätutkimusryhmis-sä,jotkasijaitsevatkaukanatoisistaan.Ala kehittyisi huomattavastinopeam-min, josmaassammeolisi yksi laajamonitieteinenpuheentutkimustatekeväinstituutiotai kyllin tiivis laboratorioidenyhteistyöverkosto.
Eräänärajoituksenapuheenprosessientutkimukselleon ollut keskittymi-nenkielenvastaanotonja erityisestikirjoitetun kielentutkimiseen.Tämäonollut ymmärrettävääpuhtaastikäytännönsyistä,mutta nykyäänon puheenprosessientutkiminenhelpottunuttietokoneavusteistenmenetelmienmyötä(esim.ärsykkeidenlaadinta,puhesignaalineri piirteidenanalyysi).Puhepro-sessienaivotutkimuskinkaipaisikuitenkin laajaaja edustavaamoderninpu-hutunsuomenkielenaineistoa,jostamm. erilaisiakoeasetelmienkaipaamiaäänne-,sana-ja lausetasonyleisyystietojasekäpuhesignaalinvariaationeri-laisiamittojaolisi laskettavissa.
Pystytäänköpuhettatutkivassaneurotieteessähyödyntämäänmuidenpuhet-ta tutkivientieteenalojenhavaintojatai tutkimusmenetelmiä?
Kutenedellätodettiin,monitieteinenyhteistyöonkoko tutkimusalueenkehit-tymisenelinehto.Aivotutkimusmenetelmiinliittyy kuitenkinmetodistariip-puenmyöserilaisiarajoitteita,jotkaonotettavahuomioon(avaruudellinenjaajallinenerottelukyky, motorisensuorituksenkutenpuhe-elintenliikk eidenaiheuttamathäiriöt, laitteistomelu,säteilyrasitus,ilmiöiden lyhytikäisyysjo-ka pakottaakäyttämäänärsykkeitä joita luonnollisessakielessäei yksinäänesiinny).
Onko alueita,joissalähempitieteidenvälinenyhteistyöolisi mahdollista?
Tieteidenvälistäyhteistyötävoisi tiivistääkaikilla em.alueilla.Puheenha-vaitsemiseenja tuottamiseenkeskittyvänriittävän suurentutkimusyhteisön
30 PuheentutkimuksenresurssitSuomessa
perustaminenolisi tässäsuhteessatärkeää.
Fonetiikan tutkim usKari Suomi (OY)
Mitä tiedetäänääntöelimistöntoiminnastapuheentuottamisessatällä het-kellä?
Liikkuvaneli perifeerisenääntöelimistöneri osientoimintaperiaatteetja nii-denosuudetpuheentuottamisessaovat pääpiirteissääntiedossa,samallakunmonetyksityiskohdatovat edelleenselvittämättä.On olemassamonenlaistakvantitatiivistatietoaääntöelimistönuseidenosientoiminnastapuheentuot-tamiseneri vaiheissa(mm. hermotoiminnasta,ääntöelimistöneri osienliik-keistä,ilman virtauksistajne.), muttavähäntietoasiitä miten osatoiminnotkoordinoidaantoistensakanssa,eli siitä mitenääntöelimistötoimii kokonai-suutena.Laajastiymmärrettynäääntöelimistökattaamyöskeskushermostonpuhekeskukseneli ns. sentraalisenääntöelimistön,keskuksenjoka oletetta-vasti vastaapuheentuottamisenkokonaiskoordinaatiosta,ja toistaiseksitä-mänkeskuksentoiminnastatiedetäänhyvin vähän.Miten puhujamuuttaaai-komansakielellisensanomanpuhe-elimistöntoiminnaksi,jamitääänteellisiäyksiköitätämäntoiminnansuunnittelussakäytetään?
Mitä uusiatuloksiaon odotettavissaseuraavanviidenvuodenaikana?Entäpidemmälläaikavälillä?
Mitäänvarsinaistaläpimurtoapuheentuottamisentutkimuksessaei lieneodo-tettavissaviidessävuodessa.Perifeerisenääntöelimistöntoiminnantutkimus-menetelmätkehittynevätedelleen,ja toivottavastijatkuvastimonipuolistuvataivojen toiminnantutkimusmenetelmättuovat pitkällä aikavälillä uutta tie-toapuheensentraalisestaohjauksesta.Tässätarvitaanilmeisestimyösentis-tä parempialingvistisiäteorioitapuheenfoneettis-fonologisestarakenteesta.Tutkimustaonmyösmahdollisuuksienmukaanpyrittäväsuuntaamaanspon-taaninpuheentuottamiseen.
Mitkä ovat suurimmataukot tieteellisessätiedossapuheentuottamisestajahavaitsemisesta?
Sekäpuheentuottamisessaettä havaitsemisessasuurimmataukot koskevatpuheensentraalisia,aivoissatapahtuviavaiheita.Mitä aivoissatapahtuupu-huttaessaja puhettavastaanotettaessa?Etenkinpuheenhavaitsemisenmal-lintaminenon osoittautunuthyvin vaikeaksitehtäväksi;kuulijassahanei ta-pahdumitäänmitä voisi ulkoapäinhavainnoida.Vaikka tiedetäänpaljonkinuseidenpuheenakustistenmuuttujienja havainnonvälisistäsuhteista(esi-merkiksivokaalienspektrirakenteenja vokaalienhavaitunfoneettisenlaadunvälisistäsuhteista),mitäänyhtenäistäteoriaapuheenhavaitsemisestaei oleilmaantunut,ja samatempiirisethavainnotvoidaansovittaahyvinkin erilai-siin teoreettisiinviitekehyksiin.
Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?
A. Asiantuntija-arviot 31
Edellisiinvastauksiinviitaten,kannattaisiilmeisestitutkiapuheenkognitiivi-siaedellytyksiäsekälyhyelläettäpitkälläaikavälillä. Toisaaltapuheenkaik-kia konkreettisempiakaanilmiöitä ei ole selvitettyriittävästi,eikä tässäkat-sannossaolesyytäkiinnittääkaikkeahuomiotakovin abstrakteihinasioihin.
Onko fonetiikantutkimuksellatutkimusresursseihinliittyviä esteitätai rajoi-tuksia?
Suurinvaikeusjohtuu tutkimushenkilöstönvähäisyydestä.Vakinaisestipal-katunfonetiikanhenkilökunnantyöajastasuuriosakuluuopetukseen,jokaeisuoranaisestiliity tutkimukseen.Valtiovallanpyrkimys lyhentääopiskeluai-koja ei kannustaopiskelijoita sisällyttämäänfonetiikankaltaistensivuainei-denopintojatutkintoihinsa,ja toisaaltaopintosuoritustenvähäisyysei suosiopetus-ja tutkimushenkilökunnanlisäämistä.Nykyinensuuntausjohtaayhäenenevässämäärin(kieliaineidenopiskelijoiden)tutkintojenyksipuolistumi-seensitenettänekoostuvat vain koulussaopetettavien aineidenopinnoista,jolloin vaaranaonettäteoreettisemminpainottuneidenaineiden(kutenfone-tiikan ja yleisenkielitieteen)opetusja tutkimuskuihtuvat.
Hyödynnetäänköfonetiikassamuidenpuhettatutkivientieteenalojenhavain-toja tai tutkimusmenetelmiä?Onko alueita, joissa läheisempitieteidenväli-nenyhteistyöolisi mahdollista?
Fonetiikkaon perinteisestikinollut hyvin poikkitieteellinenlähestymistapapuheeseen,joskin lähtökohdatovat yleensäpainottuneetkielitieteellisesti.Muidentieteenalojenhavaintojaja tutkimusmenetelmiäonhyödynnettymah-dollisuuksienmukaan.Onilmanmuutaolemassauseitaalueita,joissaentistäläheisempitieteidenvälinenyhteistyöolisi mahdollistaja toivottavaa.Tärkeä-tä olisi erityisestiperinteisettiedekuntarajatylittävä yhteistyö,onhanpuheedelleenkintärkein ihmistenvälinen viestintävälineja tulevaisuudessayhäenemmänmyösihmisenja koneenvälinenviestintäväline.
Dialogin ja vuor ovaikutuksen tutkim usLauri Carlson (HY)
Mitä tiedetääntällä hetkellä dialogin lainalaisuuksistaja kontekstiinliitty-vienseikkojenvaikutuksestapuheentulkintaan?
Teoreettinen,tutkijanintuitioonpohjaavakeskusteluntutkimusvilkastuiprag-matiikan nimellä 60- ja 70-luvulla arkikielen filosofian ideoidenpohjalta.70-luvunalussakäynnistyisosiologianpiirissäetnometodologiannimelläai-toihin keskusteluaineistoihinnojaavaempiirinenkeskusteluntutkimus.Tästäkehittynyt keskustelunanalyysi(conversationanalysis)on 90-luvullasaavut-tanutSuomessajohtavanasemanhumanistis-yhteiskuntatieteellisessäpuhe-kielentutkimuksessa,lähinnäprofessoriAuli Hakulisen johtamantutkijayh-teisönaktiivisentoiminnanansiosta.
Pragmaattinendialogin tutkimusnosti esiin näkemyksendialogistatilantei-sena,tarkoitusperäisenäyhteistoimintana,»dialogipelinä».Keskusteluon jä-sentynyttäyhteistoimintaa;merkitystai tulkintaonpäättelyätai neuvottelua,
32 PuheentutkimuksenresurssitSuomessa
mm. siirtojen merkitys ja osanottajienroolit muovautuvat keskustelunku-luessa.
Etnometodologinentutkimusvälttääotaksumiakeskustelijoidenlausumatto-mistatarkoituksista.Menetelmänäon todellistenkeskustelujenlitterointi jayksittäistentapausesimerkkienhuolellinenanalyysija vertailu yleensäpie-nistäaineistoista.Koejärjestelyjäei käytetä.Tutkimuson luonteeltaankvali-tatiivista.
Keskustelunanalyysinmenetelmälläon tunnistettuja nimetty keskustelujenrakennetekijöitä,kutenvuor o, vieruspari , välisekvenssi jne.Yksinkertainenklassinentulosonvapaankeskustelunvuorottelusääntö:
äänessäolijavalitseeseuraavanpuhujan;ellei, seuraavapuhujavalitseeitsensä;muutenäänessäolijajatkaa.
Mitkäovatsuurimmataukot tieteellisessätiedossadialoginmerkityksestäpu-heentulkinnalle?
Keskustelujenongelmakohtia ja korjauskeinojaon tutkittu vilkkaasti. Kes-kusteluntutkimuksessaei kuitenkaanole juuri suoraantutkittu puheen(akus-tisensignaalin)tunnistamisenjakeskustelunkulunvälisiäkorrelaatioita.Kes-kusteluntutkijanaineistoon tyypillisesti tutkijan itsensäkuulonvaraisestilit-teroimaa(useinakustisestiheikkolaatuisista,luonnollisissatilanteissanau-hoitetuistaäänityksistä).Etnometodologisessatutkimuksessaon ideologisis-takin syistäperinteisestivältetty laajojatai kvantitatiivisia yleistyksiä.Muu-tamansuurenaukonsijastavoisi sanoaolevantaajaltipienempiäreikiä,min-kä johdostakudelmaei ole luja.
Mitä dialogin ominaisuuksiakannattaisitutkia seuraavanviidenvuodenai-kana?Entäpidemmälläaikavälillä?
Tietojenkäsittelytieteenja kieliteknologiankeinointapahtuva ihmisenja ko-neenvälisenkeskustelunmallinnuson lähestymässäalhaaltapäinsamaatut-kimuskohdetta,luonnollistadialogia.Toistaiseksiimplementoitavissaolevatmallit pystyvätomienrajoitustensavuoksiheikosti käyttämäänhyväksikes-kusteluntutkimuksentuloksia– kääntäenkeskustelunanalyysintutkijoille eitoistaiseksiole hyötyäkieliteknologiantutkijoiden malleista.On kuitenkinodotettavissa,ettäkosketuspintaalojenvälillä kasvaa.Esimerkiksidialoginmallinnuksessahiljattain tehdytempiirisetkokeilut eri keskustelustrategioil-la näyttävätvahvistavankeskusteluntutkimuksessatehtyjähavaintoja.Näitälähestymis-tai yhtymäkohtiaolisi varmastihedelmällistätutkia.
Onkodialogin tutkimuksellatutkimusresursseihinliittyviä esteitätai vaikeuk-sia?
Sekäkeskusteluntutkimustaettä dialogin mallinnustahaittaakäytettävissäolevien keskusteluaineistojenpienuusja vaikeasaatavuus.Alojen yhteismi-tattomuusonkin osaksiaineistontuotantoteknologianeroistaja puutteistajohtuva artefakti. Aineistojensaatavuudenparantaminenedistäisimolempiatutkimussuuntiaja lähentäisiniitä.
A. Asiantuntija-arviot 33
Pystytäänkökeskustelututkimuksessahyödyntämäänmuidenpuhettatutki-vientieteenalojenhavaintojaja menetelmiä?Onko alueita,joissaläheisempiyhteistyöolisi hedelmällistä?
Keskusteluntutkimuksenaineistotovat erittäin pieniä ja litterointi käsinonhidasta.Vaikkamenetelmälläonomat,»käsityöhön»liittyvät etunsa,tutkijatovat luonnollisestikiinnostuneitanopeammistaaineistojenkäsittelymenetel-mistä.Laajemmillaaineistoillaolisi mahdollistaylittää eräitäkeskusteluna-nalyysinlähinnämenetelmällisiärajoituksia,kutentulostenkvalitatiivisuusja vaikeatoistettavuus.Yhteistyöstäolisi apuamm.sopivienaineistontallen-nusstandardien(MATE, XCES)ja -menetelmienvalinnassaja käyttöönotos-sa.
Puhesynteesin tutkim usMartti Vainio (HY)
Puhesynteesion perinteisestipalvellut tiedettä.Puhesynteesiäovat hyödyn-täneetniin psykologit kuin puheentuotonfysiologiankintutkijat. Puhesyn-teesinavulla on ollut mahdollistatodentaapuhettamallintavien teorioidenpätevyys ja seon antanutmahdollisuudentuottaatarkastikontrolloituja är-sykkeitämm.puheenhavaitsemisentutkimukseen.
Vammaistenapuvälineenäpuhesynteesiäon käytetty1970-luvultaasti.Täl-lä hetkelläpuhesynteesion yleistymässämonilla teollisuudenja yksityiselä-mänaloilla. Esimerkkeinäovat jatkuvastimuuttuvaninformaationsiirto pu-helinverkossa(erilaisetaikataulut,tilitiedot, pörssitiedot,säätila,sääennus-teetjne.),dokumenttienmuunnospuheeksi(sähköposti,kirjoitukseksimuun-netutfax-dokumentitjne.) tai puheellatuotetutviestit eri liik ennevälineidenkuljettajille tai teollisuudenprosessikontrollissa.Erästärkeä tulevaisuudensovellusalueovat dialogijärjestelmät,joissapuheenautomaattinentunnistusja synteesitoimivatyhdessä.
Kaikki mainitut sovelluksetasettavat suuriavaatimuksiapuhesynteesinlaa-dulle ja luonnollisuudelle.Esimerkiksikäsipuhelimienkauttakulkeva puhejoutuu useinalttiiksi ulkopuolisellehäiriöille. Nykyiset synteesijärjestelmäteivät pysty vastaamaanhuonojen,muttayleistenolosuhteidenvaatimuksiinja järjestelmiäkehitetäänkinmukautuvammiksi ja puhesynteesinluonnolli-suuttapyritäänlisäämään.Tämäon kuitenkinvaikeatehtävä,joka vaatii tie-toa ja tutkimustakoko puheketjun alueeltasignaalintuotostaja käsittelystälähtienainasosiaalisenpuhevuorovaikutuksenkeinoihinasti.Puhesynteesintutkimusonsiis luonnostaanmonitieteistä.
Mihin puhesynteesipystyytällä hetkellä?
Puhesynteesionsovelluksenakehittymässämelko käyttökelpoiseksins.unit-selection-synteesinansiosta.Unit-selection-synteesissävalmiiksi tallennet-tuapuhettakootaanlauseiksi»leikkaaja liimaa» -menetelmällä.Tämätapaei kuitenkaanole joustava ja sensoveltuvuusonrajallinen.Niin sanotulladi-fonikonkatenaatiosynteesilläsaadaanpuolestaanjoustavia sovelluksia,muttaluonnollisuudenja siitäseuraavanymmärrettävyydenkustannuksella.
34 PuheentutkimuksenresurssitSuomessa
vwvvwvvwvxwxxwxxwx
ywyywyywyzwzzwzzwz
{w{{w{{w{|w||w||w|
}w}}w}}w}~w~~w~~w~
+
+
laatu
muokkautuvuus
ihminen
"unit selection"
difonisynteesi
formanttisynteesi
KuvaA.1: Eri puhesynteesimenetelmiensuhdetoisiinsa.
Mitkä ovat tällä hetkellä suurimmathaasteetpuhesynteesintutkimuksessa?
Suurimmattieteellisethaasteetliittyvät synteettisenpuheenluonnollisuuteen,jonka voidaankatsoakoostuvan painotuksenja intonaation(prosodia)sekäpuhuttavan lingvistisenviestin suhteista.Puhesynteesinkannaltatilanneonhankala,sillä unit-selection-synteesion tarjonnutoikotien tehdätallennet-tuun puheeseenperustuviasovelluksia, jotka tuottavat hyvin luonnolliseltakuulostavaapuhetta.Tämäsynteesimenetelmäkuitenkinhidastaatulevaisuu-densovellustenvaatimaaperustutkimusta,jota itse asiassatarvittaisiin yhäenemmän.
Toisaaltamyössignaalintuottamisessaon suuriahaasteitajuuri prosodistenparametrienvaatimanjoustavuudentakia.Näköpiirissäon jopapaluutäysinsynteettiseenpuheentuottoon(ns.formanttisynteesiin),koskanykyisillä me-netelmilläei voida kontrolloidaesimerkiksiäänenlaadunmuutoksia,jotkaovatolennainenosaluonnollistapuhettaja toimivatmonenlaisinavihjeinäil-maustenrakenteestaja ovat tärkeässäasemassaesimerkiksipuheenvuorojensäätelyssäkeskustelussa.
Mitkäpuhesynteesinhaasteetratkeavattodennäköisestiseuraavanviidenvuo-denaikana?Entämitkäpitkällä aikavälillä?
Lähivuosinapuhesynteesisovellustenlaatutulleeparantumaanedellämaini-tun unit-selection-synteesinavulla. Tämäei kuitenkaanole lopullinen rat-kaisu.Puhesynteesija sitä tukeva tutkimustuleeetenemäänasteittainkohtiparempiamallejapuheentuotostaja puhettatuottavastaihmisestä.Haasteidenmääräja resurssientarve lisääntyyaudio-visuaalinenpuhesynteesinyleisty-misenmyötä.
Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?
Lyhyelläaikavälillä olisi tärkeääsaadauuttatietoapuheenrakenteidensuh-teestasensisältämäänkielliseenrakenteeseenja informaatioon.Olisi tärkeäpystyähallitsemaanilmauksiasuurempiayksiköitäkutenkokonaisiatekste-jä tai vastaavastikeskustelussailmeneviä yksiköitä (topiikkeja jne.).Audio-visuaalinenpuhetulee luomaanuusiatutkimusalueita,joita ei voida jättää
A. Asiantuntija-arviot 35
huomioimatta.
Niin pitkällä kuin lyhyelläkin aikavälillä kaikki puheeseenliittyvä perustut-kimus on tarpeen.Erityisesti suomenkielen kannaltaolisi järkevääpyrkiäsellaisiinaiheisiin,joita ei voidamuuallatehdyntutkimuksenavulla yleistääsuomeen,kutenesimerkiksierilaisiaprosodisiamalleja.
Pystytäänköpuhesynteesintutkimuksessahyödyntämäänmuidenpuhettatut-kivientieteenalojenhavaintojaja menetelmiä?
Puheon luonnostaanilmiö, jota voidaantutkia menestyksellisestitieteidenväliselläyhteistyöllä.Voisi jopasanoa,ettämonitieteisyyson tulevaisuudenpuheentutkimuksenkulmakivi. Puhesynteesinja senvaatimienmalliensekäteorioidenkehittäminenon erityisestimonitieteinenja suorastaanvaatii yh-teistyötäeri tieteenalojenvälillä.
Onko tieteidenväliselleyhteistyöllevakaviaesteitä?
Pahimmatyhteistyötävaikeuttavat esteetlienevät tutkijoidenpieni määräjaheidänmaantieteellinensijouttumisensaympärisuhteellisensuurtamaatam-me.
Onko puhesynteesintutkimuksellatutkimusresursseihiinliittyviä esteitätaivaikeuksia?
Puheentutkimustahaittaayleisesti tutkijoiden ja opiskelijoiden pieni luku-määrä.Suomessapuheentutkijoitaon koko maassayhteensäsuurinpiirteinsamamääräkuin yhdessäsuurehkossaeurooppalaisessalaboratoriossa.Esi-merkiksi suomenprosodianparissatyöskenteleetällä hetkellä vain koural-linen tutkijoita, jotka joutuvat samallavastaamaantutkimustaantukevastainfrastruktuurista,työkaluistaja tietokannoista.Tilanneon itse asiassakes-tämätön.Resurssienpuute,rajallisuusja hajanaisuusulottuu kaikkien tut-kimusalueenosa-alueidenyli tutkijoidenkoulutuksestatietotekniseeninfra-struktuuriin.
Puheentunnistuksen tutkim usUnto K. Laine (TKK)
Mihin automaattinenpuheentunnistuspystyytällä hetkellä?
Markkinoilla on useitakinpuheentunnistimiaenglanninkielelle ja ainakinyksi suomenkielelle, jotkaainakintuotettamyyvienmielestätoimivathyvin.Puheentunnistimienobjektiivinenvertailuon todellavaativa tehtäväja osintästäjohtuenei näidentuotteidentodellisistasuorituskyvyistäole saatavissatietoa.
Pienehkölläsanastollapuhujariippuvastitoimivat tunnistimetovat jo tulossamm.matkapuhelimiin,joka jo sinälläänkertoneesiitä,ettätekniikkaonkyp-synyt tuoteasteelle.Hajanaisetkäyttäjienantamatkuvauksetvahvistavatsen,ettänämätunnistimettodellaovatvarsinkäyttökelpoisia.
36 PuheentutkimuksenresurssitSuomessa
Puheentunnistuksenongelmavaikeutuuheti,kunpyritäänpalvelemaankaik-kia (tietyn kieliryhmän)puhujia.Pienehköllä,muutamienkymmeniensano-jen sanastollaon toki mahdollistasaadaaikaanmelko hyvin toimivia puhu-jariippumattomiakinjärjestelmiä.Sanastonkasvaessasanojen»foneeminenetäisyys»pieneneeja virhetunnistustenmääräkasvaa.Puhuja-adaptaatiollavoidaanpäästäparempaantulokseensiten,ettäalussatunnistustulosvoi ollamelkovirheellinen,muttajärjestelmäoppii ko.henkilönääneneritysipiirteitäja vähitellenparantaatulosta.
Omalukunsaon ääniympäristönaiheuttamatongelmat,siirtotien ongelmat,mikrofonitekniikka,jne. Tilanteita,joissapuheentunnistuksenpitäisi toimiaonlukemattomia,eikätunnistimiensuorituskykyävoidaluotetavastivertaillaläheskäänkaikissamahdollisissakäyttötilanteissa.
Mitkä ovat tällä hetkellä suurimmathaasteetpuheentunnistuksentutkimuk-sessa?
Perustutkimuksentuomaperustietämysja ymmärryspuhekommunikaationluonteestaja myös ihmisen tavastaselviytyä kommunikaatiotilanteistaonriittämätöntä.Tarvitaanlaajallarintamallasyvemmällemenevääperustutki-musta.Helpot ja pinnallisetratkaisuton jo läpikäytymoneenkertaan.Työtätunnutaanyhäjatkavanmiltei samoinajatuksinja menetelmin,samoillaosa-alueilla,isoilla panostuksilla,muttamyösmelko hitaallaedistymisellä.Pitäälöytääratkaisevastiuusianäkökohtia,menetelmiäja tekniikoita.
Suurimmathaasteetovatsiispitkäjänteisessä,vapaarahoitteisessaperustutki-muksessa,joka ei välittömästitähtääuuteentuotteeseentai jonkin tuotteenyksittäisenominaisuudenparantamiseen,vaankoko kentänsyvällisempäänja perusteellisempaanymmärtämiseen.
Mitkä puheentunnistuksenhaasteetratkeavattodennäköisestiseuraavanvii-denvuodenaikana?Entämitkäpitkällä aikavälillä?
Ellei reippaastiryhdytäheti etsimääntodellauusianäkökulmiamikäänosa-alue ei »ratkea»lyhyellä tähtäimellä.Toki suurellapanostuksellatapahtuujotain evoluutiota, tosin senkinvauhti on alkanuthidastua.Ratkaisevaaonetsitäänköaktiivisesti (ja löydetäänkö)selkeästiuusianäkökohtia ja mene-telmiä.
Mitä kannattaisitutkia tai selvittääseuraavanviiden vuodenaikana?Entäpitkällä aikavälillä?
Ensinnäkinpitääkriittisesti puntaroidanykyisetmenetelmät,mitenniihin onpäädyttyja mitkätekijätovatrajoittamassaniidensuorituskykyä.Nykymene-telmissäon paljonhistoriallistapainolastiavuosikymmententakaa,jota yhäkäytetäänsellaisenaan,ilman, ettäsenroolia ja merkitystäkriittisesti uudel-leenarvioitaisiin.Monethistoriallisetvalinnatperustuvatyksinkertaisestisenaikakaudenajatteluunja tekniikansallimiin mahdollisuuksiin.Nykyäänmo-ni asiavoidaantehdätoisin.
Itse asiassakoko tunnistintekniikkaon käytäväläpi vaihevaiheelta,seulot-tava esiinmenetelmienongelmatja rajoituksetja integroitava mukaanuusiatekniikoita ja menetelmiä.Rinnanteknisen,foneettisenja tietokonelingvisti-
A. Asiantuntija-arviot 37
sentutkimuksenkanssaon laajennettava ymmärrystäihmisentapaanjäsen-tääpuhetta.Alan perustutkimuson aivan liian pientäjopa maailmanlaajui-sesti.Useissa,vuosikymmentai pari sittenaktiivisessaperustutkimustahar-joittavassayksikössäperustutkimuksenosuuttaon ajettualasja seurauksetovatnyt selvästinähtävissä.Panostustaon lisättynopeanaikavälin »pikaisenvoitontavoittelun»tutkimukseen,mikäei juuri lainkaanlisäälaajempien,sy-vempien,perustavaalaatuaolevienkysymystentutkimustasaatiymmärrystä.
Pystytäänköpuheentunnistuksentutkimuksessahyödyntämäänmuidenpu-hettatutkivientieteenalojenhavaintojaja menetelmiä?
Fonetiikantutkimus,tietokonelingvistiikka,puheenhavaitseminen,dialoginanalyysija mallinnusovat esimerkkejäalueista,joidentutkimusja tietämystukeemyöspuheentunnistusta.Eri kielillä on erilaisiaominaisuuksiaja ra-kenteita.Yhdenja samantekniikantunkeminenpuheentunnistukseenkielenerityispiirteistäpiittaamattavaikuttaatyperältä.Tunnistimientuleeparemminsopeutuamyös kielten erityispiirteisiin ja paremminhyödyntääniitä. Dia-login parempiymmärtäminenauttaarakentamaanälykkäästitoimivia infor-maatiojärjestelmiä.Tälläkin sektorillaollaanvastamelko alussa.
Onko tieteidenväliselleyhteistyöllevakaviaesteitä?
Ennäemitään»vakavia esteitä»tieteidenväliselleyhteistyölle.Yhteistyösu-juu jososapuoletoivaltavatyhteistyönmerkityksen,siihensisältyvänrikkau-denja mahdollisuudennähdäasiataiempaalaajemminja monipuolisemmin.Yhteistyösiispohjimmiltaanonkiinni osapuoltenhenkisestärakenteesta,ei-käesimerkiksiorganisaatiomallista.
Onkopuheentunnistuksentutkimuksellatutkimusresursseihiinliittyviä esteitätai vaikeuksia?
Ehdottomastisuurin esteon pitkäjänteisenperusrahoituksenniukkuuteen.Seuraava esteon rahoitusjärjestelyihinliittyvä paperisotaja byrokratia.Tut-kimushankkeissapitäisiolla aikaamyöstutkia,eikävaintäytellähakemuksiaja raporttilomakkeita.
Puhetietokantojen kehitystyöMatti Karjalainen (TKK)
Puhetietokannoistaja puhetietokantajärjestelmistäontullut 1980-luvultaläh-tien yhä tärkeämpivälineistöja resurssisekäpuheenperustutkimuksenettäerityisestipuheteknologiasovellustenkehittämisenkannalta.Kehitystyöonollut pääasiassakorpusaineistojenkeruutaja annotointia,mutta myös oh-jelmistoja ja järjestelmiäkorpusaineistojenkäsittelyynon tehty. Tunnettujakorpuksiaovat mm. TIMIT (amerikanenglanti),EUROM (EU-kieliä), Kielcorpus(saksa),SpeechDat(EU-kielet), BAS Archive (saksa)ja ANDOSL(australianenglanti).
Korpustietokantojaontyypillisesti levitettykäyttäjilleCD-ROM-levyillä, jois-saonerikseenäänitetiedostotja annotaatiotiedostot.Ominaistapuhetietokan-noille on tähänsaakkaollut niissäkäytettyjenesitysformaattienkirjavuusja
38 PuheentutkimuksenresurssitSuomessa
yhteensopimattomuus,josta syystäkunkin tietokannankäyttäjänon täyty-nyt hankkiatai kehittäätarvittavatohjelmistot,tyypillisesti erikseenkullekinformaatille.Kehittyneitätiedonesitystapojaon luotu joidenkintietokantojenkäyttöön,mm.ANDOSL ja QuickSig(suomi).
Suomenkielelle on kerätty puhetallenteita,mutta digitaalisessamuodossaoleva varsinainentietokanta-aineistoon verratenvähäistä.Laajin tällainenaineistoon suomenkielinenSpeechDat(II)-aineisto(Tampereenteknillinenkorkeakoulu). Teknillisenkorkeakoulun akustiikanlaboratoriossaon keski-tytty puhetietokantajärjestelmienkehitystyöhön,mutta siihen liittyvä kor-pusaineistoonsuhteellisensuppea.Puheaineistoaja erityskäyttööntarkoitet-tuja tietokantojaonkehitettymyösmonessamuussapaikassa,kutentästäkinraportistailmenee.
Nykyisiäongelmiaja haasteita
Perusongelmaja -haastepuhetietokantojenkehittämisessäonse,ettänekoe-taaneräänlaisena»välttämättömänäpahana»,eli nenähdäänsekäperustutki-muksenettäteknisensovelluskehityksenkannaltavainapuvälineinäja infra-struktuurina.Näin ollen kehitystyönrahoittaminenon ainaollut ongelmal-lisempaakuin varsinaisenpuheentutkimuksen,puhumattakaanteknistenso-vellustenkehitystyöstä.Korpusaineistonkeruuonlisäksityölästä(useinjopayksitoikkoista)muttatarkkuuttavaativaaja virhealtista.Myös tietokantajär-jestelmienja -ohjelmistojenkehitystyöonkallistaja hidasta.
Teknisiähaasteitapuhetietokantatyölle
! Annotaatio(transkriptio,nimikointi) on käsintehtynäerittäinhidasta,työlästäja keskittymistävaativaa,rajoittuenvain pieniin aineistoihin.Automaattinensegmentointija kuvauksenkohdistaminen(alignment)voidaantehdämm. piilo-markov-malleilla (Hidden Markov Models,HMM), muttaniiden tarkkuusja luotettavuusei riitä kaikkiin käyttö-tarkoituksiin.
! Tallenteidenlaatu(tai tieto laadusta)on useinongelma,varsinkinjostallenteeton tehty kymmeniävuosiasitten tai kontrolloimattomissaolosuhteissa.
! Tallenneformaattienyhteensopivuusrajoittaaeri tietokantojenyhteis-käyttöä.TKK:n QuickSig-järjestelmässäon päästypoikkeukselliseenmonipuolisuuteen,mutta tulevaisuudenhaasteenaon yhtenäinenfor-maattiesim.XML-pohjaisena.
! Eri sovellustenjakäyttötarkoitustenasettamattavoitteetja vaatimuksetovat useinhyvin erisuuntaisia,josta syystäon erittäin vaikeapäästätietokantojenlaajaanyleiskäytettävyyteen.
! Analyysi- ja sovellusohjelmienkirjavuusvaikeuttaatiedonanalyysiäja sovellustenkehittämistä.Monetakateemisestikehitetyt,sinänsähy-vätkin ohjelmistotovathuonostidokumentoitujaja teknisestituettuja.
A. Asiantuntija-arviot 39
! Puhetiedonhakuja käyttöverkonyli on rajoittunutta.Mm. juridisetjatietoturvakysymyksetrajoittavat tätäteknistenongelmienlisäksi.CD-ROM alkaaolla kapasiteetiltaanaivanriittämätönmonientietokanto-jen jakeluun.DVD-levy on tuomassatähänosittaistaratkaisua,muttasekinonvarsinrajoittunutsuurimpientietokantojenosalta,joihin pää-sy verkon yli olisi käyttökelpoisinratkaisu.Tiedonsiirtokapasiteetinrajoituksetovat tällöin helpostiongelmana.
! Multimodaalisuuden(audiovisuaalisuuden)vaatimustulisi ottaahuo-mioonyhäuseammin,varsinkinjosonnähtävissä,ettätulevaisuudessamyöskuvallineninformaatio(video,pysäytyskuvat)onhyödyksi.
Ei-teknisiähaasteitapuhetietokantatyölle
! Tietosuojakysymyksetja käyttöoikeuksienrajoituksetvoivat olla var-sinkin verkkopohjaisissaratkaisuissajopa isompi ongelmakuin tek-nisetkysymykset.Juridisetja kaupallisetkäyttörajoitukset,käyttäjänautentikointi, käyttölupienorganisointi,sopimustekniikatjne. voivattehdätietokantojenkäytönja jakelunhyvinkin hankalaksi.
! Toinenei puhtaastitekninenperuskysymysonkustannukset.Perustut-kimukseentarkoitettujenaineistojentulisi olla ilmaisiatai hyvinhalpo-ja käyttäjilleen.Kaupallisiinsovelluksiin voidaanhyväksyämaksulli-suus,muttamonestitäälläkinkorkeahintaonkäyttöärajoittava tekijä.Yleishyödyllistentietokantojenja -järjestelmienkehittämisellepitäisisaadariittävästi tukea,ja tämäntyön luonnetutkimukseninfrastruk-tuurin kehittämisenäja kielikultturitekijänätulisi ymmärtää.
Puhetietokantojenkehitystavoitteita
! Tulee voimakkaastipyrkiä yhtenäiseenmutta laajennetavaan tiedonesitysformaattiin.Oliopohjainenkone-esittäminenja XML tietokanta-dokumenttientallenneformaattinaon selvästisuuntauksena,johonol-laan joka tapauksessamenossa.Ihanteellistaolisi saadaaikaankan-sainvälisiä yhteisformaatteja,muttaniin, ettäneeivät rajoittaisi kehi-tystä jatkossakaan.Kun käytetään(perinteisiä)erityisformaatteja,neolisi voitava muuntaatoisikseentai ainakin johonkin yleiseenmuo-toon.
! Tietokantojenesitysformaatintulisi salliaeri mediat(audio,kuva, vi-deo, jne.) puheenlisäksi. Tietokanta-aineistontulisi mielelläänollaselattavissatavallisilla www-selaimilla ja käytettävissäperusosiltaanmyösohjelmistoilla,jotka eivät tunnekehittyneitäesitysformaatteja.
! Puhekantakorpustentulisi olla saatavilla tapauksestariippuenjokover-kon yli tai erillisinä tallennedokumentteina(CD-ROM, DVD) tai mo-lemmissamuodoissa.Sekäverkkoon keskitetylleettäerillisvälineilläjaettavallekorpusaineistolleon käyttöä.
40 PuheentutkimuksenresurssitSuomessa
! Tulee kehittäävalikko-ohjattujatai helposti skriptattavia hakuohjel-mia,esimerkiksiwww-selaintenpohjalle.Vaativaankäyttööntulisi ol-la ohjelmoitav(i)a hakukone(ita)tai -kieli(ä). Verkon yli käyttäjille tu-leetaatanopeahakuja tietokannoilletuleeolla riittävästi tallennuska-pasitettia.
! Tietokantajärjestelmiäja -ohjelmistojatuleekehittääkorkeantasonesi-tysformalismejakäyttäviksi,jolloin esimerkiksitiedonhakumonipuo-listuu ja nopeutuu.Puhetiedonvisualisointiatuleekehittää.
! Tietosuoja-ja tekijänoikeuskäytäntöätulee kehittää.Tavoitteenaonmaksimaalisenavoin pääsytietokantoihinpieninkustannuksin,ottaenkuitenkinhuomioonjuridisetja kaupallisetrajoitukset.
! Suomenkielenerityispiirteetja asemapienenäkielialueenatuleeottaahuomioon.Kielen tulevaisuudenkannaltasekäkultuurisestiettätekni-sessämielessäon tärkeää,ettäsille on riittävä tuki, vaikkasuomisekätieteenettätekniikanmaailmassaonkin ehkävain marginaalinenteki-jä.
B. Vastaukset 41
B Vastaukset
B.1 Akustiikan ja äänenkäsittel ytekniikan laboratorio (TKK)
Akustiikan ja äänenkäsittelytekniikanlaboratorio,joka kuuluu Teknillisenkorkeakoulun sähkö-ja tietoliikennetekniikanosastoon,on ainoayksikköSuomessa,jonkaensisijaisenatehtävänäon akustiikanja äänenkäsittelytek-niikan tutkimusja korkein opetus.Laboratoriollaon käytössäänmaanpar-haatakustisettutkimustilat.LaboratorionjohtajaonprofessoriMatti Karja-lainen. Laboratoriossatyöskentelee26 henkilöä,joista puheentutkimuksenparissatoimii 9 tutkijaa.Virkasuhteessaon3 henkilöä,muutovatprojektitut-kijoita. RahoitustuleeSuomenAkatemian,Tekesinja teollisuudentutkimus-rahoituksesta.Tutkimuksentavoitteenaon luodatietoaja osaamista,joka onsovellettavissateknisiintarkoituksiin,puheenkäsittelytekniikkaan.
Tutkimustoimintakäsittääesimerkiksidigitaalisensignaalinkäsittelynsovel-lukset akustiikassaja audiotekniikassa,puheenkäsittelyssäja musiikkitek-nologiassa.Vahvoja osa-alueitaovat kuuloonja psykoakustiikkaanliittyvätteknisetkysymykset,puhekommunikaationakustiikka,musiikkiteknologi-aanliittyvä akustiikkaja sähköakustiikanalueet,kutenkaiutintekniikkasekäakustisetja audiomittaukset.Suuriaääniteknologianalueitaovat akustiikka(sähkö-,huone-,kone-ja psykoakustiikkasekämelu),puhe(GSM,puhesyn-teesi,puheenkoodaus,puheentunnistus,verkkopuhe,puheanalyysisekälää-ketieteellisetsovellukset),signaalinkäsittely(signaalinkäsittely-ympäristöt,signaaliprosessoritja algoritmit) sekäaudio (3D-ääni, virtuaaliakustiikka,verkkoaudio,audiokoodaus,multimediaäänijamusiikkiteknologia).Puheen-tutkimuskuuluusitenakustiikanalaan;puhettatutkitaansignaalinkäsittely-tekniikan,puheenanalyysin,puhesynteesin,puheentunnistuksenja puhetie-tokantatekniikannäkökulmasta.On huomattava,ettäpuheon vain yksi osa-sektoriääniteknologianalantutkimuksessa.
Akustiikanjaäänenkäsittelytekniikanlaboratorionkeskeisistätutkimusalueis-ta akustiikkatarkoittaa äänisignaalintieteellistätutkimustaja siihen liitty-viä teknisiäsovelluksia,audiotarkoittaamielivaltaisiinkuultaviin signaalei-hin liittyvää laajakaistaistaääniteknologiaa,puheteknologiakeskittyy ihmi-sentuottamaanääneenja kieleenliittyviin sovelluksiin, ja signaalinkäsittelyonmetodologinenviitekehysnäidensovellustentutkimiselleja rakentamisel-le. Innovaatiot,erityisestimulti-mediaanliittyvät sovellukset,syntyvätvaintutkimuksessa,jossaedellämainitutosa-alueetintegroidaankokonaisuudek-si. Langaton,ääneenperustuva telekommunikaatio,ääntäsisältävätinternet-
42 PuheentutkimuksenresurssitSuomessa
pohjaisetmultimediasovellukset(jotka yhdistävätääntäja esimerkiksiku-vaa),muutesitysformaatit(CD-levykkeetja DVD-levyt) sekäinnovatiivisetaudioteknologiat(esimerkiksikolmiulotteisenäänenuudettekniikat) muo-dostavat tärkeän,yhäkasvavanosantietoyhteiskunnanuusistateknologiois-ta.Akustiikanja äänenkäsittelytekniikanlaboratoriossaharjoitettavaäänitek-nologiantutkimusonomaltaosaltaanvauhdittanutkaupallisestierittäinmer-kittävien käytännönsovellustensyntymistä:esimerkiksiGenelecOy, jollaon tutkimusyhteistyötälaboratorionkanssa(esimerkiksivärähtelynja äänenhallinnantutkimushankkeessaVÄRE),onkaiutintekniikassamaailmanhuip-puluokkaa.
Audiotutkimuson ollut akustiikanja äänenkäsittelytekniikanlaboratorios-sa1990-luvullamenestyksekkäintutkimusalue.Aihepiiriin kuuluvatvirtuaa-linen akustiikka(virtuaalitodellisuudenakustinenmallintaminen),3D-ääni(spatiaalisenäänentuottamisentekniikat),musiikkiakustiikka(mallipohjai-nenäänisynteesi),audiokoodaussekämultimediasovellukset.Puheeseenliit-tyvä tutkimussisältääteemoinaanpuhesynteesin(tekstingeneroiminenpu-heeksi),automaattisenpuheentunnistuksen,puheanalyysin(puhesignaalienmallipohjainenja piirrepohjainenanalyysi),ihmisenpuheentuottomekanis-min mallintamisenparametrienavulla, puheenkoodauksenja siirrettävänpu-hesignaalinlaadunparantamisen,puhetietokantojenkehitystyön,puheenai-voissatapahtuvan prosessoinninmallintamisensekäsovellustenkehittämi-senesimerkiksifoniatriaaja vammaisteknologiaavarten.Akustiikan tutki-muksellaontärkeitäkäytännönsovelluksia,jotka liittyvät esimerkiksikonei-siin, huoneisiinja kaiuttimiin. Tutkimusalueitaovat akustistenjärjestelmienyleinenlaskennallinenmallinnus(tietokoneellasuoritettavanumeraalinensi-mulaatio),huoneidenakustiikanlaskennallinenmallinnus,aktiivinenmelunkontrollointi (melunvähentäminenelektronistenjärjestelmienavulla), akus-tisetmittaustekniikatsekäpsykoakustiikanja kuulonmallinnus.Signaalinkä-sittelynavulla luodaanaudio-ja puheteknologiansovelluksia,muttadigitaa-lista signaalinkäsittelyätutkitaanmyös omanaalueenaan.Tutkimuskohtei-ta ovat digitaalisetfiltterit, perkeptuaalisestisuuntautunutsignaalinkäsittelysekäohjelmistojenkehitys puhe-ja äänisovelluksiavarten.Kaiken kaikki-aanakustiikanja äänenkäsittelytekniikanlaboratoriossaharjoitettavassatut-kimuksessayhdistyvättietämysakustiikasta,äänestäja puheestaja kehitty-nyt digitaalinensignaalinkäsittely.
Tärkeimpiätutkimusalueitavuonna2002tulevatolemaanvirtuaalinenakus-tiikka ja spatiaalinenääni (näillä on sovelluksia esimerkiksimultimedias-sa ja kotiteatterijärjestelmissä),kognitiiviset ihmiseenliittyvät tekijät ääni-ja puheteknologiassa(tähänliittyvät psykoakustiikanja äänenlaaduntutki-mussekäaivotutkimus),kielispesifinpuheteknologiankehittäminensuomenkielelle sekäspesifitsignaalinkäsittelytekniikat.Koskalineaariset,ajansuh-teenmuuttumattomatsignaalinkäsittelytekniikathallitaannykyisin jo täysin,adaptiiviset,ajansuhteenmuuttuvatei-lineaarisetalgoritmit tulevatolemaanyksi tutkimuksenpainopistealue.Puheentutkimuson luonteeltaanpoikkitie-teellistä,ja yhteistyömuidentieteenalojenkanssatulee lisääntymään.Tär-keimmätyhteistyöalueetovat fonetiikka,foniatriaja kognitiivinenaivotutki-mus.Aikaisemminyhteistyöeri tieteenalojenvälillä oli niukempaaja rajoit-tui perustutkimukseen.Tulevaisuudessapoikkitieteellinenlähestyminenon
B. Vastaukset 43
yleisempäämyössoveltavassapuheentutkimuksessa.
Laboratoriossaon käytössäSuomenolosuhteissaainutlaatuiseterikoistilat:kolmekaiutontahuonetta,yksi kaiuntahuoneja yksi kuunteluhuone.Käytös-säon palvelinkoneja yksi PC- tai Mac-työasematutkijaakohdensekänoinkymmenenkonettayleiskäyttöön.Lisäksi akustiikanyleistutkimustavartenon erikoislaitteitasekäaudioteknisiälaitteita (DAT-nauhurit,mikserit,mik-rofonit, vahvistimet).Lisäksiuseimmattutkijat käyttävätsäännöllisestiMat-lab-ohjelmistoa;vähäisemmässäkäytössäon Mathematica-ohjelmisto.Ta-vanomaisiatutkimuksenja dokumentoinninohjelmistojaovatMS Office,La-TeX, AdobeIllustrator, Photoshopja Acrobat.
PuheentutkimuksessakäytetäänlaboratoriossakehitettyäQuickSig-puhetie-tokantajärjestelmää.Järjestelmäon kehitettyyhteistyössäHelsinginyliopis-ton fonetiikanlaitoksenkanssa.JärjestelmäontoteutettuMacintoshinCLOS(CommonLisp ObjectSystem)-ohjelmointikielellä.QuickSig-puhetietokan-tajärjestelmäon kehitetty puheentutkimuksenyleiskäyttöön,vaikka tekni-senpuheenkäsittelyntarpeetovatkin selvästietualalla.Puhetietokantajärjes-telmänperusominaisuuson monipuolinen,poikkeuksellisenkorkeatasoinenesitysformalismi.TässäsuhteessaQuickSig onkin ainutlaatuinen:sitä voi-daanperustellustipitääpuheinformaationesittämisenja mallintamisenkan-naltaparhaanasaatavilla olevanapuhetietokantajärjestelmänä.Järjestelmänhaittapuolenavoi pitää sitä, että järjestelmäntehokaskäyttö edellyttääoh-jelmointitaitoja,mikä rajoittaapuhetietokannankäytettävyyttäulkopuolisis-satutkimusyksiköissä.QuickSig-puhetietokantajärjestelmäävoidaantoistai-seksikäyttääsuhteellisenrajatunpuhekorpusjoukontutkimukseen.Suomen-kielisenpuhekorpuksenlisäksi(ks.seuraavakappale)QuickSig-ohjelmistol-lavoidaankäsitelläTIMIT, ANDOLS jaKiel puhekorpuksia.Toistaiseksitie-tokantajärjestelmänkehittäminen,korkeatasoisenesitysformalisminlaatimi-nenja hakutekniikoidenkehitystyöonollut tärkeämpääkuin korpusaineistonlaajentaminen.
Suomenkielinenpuhekorpus(ks. 49) on laadultaanerittäin korkeatasoinen.Aineistoon äänitettykaiuttomassatilassa(tai hyvässäakustiikassa)korkea-laatuisinlaittein,muttaseon kooltaantäysinriittämätön.Materiaalion huo-lellisesti lausuttuasana-ja lauseaineistoa.Käytetyin osapuhetietokannastaon kahdenmiespuhujantuottama889 sanaakäsittäväaineisto,joka on fo-neettisesti(difonisesti)balansoitu.Frekventtiäsanastoasisältävänäaineisto-na materiaalion hyvä puhutunsuomenmallintamisenlähtökohta(erityisenhyvin se mahdollistaapuhutunsuomen»mikrorakenteiden»tutkimuksen).Aineisto, erityisestiperussanasto,on huolellisestisegmentoituja annotoitumanuaalisesti.Mukanaonmyösoheistietoa(esimerkiksiF0-funktio).Aineis-to on Teknillisenkorkeakoulun ja Helsinginyliopiston yhteiskäytössä,eikäsiihenliity tavanomaistentekijänoikeusehtojenlisäksimuitarajoitteita.Sup-peanaaineistonaseei kuitenkaanole verrattavissalaajoihin kansainvälisiinpuhekorpuksiin.
Useillapuheentutkimuksenaloilla, erityisestipuheentunnistuksentutkimuk-sessa,puhetietokannoillaonaivankeskeinenrooli, koskatietokannoistasaa-tua tietoa voidaankäyttääpuheentunnistimenopettamiseen(training). Esi-merkiksiakustiikanjaäänenkäsittelytekniikanlaboratorionPUTTEPUH-pro-
44 PuheentutkimuksenresurssitSuomessa
jekti (puheestatekstiksi,tekstistäpuheeksi)edustaapuheentunnistustaja pu-hesynteesiä,joka perustuupuhetietokantatutkimukseen.
Varsinkinperustutkimuksessaon puheentutkimuksenalueita,joissapuhetie-tokannoillaei ole juurikaankäyttöä.Josesimerkiksianalysoidaanihmisenpuheentuottomekanismintoimintaa,äänimateriaalionkerättäväkulloisenkintutkimusasetelmanvaatimustenmukaisesti,eikä tutkimusaineistoavoida la-dataolemassaolevista tietokannoista.Näille tutkimusasetelmilleon lisäksityypillistä se,ettätutkittavastailmiöstä tarvitaanvarsinaisenpuhettakuvaa-van aaltomuodonohellamuitakin informaatiosignaaleja(esimerkiksielekt-roglottografiaja subglottaalinenpaine).On epätodennäköistä,ettäpuhetie-tokannattarjoaisivat tällaisiaharvinaisiapuheentuottamiseenliittyviä infor-maatiosignaalejatutkijankäyttöön.Onsiis toivottavaa,ettäpuheentutkimuk-senresurssienmahdollisenlisäämisenmyötäei rajoituttaisivain puhetieto-kantojenkehitystyöhön,vaanalankehittäminennähtäisiinlaajempana,poik-kitieteellisenähankkeena,jonkaavulla tuetaanpuheenperustutkimusta.
Akustiikan ja äänenkäsittelytekniikanlaboratorionrooli suomenkieltä kos-kevassapuheentutkimuksessaliittyy tulevaisuudessakintekniseenkehitys-työhön,jolla luodaanuusiateknologioitapuhetiedonesittämistäja käsittelyävarten.
B.2 Digitaali- ja tietok onetekniikan laitos (TTKK)
Tampereenteknillisenkorkeakoulun digitaali- ja tietokonetekniikanlaitok-senjohtajaon professoriJukka Saarinen. Yksikkö on toiminut signaalin-käsittelynlaitoksestaerotettunaomanalaitoksenaanvuoden2000alustaal-kaen.Tällä hetkellä laitoksella työskentelee150 työntekijää,joista suurinosatoimii tutkijoina tai tutkimusapulaisinaperustutkimuksensekäkäytän-nön sovellustenparissa.Puheentutkimuksenparissadigitaali- ja tietokone-tekniikanlaitoksellatyöskenteleeyhteensä9 tutkijaa,jotka kuuluvatoppiviajärjestelmiäja datafuusiotatutkivaanryhmään(LearningSystemsandDataFusionGroup):5 henkilöätutkii puheentunnistukseenliittyvää akustistamal-linnusta,2 henkilöätutkii puheentunnistustapuhelinpalvelujensovelluksiennäkökulmastaja 2 henkilöätutkii matalanbittinopeudenpuheenkoodausta.Tutkimusalaon sitensignaalinkäsittely, erityisestipuheentunnistusja -koo-daus.Puheentutkimuksenparissatyöskentelevä henkilöstöon palkattumää-räaikaisintyösopimuksin.Kaikki työsuhteetkuuluvatUSIX-teknologiahank-keenosaprojektienrahoituksenpiiriin; lisäksirahoitustatuleeSuomenAka-temianprojekti- ja tutkijakoulurahoituksesta,yliopiston perusrahoituksestasekäyritysrahoituksesta.
Laitoksentutkimustoimintaliittyy monikieliseenpuheentunnistukseen,jos-sa suomenkieli on osana.Tavoitteenaon löytää menetelmä,jolla saadaankompaktiesitysmonikielisenpuheentunnistuksenmahdollistaville akustisil-lemalleille.Puheenkoodauksentutkimuksessatavoitteenaonlöytääkoodaus-menetelmät,jotka säilyttävätpuhesignaalinlaadunhyvänämatalillabittino-peuksilla.
Monikielistenpuheentunnistussovellustenkehittäminenonvaikeaa,koskaeri
B. Vastaukset 45
kielissäkäytetäänkielikohtaisia(»fonologisoituneita»)foneemejakuvaamaansanoissaesiintyviääänteitä.Puheentunnistuksenkannaltatämätarkoittaasi-tä, että kustakin kielestäon välttämätöntäkerätäsuuria puhetietokantoja,jotta monikielisenpuheentunnistimenkehittäminenolisi mahdollista.Tieto-kantojenkerääminenlisäähuomattavasti puheentunnistussovellustenkehit-tämiseenkuluvaaaikaaja lisääkustannuksia.Yksi tapahelpottaaja nopeut-taamonikielistenpuheentunnistussovellustenkehitystyötäon siirtyä käyttä-määnuniversaaliafoneemijoukkoa, joka kattaakaikki tutkimuksenkohtee-na olevat kielet. Tässäjoukossajokainenuniversaalifoneemipyrkii kuvaa-maaneri kieltensamankaltaisetäänteetyhtenäfoneemina.Universaalifonee-mien joukko vähentäätätentunnistimenkompleksisuutta,jolloin monikie-listenpuheentunnistussovellustenkehittäminenesimerkiksimatkapuhelimiavartenhelpottuuhuomattavasti.
Vuoden2000 aikanadigitaali- ja tietokonetekniikanlaitoksellakehitettiinmonikielinenpuheentunnistin,jokakattaasuomen,saksan,englannin,espan-jan ja italian kielet.Tämämonikielinenpuheentunnistinperustuu64 univer-saaliinfoneemiin,jotka on muodostettumainittujenkielten219kielikohtai-sestafoneemista.Vuoden2001aikanatutkimussuuntautuuuusienryhmit-telymenetelmienkehittelyyn,joidenavulla kielikohtaisetfoneemitvoitaisiinryhmitelläparemminuniversaalienfoneemienluokkiin.
Digitaalisenlangattomanviestinnänkasvaessavoimakkaastionsyntynyt tar-ve matalillabittinopeuksillatoimiville, hyvänäänenlaaduntuottaville puhe-koodekeille. Monissasovelluksissa,kuten satelliittipuhelinjärjestelmissäjamatkapuhelinjärjestelmienpuolennopeudensiirtokanavissa,kiinteän puhe-linverkontarjoamapuheenlaatutulisi saavuttaaoleellisestinykyistämatalam-malla bittinopeudella.Yksi lupaavimmista matalanbittinopeudenpuheen-koodausmenetelmistäon WaveformInterpolation(WI) -koodaus.Digitaali-ja tietokonetekniikanlaitoksellaon tutkittu WI-koodaustajo useanvuodenajan.Tutkimuksessaon havaittu sekäkoodekinperusrakenteenettäkvanti-sointilohkojenvaativanlisääkehitystyötä,jottatavoitteenaolevaäänenlaaduntasovoidaansaavuttaa.Vuoden2000aikanalaitoksellakehiteltiin uusiame-netelmiäpuhesignaalintehokkaaseenmallintamiseenja kvantisointiin:mal-linnustamuutettiin siten,että alkuperäinenpuhesignaalipystytäännyt pa-lauttamaanpuhesignaaliakuvaavastapinnasta.Näin mallinnuksenaiheutta-mia virheitä pystytäännyt korjaamaankvantisointivaiheessa.Vuonna2001jatketaanedelleenmenetelmienkehittelyä.Uusi mallinnusmenetelmämah-dollistaneeaivanuudenlaistenkvantisointimenetelmienkäytön.Kvantisoin-nissatutkimuskohdistetaanerityisestipuheenjaksollistenkomponenttienen-tistä tehokkaampaankoodaukseen.Lisäksi uutenaalueenatutkitaanerittäinalhaisellabittinopeudellatapahtuvaapuheenkoodausta.
Teleoperaattoreidentarjoamiauusiamultimediapalveluita tarjotaankäyttä-jälle eri tavoin, ja samahenkilö saattaakäyttääpalveluaeri tavoin riippuenkulloisestakintilanteesta.Yhtenäuutenakäyttöliittymänänähdäänpuheoh-jaus,jossakäyttäjäohjaapalveluapuhekomennoilla.Tätävartentarvitaanpu-heentunnistin,joka on räätälöityoperaattorinpalvelimeensopivaksi toimin-nalliseksikokonaisuudeksi.Tutkimusprojektissaonalkukartoituksenjälkeenedettyääniportaalinprototyypintoteutukseen.Ääniportaalisisältääpuheoh-
46 PuheentutkimuksenresurssitSuomessa
jattuja palveluita. Palveluita voidaankäyttääsekäpuhelimenettä internet-selaimenavulla.
Vuonna2000laitoksellatehtiin perusteellinenesiselvitys,jossakartoitettiinmaailmaltalöytyviä puheentunnistusmoottoreitaja niidenavulla toteutettujapuhelinoperaattorienkäyttämiäpalveluita.SelvityksessäesiteltiinuseitaEu-roopassaja muuallamaailmassapuhelinoperaattoreillaja suurissayrityksis-säkäytössäolevia puheentunnistustakäyttäviäpalveluita(esimerkiksipuhe-luavustajatja informaatiohakupalvelut).Lisäksiesiteltiinkenttätestejä,jois-saoli testattutodellisiapuheentunnistusjärjestelmiä.Vuoden2001aikanata-voitteenaontoteuttaaprototyyppiääniohjatustapuhelinpalvelujärjestelmästäPC-ympäristössä,johonvoi liittyä sekäpuhelimenettäselaimenavulla.
TutkimuksessakäytetäänSpeechDat(II)-puhetietokantaa,jonkaomistaaTam-pereenteknillisenkorkeakoulun signaalinkäsittelynlaitos (ks. 46). Speech-Dat(II)-puhetietokantasoveltuulaitoksentutkimuskäyttöönhyvin,eikätutki-musryhmälläole tarvettakäyttäämuidentahojenpuhetietokantoja.Optimaa-lisin puhetietokantaolisi LearningSystemsandDataFusion-tutkimusryh-männäkökulmastaSpeechDat(II):nkaltainentietokanta,jokasisältäisimyösaikainformaationfoneemitasolla.
Digitaali- ja tietokonetekniikanlaitoksellatutkimustatehdäännormaaleissatyöhuoneissa,joissajokaisellatyöntekijälläon käytössääntehokasHP-Unixtai PC-työasema.Käytössäolevat HP-Unix-työasematovat pääosinB2000-ja C3000-työasemia,joiden käyttöjärjestelmäon HP-UX (v. 10.20).Levy-tilaa on 100 gigatavua. Käytössäolevat PC-työasematovat prosessoritaa-juudeltaan400–800MHz ja muistiltaan64–512megatavua.Käyttöjärjestel-mänäPC-työasemissaon Windows NT 4.0 tai Linux. Puheentunnistuksessakäytetäänpääasiassavapaastisaatavilla olevaaHiddenMarkov Model Tool-kit (HTK) -ohjelmistoa.PuheenkoodauksessakäytetäänC-kielellätehtyäoh-jelmistopakettia.LisäksipuheentunnistuksenpuhelinpalvelujensovelluksientutkimuksessakäytetäänIBM:ltä vapaastisaatavia sovelluskehitystyökaluja.
B.3 Digitaalisen median instituutti (TTKK)
Digitaalisenmedianinstituutti (Digital Media Institute,DMI) on itsenäinentutkimusyksikköTampereenteknillisessäkorkeakoulussa.Yksikössäharjoi-tetaanmonitieteistätutkimustadigitaalisenmedianalalla: ydinalueenaonääneen,kuvaan,videokuvaanja biolääketieteellisiinilmiöihin liittyvien sig-naalinprosessointialgoritmientutkimus.DMI:n audiosignaalintutkimusryh-mä(Audio ResearchGroup,ARG) ja signaalinprosessoinninlaboratoriotoi-mivat osanasignaalinkäsittelynlaitosta,jonka johtajaon professoriJaakkoAstola. ARG:n johtajanatoimii Jari Yli-Hietanen. Tampereenteknillisenkorkeakoulunsignaalinkäsittelynlaitoksenja digitaali- ja tietokonetekniikanlaitoksentutkijoistasuuriosakuuluuDigitaalisenmedianinstituuttiin.ARG-ryhmässätyöskentelee22tutkijaa,joistapuheentutkimuksenparissatyösken-telee7 henkilöä.Työsuhteetovat määräaikaisia;rahoituslähteinäovat No-kian tutkimuskeskus,Alma Media,Tekes,USIX, EU ja SuomenAkatemia.ARG:n tavoitteenaon tutkia audiosignaalinsisällönymmärtämistä;lopulli-
B. Vastaukset 47
nentavoitte on kehittääkeinotekoinenkuulojärjestelmä.Tutkimuskeskittyykäytännössäälykkäisiin audiosignaalinprosessointimenetelmiin,jotka otta-vathuomioontavan,jolla ihminenhavaitseeääntäja puhetta.ARG jakaantuukolmeenosaryhmään,joissatutkitaanpuhetta,musiikkia ja vastaanotettujensignaalienspatiaalistarakennetta.
Kehitettävätteknologiatliittyvät telekommunikaatioon:laitteistojaja ohjel-mistojakehitetäänerityisestimultimediantarpeitavarten.DMI sisältääseu-raavat tutkimuslaboratoriot:signaalinprosessoinninlaboratorio,digitaalistenja tietokonejärjestelmienlaboratorio,ohjelmistojärjestelmienlaboratorio,te-lekommunikaatiolaboratorio,hypermedialaboratorio,informaatioteknologianlaboratorio(Porissa)sekäelektroniikaninstituutti.Digitaalisenmedianinsti-tuutissatyöskenteleenoin 400tutkijaayhteensäsadassaeri projektissa.Val-taosarahoituksestatuleeSuomenAkatemianja EU:n tutkimusrahoituksesta;soveltavantutkimuksenrahoitustuleelisäksiosittainyrityksiltä, joidenkans-sateknologioitakehitetään.
Puheentutkimuksessakeskitytäännykyisin monikieliseenpuheentunnistuk-seenpuhetietokantojahyödyntäen.Suomenkielistäpuheentunnistustakehite-tääntiedonhaunja indeksoinnintarpeisiin;tutkimuksessaon erityisestimu-kanaaudiovisuaalinenpuheen-ja puhujantunnistus.
Vuonna1998hyödynnettiinlaajaaSpeechDat(II)-projektinyhteydessäkerät-tyä tuhannensuomenkielisennumeroitasisältävänlausumanaineistoakehi-tettäessäsuomenkielisessäpuheessaesiintyviennumeroidentunnistinta(Mat-labImplementationof aFinnishDigit RecognizerusingHiddenMarkov Mo-dels).Samallakerättiin ja dokumentoitiinMatlab-funktioitasekäluotiin kir-jallisuuskatsausjatkuvanpuheentunnistamiseenliittyviin malleihinja tekno-logioihin. Suomenkielisenpuheentunnistimentunnistustarkkuusoli yli 92%(sekäharjoitusaineistossaettätestiaineistossa).
SpeechDat(II)-puhetietokantaon kerättykiinteänpuhelinverkon välityksellätelepalveluidenautomatisointiavarten(aineistoon kerätty lankapuhelinyh-teyksistä koti-, toimisto- ja puhelinkoppiympäristöissä).SpeechDat(II)oneurooppalainenpuheteknologianyhteishanke,jonkaavulla onkerätty20pu-hetietokantaa14maastaEuroopassa(tavoitteenaonpuhuttuunkieleenperus-tuvien telepalveluidenluominen,standardointija levitys). Kaikkien kieltenosaltatietokantaon kerättysamallaperiaatteella.Tietokantakoostuukussa-kin kielessäsanoistaja lauseista(lausumista).Aineistonaovat telepalveluis-sa yleisestikäytettävätfraasit, spontaanitkyllä-ei -kysymykset,päivämää-rät,ajankohdat,numeroyhdistelmät,rahasummat,kaupunkienja yritystenni-met, erisnimetsekämahdollisimmanerilaisia foneemejasisältävätsanatjalauseet.Puhujatovatuseastaikäryhmästä(ikä alle16,16-30,31-45,46-60jayli 60 vuotta) ja edustavat eri murrealueitaja maantieteellisiäalueita(Suo-messaTurku, Häme,Kymi, Vaasa,Oulu, Uusimaa,Pohjois-Karjala,Keski-Suomi,Mikkeli, Lappi,Kuopio ja Ahvenanmaa).Nauhoitukseton tehtytie-tokoneenja ISDN-yhteydenavulla. SpeechDat(II)Finnish Databasepuhe-tietokannanomistaaTampereenteknillisenkorkeakoulunsignaalinkäsittelynlaitos.
SpeechDat(II)FinnishDatabase-puhetietokantasisältääyhteensä300 tun-
48 PuheentutkimuksenresurssitSuomessa
tia puhesignaalia,jonkatuottajinaoli 4000suomenkielistäpuhujaa.Aineistoon digitaalisessamuodossarompuilla (yhteensä14 romppua,jotka noudat-tavat ISO9660-formaattia).Audiotiedostoton tallennettu8000 Hz:n näyt-teistystaajuudellakäyttäen8-bit A-LAW -formaattia.Jokaisellarompullaon300puheluaja vastaavat transkriptiotiedostot(ISO-8859-1-tekstinä);jokai-nenCD-ROM-levy sisältäälisäksihenkilöitäja puhelunajankohtaaja luon-nettakuvaavat tiedostot.Aineistonannotointion tehtyortografiantasollail-man segmentointia:kustakintallenteestaon tiedossavain sentranskriptio,johonei ole liitetty aikainformaatiotalauseiden,sanojentai foneemienalku-ja loppukohdista.Kohinaasisältävätja virheellisetkohdatsekäkohdat,jois-saei ole puhettatai seei ole ymmärrettävää,on annotoituerikoismerkein.Philipsin FreeSpeechViva, joka on ensimmäinensuomenkielelle kehitettyluonnollisenpuheentunnistusohjelma,on harjoitettuSpeechDat(II)FinnishDatabase-puhetietokannalla.Tutkimustapahtuupääosindigitaalisestitieto-koneidenavulla; nauhoituksiatehdääntarvittaessatutkimusryhmänkäytössäolevassavaimennetussaaudiolaboratoriossa.SovellusohjelmistoinakäytössäovatMatlab,HTK ja C++.
Tietokantaonsopivanykyisiäpuheentunnistukseenliittyviä tutkimustarpeitavarten.Muut puheentutkimustahotovat osoittaneetkiinnostustatietokantaakohtaan,muttatutkimuskäytönhintaon toistaiseksisopimatta.Tutkimusryh-mätarvitsisi toisaaltakäyttöönsälaajanaudiovisuaalisentietokannan,koskaaudiovisuaalinenpuheentunnistusnouseetutkimuksenpainopistealueeksilä-hitulevaisuudessa.Tärkeimmät(kaupalliset)sovellukset,joita voidaanodot-taalähiaikoina ja joiden kehittelyssäDigitaalisenmedianinstituutti on mu-kana,ovatparempilaatuisetpuheentunnistimet,joita voidaankäyttääesimer-kiksi puhehaussajadialogijärjestelmissä(puhelinnumeronvalintapuheellajaaikataulujentiedustelujärjestelmät).Puheentutkimus(puheentunnistusja pu-heenkoodaus)tuleeolemaankasvavaala;DMI:n tutkimuspyrkii kehittämäänihmisenkanssavuorovaikutuksessatoimivia, entistäälykkäämpiäpuhetek-nologiajärjestelmiä.
B.4 Elisan tutkim uskeskus
Elisa-konsernintutkimuskeskus(Elisa CommunicationsResearchCenter,ECRC),jonka johtajaon professoriPauli Kuosmanen, harjoittaatutkimus-toimintaa,jonkatavoitteenaon luodauusiasovelluksiaja innovaatioitatele-viestinnänalueella.Puheentutkimuksenalueellapyritäänetsimäänja kehit-tämäänmahdollisuuksiasoveltaapuheen-ja puhujantunnistustaoperaattori-toiminnassa.Tutkimuskeskuksessatyöskentelee80 henkilöä,joistapuheen-tutkimuksenparissatoimii 5. TutkimuksessakäytetäänerityisestiIBM:n ViaVoice -ohjelmistoa.Tulevaisuudenvisioita ovat puheportaalitja hakusovel-lukset,jotka mahdollisestitoimivatmultimodaalisina.
B. Vastaukset 49
B.5 Fonetiikan laitos (HY)
Helsingin yliopiston fonetiikan laitoksella tutkitaanfonetiikkaa,puhevies-tintääja logopediaa.Laitostavoidaanpitääkokonaisuudessaanpuheentutki-muslaitoksena.Laitoksenjohtajaon professoriAnu Klippi . Laitoksellaon22 henkilövirkaa(mukaanlukien tutkijat, puolipäiväinenamanuenssija toi-mistosihteeri)sekäyksi stipendiaatti.Fonetiikanoppiaineessaon professo-ri, lehtori,assistentti,puheteknologianlehtori(kolmevuotinenmääräaikainenvirka), kolme tutkijaa sekätutkimusavustajia.Puheviestinnänoppiaineessaonkaksilehtoriasekäpäätoiminentuntiopettaja.Logopedianoppiaineessaonprofessori,kolmelehtoria,kaksimääräaikaistalehtoria(kolmevuotisetmää-räykset),määräaikainenyliassistentti(viisivuotinenmääräys,päättyy2003),kaksi assistenttiasekätutkija. Lisäksi annetaantuntiopetusta.Yhteensälai-toksellatoimii 3 määräaikaistalehtoria,4 määräaikaistatutkijaa(rahoitusläh-teinäLangnet-tohtorikoulusekäUSIX-teknologiaohjelma)ja yksi Helsinginyliopistonapurahallatyöskentelevästipendiaatti.
Fonetiikanlaajojahankkeita ovat tällä hetkellä puheenprosodiantutkimus,lapsenäänteellisenkehityksentutkimus,suomenkielisenpuhetietokannanke-hitystyö,puheentyylien tutkimus,puhujantunnistuksentutkimussekävokaa-litutkimus.Puheenprosodianpiirteitä on tutkittu suomen,englannin,saksanja unkarinosalta.Myösalkoholinvaikutuksenalaisenaolevienpuhujienpro-sodiaaon tutkittu. Lapsenäänteellisenkehityksentutkimusliittyy 1995al-kaneeseentutkijakouluun,jonkateemaon lapsennormaalija poikkeavakie-lenkehitys (yhteistyötahoon Oulun yliopiston suomenja saamenkielen jalogopedianlaitos).
Puheentyylien tutkimustoteutuuvertailevanatutkimuksena,jossakartoite-taansuomen-,englannin-ja saksankielistenradio-, tv- ja elokuvaraporttienprosodianerojaja yhtäläisyyksiä.Myös vanhempaasuomenkielisenpuheentyyliä radio-, tv ja elokuvaraporteissaon verrattuuudempaanradio ja tv-tyyliin. Puhujantunnistuksentutkimusliittyy TekesinUSIX-ohjelmastara-hoitettavaankolmevuotiseen(2000–2002)suomenkielisenpuheteknologianyhteishankkeeseen(ks. 84). Vokaalitutkimuksenkohteita ovat esimerkiksivokaalipositionmääräytyminenF1/F2-formanttikartassa,psykofoneettinenF1/F2formanttikarttaja vokaalienprototyyppiensähköisetvasteetaivoissa.Forensinenpuhujantunnistuson ollut tutkimushanke fonetiikan laitoksella
vuodesta1984.TutkimustatehdäänyhteistyössäKeskusrikospoliisinkans-sa.Puhujastaja välitystekniikastariippuvaa puheenymmärrettävyyttätut-kitaan hankkeessa,johon Ilmailulaitostaja Finnairia on pyydetty mukaan;projekti on nyt osahankkeenaUSIX-ohjelmassa.Fonetiikanlaitoksenosuuspuheentunnistuksentutkimuksestasuomenkielisenpuheteknologianyhteis-hankkeessaon 44 %. Puhesynteesinosaltatutkimustaon tehty osittain ti-laustyönä:partnereitaovat olleet ruotsalaisetInfovox (vuosina1992–1993)ja Telia (syksyllä1999).Laitos osallistuuEU:n rahoittamaanCOST-hank-keeseen,jonkatavoite on kehittääpuhesynteesinlaatua.Suomenkielisenpu-heteknologianyhteishankkeenyhteydessälaitoksellakehitetäänpuheenpro-sodiikaanperustuvaasuomenkielistäpuhesynteesiä.
SuomenkielinenpuhetietokantakehitettiinalunperinTeknillisenkorkeakou-
50 PuheentutkimuksenresurssitSuomessa
lun akustiikanja äänenkäsittelytekniikanlaboratoriossaautomaattisenpu-heentunnistuksentarpeisiin;nykyisin puhetietokantapalveleesekäfoneet-tista perustutkimustaettäsoveltavaateknologistatutkimusta.Laitos osallis-tuu myös toukokuussa2001 alkaneeseenINTAS-yhteishankkeeseen,jossakerätäänhollannin,suomenja venäjänspontaaninpuheenaineistoa.INTAS-hankkeennauhoituksettehdäänkesän2001aikana.
Fonetiikanlaitos on ollut kauanaktiivinen toimija puheteknologianalalla.Jo vuonna1970julkaistiin tutkimustietokoneellatapahtuvastaäännespekt-rien automaattisestatunnistamisesta,ja puhesynteesinkehitystyötäon tehtyyhteistyössäHelsinginyliopistonpsykologianlaitoksenkanssa1970-luvultalähtien.Fonetiikanopetusohjelmassaon ollut puhesynteesikurssikyseiseltävuosikymmeneltälähtien).Radiopuhelinliikenteenymmärrettävyystutkimusoli yhtenäpainopistealueena1980-luvulla.Renovata-selvityksenyhteydessä1994 kartoitettiin mahdollisuuttaperustaapuheteknologianopintolinja yh-dessäHelsinginyliopistontietojenkäsittelytieteenlaitoksenkanssa.Selvityk-senjälkeenpäädyttiinkuitenkin jatkamaanyhteistyötäTeknillisen korkea-koulun akustiikanja äänenkäsittelytekniikanlaboratorionkanssa(yhteistyöOtaniementutkimusyksiköidenkanssaalkoi 1980-luvunalussa);erityisenäpoikkitieteisenähankkeenaondigitaalitekniikkaanperustuvapuheenanalyy-si.Puheteknologiaankuuluvatkurssitonmainittufonetiikanlaitoksenyhtey-dessäHelsinginyliopiston humanistisentiedekunnanopinto-oppaassasyk-systä1995alkaen;syksystä1999alkaenfonetiikanopintovaatimuksissaonollut Puheteknologisetsovellukset-opintokokonaisuus.
Laitoksellaontutkimuskäytössädigitaalinensuomenkielinenpuhetietokanta,jokaonyhteinenTeknillisenkorkeakoulunakustiikanjaäänenkäsittelyteknii-kan laboratorionkanssa.Vuonna1993alkanuthanke on alallaanensimmäi-nentieteidenvälinenhankeSuomessa.Tietokantakoostuufoneettisestiedus-tavista irrallisistasanoista.Yksiköitä on 889kahdenmiespuhujantuottami-na,segmentointion tehtykäsin;foneettisestiedustavistairrallisistalauseista(yksiköitä on 117 kahdenpuhujan,miehenja naisen,tuottamina;segmen-tointi on tehty käsin),syntaktisestitasapainotetuistalauseista(yksiköitä on276 viiden miespuhujantuottamina;segmentointion tehty automaattisesti)ja foneettisestiedustavista lauseista(yksiköitäon 1126yhdenmiespuhujantuottamina;segmentointion tehtykäsin).Aineistoon annotoitumonellata-solla.
Suurimmassaosassaaineistoaonhierarkinenkuvaus,jossaonerotettutoisis-taaneri yksiköt,alkaenlauseen(ilmauksen)tasoltapäättyenfoneettisenseg-menttiin.Foneettinensegmenttion tässääänettäpitempiyksikkö,esimerkik-si klusiilit on segmentoituerillisiin sulkeuma-ja avovaiheisiin.Muut yleisetyksikötovatäänne-ja sanatasot,joissamolemmissavoi olla tyypiltäänerilai-setannotaatiot:äännetasollafoneettinentarke ja sanatasollamyösmorfolo-ginenanalyysi.Foneettisestiedustava lausejoukko sisältääsanatasollamyösmorfologisetanalyysit.
Annotaatioidenlisäksitietokantaanon tallennettuerilaisialaskentaavaativiarepresentaatioitasignaaleista(esimerkiksiperustaajuus-ja intensiteettikäy-rät).Aineistoon segmentoituäänne-,tavu- ja sanatasollaQuickSig-puhetie-tokantajärjestelmässäkäytettäväksi.QuickSig-puhetietokantajärjestelmässä
B. Vastaukset 51
on mahdollistakäyttääeri tasojentietojaosoitteina,laskeaosoitteistatietojaja tehdätilastoja.Osoitteillavarustettujaaineistojavoidaanselaillaja analy-soidavarsinjoustavasti.
Lisäksi laitoksellaon puhetietokantoinayhdenpuhujantuottamaedustavaesityssuomenvokaaleista(DAT-nauhoitussisältääkaikki pääpainollisetvo-kaalit lyhyinä ja pitkinä 11 konsonanttiympäristössä)ja puhuvasuomenkie-len sanakirja(DAT-nauhoillaon kahdenammattipuhujantuottamina10 000sanaa,jotka on valittu huolellisenkielellisenanalyysinmukaan).Puhuvaansanakirjaanliittyvät nauhoituksetvalmistuivatsyksyllä2000,jaaineistoasiir-retäänparhaillaantietokoneeseenjaCD-levykkeelle.Digitaalitekniikkaanpe-rustuva suomenkielinenpuhuva sanakirjaon osahanke Suomenyleiskielenfonetiikka-tutkimusprojektissa,joka onSuomenAkatemianrahoittama.
Laitostilojaonnoin664neliömetriäneljässäkerroksessa:laitostilatsisältäväthenkilöhuoneet,äänittämön,puhumon,laboratorioja terapiatilatsekäluen-to ja harjoitustilat.Tallennuslaitteinaon kelanauhoittimia,DAT-nauhureita,Sony-mininauhoittimia,videokameroitaja mikrofoneja.Käytettäviäpuhea-nalyysiohjelmistojaovatSoundscope,Kay ElemetricsComputerizedSpeechLaboratory, Multispeech,Praat,Signalyzesekäpuhetietokannankäsittely-ohjelmaQuickSig.Taulukkolaskennassakäytössäovat esimerkiksiExcel jaStatView. Erityisestipuheteknologiaanliityviä ajankohtaisiatutkimushank-keitaovat puhujantunnistusja puhesynteesi.Lisäksi laitoksellaon kehitettyalaanliittyviä omiatietokoneohjelmia.
Viime vuosinafonetiikanlaitoksellaon kehitettyohjelmia,joissasyötteenäonjoko diskreettiämerkkiaineistoatai laitoksenkaupallisillapuheenanalyy-siohjelmillamitattuadigitaalistatietoa.Ohjelmatmahdollistavatesimerkiksispektrivertailun,psykoakustisenformanttikartan,puhujanartikulaationliik-kuvan lateraalikuvan,kestovertailun,perustaajuuskontuurienvertailun,ään-netilastojengraafisenesittämisensuoraansanakirjastatai tekstikorpuksestasekäpuhujantemporaalisenäänialankuvauksen.Kaikenkaikkiaanohjelmiavoidaankäyttäälaajastikieltenäänteellistenja prosodistenseikkojenkuvaa-miseen.
Fonetiikanlaitoksellatarvitaannykyistä laajempija edustavampipuhetieto-kanta;tarkoituksenaonhankkiaSpeechDat(II)(ks.46). USIX-teknologiaoh-jelmanyhteydessälaitos suunnitteleelaajanpuhujatietokannankeräämistä.LisäksiEU:n INTAS-hankkeessatullaanlaatimaanrajoitettuspontaaniapu-hettaja lukupuhuntaasisältäväpuhetietokanta.
Puheendigitaalinentaltiointi on nostanutaineistonsäilyvyydenja käsitte-lyn tasoahuomattavasti:työasemat,joilla voidaankäsitellähyvin laajojadi-gitaalisiapuheaineistojatehokkaillaohjelmilla, tulevat yleistymään.»Mam-muttiaineistot»eivätkuitenkaanratkaisekaikkiaongelmia,vaanerillisaineis-tot, esimerkiksimurreaineistot,ovat tarpeenerillistutkimuksiavarten.Puhe-tietokantojenedustavuudenkäsitetulisikin suunnitellatarkoin, ja tähäntar-vitaantutkimustahojenvälistäyhteistyötä:puhetietokantojensisältöjentuli-si mahdollistaaeriytyneet,joissakintapauksissamyöspienimuotoiset,tutki-mushankkeet
Tulevaisuudenkeskeisettutkimuskohteetfonetiikanlaitoksellakoskevatsuo-
52 PuheentutkimuksenresurssitSuomessa
men fonetiikkaayleensä,puhujantunnistusta,puhesynteesiäsekäpuhuvansanakirjansovelluksia.Puheenasematutkimuksenkohteenaon entistäsel-vemmintunnustettu,ja puheentutkimuksen(tieteellinenja kaupallinen)pai-noarvo on selvästilisääntymässä.Puheteknologiaaovat perinteisestiedusta-neetSuomessateknillisetkorkeakoulut,muttanykyisin alkaaolla selvää,ettämyöshumanistinenasiantuntemusonalallatarpeen.TämänosoittavatUSIX-hankkeet (alkaenvuodesta2000), jotka tähtäävätkäyttäjäläheisenosuudenlisäämiseenalueilla,joissatekniikkaja humanistisettieteetkohtaavat.
B.6 Fonetiikka (TUY)
FonetiikkakuuluuyhtenäoppiaineenaTurunyliopistonsuomalaisenja ylei-senkielitieteenlaitokseen.Määräaikaisenaprofessorinatoimii Olli Aalto-nen. Oppiaineessaon vain kaksipysyväävirkaa jäljellä: fonetiikanlehtorinja tutkijanvirat. Vuoden2001alustalähtienfonetiikanoppiaineessaovattoi-mineetmääräaikainenprofessori,erikoistutkija, lehtori, yliassistentti,ama-nuenssisekäprojekteissatoimivat tutkimusassistenttija -avustaja.Rahoitusmääräaikaisiintoimiin tuleeprojekteista:Kieliteknologianprojektirahoituk-sellaturvataanprofessorinja erikoistutkijantyö vuoden2001heinäkuunlop-puun,ja Tekesrahoitti amanuenssinja tutkimusassistentintyösuhteet,jotkapäättyivät huhtikuussa2001.Yliopiston virkabudjetistamaksetaanlehtorinja yliassistentinpalkat;heidänkinmääräyksensäloppuvatheinäkuussa2001.
Oppiaineenkeskeisin tutkimusalueon 1960-luvultalähtienollut eri kieltenvokaalijärjestelmienvertailevatutkimus.Menetelmällinenperustaonvokaali-järjestelmienakustiseenanalyysiinpohjautuvavertailujapuhesynteesi.1980-luvulla puheenhavaitsemisentutkimuksessaalettiin soveltaalisäksiaivotut-kimuksenmenetelmiätavoitteenaymmärtääfoneettistenprosessienbiologis-ta perustaa.Tämäkehitys johti 1990-luvullakognitiivisenneurotieteentut-kimusyksikönperustamiseen;yksikkö on monitieteinen,ja fonetiikanasian-tuntemuksenlisäksiyksikköedustaaneurologian,kliinisenneurofysiologian,psykologianja tilastotieteenasiantuntemusta.Fonetiikantutkimuksenpääta-voitteenaonselittääpuheentuottamisenja havaitsemisensentraalisiaja peri-feerisiäprosesseja;tavoite vaatii erittäin laaja-alaistatiederajatylittävääyh-teistyötä(esimerkiksisuukirurgian kanssatehdäänyhteistyötäpuheenarti-kulatorisenja neuromotorisenkuvauksentäsmentämiseksija vieraankielenäännejärjestelmänoppimistatutkitaan yhteistyössädidaktiikan tutkijoidenkanssa).Erityisenselvästion nähtävissä,ettäaivotutkimuksenmenetelmiäsoveltaenvoidaanselittääerilaisiafoneettisiaja fonologisiailmiöitä. Foneet-tistatutkimustatehdäänlisäksisuomenmurteidenakustisistaominaisuuksis-ta,puheenyleisistäprosodisistapiirteistäsekäerityisestiäänenperussävelensäätelystäsana-ja lausepainonilmaisemisessa.Fonetiikantutkimuspalveleemyöspuhtaastisoveltavia näkökohtiasiten,ettäyhteistyötätehdäänyritystenkanssapuheteknologianalaankuuluvissakehityshankkeissa.
Oppiaineenkäytössäovat Turun yliopiston LauseopinarkistonkokoelmatsekäHelsinginyliopiston yleisenkielitieteenlaitoksenpalvelimessaolevattietokannat.Näitä resurssejaei kuitenkaanole hyödynnettylainkaanniidenhankalankäytettävyydenvuoksi.Fonetiikanoppiaineellaolisi sitenkäyttöä
B. Vastaukset 53
digitaalisestitallennetullepuhetietokannalle,jokaolisi annotoitufoonien,fo-neemien,tavujen,morfeemienja sanojentasollamyösprosodianosalta.
Oppiaineellaon käytössäänkahdeksantyöhuonetta,joihin on sijoitettuhen-kilökunnantilojen lisäksiakustisenanalyysinja puhesynteesinlaboratorioti-lat. Laboratoriotilanaon äänieristettyhuoneja tutkimustiloinakaksianalyy-sihuonetta.Äänitysstudiolaitteenaon Revox G36. Tietokonekantakoostuuseuraavista laitteista:OsborneWork AE7K-800-D8(kolmekappaletta),Os-bornePower, OsborneEDU S810,OsbornePower CT6K-233-U2,OsbornePro, OsbornePower 40891511sekäMac Perfoma6320(käyttöjärjestelmi-nä Windows 95 / 98 sekäMacOS7.5). Oheislaitteinaovat puheanalyysissäKay ElemetricsSona-GraphDSP5500ja LUCIA spektri-indikaattori,puhe-synteesissäPipelb -syntetisaattorija Ove lb -syntetisaattorisekäpuheental-lennuksessaSharpMD-SR50HMD -nauhuri,TascamPS-D1DAT-nauhuri,Aiwa DAT nauhurija Aiwa C-kasettinauhuri.Mikrofoneja ja desibelimitta-rejaovat AKG C1000S,AT-9500,ShureSM48,ShurePrologue14H,Hamaja Brüel & Kjaer 2209.Käytetytohjelmistotovat Kay ElemetricsCompute-rized SpeechLaboratoryCSL 4300B,Kay ElemetricsVisi-Pitch6097,IPATutorial,HL Syn,Praat,CoolEdit2000sekäAutoSyn.
Tärkeälähitulevaisuudentavoite tutkimuksessaon selvittääfonetiikanja ai-votutkimuksenmenetelmin,miten äidinkielenäännejärjestelmämuodostuuja kehittyy vastasyntyneenaivoissa;hanke on osakansainvälistätutkimusta,jonkaavulla kerätäänperustietoamonikielisyydenaivomekanismeistaja vie-raankielen oppimisesta.Foneettisinja psykofysiologisinmenetelminon jovoitu osoittaa,ettääänenkuuleminenja puheenhavaitseminenovateri asioi-ta(onmyöspystyttyosoittamaan,ettätiedostamattomallakuulemisentasollaäidinkieli modifioi havaitsemistaratkaisevasti).Puheenhavaitsemisentutki-muksessaon nyt menossauusi vaihe,kun akustistenmuuttujienlisäksi kar-toitetaankielensääntöjenvaikutustahavaintoon.
Suomenkieleenliittyvä puheentutkimustuleeolemaanoppiaineensisälläen-tistä merkittävämpialue: suomenkielisenpuhesynteesinjatkokehittelyäol-laanaloittamassayhteistyössäpuheteknologiantutkijoidenkanssa(jo 1970-luvulla luotiin toimiva sääntösynteesi,jota nyt kehitetäänedelleen).USIX-ohjelmassaoppiaineenrooli liittyy monikieliseenpuheentunnistukseen:yh-teistyökumppaneitaovatTampereenteknillinenkorkeakoulu ja Nokia.Turunyliopistossaon kehitettytutkimushankettavarten400vokaaliärsykettäsisäl-tävätesti,jokasiirretäänkokonaisuudessaanverkkoon.Pilottikokeitaon teh-ty sadallakuulijalla, jotka edustavat toistakymmentäeri kieltä. Tilastollistaanalyysiäkehitetäänparhaillaaneri kieliä yhdistävienpiirteidenlöytämisek-si.
Puheteknologianalallaolevakysyntäylittääselvästipuheentutkimuksenalal-la toimivien tutkijoidenmäärän.Opetus-ja tutkimusvirkojenlakkautusja se-nioritutkijoiden vähäinenmääräovat vakava uhkasekätieteenalantulevai-suudelleettämaammekansainvälisellekilpailukyvylle.
54 PuheentutkimuksenresurssitSuomessa
B.7 Institutionaalisen vuor ovaikutuksen tutkim usyksikkö
Institutionaalisenvuorovaikutuksentutkimusyksikköon Tampereenyliopis-ton sosiologianja sosiaalipsykologianlaitoksen,Kotimaistenkielten tutki-muskeskuksenja Helsinginyliopistonsuomenkielenlaitoksenyhteishanke.ToimintaakoordinoiTampereellaprofessoriAnssi Peräkylä (sosiologianjasosiaalipsykologianlaitos).Institutionaalisenvuorovaikutuksentutkimusyk-sikkökokoaayhteenammatillisiavuorovaikutustilanteitakoskevaatutkimus-ta ja alantutkijoita. Yksikön piirissätehdäänsekäsosiaali-ettäkielitieteel-listä tutkimusta.
Sosiologianja sosiaalipsykologianlaitoksellatyöskenteleenoin30henkilöä,joista7 työskenteleepuheentutkimuksenparissa;yliopistonvirassaon3 hen-kilöä, muut toimivat SuomenAkatemianrahoituksella.Laitoksellaharjoi-tettava puheentutkimuskuuluu sosiaalipsykologianja keskustelunanalyysinalaan.
Hoitoideologiat ja vuorovaikutus-hanke tutkii hoitoa koskevien teoreettis-ten mallien ja todellisenvuorovaikutuksensuhdettakolmessaympäristös-sä:potilaanalkoholinkäyttöäkoskevassamini-interventiokeskusteluissalää-kärinvastaanotolla,vaihtoehtolääkinnässäsekäpsykoanalyysissä.Hankkeentavoitteenaon selvittää,miten hoidonantajanja vastaanottajanvälistävuo-rovaikutustakoskevat ammatillisetteoriat ja normatiiviset mallit toteutuvattodellisissavuorovaikutustilanteissa.HankkeessaIkääntyminen,terveys jatoimintakyky tutkitaaninstitutionaalistavuorovaikutusta:kuntatasonaluetyö-ryhmientoimintaaanalysoimallapyritäänhahmottamaansitä,miten eri so-siaali-ja terveystoimenedustajistakoostuvissatyöryhmissätehdäänyksittäi-senikääntyvänhenkilönelämäntilannettakoskevia käytännönhoito- ja pal-velupäätöksiäja miten päätöstenkriteerejätuotetaanja määritelläänasian-tuntijapuheessa.
Hoitoideologiat-aineistokoostuuluonnollisestadialogistainstitutionaalisis-sakonteksteissa.Mini-interventio-aineistokoostuudigitaalisessamuodossaolevistavideonauhoista,jotkaonkopioituVHS-videonauhoilleja C-kaseteil-le; aineistoaon 26 tuntia.Psykoanalyysi-aineistoon tallennettudigitaalises-ti; aineisto,jota on 45 tuntia, on lisäksi kopioitu C-kaseteille.Vaihtoehtoi-sethoitomuodot-aineistoon videoitu digitaalisestiD8-nauhoille,joilta ai-neistoon kopioitu VHS-videonauhoilleja C-kaseteille.Aineistoaon 87 tun-tia, ja materiaaliakerätäänedelleen.Ikääntyminen,terveys ja toimintakyky-aineistoon videoitu digitaalisesti(D8); aineistoaon 26 tuntia ja sisältönäon moniammatillistapäätöksentekoaedustavia kokoustilanteitasekävapaa-muotoisempiapuhetilanteita.Lisäksivideoitujalääkärinvastaanottojaon tut-kimusaineistona60tuntia;materiaalionvideoituanalogisesti(Hi8). AineistoonkopioituVHS-nauhoilleja C-kaseteille).
Kaikki aineistokerättiinsiten,ettäkameratai nauhurioli samassahuoneessainformantinkanssa.Tutkija ei ollut läsnänauhoitustenaikana.Kaiken tal-lennetunaineistonosaltainformanteiltaon pyydettykirjallinen lupamateri-aalin tutkimuskäyttöävarten.Tarvittaessaeettiseltätoimikunnaltaon lisäksihaettulupa.On huomattava,ettäaineistoon luonteensavuoksiehdottomastisalaista– materiaaliei ole jaettavissalaajempaantutkimuskäyttöön.Kaikki
B. Vastaukset 55
tallennettumateriaalion litteroitu vakiintunuttakeskustelunanalyyttistata-paakäyttäen,sitenettäesimerkiksipainotukset,tauot,sisäänhengityksetjanaurahdukseton tarkoin merkitty. Litterointi on tallennettutietokoneelle.
Tutkimuslaitteinalaitoksellaon kaksi VHS-videonauhuria,kaksi televisio-ta, CD-soitin, MD-soitin, viisi litterointilaitettaC-kasettejavarten,MD-lit-terointilaitesekäkaksi digitaalistaHi8-videokameraa.Lisäksi ostopalvelu-nakäytetäänTampereenyliopistonpuheopinlaitoksenkeskusstudiota,jossaMD-aineistondigitaalinenvarmuuskopiointi suoritetaan.Tutkimuksenapunakäytetääntavanomaisiatekstinkäsittelyohjelmia(Windows,WP).Varsinaisiapuheentutkimukseensuunniteltujasovellusohjelmiaei olekäytössä.
Laitoksellaon kiinnostustaja tarvettakäyttäämuidenpuheentutkimustaho-jenpuhetietokantoja;erityisentarpeellisiaolisivatarkikeskustelujasisältävätaineistotja litteraatiot.Laitoksenomataineistoteivät ole materiaalinarka-luontoisuudenvuoksimuidentahojenkäytettävissä.
B.8 Kognitiivisen tieteen ja teknologian tutkim usr yhmä(TKK)
Kognitiivisen tieteenja teknologiantutkimusryhmätoimii Teknillisenkor-keakoulunlaskennallisentekniikanlaboratoriossa,jokakuuluusähkö-ja tie-toliikennetekniikanosastoon.Tutkimusryhmänjohtajaon professoriMikk oSams. Yksikössäon 11 tutkijaa, joista puheentutkimuksenparissatyösken-telee9 henkilöä(virkasuhteisiatutkijoita onkaksi;SuomenAkatemiarahoit-taakolme tutkijan- paikkaa,Tekeskaksi ja EU yhden).TutkimustilojaovatpsykofysiikanlaboratoriosekäEEG-laboratorio.
Kognitiivisentieteenja teknologiantutkimusryhmäkeskittyy erityisestiau-diovisuaalisenpuheenhavaitsemisenneurokognitiivisiin mekanismeihin.Pu-he ei ole vain akustinen,vaan myös visuaalinenilmiö. Visuaalinenpuheon siis nähtyäpuheartikulaatiotaja kuulija integroi visuaalisenja akustiseninformaationhavaitessaanja tulkitessaanpuhetta.Visuaalinenpuheon eri-tyisentehokastasilloin, kun akustinensignaalion heikentynyt, esimerkiksimeluntai ihmisenkuulovian johdosta.Toisaaltavisuaalinenpuhevaikuttaatulkintaansilloin, kun akustinenja visuaalineninformaatioovat ristiriidassakeskenään(McGurkin efekti).
Tutkimusryhmänperustutkimuksellisenatavoitteenaon mm. kartoittaaai-vojenaudiovisuaalisetintegraatioalueet.Menetelminäovat psykofysiikka jamodernitaivojen kuvantamismenetelmät(EEG,MEG ja fMRI). Soveltava-na tavoitteenaon kehittääihmisenkommunikaatiomekanismientuntemuk-seenperustuvaaudiovisuaalistapuhettatuottavakasvoanimaatio,KeinoHen-kilö. Tutkimuksessahyödynnetäänlaskennallistainformaatiotekniikkaa,jos-sakäytetäänkehittyneitätodennäköisyys-ja informaatioteoreettisiamenetel-miä sekäneuroverkkoihin perustuvaalaskentaa.
Ensimmäinenversioaudiovisuaalisestapuhesyntetisaattoristakulkeenimel-lä »puhuvapää».Seonyhdistelmäakustisestasyntetisaattorista(TimeHouseOy:n kehittämäMikroPuheks. 83) ja dynaamisestaanimoidustakasvojen
56 PuheentutkimuksenresurssitSuomessa
mallista.Vastaavia puhuviaaudiovisuaalisiapuhesyntetisaattoreita(TalkingHeads)on kehitettyenglannin,ruotsin, japaninja ranskankielille. Syntee-sin laatuaarvioidaanjatkuvasti,ja laboratoriossakehitetäänsystemaattisestityökalujaevaluointiavarten.Järjestelmänkäyttöliittymäon kehitettyyhteis-työssäprofessoriKari-J ouko Räihän johtamanTAUCHI-ryhmäkanssa(ks.80).
Syntetisaattorintuottamatfoneemiartikulaatiotperustuvat laboratoriossake-rättyyn audiovisuaalisenpuhetietokantaan.Kasvojen liikk eitä mallinnetaanFACS-järjestelmänmukaisesti(facial actioncodingsystem).Järjestelmässäon 49 parametriä,joista 12 parametriämallintaavisuaalistapuhetta,kutenhuultenja leuanasentoa.Lisäksi mallissaon parametrejä,jotka mallintavatkasvojentopologiaa,ja ilmaisuparametrejä,jotkakontrolloivatkasvojenliik-keitä. Tulevaisuudessatarvitaanlaajempiaudiovisuaalinenpuhetietokanta,jonka avulla voidaanmallintaakoartikulaatiotaja parantaapuhesynteesissäsiirtymistäviseeminja foneeminvälillä.
KeinoHenkilöntuottamaaudiovisuaalinenpuhesynteesiperustuutekstiläh-töiselleanimaatiolle.Akustinensyntetisaattori(MikroPuhe)kääntääsyötet-tävän tekstin foneemisekvensseiksi.Kukin sekvenssisisältääkohdefonee-min sekäedeltävänja seuraavan foneemin.Sekvenssikontrolloi visuaalis-ta syntetisaattoria.Akustinensynteesion metodiltaan»konkatenatiivinen»:uusiaäänteitätuotetaanyhdistelemälläsopivia segmenttejätallennetustapu-heestaja näihin lisätääntarvittavat kesto-ja perussävelarvot. Yhdenaudio-sekvenssintuottamistavartentarvittava laskenta-aikaon vähemmänkuin 5ms. Visuaalisellesyntetisaattorilleannetaantarvittavat kasvojen liikk eidensynkronointiakoskevat tiedot. Siirtyminenfoneemitasoltakasvojen liikk ei-dentasolleperustuuns.viseemeihin.Suomenkielestäon löydetty12 visee-miä,jotkaonmuodostettuyhdistämällävisuaalisestisamankaltaisetfoneemityhtenäisiksiryhmiksi.Viseemitonaudiovisuaalisessapuhesynteesissäkään-nettykasvojenliikk eitämallintaviksi parametreiksi.
Suurinongelmatällä hetkellä on se,ettäpuhesyntetisaattorintuottamaääniei ole laadultaanluonnollisenäänentasoa.Synteesissäkäytettävämenetelmäyhdisteleeaiemmintallennettujasegmenttejäja segmenttienvälillä olevatra-jakohdatja epäjatkuvuudetaiheuttavat generoituunpuheeseenkohtia, jotkaeivätkuulostaluonnollisilta.
Audiovisuaalisenpuhesyntetisaattorintuottamanpuheenymmärrettävyyttäon tutkittu perkeptiotestein.Kun syntetisaattorintuottamaafoneemiartiku-laatiotaparannettiinja laskennallinenkielenmalli lisättiin järjestelmään,syn-teettistenkonsonanttiartikulaatioiden,erityisestibilabiaalienja labiodentaa-lien, ymmärrettävyyskohenihuomattavasti.Testienavulla synteettistenkon-sonanttienja vokaalienidentifioitavuuttakehitetäänedelleen.
KeinoHenkilöonskaalautuvaja aiempia»puhuvapää»-mallejayksityiskoh-taisempi.Joustavaaparametrisointiakehitetäänkeinohenkilönkasvojen ra-kenteelleja visuaalisellepuheelle.MyöhemminKeinoHenkilötuleeolemaanosadialogijärjestelmää,jossayhdistyvätaudiovisuaalinenpuhesynteesi(mu-kaanlukien siihenliittyvät kommunikatiiviseteleet)sekäautomaattinenau-diovisuaalinenhenkilöntunnistaminen.
B. Vastaukset 57
Kognitiivisen tieteenja teknologiantutkimusryhmäjatkaa KeinoHenkilönkehitystyötäerityisestiosanadialogijärjestelmiä.Audiovisuaalisenpuheen(perus)tutkimustaja mallintamistatullaanmyösjatkamaan.Tutkimusalueetovat laboratoriolletärkeitä, ja niillä on koko Suomenkannaltamerkitystä:laadukkaallavisuaalisellapuhesynteesilläon lähesrajattomanpaljon sovel-lusalueitaesimerkiksitelekommunikaatiossaja uusissakäyttöliittymissä.
B.9 Kotimaisten kielten tutkim uskeskus
Kotimaistenkieltentutkimuskeskus(Kotus)onopetusministeriönalainenkie-litieteellinentutkimuslaitos,jonka toiminta-ajatuksenaon lisätätietoakoti-maisistakielistä ja niidenasemastakulttuurissaja yhteiskunnassasekänäinluoda edellytyksiäkielelliselle tasa-arvolle Suomessa.Kotimaistenkieltentutkimuskeskuksenjohtajanatoimii professoriPirkk o Nuolijär vi, puhutunkielentutkimusyksikönvastuuhenkilöonerikoistutkija,dosenttiMarja-Lee-na Sorjonen.
Koko tutkimuskeskuksessaon noin 100työntekijää.Puheentutkimuksenpa-rissatyöskentelee6 vakinaistatyöntekijääja 1 tutkijatohtori (3 tutkijaasuo-menkielennauhoitearkistossaja 4 tutkijaapuhutunkielentutkimusyksikös-sä).Työsuhteistavirkasuhteisiaon 5 ja määräaikaisia2 (joista1 nauhoitear-kistossaja 1 puhutunkielentutkimusyksikössä).Yhdenmääräaikaisentutki-musviranrahoitustuleeSuomenAkatemialta(post-doc),muidentyösuhtei-denrahoitustuleevaltionbudjettivaroista.
Puheentutkimuspuhutunkielentutkimusyksikössäkuuluusuomenkielentut-kimuksenja fonetiikanalaan:yksikössäharjoitettava tutkimusedustaatar-kemmin määriteltynävariaationtutkimusta,dialektologiaa,sosiolingvistiik-kaaja keskustelunanalyysiä.Puhutunkielentutkimuksenyleistavoitteenaonselvittää,mitä puhutussasuomenkielessäja kieliyhteisössätapahtuu.Tut-kimuskeskittyykielellisenvariaationja kielellistenvuorovaikutuskäytäntei-denanalyysiin.Kielellisen variaationtutkimuksessahankitaantietoanyky-suomenäänne,muotoja lauserakenteenvariaatiosta.Myösmurteidenproso-diaatutkitaan.Vuorovaikutuskäytänteitätutkitaanerityisestierilaisissainsti-tutionaalisissatilanteissa,ja tämätutkimustuottaatietoasyntaktis-semantti-sistakielenilmiöistäja niidentehtävistä,samoinkuin vuorovaikutustehtävienkielellisestärakentamisesta.
Suomenmurteidenmuuttumistaon tutkittu nauhoittamallaeri ikäluokkiaedustavien,eri puoleltaSuomeakotoisinolevienhenkilöidenpuhettahaastat-telujenyhteydessä;puheenmorfologisiaja fonologisiapiirteitäontutkittu, jaerityistähuomiotaon kiinnitetty prosodiikkaanja intonaatioon(rytmiin, ta-vulukuun,puhenopeuteensekäperussävelenpaikalliseenja globaaliinvaih-teluun).
Vuorovaikutuskeinojaerityisestiinstitutionaalisissatilanteissaon tutkittu vi-deoimallaasiointitilanteitaesimerkiksiKelantoimipisteessä,terveyskeskuk-sessaja kaupassa.On kartoitettuesimerkiksikielellisiä rutiinejasekäkysy-myksiäja vastauksiaasiointitilanteissa.TekstintutkimusKotuksessakeskit-tyy asiateksteihin,erityisestivirkakieleen,ja sillä on elimellinenyhteys kie-
58 PuheentutkimuksenresurssitSuomessa
lenhuoltoon,etenkinviranomaisviestinnänosalta.Yhdessänäidentekstin-tutkimushankkeidenkanssaKotuksessaharjoitettava puheentutkimuspyrkiiluomaankuvaakansalaistenja viranomaistenvälisestävuorovaikutuksesta.
Suomenkielen nauhoitearkistossaon käytössätutkimuslaitteinakenttänau-hureitavarusteineen,digitaalinenvideokamera,äänendigitointilaitteisto,lit-terointinauhureitaC-kasettejavarten,3 VHS-laitettasekä6 PC-tietokonettatutkimuskeskuksenverkossa(käyttöjärjestelmänäon Windows 95).Puheen-tutkimuksessakäytetäänSoundForgeja Praat-ohjelmia.
Käytössäei ole kaupallistapuhetietokantaa.TutkimusmateriaalimuodostuuSuomenkielennauhoitearkistonaineistosta,jonkasisältöonluonnollistadia-logia. Nauhoitearkistosisältäänoin 16000 tuntia analogisestitallennettuapuhemateriaaliaja 1500 tuntia digitaalisessamuodossaolevaamateriaalia.Suurinosaanalogisistatallenteistaonavokelanauhoilla,pieniosaonC-kase-teilla.Digitoitu materiaalionSLR-50ja SLR-100-kaseteilla.Pieniosamate-riaalistaon analogisillaja digitaalisillavideonauhoilla.Materiaalinlaatuonhyvä,muttaaineistonnykyinenanaloginentallennusmuotoei ole optimaali-nen,jotenanalogisiatallenteitadigitoidaankoko ajan.
Suurinosatallenteistaedustaakahdenkeskisiäkasvokkaistilanteita,erityises-ti haastatteluja.Pienimääräaineistostaonäänitettyryhmätilanteissakeskus-telujenja asiointitilanteidenyhteydessä.Onhuomattava,ettäpuheaineistoaeiole kerättytiukoin koeasetelmin,vaanpuhetilanteetovat ollet vapaitahaas-tattelujaja arkisiavuorovaikutustilanteita.Erityisesti viranomaistenkanssakäytyihinasiointikeskusteluihinliittyy salassapitovelvoitteita.
Noin 1000tuntiaon litteroitu puolikarkeansuomalais-ugrilaisentarkekirjoi-tuksenmukaisesti.Asiointikeskusteluaineistoon litteroitu keskustelunana-lyysin tarkekirjoituksenmukaisesti.Puhujistaon olemassatarkathenkilötie-dot, jotka on tallennettutietokoneellaolevaanarkistoon,asiointikeskustelu-jenosanottajistaei kuitenkaanolehenkilötietoja.Litteroinneistasuuriosaontehtytekstinkäsittelyohjelmilla(WP),muttaosaon tehtykirjoituskoneellajamyöskäsinkirjoitettujalitterointejaon jonkunverran.
Nauhoitearkistonmurrehaastattelutsoveltuvattällähetkelläerinomaisestimo-niin tutkimustarkoituksiin. Tutkimuskäyttööntarvitaankuitenkin jatkuvas-ti lisää nykykielistä puheaineistoaeri tilanteistaeri puolilta maata.Kotuk-senaineistoon osoittautunuthyödylliseksimuille puheentutkimustahoille:muuallatoimivat tutkijat käyttävätnauhoitearkistonaineistoajatkuvasti.Toi-saaltaKotuksessaollaankiinnostuneitamuidentutkimustahojenaineistoista,esimerkiksivuorovaikutustilanteidennauhoitteista.Kotuksenkannaltakäyt-tökelpoisinolisi lingvistisestimonipuolisestikoodattutietokantadigitoidus-samuodossa– teknisentietotaidonlisääminenolisi myöstärkeää,erityisestipuheenkäsittelyohjelmientarjoamiatutkimusmahdollisuuksiavoitaisiinhyö-dyntääenemmän.
Tutkimuskeskuksessapuhutunkielen tutkimustuleeselvästivahvistumaan.Puhutunkielenhankkeissatehdäänmetodologistakehitystyötähakemallava-riaation- ja keskusteluntutkimuksenkosketuspintaa.Myös kielellisen ja ei-kielellisentoiminnansuhteisiinkiinnitetäänentistäenemmänhuomiota.Pu-hutun kielen tutkimus on tärkeääKotuksessatehtävänkieliopin tutkimuk-
B. Vastaukset 59
senja kielenhuollonkannalta.Valtakunnallisestivuorovaikutustutkimustu-lee vahvistumaan,samointieteidenvälinen yhteistyöpuhutunkielen tutki-muksessa.Vuorovaikutuskäytänteidenja variaationtutkijat ovatjo tätänykyävarsinhyvin verkostuneita,muttaaineistojenorganisoinninosaltaei yhteis-työtävieläole.Lisäksipuhuttuasuomeatutkivienlingvistienyhteydetyhtääl-täesimerkiksipuheteknologianparissatyöskenteleviin tutkijoihin ja toisaaltafoneetikkoihin ovat toistaiseksivalitettavansatunnaisia.
B.10 Lingsoft Oy
LingsoftOy:ntaustallaonHelsinginyliopistonyleisenkielitieteenlaitoksellatehtytietokonelingvistiikantutkimus.Yritys onerikoistunutkirjoittajanapu-välineisiin ja tiedonhakuun.Lähtökohtaon monikielisyys:perusteknologialöytyy monellemuullekinkielellekuin suomelle,joilloin kielestäriippumat-tomat tehtävät,esimerkiksirajapinnat,voidaantoteuttaanopeasti.Lingsofttarjoaaratkaisujakielenkäsittelyynja ymmärtämiseenmonikielisessänyky-maailmassa;yrityksen erikoisalojaovat elektronisetsanakirjatja synonyy-misanastotsekäpuheentuottosovellukset.Kielenhuolto-ohjelmistotauttavatkirjoittajaatuottamaanlaadukastatekstiä.
Lingsoft tuo vuonna2001markkinoille kaksi uutta tuotetta:tekstiäääneenlukevanLingsoft ParrotinsekänopeakäyttöisensanakirjanLingsoft Pointe-rin. Parrotlukeeääneenhiirenosoittimenallaolevaatekstiä.Tuotettavoidaankäyttääesimerkiksiinternet-sivuilla liikuttaessa.Pointernäyttääsananmer-kityksentai käännöksenpienessäpuhekuplassa,kun hiiren osoitin pysäyte-täänsananpäälle.Loppukäyttäjillesuunnatutkielentarkistustuotteet,Ortho-grafix ja Grammatifix,sekäelektronisetsanakirjat,Medandreord ja CD-Pe-russanakirja,kuuluvatniinikääntuotevalikoimaan.
Lähitulevaisuudessatietokoneitaja muutaelektroniikkaatullaanohjaamaanpuheellayhä suuremmassamäärin.Yrityksessäkehitetäänkinintensiivises-ti puheentunnistustaja puheentuottosovelluksiaerilaisiin kaupallisiintarkoi-tuksiin.Lingsoftesitteliensimmäisenämaailmassasuomenkieliselläpuheel-laohjattavansovelluksenkansainvälisilläCeBit-messuillamaaliskuussa2000.Tällä hetkellä kehitelläänluotettavaapuheentunnistintasuomenkielelle, jahankkeestasaatavaa tietämystäkäytetäänmyöhemminpuheentunnistimienkehittämiseenmuille kielille. Tunnistuksenparantamiseksihyödynnetäänling-vististätietämystä:morfologinenleksikko huolehtiisiitä,ettäsanattunniste-taantaivutusmuodoissaan,ja foneettinenleksikko kuvaasanojenääntämisen.Sanojenäänneasuntunnistaminentapahtuufoneemikirjastonkautta.Ensim-mäisetmarkkinoille tulevat puheentunnistussovelluksetovat puhekomento-ja sanelusovelluksia. Ne hyödyttävättietokoneenkäyttäjiä, jotka haluavatlisätäuudenkomentokäyttöliittymänkoneeseensa.Erityisestitelekommuni-kaatiopalveluissapuheentunnistuksenhyödyntämismahdollisuudetovat mil-tei rajattomat.Lingsoft on mukanaomientutkimustoimintojensalisäksi lu-kuisissaUSIX-projekteissa.
Lingsoft Oy:n SpeechDivision -osastossahajoitettava tutkimuson sovellet-tuapuheentunnistuksentutkimusta,joka kohdistuuerityisestidialogeihinja
60 PuheentutkimuksenresurssitSuomessa
komentoihinkäyttöliittymissä.Tutkimustatekeeyhteensä10henkilöä,joistapuheentutkimuksen(puheentunnistuksen)parissatoimii seitsemän.Täyspäi-väisiätutkijoita on 8, osa-aikaisia2. Rahoituson pääosinomaatutkimusra-hoitusta,lisäksisaadaanrahoitustaTekesiltä.
TutkimustapahtuuLingsoftOy:n tiloissaHelsinginTehtaankadulla.Käytös-säonerillinenäänityshuone.Tutkimuslaitteinaovatmikrofonit (mm.AKG:nsankamikrofoni),analoginenmikseri (Behringer) ja tietokoneet (PentiumMMX ja PentiumIII, joissaon Linux- ja Windows-käyttöjärjestelmät).Oh-jelmistojaovatEntropicinHTK (HiddenMarkov ModelToolkit) ja ISIPtool-kit (MississippiStateUniversitynkehittämä).
PuhetietokannanmuodostaaLingsoft FinnishSpeechDatabase,joka on fo-neettisestikattavauseaneri puhujanpuhetietokanta.Aineisto,jokasisältää46tuntiapuhetta,on tallennettudigitaalisestiCD-rommeilleja tiedostopalveli-menkovalevylle. Materiaalion hyvälaatuista(suurinosaon CD-laatuista).Aineisto koostuu18 puhujantuottamista(sanomalehtitekstistäpoimituista)lauseista,nimistä,yksittäisistäsanoistaja käskyistä.Yksi puhunnossisältäävain yhdenpuhujantuottamaapuhetta.Puheaineistoon segmentoitupuhun-noksittain;transkriptioon tehtyfoneemitasolla.Jokaisenpuhujannimi ja su-kupuoli on tallennettutiedostoihin.
Puhetietokannassaon toistaiseksiriittämätönmääräpuhujia; lisäätarvittai-siinerityisestipuhelimenkauttaäänitettyäaineistoa.Puhetietokantaolisi hyö-dyllinen muille tutkimustahoille,ja Lingsoft Oy on myöskiinnostunutmui-dentahojentietokannoista.Optimaalinenpuhetietokantakattaisikaikki tri-fonit eri prosodiaympäristöissä,ja eri puhujiaja äänityskontekstejaolisi run-saasti.
Tulevaisuudessakeskustelevat käyttöliittymät tulevat yleistymään,ja Ling-soft Oy jatkaaalaanliittyvää tutkimusja kehitystyötä.Erityisenhaastavaai-heon jatkuvanpuheentunnistaminen,johonsuomenkielenosaltaresurssejatulisi ohjatakeskitetysti.Tässätarvitaanyliopistojenja yritystenyhteistyötäja valtiollistaorganisaatiotaperusrahoituksenturvaamiseksi.
B.11 MediaTeam (OY)
Oulunyliopistonsähkötekniikanosastoninformaationkäsittelynlaboratorionosanatoimiva MediaTeamon monitieteinentutkimusyksikkö,jonka tutki-muskohdeon multimedianvälitysjärjestelmienja palvelujentutkimus.Me-diaTeamin johtaja on professoriJaakko Sauvola. Tutkimus perustuutie-tojenkäsittelytieteeseen.Yksikössäharjoitettava puheentutkimusliittyy sig-naalinkäsittelyn,puheentunnistuksenja prosodiikantutkimuksenalaansekäkunkin alanteknisiinsovelluksiin.Lisäksipuheentutkimussivuaatutkimus-ta, jonkaavulla pyritäänautomaattiseentekstintopiikin tunnistamiseen.
MediaTeamon kehittänyt kuvanhakujärjestelmienteknologiaaja prototyyp-pejä.Tutkimustaonviime aikoinalaajennettuuusiinmediatyyppeihin,kutenpuheeseen,musiikkiin ja videokuviin.YhteistyöverkostoonkuuluvatMedia-TeaminohellaOulunyliopistonhumanistisentiedekunnaninformaatiotutki-
B. Vastaukset 61
muksenlaitos,englanninkielenlaitossekäsuomenkielenlaitos.MediaTea-missatyöskenteleetietotekniikanalaninsinöörejä,matemaatikkoja ja kieli-tieteilijöitä.Monitieteisentutkimuksentavoitteenaonratkaistakompleksisendatanhakujärjestelmienkehittelyynliittyviä ongelmia.
MediaTeamiinkuuluukaikkiaan40 henkilöä,joistapuheentutkimuksenpa-rissatyöskenteleeviisi. Puheentutkimusonvieläverratenuusitutkimussuun-tausyksikössä.Kaikki puheentutkimukseenliittyvät työsuhteetovat määrä-aikaisia.Rahoituslähteinäonyliopistonperusrahoitusja Tekes.
Tutkimuksentärkein sovellusalueon tietokantojenhakujärjestelmät,joidenon pystyttäväsuorittamaansisältöpohjainentiedonhakukuvaa,puhetta,mu-siikkia ja tekstiäsisältävistätietokannoista.Hakurobotinonesimerkiksikyet-täväjakamaanäänitemusiikkiaja puhettasisältäviinsegmentteihinja luokit-telemaanniitä edelleentarkemmin.Hakurobotintuleepystyäluokittelemaanpuhettasisältävätkohdatyhdenja useammanpuhujansegmentteihin,puhu-janvaihdoskohdaton pystyttäväpaikantamaan,ja puhujat (ja mahdollises-ti topiikitkin) on pystyttäväidentifioimaanautomaattisenpuheentunnistuk-senavulla. Lisäksi hakurobotinon kyettävähyödyntämäänlaskemiaanää-nenprosodisiaparametrejäpuhujanemotionaalisentai asenteellisentilan ar-vioinnissa.
Puhetietokantanakäytetäänitse tehtyjä tallenteita.Aineisto muodostuueritunnetiloissapuhutuistalauseista.Noin puolentunnin laajuinenaineistoontallennettukovalevylle ja CD-ROM-levylle. Puhuttavat lauseeton suunnitel-tu itse: kukin puhuja(yhteensä10 henkilöä)tuottaakunkin lauseenviides-säeri tunnetilassa(jokaisessatunnetilassakäytetäänsamaa,muuttumatontakehyslausetta).Tunnetilatovat simuloituja;signaalinlaatuon hyvä.Puhujatovat laboratoriohenkilökuntaankuuluviatutkijoita tai opiskelijoita. Henkilö-tiedotja simuloitavantunnetilantiedotonkoodattutiedostonimiin.Aineistoaei oleannotoitu.
PuhettatutkitaanpääosinPC-työasemillaohjelmoimallaja tilastollisilla ana-lyysiajoilla. ÄänitteettehdäändigitaalisellaDAT-nauhurillaradioantennitut-kimustavartensuunnitellussakaiuttomassahuoneessa.Tietokonelaitteetovatkorkeintaankaksivuottavanhoja.Käyttöjärjestelmänäon MS WindowsNT.OhjelmointityökaluinakäytetäänMS/BorlandC++, Borland Java ja MathWorksMatlab5 -ohjelmistoja.TilastollinenanalyysitehdäänSPSS10.0-oh-jelmalla.
Tutkimuksessakäytettäväpuheaineistoonliian suppea.Tunnetilojenitseteh-dynsimuloinninasemestatulisi käyttääammattinäyttelijöidentuottamaama-teriaaliatai autenttistaemotionaalistamateriaalia.MediaTeamissaon sitenkiinnostustakäyttäämuidentutkimusryhmienaineistoja,jotkasisältävätemo-tionaalistapuhetta.Tutkimuskäyttöönparasaineistoolisi hyvin annotoitueritunnetilojaja muitapuhujanglobaalejatiloja heijastavamateriaali.
Yksikkö keskittyytällä hetkelläsuomenkielisenpuheenprosodiseenanalyy-siin ja puheentunnistukseen.Jatkossamyöspuhujantunnistamistaprosodis-tenpiirteidenavulla tutkitaan.Tutkimustuloksiasovelletaanmultimediaasi-sältävientietokantojeninformaationhakujärjestelmienkehittämiseen,missäMediaTeamtähtääSuomessaeturivin tutkimusryhmäksi.
62 PuheentutkimuksenresurssitSuomessa
B.12 Neuroverkk ojen tutkim usyksikkö (TKK)
Informaatiotekniikanlaboratorioon yksi Teknillisenkorkeakoulun tietotek-niikanosastonopetus-ja tutkimuslaboratorioista.Laboratoriontutkimustyötäkoordinoi Neuroverkkojen tutkimusyksikkö.Tutkimusyksikönperusti1994akatemiaprofessoriTeuvoKohonen, jokaonneurolaskennankansainvälises-ti merkittävimpiäuranuurtajia.Yksikön nykyinen esimieson akatemiapro-fessoriErkki Oja. Informaatiotekniikanlaboratorionesimieson professoriOlli Simula. Tutkimuksenpainopistealueinainformaatiotekniikanlaborato-riossaovat keinotekoisethermoverkot, hahmontunnistusja signaalinkäsitte-ly.
Neuroverkkojentutkimusyksikössä/ informaatiotekniikanlaboratoriossaonyhteensänoin 65 työntekijää,joista puheentutkimuksenparissatyöskente-lee5 tutkijaa.Tutkimuksentavoite on yleinenpuheentunnistusmenetelmienparantaminentutkimusyksikössäkehitettyjenuusienalgoritmienavulla. Fo-neemienakustistenmallienparantamisenlisäksi tutkimussuuntautuunykyi-sin tilastollispohjaisiinoppiviin kielimalleihin,joidenavulla jatkuvan,sanas-toltaanlaajanpuheentunnistaminentulee mahdolliseksi.Puheentunnistuk-seenliittyvää tutkimusta,jokakuuluulaajemmininformaatiotekniikantutki-muksenalaan,onyksikössäharjoitettujo 1970-luvultalähtien.TyösuhteidenrahoitustuleeSuomenAkatemiantutkimus- ja projektirahoituksesta,huip-pututkimusyksikkörahoituksestasekäUSIX-teknologiarahoituksesta.Suurinosatyösuhteistaon luonteeltaanmääräaikaisia.
Käytössäoleva puhetietokantaon laitoksensisäiseenkäyttöönkerätty, pu-hesignaaliasisältävätietokanta:yksittäisiäsanojaon nauhoitettunoin 5000kappaletta.Sanaton tuotettulaboratorio-olosuhteissa(puhujinaoli 70 suo-malaistahenkilöä).Aineisto on digitaalisessamuodossa(tallennettutiedos-topalvelimenlevylle). Puhesignaalionlaadultaankohtalaisenhyvää.Signaalionautomaattisestisegmentoitufoneemeiksipuheentunnistimenavulla; lisäk-si osaaineistosta(tuhansiasanoja)on segmentoitukäsin.Puhujienhenkilö-tiedotlöytyvät tallennetiedostoista.
InformaatiotekniikanlaboratoriossaonparhaillaankäynnissäTekesinUSIX-ohjelmaankuuluva INTERACT-hanke,jonkatavoitteenaonkehittääkielelli-sestiaiempaamonipuolisempiaja rikkaampiamenetelmiäja ratkaisumallejaihmisenja koneenkielellistävuorovaikutustasisältäviintilanteisiin.Tavoit-teenaonmahdollistaaluonnollisenkielenkäyttöteknisissäsovelluksissany-kyistäparemmin.Menetelmienkehittämisenja integroimisenmyötäonodo-tettavissa,ettäluonnollistakieltä voidaankäyttääautomaattistensysteemienkanssatilanteissa,joissaseei oleaiemminollut mahdollistatai ihmisenkan-naltariittäväntoimivaa.Hankkeessatarkastellaansekäpuhe-ettätekstivies-tintäänperustuviaratkaisuja.Hankkeentutkimustyötätullaan soveltamaanesimerkiksikeskustelevienneuvonta-ja tietopalvelujenluomisessa.Kaikissasovellusalueissakeskeisenätekijänäon vuorovaikutuksellisuus:käyttäjävoiilmaistaitseäänluonnollisellakielellä ja haluttuuntulokseenpyritäänmah-dollisimmanpaljoninhimillistä keskusteluamuistuttavalla tavalla.
Puheentunnistustakoskevassatutkimuksessainformaatiotekniikanlaborato-riossakeskitytäänakustistenmallien ja kielioppimallien sekäniihin liitty-
B. Vastaukset 63
vienopetus-,adaptointi-ja testausmenetelmienkehittämiseen.Menetelmistätutkitaanerityisestisellaisia,jotka soveltuvat suurtendata-aineistojenkäsit-telyyn ja analysointiinja jotka vaativat mahdollisimmanvähänihmisenoh-jausta.
Tutkimustyössäkäytetäänlaskentapalvelinta sekähenkilökohtaisiatyöase-mia (käyttöjärjestelmänäPC-tietokoneissaon Windows tai Linux). Tutki-muksessakäytettävätsovellusohjelmatovat pääsinitse tehtyjä ja verkostasaatavia julkisohjelmia.
Tutkimuksessakäytettäväpuhetietokantaei ole tällä hetkellä optimaalinen:erityisestitarvittaisiinsuurimääräjatkuvaa,selkeääja hyvälaatuistaannotoi-tuapuhetta,joka liittyy johonkin laajansanastonkontekstiin(ideaalitapauk-sessakontekstiolisi saatavilla myöstekstimuodossa).Transkriptiontulisi ol-la lähesvirheetöntä,ja sentulisi sisältääpuheosuuksienalku- ja loppukoh-tienaikatietojenlisäksitietynsemanttisenluokittelun.Aidoille keskusteluai-neistoilleolisi myöskäyttöä.Tätenmuidentutkimustahojenhallussaoleviapuhetietokantojavoitaisiin laitoksellahyödyntää.
Kiinnostuspuheentunnistukseenliittyvääntutkimukseen,jokahyödyntääneu-rolaskennanalgoritmejaja kielen tilastollisiamalleja,on kasvamassa.Lähi-tulevaisuudessavoidaanodottaajärjestelmiä,jotka kykenevät tunnistamaanjatkuvaalaajasanastoistapuhettaaineistonsemanttisenindeksoinninmahdol-listavalla tarkkuudella.On tärkeää,ettäsuomenkielenautomaattinentunnis-tettavuusnouseetasolle,jolla on mahdollistaluodamielekkäitäsovelluksia.kutenenglanninkielen osaltaon ollut jo kauan.Englanninkielisiäradio- jatelevisio-ohjelmiavoidaanjo nyt etsiälähesreaaliaikaisellapuheentunnis-tukseenperustuvalla indeksoinnilla.Suomenkielenosaltatulisikin kerätäai-neistoa,jostavoidaanolettaaolevan hyötyätulevaisuudessatiedonhakujär-jestelmiäkehiteltäessä.
B.13 Nokian tutkim uskeskus
Nokian tutkimuskeskuksessa(Nokia ResearchCenter, NRC) Tampereellatehtäväpuheentutkimukseenliittyvä tutkimusedustaatietojenkäsittelytiedet-tä, erityisesti puheentunnistuksentutkimusta.Tutkimusyksikönjohtaja onPetri Haavisto.
Tutkimuksentavoitteenaon kehittäämonikielisiä ja kohinarobustisiacom-mand& control-tyyppisiäpuheentunnistusalgoritmejasekämonikielisiäpu-hesynteesialgoritmeja.Lisäksi tavoitteenaon luodateknologioitaja proses-sejaedistyksellisten,luonnollistakieltä hyödyntäviendialogisysteemiento-teuttamiseksi.
NokiantutkimuskeskuskehittääpuheteknologiaamyösUSIX-hankkeenyh-teydessä.Yhteistyötätehdäänmm. Tampereenteknillinen korkeakoulun jaTurunyliopiston(fonetiikanoppiainesuomalaisenja yleisenkielitieteenlai-toksella)kanssa.
Tutkimuksenpainopisteei ole suomenkieli, vaantarkoituson kehittääylei-siä, läheskieliriippumattomiapuheentunnistusmenetelmiä.Suomenkieli ei
64 PuheentutkimuksenresurssitSuomessa
sitentuleolemaanerityisasemassatulevaisuudessakaan:monikielisetja mul-timodaalisetpuheentunnistusjärjestelmätovat tulevaisuudessatutkimuksentärkeinsovellus.Puhemodaliteettinatuleesaamaanyhäenemmänhuomiotaja puheenkäyttöteknologiasovelluksissalaajenee.Tavat ja tottumukset(lop-pukäyttäjienkonservatiivisetasenteet)ovat yksi suurimmistapuhesovellus-tenlaajemmankäyttöönotonesteistä.
Puheentutkimuksenkaupallinenmerkitys on potentiaalisestierittäin suuri.Uudetsovelluksetkoskettavat matkapuhelimienmaailmanlaajuistakäyttäjä-kuntaa,ja uusienteknologioidenluomakaupallinenlisäarvo on merkittäväNokialle ja Suomelle.
B.14 Näkövammaisten keskusliitto
Näkövammaistenkeskusliittoonsokeidenja heikkonäköistenetu-,asiantun-tija- ja palvelujärjestö.Liiton tavoitteenaon edistäänäkövammaistenmah-dollisuuksiaeläätasavertaistaelämäämuidenkansalaistenkanssa;tähänpy-ritäänyhteiskuntaanvaikuttamisen,erityispalvelujentarjoamisenja osallis-tumismahdollisuuksienluomisenavulla. Näkövammaistenkeskusliitto toi-mii yhteistyökumppaninauseissaEU-projekteissaja harjoittaalähialue-jakehitysyhteistyötäulkoministeriöntukemana.
Näkövammaistenkirjasto, nykyiseltänimeltäänCelia, lainaaäänikirjoja ja-lehtiä näkövammaistenkäyttöön;kirjat ja lehdettuottaaNäkövammaistenkeskusliitonerillinenosasto,äänittämö.Äänittämössäonäänitysstudio,jossatehdäänäänikirjojaja -lehtiä, ja kopiointiosasto,jossatehdäänC-kasettiko-pioita äänitysosastossatehdyistäperusäänityksistä.Äänitysosastossaon täl-lä hetkellä8 ammattitasoistaäänitysstudiota,joissaammattilukijat,yhteensäyli 20,lukevatnoin650teostanauhallevuodessa.Kopiointiosastossatehdäänvuosittainrunsaat300000kopiotuntiaC-kaseteille(noin 200000C-90-ka-settia).Äänikirjojen tuottamisessakäytetäänDaisy-konsortionsuosittelemiaohjelmistoja,LP studiopro:neri versioita.
Daisy-konsortio(Digital Audio-basedInformationSystem)pyrkii luomaankansainvälisenstandardindigitaalisten»puhuvienkirjojen»tuottamiselle,vaih-dolle ja käytölle. Näkövammaistenon nykyisin vaikea käyttäääänikirjoja(esimerkiksisuosittujakeittokirjoja,puutarhanhoito-oppaitaja uskonnollisiakirjoja) optimaalisellatavalla: perinteistenluettujenäänikirjojen»käyttöliit-tymä»C-kasetillasallii aineistonselaamisenja tiedon etsimisenvarsin ra-joitetusti.Uusi äänikirjojensukupolvituleemahdollistamaansisällysluette-loidenja muidenmetatekstienhuomattavastiparemmankäytettävyyden.Ta-voitteenaonerityisestikehittääyhteinenformaattidigitaalisillepuhuvillekir-joille (DTB / Digital TalkingBooks):tällähetkelläeri maissaonerilaisetjär-jestelmätja formaatitäänikirjoille,mikärajoittaaäänitteidenvaihtoaeri mai-denäänikirjastojenvälillä. Daisy-konsortionuusi XML-pohjainenkansain-välinen formaattiäänitemateriaalissatuleesitenmahdollistamaanaineistonsiirtämisenmaastatoiseen.
Daisy-konsortionoudattaaolemassaolevia kansainvälisiä standardejaainakunseonmahdollista.Tekstuaalinenja rakenteellineninformaationoudattaa
B. Vastaukset 65
W3C:nstandardeja1. Äänitiedostojentallennustukeejo olemassaoleviastan-dardeja.Daisy-konsortiorohkaiseeyrityksiä kehittämäänohjelmistoja,jot-ka tukevat digitaalistenpuhuvienkirjojen tuottamista:ohjelmistojatarvitaanmm.verkkoselaimiin,syntetisaattoreihin,järjestelmänhallintaan,äänitteidentoistoonsekäkonversointiin,jossaanaloginensignaalimuunnetaandigitaali-seksi.Daisy-konsortiopyrkii myössaamaanyrityksiäkehittelemäänlaitteita,jotka helpottavatdigitaalistenpuhuvienkirjojen käyttöä:erityisestitarvitaannäppäimistöjäja kädessäpidettäviäohjausyksiköitä,joiden avulla voidaanohjataäänikirjaaja kytkeytyäverkkoon.Daisy-konsortiopyrkii myössiihen,ettätekijänoikeuskysymykseteivät kokonaanestäisinäkövammaisillesuun-nattujenäänikirjojenja -lehtienkansainvälistälevitystäja vaihtoa.
Näkövammaistenkirjasto / Celiasisältääerittäin laajanpuhetietokannanni-menomaanluettujenäänikirjojenmuodossa:uudettallenteetovat digitaali-sessamuodossa(16-bittistä44 kHz:n wav-ääntä);kokonaismääräon noin1000 tuntia. Indeksointion tehty kappaleentarkkuudella.Vanhemmattal-lenteetovatavokelanauhoilla;määräon yli 200000tuntia(puhujiaonuseitakymmeniä).Aineistondigitointiasuoritetaanparhaillaan,ja hankkeenarvioi-daankestävänvuosikymmenenloppuun.Kun arkistoon kokonaisuudessaantallennettudigitaaliseenmuotoon,aineistonkoko onniin suuri(200000tun-tia 44 kHz:n wav-ääntä),ettäpuhetietokannansäilytyson ehkäsyytäantaaulkopuolisentahonhoidettavaksi.Olennaistatässäon riittävän suuri tallen-nuskapasiteetti.
Näkövammaistenkirjasto / Celia tarvitsisi määrärahojaanalogisenmateri-aalin siirtämiseksidigitaaliseenmuotoonmahdollisimmannopeasti:varsin-kin vanhemmananalogisestitallennetunaineistonpelastamiselleon jo kiire.Määrärahaahankkeelleon haettuEU:n ESR-projektista;materiaalinsiirto-työhönon tarkoituskouluttaavajaakuntoisia.Toiveenaon myösse,ettätut-kimuksenavulla puhekäyttöliittymätkehittyisivät ja tarjoaisivatsitenparem-piaapuvälineitänäkövammaisille.
B.15 Puheopin laitos (TAY)
Puheopinlaitoksenjohtajaoli 1.6.2001saakkaTimo Leino. Tämänjälkeenjohtajanatoimii Kaj Syrjänen. Puheopinlaitoksellatehtävästäpuheteknii-kanjavokologiantutkimuksestavastaavatTimo Leino jaAnne-Maria Lauk-kanen. Puheopinlaitoksellaharjoitetaankahdentyyppistätutkimustoimintaapuheentutkimuksenalalla:puheviestinnänalueeseenkuuluvaaja puheteknii-kanja vokologianalueeseenkuuluvaa.Koskaainostaanpuhetekniikanja vo-kologiantutkimukseenliittyy keskeisenäosanainstrumentaalistenmenetel-mien käyttö sekäsystemaattinenäänitearkistonkeruu,selvityksessätarkas-tellaanvain tätäpuoltalaitoksentutkimuksesta.
Laitoksenhenkilökuntamääräon 10: 1 professori,4 lehtoria,2 päätoimistatuntiopettajaa,2 erikoislaboratoriomestariaja toimistosihteeri.Puheteknolo-gianja vokologianalantutkimustaharjoittavatprofessori,1 lehtori,1 päätoi-
1 E�1�1�n:-mo,o�p�p�pq9�p A 9t/�&Mr
66 PuheentutkimuksenresurssitSuomessa
minentuntiopettajaja toinenlaboratoriomestareista.Vaihtelevamäärälaitok-senopiskelijoita (tällä hetkellä 7) on rekrytoitunatutkimusapulaisiksiosanaopetusta.Laitoksellaon kolme lyhytaikaisenulkopuolisenprojektirahoituk-senturvin työskenteleväätutkijaa.
Puhetekniikanja vokologian tutkimuksessatarkastellaanpuheenja äänenpiirteitä, niiden viestinnällistäfunktiota,harjoitettavuuttasekäharjoitusme-netelmiä.Tutkimuson soveltavaa,ja tavoitteetpalvelevat puheopinkäytän-nön opetusta,muttatutkimustuloksillaon myösperustutkimuksenkannaltamerkitystä,koskane tuottavat tietoapuheviestinnänlainalaisuuksistaja ää-nenvariaatiosta.Tietoapuheenja äänenvariaatiostaja variaationviestinnäl-lisestämerkityksestävoidaanhyödyntääesimerkiksitelekommunikaatiotek-niikassaja puhekäyttöliittymienkehittämisessäsekälisäksi lääketieteessä,yhteiskuntatieteissäja forensisessatutkimuksessa.
Puheopinlaitoksellapuhetekniikanja vokologian alalla harjoitettava tutki-mus jakautuutarkemmin kuvattunaseuraaviin osa-alueisiin:puheteknistennormienkerääminen,tavoiteäänenlaadunkuvaamineneri ammattialoilla,ää-niharjoitustenvaikutustenja vaikutusperusteidenselvittäminensekäpuhe-parametrienviestinnällisenfunktion kartoittaminen.Puheteknistennormienselvitystyöon ollut käynnissälaitoksenkoko olemassaolonajan,ja eri mit-taustuloksistaon kertynyt runsaastiaineistoa.Mittauksetovat määrittäneetesimerkiksivitaalikapasiteetin,keskimääräisenäännönaikaisenilmankulu-tuksen,äännönkeston,ääntöosamäärän,matalimmanperustaajuuden,tavu-toistonopeuden,normaalinja maksimipuhenopeuden,keskimääräisenpuhe-korkeuden(jasensuhteenmatalimpaanperustaajuuteen),keskimääräisenvoi-makkuuden(habituaalisessa,mahdollisimmanhiljaisessaja mahdollisimmanvoimakkaassapuheessasekähuudossamaksimivoimakkuudella)ja lisäksiäänendynamiikankoko äänialalla(fonetogrammi).Kerättyjenpuheteknistenparametrienharjoitettavuuttaon myösselvitetty. Kerättyänormidataakäyte-täänpuheteknisensuorituskyvyn arvioinnissaja soveltuvinosinmyösharjoi-tustavoitteidenasettamisessasekäharjoituksentuloksellisuudenseurannassa.
Tärkeänäosanapuheteknisensuorituskyvyn mittaamistaon äänellisenkuor-mituksensietokyvyn selvittäminen.Laitoksessaon kokeiltu erilaisiakuormi-tustestejä(esimerkiksiluentapuolentunninajanvoimakkuudella70 dB/1mjanumeroidenluetteleminenvoimakkuudella90dB/1mviidenminuutinajan).Kuormittumistaon selvitettysekäkyselykaavakkeidenja äänentuottotestienavulla ettääänenperkeptuaalisenja akustisenanalyysinavulla. Äänentuot-totestitovatsisältäneetesimerkiksimatalimmanperustaajuudenja äännönai-kaisenilmankulutuksenmittaamista.Akustisessaanalyysissäkäytettyjäme-netelmiäovatolleetkeskiarvospektrianalyysitai kaista-SPL-laskenta,pertur-baatioanalyysi(jitter, shimmer)ja signaali-kohina-suhdeanalyysi.
Tavoiteäänenlaadunkuvaaminenmuodostaaobjektiivisenpohjanäänenhar-joittamiselleeri tarkoituksiavarten.Tätävartenlaitoksessaon tehtyselvitys-tä esimerkiksisiitä, millaista ääntäpidetäänyleisestihyvänäpuheäänenäjamillainenon hyvänäyttelijänäänija hyväradioääni.Lisäksion tutkittu sitä,millainen äänieri arvioijaryhmienmukaansopii parhaitenuutisluentaanjamillainen kuulutuksiin.Äänenlaadunobjektiivisessakuvaamisessaon käy-tetty apunaerityisestikeskiarvospektrianalyysiä.
B. Vastaukset 67
Erilaistenääniharjoitustenvaikutuksiaja vaikutusperusteitaon selvitettyerimenetelmin.Äänenlaadunmuutostenkuvaamisessaon käytettyesimerkiksikeskiarvospektrianalyysiä,spektrografiaaja LPC-analyysiäsekäosin myössignaali-kohina-suhdeanalyysiäja perturbaatioanalyysiä.Äänentuottolaadunmuutoksiaon kartoitettumittaamallaglottisresistanssia,äänihuulivärähtelynlaatuaon tarkasteltuäänihuultenvälisenkontaktinajallistavaihteluakuvaa-vanelektroglottografianavulla tai glottisherätettäestimoivankäänteissuoda-tuksenavulla (IAIF, kehittäjäPaavo Alku ), kurkunpäänvertikaalistaasemaaäänentuotonaikanaon seurattukaksikanavaisenelektroglottografinavulla,ja kurkunpäänalueenkeskimääräistälihasaktiviteettia on mitattu elektro-myografiallapintalevyelektrodejakäyttäen.Tutkimusyhteistyötäontehtyko-timaassaerityisestiTampereenyliopiston näyttelijäntyönlaitoksenkanssa,Oulun yliopiston foniatrianlaitoksenja radiologisendiagnostiikanklinikankanssasekäTeknillisenkorkeakoulunakustiikanlaboratorionkanssa.Yhteis-työssäYhdysvaltojenNationalCenterof VoiceandSpeech-tutkimuskeskuk-senkanssaonerityisestikeskityttyääniväylänimpedanssiakasvattavienääni-harjoitusten(soinnillisetfrikatiivit, täryäänteetsekäputkiin ääntäminen)vai-kutustenja vaikutusperusteidenselvittämiseen.Tässätutkimuksessakäytet-tyjä menetelmiäovat äänihuulivärähtelynja ääniväylänmatemaattinenmal-linnus,äänentuotonaikainenilmanpaine-ja virtausmittaus,elektroglottogra-fia sekäinvasiivinen koukkuelektrodeintoteutettuelektromyografia.Ääni-harjoitustenvaikutustenja tavoiteäänenlaadunselvittämisenohessa– niidenmahdollistamana– on tehty selvitystäbiofeedbackinsoveltamisestaäänen-harjoittamiseen.Toistaiseksitestatuinja käytetyin biofeedback-menetelmälaitoksellaonollut reaaliaikainenspektrianalyysi.
Eri puheparametrienviestinnällisenfunktionselvittäminenonlähitulevaisuu-dessaentisestäänvoimistuva aluepuhetekniikanja vokologiantutkimukses-sa.Laitoksessaon selvitettyesimerkiksiäänenlaadunmerkitystäemootioi-denvälittämisessä.Tässätutkimuksessaon hyödynnettysignaalimanipulaa-tiota, erityisestikeinotekoistaperustaajuusmuunnosta(ASL-ohjelma).Niin-ikäänon tarkasteltupuhenopeudenja -korkeudenvaikutuksiapuhujastasyn-tyviin mielikuviin. Tässätutkimuksessaon hyödynnetty(ei-kaupallista)pe-rustaajuudenmuuntolaitetta(kehittäjäJouko Viitanen).
Yksi tapaselvittäääänenlaadunkulttuuristavariaatiotaon eri puheparamet-rien ajallinenseuranta.Viimeaikaisetselvityksetaiheestakäsittelevät nais-opiskelijoidenpuhekorkeuttaja radiopuhujienäänenlaatuaviimeisten20vuo-denosalta.Tämänhetkisettutkimusintressitkohdistuvatmyöskulttuurienvä-lisiin kartoituksiinäänenlaadunja puhekorkeudenarvioinnissa.Käynnissäonesimerkiksivertaileva tutkimus suomalaistenja brittiläistenpuheopettajienauditiivisenevaluoinninyhtäläisyyksistäja eroavuuksista.
Laitoksellaonkäytössäakustistapuheentutkimustavartenvarustettupuheen-tutkimuslaboratorio.Tutkimusäänitykseton tehty vuodesta1967lähtiensa-massavaimennetussastudiossa(suunnittelijaDI T.K. Laakso). Studionkokoon8.6m2, 27.6m3 (jälkikaiunta-aika0.4sek.).Käytettävissäoleviaäänentut-kimus-ja signaalinkäsittelylaitteitaovatspirometri,elektroglottografi,paine-ja virtausmittarisekäkäänteissuodatin,vanhakliininen audiometri,spektria-nalysaattorit,tasomittarija piirturi, oskilloskooppi,terssikaistasuodin,para-
68 PuheentutkimuksenresurssitSuomessa
metrinenekvalisaattori,kohinanpoistaja,monitoiminenaudiotestauslaite,re-aaliaikainentaajuusmuunnin(kehittäjäJouko Viitanen) sekäperustaajuus-mittari.
Äänianalyyseissäkäytetäänerilaisiakaupallisiaja vapaastisaatavilla oleviaäänisignaalinanalysointilaitteistojaja -ohjelmia:Hewlett-Packard-signaalia-nalysaattoriavartenlaitokselleon kehitettyspektrienkeruu-,normalisointi-ja keskiarvotusohjelma(kehittäjäHeikki Alatalo) sekäSPL- ja spektrilas-kentaohjelma(kehittäjäHeikki Alatalo). Laitoksellaon lisäksi IntelligentSpeechAnalyser(ISA) -signaalianalyysilaitteisto2 (kehittäjäDI Raimo Toi-vonen, PitchsystemsOy). Muita käytössäolevia äänisignaalinanalysointi-laitteistojaja -ohjelmiaovatComputerizedSpeechLaboratory4300B(CSL,Kay Elemetrics),RealSpeech4.2.3 ja Praat4 (kehittäjäPaul Boersma. Pää-koneenaon toistaiseksiMacG4.
LaitoksellaolevissaISA-ohjelmistopäivityksissäon käytettävissäperustaa-juus,äänenpainetaso(mahdollisuusmitataeri taajuuskaistojenäänenpaineta-sojaja niidenerotuksia),signaalinperturbaatio(jitter- ja shimmer-analyysit),signaali-kohina-suhdeanalyysi(spektrinharmonisenaineksenja epäharmo-nisenaineksenvälinenSPL-erotus),FFT-, LPC- ja auditiivinenspektri,kep-stri, fonetogrammija äänikenttäanalyysi.Signaalieditointi,segmenttienra-jausja nimeäminensekämittaustaulukoidenluominentapahtuvat joustavas-ti ohjelmanavulla. CSL-ohjelmistopaketit tarjoavat seuraavat analyysivaih-toehdot:Peruspakettiin kuuluvat FFT-tehospektri,spektrogrammi(sisältääautomaattisenformanttiseurannanja formanttientaajuus-ja kaistanleveysil-maisun),RMS-laskentaja perustaajuudenlaskenta.MultiDimensionalVoice-Program-ohjelmasisältääeri parametrejasignaalinperturbaation,amplitudi-ja perustaajuustremorinja äänenhäiriöisyyden(HNR - harmonicto noisera-tio) mittaamiseenja signaalinkatkeilun ilmaisuun;mukanaon myösspekt-rin kaltevuutta(äänenhypofunktionaalisuutta)kuvaava parametri.MotorS-peechProfile-ohjelmassaon tavutoistonopeuslaskentasekäartikulaationsel-vyyttä kuvaavat perättäistentavujen pituudenja amplitudinvertailu ja F2:nvaihtelumääränja säännöllisyydenilmaisudiftongeissa.Fonetogrammiohjel-ma mittaaäänendynamiikkaaperustaajuudenfunktiona,ja ASL (AnalysisSynthesisLab)mahdollistaaperustaajuudenja formanttitaajuuksienmanipu-loinnin. RealSpeech4.2.tarjoaareaaliaikaisenFFT- ja LPC-spektrin,perus-taajuudenlaskennan,RMS:n, spektrogramminja vokaalikartan.DSP-Sys-temsiltälaitokselleon tilattu LabView-ympäristöönkehitettyohjelma,jossaonseuraavatominaisuudet:SPL-laskenta(integraatioaikavalittavissa),jonkatulos ilmaistaansekäkäyränäajanfunktionaettähistogrammina,alfa-ratio-tulostus(alfa-ratio=SPLyli 1 kHz taajuuskaistalta/SPL0-1 kHz) sekäFFT-keskiarvospektriautomaattisestikahdeltataajuusalueelta(0-5 kHz äänenlaa-dunarviointiavartenja 0-1kHz karkeaaF0-vaihtelunarviointiavarten).
AinoalaitoksellatoistaiseksikäytettykaupallinenpuhetietokantaonKay Ele-metricsinmarkkinoimaPathologicalvoices-CD ROM. Tutkimusperustuupääasiassalaitoksenomaanäänitearkistoon,jota kartutetaanjatkuvasti.Pu-
2 E01,1�n:-mo�o(p�p�pq9 ? )�@�F0)�*0)�E01�%T9s�%�o���n,%,1,��E ? R ? o�'�/�1�% ? %(5�@ A 9<E010J�*3 E01,1�n:-mo�o(p�p�pq9��& ? n03�3���E:9<�(/�J,o�%�F���3��g9HE01�J�*4 E01,1�n:-mo�o(p�p�pq9Hn�&�)�)�1�9m/4&�r
B. Vastaukset 69
heopin laitoksenäänitearkistosisältääpääosinlaitoksenomassaäänityss-tudiossavuodesta1967 lähtien tallennettuatekstiluentaaja laulunäytteitä.Myös puhujiennäytteitäradiostaon tallennettu.Ennenvuotta1983 tehdyttallenteetsisältävätanalogisestiäänitettyätekstiluentaaja laulunäytteitä;tä-män jälkeentallenteeton tehty digitaalisesti.Äänitettyämateriaaliaei olelitteroitu.
Näytteetovat etupäässästandarditekstienluentaa,kukin näytekestäänoinminuutin.Tekstiton tuotettuneutraalisti,habituaalisellapuhevoimakkuudel-la. Senlisäksi luentaa(sanojaja lyhyitä lauseita)on äänitettyeri voimak-kuuksilla,myösmaksimivoimakkuudellahuudettuna.Tallennettujakielelli-siäja musiikillisia yksikköjäovatesimerkiksi:yksittäinäännetytvokaalit,sa-naluettelot,joissakukin suomenvokaaliesiintyypitkänäpainollisessatavus-sa, tavut (toistonopeuskokeidenyhteydessätuotettuina),hokematja lyhyetmonologit (maksiminopeudellatuotettuina),laulunäytteet(vakiokansanlau-lut ja vapaavalintaisetooppera-aariat),kuukausiennimeteri voimakkuudel-la puhuttuina,lauletut vokaalit, pitkät vokaalit eri korkeuksiltaeri tunneti-loissalaulettuina,näytteetennenja jälkeenäänenkuormitustestinsekäglis-sandoharjoitustenyhteydessätuotetutääninäytteetja äänenkuormitusääntely(numeroidenluotteleminenhyvin suurellaäänenvoimakkuudella).Puhujinaja laulajinaon ollut yliopisto-opiskelijoita (1500 henkilöä),aikuisopiskeli-joita (200henkilöä),näyttelijäoppilaita(200henkilöä),ammattinäyttelijöitä(100 henkilöä),oopperalaulajia(40 henkilöä),radiopuhujia(170 henkilöä),lausunnanharrastajia(80 henkilöä)sekäTV-puhujia(20 henkilöä).Yhteen-laskettu varovainenarvio tallennemäärästäon noin 150 tuntia digitaalisestiäänitettyämateriaalia.Vuosina1967–1983tehdyistäanalogisistaäänityksis-täei ole tehtytoistaiseksimääräarviota.
Käytössäolevapuhetietokantaontarkoituksenmukainen,jaäänitearkistokart-tuu osanaopetustayliopisto-opiskelijoitten ja näyttelijäoppilaittenäänitteis-tä.Koskaäänitearkistoaonkerättyjo 30vuotta,aikaperspektiivissätapahtuvaseurantaon mahdollista.Äänitearkistonpuutteisiinkuuluvat mieskoehenki-löitten vähyys,eri-ikäistenpuhujienniukka edustusja systemaattisestieri-laisistapuhetilanteistakerätynspontaanipuheenvähyys.Näytteeton kerättylaitoksenomiin opetus-ja tutkimustarkoituksiin. Näytteidenlevitykseeneripuheentutkimustahojenyhteiskäyttöävartenei oleerikseenpyydettykoehen-kilöidenlupaa,jotentekijänoikeusjahenkilösuojakysymyksetonselvitettävävaltakunnallisesti,ennenkuin materiaaliavoidaanluovuttaayhteiseentieto-kantaan.
Laitoksellakerätystämateriaalistavoisi olla hyötyäesim.puheen-ja puhu-jantunnistusprojektienmateriaalinaja kehitettäessäuudentyyppisiäsignaa-lianalyysimenetelmiääänenlaadunilmaisuun.Puheopinlaitoksellaollaantoi-saaltakiinnostuneitakäyttämäänmuidentutkimustahojenpuhetietokantoja;erityisestitarvitaanlisää30–50-vuotiaittenhenkilöittennäytteitäeri vuosi-kymmeniltä.Niin ikääntarvitaanerimurrealueittenpuhujiennäytteitäjanäyt-teitäpatologisestaäänestäjapuheesta.KäyttöoikeudensaaminenYleisradionäänitearkistonäänityksiinolisi laitokselleerittäintärkeäasia.Näytteidentek-nisentasontulisi kuitenkinolla hyvä,koskalaitoksellaollaankiinnostuneitaäänenlaadunja muidenpuheteknistenvariaabelienanalysoinnista,ei näyttei-
70 PuheentutkimuksenresurssitSuomessa
denkielellisestäsisällöstä.
Puheentutkimustuleekehittymäänvilkkaasti Tampereenyliopiston puheo-pin laitoksessalähivuosina.Puheoppiei ole toistaiseksipääaineTampereenyliopistossa,muttalaitoksenpiirissäon siitä huolimattatekeillä tällä hetkel-lä kuusipuhetekniikanja vokologianalanväitöskirjaa,jotkakäsittelevätam-mattiäänenkäyttöäsekääänenharjoittamisenvaikutuksiajaäänenkuormitus-kestävyydenmittaamista.Laitoksenkeskeisiätutkimusprojektejapuheteknii-kanja vokologianalallaovatpuheteknistenmittausnormienkerääminen,ää-nenlaadunja muidenpuheteknistenvariaabelientarkastelu– toisaaltaniidenviestinnällisenmerkityksenkannaltaja toisaaltaaikaperspektiivissälaitoksenäänitearkistonmahdollistamallatavalla– sekäeri tyyppistenääniharjoitustenvaikutuksienja vaikutusperusteidenselvittäminen.Kaikkien näidenprojek-tien lähin sovellusalueon puheopinopetus.Tavoitteenaopetuksessaon li-sätätietämystäpuhepiirteidenviestinnällisestämerkityksestäja auttaakehit-tämäänomaaja muidenpuheviestintääsekäennaltaehkäistäpuheviestinnänongelmia.
B.16 Suomen kielen laitos (HY)
Helsinginyliopistonsuomenkielenlaitoksenjohtajanatoimii professoriPent-ti Leino. Puheentutkimuksenparissalaitoksellatyöskentelee3 henkilöäyli-opistonvirkarahoituksenturvin ja 4 henkilöäerilaisin tutkimusrahoituksin.Yliopiston rahoituskattaaprofessorin,yliassistentinja assistentinvirat, jaSuomenAkatemianprojektirahoitus(jossaprofessoriAnssiPeräkylä onvas-tuuhenkilönä)mahdollistaayhdentutkijan työn.Tutkijakoulu Langnetinyh-teydessälaitoksellatyöskenteleeyksi tohtoriopiskelija. Lukuvuonna2000–2001tutkimustyötäharjoitti yksi tohtoriopiskelija Fulbright-stipendiaattina;lisäksi yksi omarahoitteinenpuheentutkimukseenliittyvä väitöskirjaon vii-meistelyvaiheessa(kesällä2001).
Laitoksellaharjoitettava puheentutkimuskuuluu suomenkielen tutkimuk-seen,keskustelunanalyysiinja kieliopin ja vuorovaikutuksentutkimukseen.Keskustelunanalyysintavoitteenaon tuottaakvalitatiivistatietoasiitä, mitenkieltä käytetäänaidoissatodellisissavuorovaikutustilanteissaihmistenyh-teistoiminnanvälineenä.Tutkimuskohdistuusekävapaaseenarkikeskuste-luun ettäinstitutionaaliseenvuorovaikutukseen,jossaosapuolinaon tavalli-sestimaallikko ja asiantuntija.Arkikeskusteluntutkimusonperustutkimusta:halutaanymmärtää,mitenkieleneri tasojenresurssejakäytetään,kunihmisetpyrkivättulkitsemaanja ymmärtämääntoisiaan.Tutkimuskohdistuuseikkoi-hin, jotkaperinteinenkielitiedeonjättänyt pääosinhuomiotta.Institutionaali-senvuorovaikutuksentutkimuksellaonyhteiskunnallistarelevanssiaesimer-kiksi hoito- ja palvelualankoulutuksessasekäopettajainkoulutuksessa.
Keskustelunanalyysintutkimuskohteenaovat aidot keskustelutilanteet,yhtähyvin arkiset rupattelutkuin ns. institutionaalisetkeskustelutkin,siis esi-merkiksi sosiaalitoimenasiakaskeskustelut,radio- tai televisiohaastattelut,lääkäri-potilas-tilanteet,liik eneuvottelut,oikeudenistunnotja luokkahuoneenopetuskeskustelut.Perustutkimuspainottuipitkäänprototyyppisinäpidettä-
B. Vastaukset 71
viin arkikeskusteluihin.Niissäesiintyvätkeinot ja tavat asettuvat sittenerimuodoissaanja eriasteisinainstitutionaalistenkeskusteluidenkeinoiksi; ins-titutionaalistenkeskustelujentutkiminenonnäinollenluonteeltaanenemmäntai vähemmänvertailevaa.
Suomalainenkeskustelunanalyysisuuntautuialuksipelkästäänarkipuheeseen,laitoksentutkimusryhmäkeräsins.Alko-aineistonrinnallearkistenpuhelin-keskustelujenkorpuksen.Tätäkorpustaon1990-luvullalaajennettuopiskeli-javoimin ja käytettyjo lukuisissatutkimuksissahyväksi.Tutkimusaiheetovatjakautuneetmoneensuuntaan,on tutkittu esimerkiksineuvotteluita,asiak-kaanja ammattilaisenkeskusteluitaja tv-väittelyitä.Suomalaisenkeskuste-lupuheentutkimuksenrinnalle syntyi 1990 Anne-Marie Londenin hankeSvenskasamtali Helsingfors, jossaontutkittuarkisiakasvokkaiskeskustelujaja radiokeskusteluja.Vuonna1993alkoi Anssi Peräkylän ja Marja-LeenaSorjosen johtamalääkärinja potilaanvälistävuorovaikutustaperustervey-denhuollossakoskeva sosiologienja lingvistien yhteishanke. Uusin avauson keskustelunanalyysinsoveltaminenmediapuheeseen,Liisa Tiittulan jaPirkk o Nuolijär ven1995alkanuthankeVuorovaikutustv-keskustelussa.
Laitoksellaharjoitettavassatutkimuksessaon siis sitouduttuvahvasti nime-nomaankeskustelunanalyyttiseenmetodiin;senavulla saatava tutkimustie-to on selvästikumuloituvaa.Yksi tärkeistäsovelluksistaon iso deskriptii-vinen kielioppi (valmistunee2003), jossakäsitelläänmyös vuorovaikutus-puheenkonventionaalisiakeinoja.Muutentutkimustoteutuuvoittopuolisestiväitöskirjahankkeina,jotka käsittelevät esimerkiksitelevision EU-keskuste-luja,naistenja miestenpuhetta,nuortentyttöjenkertomuksia,demonstratiivi-pronominienkäyttöäkeskustelussa,alkoholiterapiakeskustelujasekälääkä-rin ja potilaankeskusteluja.Keskustelunanalyyttinenajatteluon jo vaikutta-nutmonenlaiseentutkimukseen,esimerkiksiafasiatutkimukseen,lapsenkie-lenkehityksentutkimukseenja semanttiseenja kieliopilliseentutkimukseen.YhteistyötäonmyösnordistiikkaanpaitsiSuomessamyösPohjoismaidenta-solla:laitososaNorFA:n rahoittamaaverkostoaNordisktnätverk för samtal-sanalys,jonka vetäjänäon professoriPer Linell Linköpingin yliopistosta.Yhteydet ovat kiinteät myös yhteiskuntatieteelliseenkeskusteluntutkimuk-seenSuomessaTampereenyliopistonsosiaalitieteidenlaitokseenja Englan-nissaYorkin yliopiston sosiologianlaitokseen.Alustava kontakti on luotumyösprofessoriMikk o Samsinkognitiivisentieteenja tekniikantutkimus-ryhmään(ks.54).
Laitoksentilat ovathajallaan:osaonHelsinginyliopistonpäärakennuksessa,tutkijatilat ovat Kruununhaassa.Laitteistonaon yksi PC tutkijaa kohden,3pientäSony-nauhuriaulkokäyttöön,1 vanhaja 1 digitaalinenvideokamera,yhteensä3-4 kappalettalitterointilaitteita (Dictaphone)sekä2 videolaitetta.Äänitysstudiotaei toistaiseksiole.
Laitoksellaei ole käytössäkaupallistapuhetietokantaa,eikä sille ole tutki-mustyönluonteestajohtuentarvettakaan.Tutkimusperustuulaitoksenomaanäänitearkistoon,jota kartutetaanjatkuvasti;valtaosaaineistokertymästäsaa-daanopiskelijoidenopinnäytetöidenyhteydessä.Keskusteluntutkimuksenar-kisto sisältäänoin 200tuntiatallenteitaC-kaseteillaanalogisessamuodossa.Lisäksiaineistoaonnoin50videokasetilla;vainmuutamatunti materiaalista
72 PuheentutkimuksenresurssitSuomessa
on tallennettudigitaalisellakameralla.Aineistostaon digitointisuunnitelma,jota ryhdytääntoteuttamaansyksyllä2001.
Aineistonlitterointi on tehtykäsinWP-tiedostoiksi,noudattaenkeskustelun-analyysissakansainvälisesti vakiintunutta litterointitapaa.Päällekkäisyys,tauot, sisäänhengitykset,nielaisut jne on tarkoin merkitty, samointakelte-lut ja itsekorjaukset.Keskustelunanalyysinideologianmukaisestilitterointion osatutkimusprosessia,jotenaineistonmääräei ole ainoaarvo. Litteroin-tia on tällähetkelläkoossanoin30 tuntia,ja litterointia jatketaantehostetustikesällä2001.Aineistostaon olemassakortisto (toistaiseksiMacilla), jonkatietueistakäyvät ilmi kunkin aineistoyksikön kesto,kanava, puhujamäärät,kunkin puhujanikä ja sukupuoli,keskustelunluonne(kasvokkainenkeskus-telu / puhelinkeskustelu;institutionaalinenkeskustelu/ arkikeskustelu)sekäse,onko nauhastalitterointia ja kuinka laaja se on. Pääperiaatteenaon ai-neistonluonnollisuus;koeasetelmiavältetäänaineistonkeruussa.Puhujiltaon saatulupa tutkimuskäyttöönaineistonvaltaosansuhteen;osaaineistostaonsalaista.
Keskustelunanalyyttiseenkäyttöönaineistoon varsin sopivaa,ja jo pelkkälitteroitu puheon suureksihyödyksi laaja-alaistadeskriptiivistä kielioppialaadittaessa.Toisaaltamateriaalistamuille puheentutkimustahoilleolevaanhyötyä rajoittaase,että tallennetuistapuhelinkeskusteluistaon vaikea teh-dä akustistaanalyysia;kasvokkaisetkinkeskusteluton tehty luonnollisissa,useinmeluisissaympäristöissä.Yhteistyötäfoneetikkojen kanssakuitenkintarvitaanerityisestiprosodiikananalysoimisessaja kuvaamisessa;tähäntar-vitaanmyösuuttalaite- ja ohjelmistokantaa.
Keskustelunanalyysinvoi odottaaavaavanuusianäkökulmiamyösklassisiin,paljontutkittuihin kieliopin ydinkysymyksiin(esimerkiksitempustenja pro-nominienmerkityksetja tehtävät),muttaennenkaikkeasemahdollistaain-tersubjektiivisensemantiikankehittämisen,jota ilman ei esimerkiksins.pa-lautemorfeemieneli dialogipartikkelienkuvaustavoi tehdä.On huomattava,ettämetodiinei liity mitäänvalmiiksi soveltuvaa(puheen)syntaksinmalliaeikäinteraktionhuomioonottavaasemantiikkaa.Kunkeskustelunanalyysissakorostetaansitä,ettätutkija ei saaryhtyäanalysoimaanaineistoavalmiidenkategorioidenvarassa,on vaikeatietää,mitä kaikkeatämävaatimuskoskee.Ovatkoesimerkiksisellaisetarkikielensanatkuin kysymys,varaustai juorui-lu jotenkin»sopimattomia»analyysissakäytettäväksi– vai ovatko nekentiesepämääräisyydessäänjopa käyttökelpoisempialähtökohtia kuin monetkie-lioppiperinteestätulevat käsitteet,esimerkiksisivulause,NP tai partisiippi?Onolennaista,ettätutkija ei liitä käyttämäänsäkäsitteeseenvainennaltaluk-koonlyötyjä ominaisuuksiaja merkityksiävaanonvalmismyöntämään,ettäennakkokäsitysvoi muuttuapaljonkinkunhanjonkin keinonkäyttöäymmär-retäänsyvällisemmin.
B.17 Suomen kielen laitos (JYU)
Jyväskylän yliopiston suomenkielen laitoksenjohtajaon professoriMattiLeiwo. Laitoksenpääaineon suomenkieli, erikoisalojaovatmm.suomitoi-
B. Vastaukset 73
senaja vieraanakielenä-opinnot,estologia(suomensukukielet),hungarolo-gia (Unkarinkulttuuri ja kieli) ja viittomakieli. Puheentutkimustalaitoksellaharjoitetaansuomenkielen omaksumisen,fonologianja prosodiikantutki-muksenalalla.
Tärkeinpuheentutkimushankeonsuomenkielenomaksumisentutkimus,jos-sakartoitetaanerityisestisuomenprosodisenja fonologisenrakenteenkehi-tystälapsillaja senyhteyttämorfologianja syntaksinomaksumiseen.Lisäksitutkitaanlastenmetakielellisiäkykyjä sekälapsenja äidin välistävuorovai-kutusta.Tutkimuksenkohderyhmänmuodostavat dysleksiariskilapsetsekäverrokit; kokonaisotoson 100+100lasta.Tavoitteenaon sekäkartoittaadys-leksianvarhaisetmerkitdysleksiariskilapsillaettätutkianormaalinkielenke-hityksenpiirteitä. Dysleksiaeli spesifilukemisvaikeuson yksi tavallisimpiapsykologisiaongelmia,jasehaittaavakavastidyslektikonkoulumenestystäjakykyäomaksuatietoakirjoitetustatekstistä.TutkimustatehdäänyhteistyössäJyväskylän yliopiston psykologianlaitoksenkanssaJyväskylä LongitudinalStudyof Dyslexia -hankkeessa.ProjektiajohtaaprofessoriHeikki Lyytinen.
Aineistoonkoottuvapaissaleikkitilanteissaja erityisestisuunnitelluissakoe-tilanteissa;kielelliset tehtävätliittyvät kuvannimeämiseen,imitaatioon,ha-vaitsemiseenja tarinankertomiseen.Tutkimuskartoittaakielellisten tehtä-vien onnistumistaseuraavina ikäkausina:6 kk (päänkääntörefleksi,reagoi-minenpitkänja lyhyenkonsonantinkestoerooneli kvantiteettioppositionha-vaitseminen),1 v 6 kk (pitkän ja lyhyen konsonantinjäljittelytehtäväelikvantiteettioppositiontuottaminen),2 v (keskusteluaineisto:ensisanojenpro-sodinenja fonologinenrakenneja taivutus,morfosyntaksi),2 v 6 kk (keskus-teluaineistotja sanojentuottamisaineistot:sanojenfonologinenja prosodinenrakenne,ensimmäisetmorfologisetrakenteetja syntaksi),4 v 6 kk (»sam-makkotarinoiden»syntaktinenrakenne),5 v (kvantiteetinkategorisointi),6 v6 kk (kestonauditorinenhavaitseminen)ja 7 v (lukeminen,kirjoittaminenjametakielellisettaidot).Lisäksi tutkitaansuomenkielenensisanoja(7 kk – 1v 6 kk), viron kielenensisanojenprosodiikkaasekälukemisenja kirjoittami-senkehittymistäensimmäistenkouluvuosienaikana.Aikuistendyslektikko-jen kirjoittamistaon myöstutkittu, ja tutkimuslaajennetaanala-asteikäisiinoppilaisiin.
Dysleksiantutkimusedellyttääsekäpsykologistaettäkielitieteellistäasian-tuntemusta.Kuulo- ja aivotutkimuksenavulla löydettyjenpoikkeavuuksienlisäksitietyt kielellisetindikaattoritennustavatdysleksiariskiä.Suomenkvan-titeettioppositioedellyttäätäsmällistäpuheentemporaalistenseikkojen hal-lintaa ja häiriintynyt kvantiteetintuottaminenja dekoodauson osoittautunuthyväksi dysleksiariskinennustajaksi.Suomentaivutusmorfologiaon myöshyvin monimutkainenjärjestelmä,ja siinäesiintyvätongelmatovatniinikäänindikaattoridysleksianmahdollisuudesta.
Tutkimustapahtuusuomenkielen laitoksentiloissa,laboratoriotutkimukseton tehtypsykologianlaitoksenlaboratoriossa.Projektissaon johtajanlisäksitutkijatohtori,jokatyöskenteleetällähetkelläLontoonUniversityCollegessasekäneljä tutkijaa, joista yksi työskenteleeyliopiston virkarahoituksentur-vin, kaksiLangnet-tohtorikoulunrahoituksellaja yksi omallarahoituksella.
74 PuheentutkimuksenresurssitSuomessa
Tutkimusaineistot– jäljittelytehtävät(1 v 6 kk), keskusteluaineistot(2 v, 2v 6 kk, 4 v 6 kk) ja sanojentuottamistehtävät(2 v 6 kk) – on pääosintal-lennettudigitaalisestikaseteilleja videokaseteille.Äänitteeton tehtyyleen-sä leikkitilanteidenyhteydessä,mikä heikentääsignaalinlaatuaja vaikeut-taa foneettisiamittauksia.Transkriptioon tehty foneettisestimahdollisim-mantarkasti,sekäprosodiikanettääänteidenosalta.Akustinenanalyysiteh-däänSoundscope-ohjelmanavulla (tutkimuksenkohteenaesimerkiksiääntei-denkestosuhteet).SpontaanipuheanalysoidaanChildes-ohjelmisto-paketinavulla (Child LanguageDataExchangeSystem);kirjoituksentutkimukses-sakäytetäänScriptlog-ohjelmaa.Tietokoneinalaitoksellaon PC-koneitajakaksiMacintoshia.
Tutkimustuleejatkumaanainakinvuoden2005loppuun.Yhteistyötätehdäänmm.Lundinyliopistonkielitieteenlaitoksenja Bangorinyliopistonpsykolo-gianlaitoksenkanssa.Tulevina vuosinatutkimuksenvoidaanodottaatuotta-vanmerkittäviäuusiakeinojadysleksiariskintunnistamiseksi,joiden avullahoitoavoidaannopeuttaaja tehostaa.
B.18 Suomalaisen ja yleisen kielitieteen laitos (TUY)
Turunyliopistonsuomalaisenja yleisenkielitieteenlaitoksenjohtajaonpro-fessoriSirkka Saarinen (suomalais-ugrilaisenkielentutkimuksenprofesso-ri), LauseopinarkistonjohtoryhmänpuheenjohtajaonprofessoriKaisa Häk-kinen. Suomenkielen oppiaineessatyöskentelee22 henkilöä,joista välilli-sestipuheentutkimuksenparissatyöskentelee6 henkilöä.Rahoitustuleeyli-opistonperusrahoituksestaja SuomenAkatemianprojektirahoituksesta.
Laitoksessaharjoitettavankielitieteellisentutkimuksenpainopistealueetovatsuomenyleiskielenja murteidensyntaksintutkimus,Itämerenpiirin kieltenkieliopillinen vertailu,suomenkielenomaksuminen,suomensananmuodos-tus ja Satakunnankansankielenja vanhannimistön tutkimus.Suomenkie-len oppiaineessaei ole tällä hetkelläerityisestipuheentutkimukseenliittyviähankkeita.Yksittäisettutkijat tekevät kuitenkin murretutkimusta,sosioling-vististätutkimustaja variaationtutkimustasekälapsenkielenomaksumiseenliittyvää tutkimusta.Suurin yksittäinenpuheentutkimukseenliittyvä hankeon oppiaineessaollut Nykysuomalaisenpuhekielenmurros-hankkeenTurunosaprojekti1980-luvulla.
Suomenkielen äänitearkistoon nauhasto.Äänitearkistosisältää7000 tun-tia (analogisia)avokelanauhoja;näistä5500tuntiaon alkuperäisäänitteitäja1500 tuntia kopionauhastoalähinnäSuomenkielen nauhoitearkistosta.Al-kuperäisaineistoonkuuluu 4600 tuntia suomenmurteidennauhoitteita,30tuntia sukukieltennauhoitteita,80 tuntia sosiaalistenmurteidennauhoittei-ta,190tuntiaTurunpuhekielennauhoitteita,120tuntianykypuhekielennau-hoitteitaja noin200tuntiamuitanauhoitteita.Lisäksiäänitearkistoonkuuluukaksi erilliskokoelmaa,kotiseutuneuvos Väinö Tuomaalan nauhasto(180tuntia eteläpohjalaisiamurreäänitteitä)ja Matti Rautiomaan nauhasto(46tuntiaPunkalaitumenmurretta).MurrenauhastossaovatedustettuinalähinnäLounais-Suomenmurteetja satakuntalaismurteetsekäjossakinmäärinete-
B. Vastaukset 75
läpohjalaisetmurteet;muita murrenauhojaon satunnaisestiympäri maata.Parhaitenedustettuinaovat lounaismurteetja lounaisetvälimurteet,joistaonvähintään30 tunninkokoelmajoka pitäjästä.
Valtaosanauhoituksistaon tehty1960-ja 1970-luvulla.Murteidenosaltaää-nitearkistoakartutettiinsystemaattisestivuoteen1975saakka,jolloin saatiinpäätökseenarkistonkeruutavoite (30 nauhatuntiaaitoa kansanmurrettajo-kaisestalounaismurteidenja lounaistensiirtymämurteidenalueenpitäjästä).Tämänjälkeensystemaattistakeruutaei ole jatkettu.Nauhoittajinaovat ol-leetlaitoksenvalitsematja kouluttamatstipendiaatitja varsinkinalkuaikoinamyöslaitoksenhenkilökunta.
Vuoden1975jälkeenarkistoononkertynyt jonkin verranuuttaaineistoa,etu-päässätutkimusprojektienaineistoksihankittujaja opiskelijoiden harjoitus-töinäännauhoittamiaäänitteitä.Tässänoin200tunninlaajuisessaaineistossaon sekäalueellisiaja sosiaalisiamurteitaettämuutapuhekieltä,esimerkiksiTurunpuhekielennauhoitteita,ja lisäksiesitelmienja puheidennauhoituksia.
Äänitearkistonmateriaaliaon käytettyluotaessaLauseopinarkistonalueel-listenmurteidenperuskorpusta,samoinmonienerillistentutkimusprojektiensekäopinto-ja harjoitustöidenaineistona.Alkuperäinenmateriaali(äänitear-kisto) koostuuvaltasosinperinteisistämurrehaastatteluista.Aineistostavainosaon litteroitu. Litteroitu aineisto(Lauseopinarkistonmateriaali)on ääni-teaineistonpohjaltalaadittukooditettutekstikorpusilman ääninäytteitä(pu-hutunkielensanoihinon liitetty morfologinenja syntaktinenkooditus).Ai-neistoon litteroitu karkeantranskriptionmukaan:litterointi sisältäätauot,puheenvuoronvaihdotja lausepainon.Puhujistaon tarkattiedot (ikä, suku-puoli, haastattelupäivämäärä).Lauseopinarkistonpuhujatiedostoton tallen-nettusähköiseenmuotoon.Henkilötiedoteivät ole julkisia, muutenaineistoon tutkijoidenvapaassakäytössä.
Äänitearkistolleonvarattulaitoksellaomanauhavarastojaäänitysstudio.Lau-seopinarkistonkäytössäon työhuone,jossaon tietokone(Pentium-PC,Win-dows 98) oheislaitteineen(skannerija tulostin).Lisäksi Lauseopinarkistonkäytössäonomahakuohjelma,muttaohjelmaonvanhentunutja sitäonhan-kalayhdistäätoisiin ohjelmiinjakorpuksiin.Uudempiversiohakuohjelmastaonkoekäytössä.
Suurinosaaineistostaon avokelanauhoilla;vain pieni osaon C-kaseteilla.Aineistoonpääosinhyvässäkunnossa,muttadigitoimininenolisi materiaalinsäilymisenturvaamiseksitarpeen.Digitointi myös mahdollistaisiaineistontarkoituksenmukaisemmankäytönja levittämisen.
Äänitearkistoja Lauseopinarkistomahdollistavatmonipuolisensuomenkie-len tutkimuksenja sitenpalvelevat tutkimuksentavoitteita hyvin. AineistoakäytetäänmyösTurunyliopistonulkopuolella,kiinnostusmurreaineistoihinon tällä hetkelläselvästilisääntymässä.
76 PuheentutkimuksenresurssitSuomessa
B.19 Suomen kielen ja kulttuuritieteiden laitos (JOY)
Suomenkielenoppiaineenvastuullinenjohtajaon professoriIlkka Savijär -vi. Suomenkielentutkimuson laajakontekstikaikelle harjoitettavalle tutki-mukselle.Suomenpuhekielenosaltatutkimuksessaon kaksipainoalaa:suo-menmurteetja muupuhekieli(suomenkielenalueellinenja sosiaalinenvaih-telu)sekäitämerensuomalaistenkieltenkontaktit.Tutkimustatehdäänkielenkaikilla tasoilla,fonologian,morfologian,syntaksinjasanastonosalta.Lisäk-si laitoksessaharjoitetaanpragmatiikantutkimustaja suomivieraanakielenä-tutkimusta.
Oppiaineessaonkuusivakituistavirkaa.Viranhaltijoistaviisi tutkii puhuttuakieltä omistanäkökulmistaan.Lisäksioppiaineessaon joukko jatko-opiske-lijoita, joista kuusi tutkii varsinaisestipuhekieltä.Oppiaineessaon toiminutSuomenAkatemianrahoittama,Ilkka Savijär ven johtamaprojekti, jossaontutkittu Inkerinmaansuomea(rahoitushankkeelleon päättynyt). Jatko-opis-kelijoista kahdellaon ollut vuosina2000–2001SuomenKulttuurirahastonapuraha.
Kaikilla tutkijoilla onkäytössääntietokone,jossaonWindows95tai 98käyt-töjärjestelmä.Ääninauhojavoi kuunnellatyöhuoneessatai erillisessäarkis-tohuoneessa.
Laitoksenäänitearkistonmuodostaaaineisto,josta valtaosaon analogisillaääninauhoilla(suurinosaon kelanauhoilla;osa,noin 300tuntia,on C-kase-teilla). Varsinaisiatietokantojaon vain inkerinsuomentutkijoilla, jotka ovatkoodanneetlitteroimiaannauhoitteitatiedostoiksi(verkossaon noin puolituntiainkerinsuomeaelektronisenakorpuksena).Omanlaitoksenmateriaaliaon noin 1000tuntia, mutta tutkijoiden käytettävissäovat Kotimaistenkiel-tentutkimuskeskuksensuomenkielennauhoitearkistonkokoelmat,joissaonnoin 16 000 tuntia suomenmurteita.Pragmatiikantutkijat käyttävätlisäksiJyväskylänyliopistonkanssayhteisiäaineistoja.
Aineisto sisältääenimmäkseen(kahdenkeskisiä)murrehaastatteluja.Muka-na on myös lastenkieltä ja keskusteluja(varsinaisiakeskustelunauhoitteitaonnoin10 tuntia).Murrenauhoitteitaei annetamuidenkuin laitoksenomientutkijoidenkäyttöön,koskahaastateltavathenkilötkertovatuseinhyvin hen-kilökohtaisiaasioita(tällaisiatietoja ei ole tarkoituksellisestikysytty, muttatunninkinpituisessahaastattelussapuheenaiheetvaihtelevat, ja haastateltavavoi puhuamyösluottamuksellisistaasioista).
Kukin tutkija on litteroinut aineistoaanomiin tarkoituksiinsasoveltuvin pe-riaattein.Yleensäonkäytettypuolikarkeaatranskriptiota.Taukojaei yleensäole merkitty, muttaepäselvästikuullut kohdaton merkitty sulkeisiin. Puhu-jista on arkistoitutavallisimmathenkilötiedot:nimi, syntymäaikaja paikka,ammatti,vanhempienasuinpaikat,omaasuinpaikkaja asuinpaikanvaihdok-set.Osakäytetyistälitteroinneistaon tehtypaperille(litteraatiotonarkistoitumappeihin),muttauudemmat1990-luvultaperäisinolevat litteroinnit on tal-lennettutietokoneelletiedostoiksi.
Laitoksessapyritäänsiihen,ettädigitaalistenäänitteidenyleistyessäaineis-to voidaankäsitellätietokoneellalitterointiohjelmanavulla, jolloin nauhuria
B. Vastaukset 77
ei enäätarvita.Toistaiseksidigitaalisessamuodossaolevaaaineistoaei juuriole. Kaikki suomenkielen laitoksetkäyttävätKotimaistenkielten tutkimus-keskuksensuomenkielennauhoitearkistonaineistoa;jokaisellalaitoksellaonlisäksi omia aineistoja,joita ulkopuolisettutkimustahotharvoin tarvitsevat.Suomenkielennauhoitearkistossaonvuonna1999aloitettuanalogistennau-hoitteidendigitointi. MuutamanvuodensisällälieneemahdollistasaadaKo-tuksendigitaalisessamuodossaolevaaaineistoaverkon kauttaomalletieto-koneelle.Samallatavallaolisi tarpeellistadigitoidaJoensuunyliopistonsuo-menkielenja kulttuuritieteidenlaitoksensuomenkielinenääniteaineisto.
Nauhoitearkistojendigitaalistuminenhelpottaaratkaisevasti aineistonlitte-rointia. Tämäonkin suurinmuutos,joka lähivuosinakoskettaakaikkia mur-teiden ja puhekielentutkijoita. Juuri nyt murteidentutkimus on nousussayleisenmurreharrastuneisuudenja kiinnostuksenlisäännyttyä. Suomenkie-len ja kulttuuritieteidenlaitoksessajärjestetäänyhdessäenglanninkielenai-nelaitoksenkanssadialektologianmetodejakoskevakansainvälinenkongres-si elokuussa2002 (MethodsXI), joka osaltaankiinnittää huomiotatutki-musalaan.Valtakunnallisestipuhekielentutkimuson laajentunutasioimisti-lanteidenanalysointiinja keskusteluntutkimukseen,mikä synnyttääedelleenuusiatutkimushaasteitaja hankkeita.
B.20 Suomen kielen ja yleisen kielitieteen laitos (TAY)
TampereenyliopistonSuomenkielen ja yleisenkielitieteenlaitoksenjohta-ja on professoriMatti K. Suojanen. Puheentutkimuslaitoksellakuuluuesi-merkiksisuomenkielen,fonetiikan,sosiolingvistiikanja pragmatiikantutki-muksenalueeseen.Erityisestipuheentutkimustaharjoitetaanseuraavilla eri-tyisalueilla:distinktiivisenkvantiteetintuottaminenja havaitseminensuomenkielessä,fonologia,funktionaalinenkielioppi, keskusteluntutkimus,lapsen-kielenesi- ja varhaismorfologiantutkimus,puheendynaaminenluonne,pu-heenrytmi ja ajoitusseikat,puhutunkielen rakenteetja niiden merkitykset,sosiofonetiikka,semanttis-pragmaattinentutkimuspuhekielensanastostajavariaationtutkimus.Puheentutkimusliittyy myös metateoriaan,joka yhdis-tääerilaisiaempiirisiätutkimushankkeita:laitoksellakehiteltäväkielitieteenemergentistinenmetateoriaonkehysuseilletutkimussuuntauksille.
Kielentutkimusyleensäottaaenenevässämäärinhuomioonsemanttis-prag-maattisetjasosiaalisetnäkökulmat.Fennistiikassasosiolingvistinentutkimuson luonteva murteidenja muun puhekielentutkimuksenjatke, joka kaipaaorganisoitumistamm. tutkimustyönpäällekkäisyyksienvälttämiseksija tie-topankkienperustamiseksi.Suomenkielen sosiolingvistisentutkimuksenjaopetuksenkehittäminenonasetettuvaltakunnallisessatyönjaossaTampereenyliopiston suomenkielen ja yleisenkielitieteenlaitoksenvastuulle.Tähänlaitoksellaonmyösparhaatedellytyksetjo tähänastisenprofiloitumisensape-rusteella:laitoksenyhteyteenon1.8.1997perustettusosiolingvistiikanyksik-kö, jonkatehtävänäonkartoittaasuomenkieleneri muotojenasemaa,niidenkäyttöäja huoltoasekäsuomalaistenkielellisiä asenteitalähivuosikymme-nienaikana.Huomiotakiinnitetäänmyössuomenja muidenpientenkieltenasemaanEuroopanunionissaja siihen,mitentämäasemavaikuttaaSuomen
78 PuheentutkimuksenresurssitSuomessa
kielitilanteeseen.Yksikkö onkiinteäosalaitosta,ja laitoksenhenkilökunnantyöpanostasuunnataanyksiköntehtäviin.
Laitoksellatyöskentelee19henkilöä;välittömästitai välillisestipuheentutki-muksenparissaheistätyöskentelee16.Laitoksellaon 3 professoria,5 lehto-ria, 2 assistenttia,5 tutkijaa,1 tuntiopettaja,1 amanuenssi,1 toimistosihteerisekä1 atk-amanuenssi.
Laitoksenpuhetietokannatmuodostuvat tutkimustarkoituksiin kerätyistäai-neistoista,joita ovat seuraavat: Tampereenpuhekieli -aineisto,Tampereenmuuttajatutkimus-aineisto,Sanastoja maailmankuva -aineisto,Virtain suo-menkielenaineisto,Tampereenseudunpuhekieli-aineisto,Meänkielenai-neisto,Pekka Lehtimäen kokoamaaineisto,EsaLehtisenkokoamakeskus-telunaineistoja Klaus Laalon kokoamaaineisto.Lisäksi opinnäyte-ja har-joitustöidenyhteydessäonkerättysuomenkielenaineistoja.
Tampereenpuhekieli-projektinyhteydessäkerättyaineistokoostuunauhoi-tetuistahaastatteluista,jotkakerättiin1977osanaSuomenAkatemianrahoit-tamaaNykysuomalaisenpuhekielenmurros -tutkimushanketta.Aineisto laa-jennettiin1997haastattelemallaalkuperäiseenkohderyhmäänkuuluviahen-kilöitä. Aineistoaon noin 120 tuntia analogisestitallennettuna(osin avoke-lanauhoina,osinkasetteina).Materiaalisisältää72syntyperäisentamperelai-senhaastatteluitasekävuodelta1977ettävuodelta1997(kukin otoson nointunninmittainen);haastateltavatkuuluvatkolmeeneri ikäryhmään.Henkilö-tietoja on kerättyasuinpaikasta,koulutuksesta,ammatista,puolisonamma-tista,puolisonsyntymäpaikasta,vanhempienammateistaja vanhempiensyn-tymäpaikoista.Karkeat transkriptioton olemassakoko aineistosta;vuoden1997haastattelunlitterointi on sähköisessämuodossa,vuoden1977haastat-telunlitterointi onvainpaperimuodossa.
Tampereenmuuttajatutkimuksenyhteydessä1978kerättyaineistosisältääPoh-jois-KarjalastaTampereellemuuttaneidenhenkilöidenpuhekielentallenteita.Aineistoaon noin 75 tuntiaanalogisestitallennettuna(suurinosaon avoke-lanauhoilla).Aineistosisältää24eri-ikäisenmuuttajantunninmittaisethaas-tattelut.Koko aineistoon litteroitu (litterointi onpaperimuodossa).
Sanastoja maailmankuva-hankkeenyhteydessäkerättyaineistosisältäätam-perelaistenammattikoululaisja lukiolaisnuortenhaastattelujavuodelta1991(puhujiaon 24 ja heovat iältään16–17-vuotiaita).Nuoretkertovat koulus-ta,harrastuksistaanja tulevaisuudennäkymistään.Aineistoaon24tuntiaana-logisessamuodossa(C-kaseteilla);koko aineistostaon olemassalitteraatiosähköisessämuodossa.
Virtain aineistosisältääVirroilla nauhoitettujahaastatteluita.Haastateltavatkuuluvat moneenikäryhmään(syntymävuodetvaihtelevat vuosien1880 ja1979välillä). Aineistoaonnoin120tuntiaanalogisessamuodossa(sekäavo-kelanauhoillaettäC-kaseteilla).Suurinosaaineistostaon litteroitu (pieniosalitteraatiostaon sähköisessämuodossa).
Meänkielentutkimushankkeenyhteydessäkerättyaineistomahdollistaaver-tailun 1990-luvunja 1960-luvunmeänkielen välillä. Tutkimus käynnistyi1991Tampereenja Tukholmanyliopistojenyhteistyöhankkeena.Aineistoa
B. Vastaukset 79
on noin 25 tuntia analogisessamuodossa(avokelanauhoina).HaastateltavatovatMatarenginkylästä(18henkilöä)ja Aapuankylästä(26henkilöä).Suo-menkielen nauhoitearkistonmateriaaliakäytetäänvertailuaineistona1960-luvulta.Aineistoon litteroitu (vainpaperimuodossa).
Pekka Lehtimäen kokoelmatsisältävätmonentyyppisiähaastatteluäänittei-tä.Aineistoaonnoin50tuntiaanalogisessamuodossa(osaavokelanauhoilla,osaC-kaseteilla).Osastaaineistostaonlitterointi paperimuodossa.EsaLeh-tisenkeskusteluaineistosisältääraamatuntutkiskelukeskusteluja,jotkaonnau-hoitettuaidoissavuorovaikutustilanteissa.Aineistoaon noin 7 tuntia analo-gisessamuodossa(nauhoituson tehty Nagra-nauhurilla).Koko aineistoonlitteroitu Word-tiedostoihinkeskustelunanalyyttistenstandardienmukaises-ti. Klaus Laalon aineistosisältäälastenleikkitilanteissatuottamaavapaa-ta puhetta.Aineistoon analogisessamuodossaC-kaseteilla.TranskriptioonCLAN-systeeminmukainen(litterointi onkesken).
Harjoitustöidenyhteydessäkerättyäaineistoaonnoin100tuntia(analogises-samuodossa,pääosinC-kaseteilla).Erillisiä äänitteitäonyhteensänoin300.Osaaineistostaon litteroitu.
TutkimuksessakäytetäänyhteistyössäTampereenyliopiston puheopinlai-toksenkanssapuheentutkimuslaboratoriota.KäytettäviäohjelmistojaovatSoundscope(puheenkäsittely),Praat(puheenkäsittely),CLAN ja CHILDES(lapsenkielentutkimus),Atlas.ti (kvalitatiivisenaineistonkäsittely),Mathe-matica(datankäsittelyja mallien kehittely) sekäMacAnova (tilastoanalyy-sit).
Laitoksellaolevanpuheaineistonkäyttöarvoalisäisi huomattavastimateriaa-lin digitointi. Akustinenanalyysi,transkriptioidenmääränja tarkkuudenli-sääminenja litteroinnin siirtäminensähköiseenmuotoonsekälitteraatioidenliittäminen digitoituun ääneenlisäisivät ratkaisevasti aineistonarvoa tutki-muskäytössä.
B.21 Suomen kielen jaos (OY)
Oulun yliopiston suomenja saamenkielen ja logopedianlaitoksenjohtaja-na toimii professoriHelena Sulkala. Suomenkieltä koskeva puheentutki-mus kuuluu suomenkielen jaoksessayleiseensuomenkielen tutkimuksenalaan:aluemurteiden,puhekielenja lastenja kouluikäistenkielen tutkimuk-seen.Tutkimuksentavoitteinaonollut erityisestiPohjois-Suomenmurteidenja puhekielentutkimus,lapsenkielenkehityksenseurantaja erilaistenja eri-ikäistenosanottajienkeskustelujentutkimus.
Jaoksenhenkilökuntaankuuluu2 professoria(suomenkieli), 4 lehtoria(suo-menkieli 2, viron kieli 1 ja yleinenkielitiede1), 1 yliassistentti(suomenkie-li), 1 assistentti(suomenkieli), 2 tutkijaa(suomenkieli: Lehtori AnnaVuo-rion säätiönpuolivuotinenapuraha31.5.01astija opetusministeriönrahoitta-mavirtuaalisuomenVISU-projekti 31.12.2001asti),1 tuntiopettaja(unkarinkieli, sivutoiminen),1 amanuenssisekä2 toimistosihteeriä.
Jaoksessasijaitseevuonna1967 perustettuOulun nauhoitearkisto(ONA),
80 PuheentutkimuksenresurssitSuomessa
jossaon säilytteilläomia aluemurrenauhoitteitanoin 4000 tuntia,kopioitu-ja aluemurre-nauhoitteitanoin1420tuntia,puhekielennauhoitteitanoin700tuntia ja lastenja koululaistenkielen nauhoitteitanoin 465 tuntia. Lisäksinauhoitearkistossaon saamenkielen nauhoitteita(noin 110 tuntia),suomenja viron kontrastiiviseentutkimukseenliittyvää materiaalia,suomi-karjala-vepsä-projektin nauhoitteita,kulttuurihistoriallisianauhoitteitasekäoulu-laista juhlaperinnettäkoskevia nauhoitteita.Oulun nauhoitearkistoon Suo-menlaajimpiasuomenkielennauhoitearkistoja.Arkistolla sinänsäon arvoakansallisenkulttuurin ja fennistiikantutkimusperinteidenylläpitäjänä.Ou-lun nauhoitearkistonpainopisteon erityisestiPohjois-Suomenalueeltake-rätyn puheaineistontallentamisessa.Merkittäväosuusarkistonnauhoitteis-ta on koottu opiskelijoiden tallennustöinä.Nauhoitearkistonkokoelmia onhyödynnettylaitoksenopinnäytetöissäproseminaariesitelmistäväitöskirjoi-hin asti. Arkisto on edelleenkinopiskelijoiden ja tutkijoiden käytössä.Tal-lenteetovat läheskokonaananalogisessamuodossa.Laitosellaei olekäytös-säkaupallistapuhetietokantaa.
Murrenauhoitteidenkokoelmasisältäänoin 4000 tuntia omia nauhoitteita.Valtaosamateriaalistaon avokelanauhoilla,lisäksi materiaaliaon noin 15tuntia C-kaseteillaja 10 tuntia DCC-kaseteillasekä9 tuntia videokaseteil-la. Vanhimmatnauhoitteetovat1960-luvunlopulta.Osavanhemmastamate-riaalistaalkaaolla heikossakunnossa,läpikopioitumistaon tapahtunuthuo-mattavasti.Tavoitteenaonollut kerätämateriaaliakattavastikaikistasuomenmurteista.Puhemateriaalion kerättyvapaissapuhetilanteissa,joita haastat-telija on ohjannutlyhyillä kysymyksilläja kommenteilla.Informanteiksionpyritty valikoimaanmahdollisimmanpuhdastamurrettapuhuviahenkilöitä(puhujien ikä, ammatti,koulutus,syntymäpaikka,asuinpaikanvaihdokset,sukutaustayms.tekijätonotettuhuomioon).Haastattelutilanteestaonpyrittyluomaanmahdollisimmanrauhallinenja kiireetön,ylimääräisethäiriötekijätonmahdollisuuksienmukaankarsittu.Osamateriaalistaonlitteroitu käyttäensuomalais-ugrilaistatarkekirjoitusta,ja osastaon laadittumyössisällysluet-telot.Useimmistahaastatteluistaon laadittukeruukertomukset,joissaonesi-telty mm.informantinhenkilötiedot,puhutunmurteenkeskeisetpiirteetsekähaastattelunkulku ja nauhoituksessamahdollisestikuuluvat häiriöt.Opiske-lijoiden opinnäytetyötkartuttavatmurrenauhoitteidenkokoelmaaedelleen.
Puhekielenkokoelmakoostuusosiaalimurteidennäytteistä,vapaanyleispu-hekielenaineistostasekäkansanedustajienkielen aineistosta.Vapaanyleis-puhekielenotoksenmuodostavat Kuka kukin on -teoksestaarvotut 14 Hel-singissäasuvaaeri alanedustajaaja Oulun poliisilaitoksenväestörekisteri-kortistostaarvotut 16 Oulussaasuvaaylioppilastutkinnonsuorittanuttahen-kilöä. Kutakinhenkilöäonhaastateltupuoli tuntia,yhteensäaineistoaonsiis15 tuntia.Kansanedustajienkielen aineistokoostuu54 kansanedustajanvi-rallisistaeduskuntapuheistaja epävirallisistahaastatteluista.Aineistoon tal-lennettunanauhoitteina,litteraatteina,reikäkortteinaja magneettinauhoina.Nauhoitteetovat vuosilta 1968 ja 1969, ja niitä on yhteensänoin 15 tun-tia. Sosiaalimurteidenkokoelmakoostuuopiskelijoidentekemistähaastatte-luista. Materiaaliaon noin 650 tuntia: valtaosaon avokelanauhoilla,pieniosaon C-kaseteilla(37 kpl) sekäDCC-nauhoilla(11 kpl), ja noin 30 tun-tia aineistoaon MD-levykkeillä. Tutkimuksenkohteenaovat esimerkiksieri
B. Vastaukset 81
paikkakuntiennykypuhekieli,puhujienikäryhmänja ammatinvaikutuspu-hekieleen,tilannevariaatiosekäulkomaalaissuomi.Haastattelutilanteessaonpyritty noudattamaansamojaperiaatteitakuin aluemurteidennauhoituksissa.Koskahaastattelujaontehtyrunsaastijulkisissarakennuksissakutenoppilai-toksissaja kirjastoissa,ulkopuolistahälyäon nauhoituksissarunsaasti.En-simmäisethaastatteluton tehty vuonna1973.Sosiaalimurteidenkokoelmakarttuuedelleen.
Lastenja koululaistenkielen nauhoitteitaon yhteensänoin 465 tuntia.Val-taosaaineistostaon äänitemateriaalia,nykyäänkokoelmaakartutetaanyhäenemmänvideoimalla.Varhaisinmateriaalion vuodelta1973, jolloin ns.Oulun-otoksenseuruualkoi. Nauhoitteetovat lisääntyneetpääosinopiske-lijoiden tallennustöidenyhteydessä.Nauhoitustilanteeton pyritty järjestä-määnmahdollisimmanluonnollisiksi,jotennauhoituspaikkanaonyleensäol-lut lapsenkoti. Materiaaliaon tallennettukodinnormaaleistatilanteista,jois-salapsi katseleekuvakirjoja, leikkii, piirtää tai ruokailee.Useimmissanau-hoitteissalapsenkanssaseurusteleejompikumpilapsenvanhemmista,muttaarkistossaonmyösmateriaalia,jossanauhoitettavina tai kuvattavina onvainlapsia.Yleensätallennustilanteissaei ole ollut mukanavieraitahenkilöitäjatallennuson tehty mahdollisimmanhuomaamattomasti.Osaaineistostaonlitteroitu uusimpiakeskusteluntutkimuksenperiaatteitakäyttäen:päällekkäi-syys,tauot,sisäänhengitykset,nielaisutjne on tarkoin merkitty, samointa-keltelutja itsekorjaukset.
Materiaalinnauhoittamiseen,kuunteluunja kopioimiseenlaitoksellaonkäy-tettävissäuseitaTandberg-avokelanauhureita,3 Uher-avokelanauhuria,5 Re-vox-avokela-nauhuria,3 kasettinauhuria,5 DCC-nauhuria,3 MD-nauhuria,3 videolaitettasekäMac-tietokoneja AdobePremiere-ohjelma.Tutkimusti-loina on kolme litterointistudiota,arkistoja tutkimushuoneja äänitteidenjamikrofilmien arkisto(jossalämpötilaja kosteuson säädettytallenteillesopi-vaksi).
Tällähetkelläsuomenkielenjaoksessasuurintarveonsaadaarvokasjauniik-ki aineistodigitoitua.Valtakunnallistayhteistyötäniin digitoinnin suunnitte-lussakuin toteutuksessakintarvitaan,ja sitä on jo osittainpyritty luomaan-kin. Jaokseenon haettudigitointirahaaMaa Ponteva -hankkeesta(ei saatu)sekäopetusministeriönTietohuollonavustukset-määrärahaa(tilanneavoin).Ilman digitointiaarvokkaastaarkistostaosaonvaarassatuhoutua.
Uudenja suurenongelmantallenteidenkäytössä(erityisestiverkostoitumi-senmyötä)aiheuttavateettisetkysymykset.Tallenteitaontehtyuseidenvuo-sikymmentenaikana,muttainformanttienkanssaei ole tehtykirjallisia sopi-muksiatallenteidenkäytöstä.
B.22 TAUCHI-tutkim usr yhmä (TAY)
TAUCHI-ryhmä(TampereUniversityComputerHumanInteractionGroup)onosaTampereenyliopistontietojenkäsittelytieteidenlaitosta.Laitoksentut-kimusryhmiäTAUCHI:n lisäksiovatalgoritmiikkaaja käsitteellistämallinta-mistasekätiedonhallintaatutkivat ryhmät.Laboratorioitaovat käytettävyys-
82 PuheentutkimuksenresurssitSuomessa
laboratoriosekävirustutkimusyksikkö.Laitoksenjohtajaon professoriSep-po Visala, TAUCHI-ryhmänjohtajanatoimii professoriKari-J ouko Räihä.Tietojenkäsittelytieteidenlaitoksellatyöskenteleenoin 55 henkilöä;TAUC-HI-ryhmässäon 25 tutkijaa, joista puhtaastipuhekäyttöliittymätutkimuksenparissatyöskenteleekaksi tutkijaa.Puhekäyttöliittymätutkijattoimivat mää-räaikaisintyösopimuksineri tutkimusprojekteissa,joita rahoittavat SuomenAkatemia,TekessekäUSIX-teknologia-ohjelma.Lisäksion alkamassaEU-rahoitteinentutkimusprojekti.
Laitoksella harjoitettava puheentutkimuskuuluu tietojenkäsittelytieteenjakäyttöliittymien tutkimuksenalaan.Tärkeimmätpuheentutkimukseenliitty-vät teematovatadaptiivisetpuhekäyttöliittymät,kaikkialla läsnäolevantieto-tekniikankäyttöliittymät,multimodaalinenihmisenja tietokoneenvuorovai-kutus,uudetvuorovaikutustekniikatsekäkatsekäyttöliittymässä.Puhekäyt-töliittymätutkimuspyrkii vastaamaankysymykseen,kuinkapuhettavoidaanhyödyntääihmisen ja tietokoneenvälisessävuorovaikutuksessaja kuinkakäyttöliittymäratkaisuillavoidaankompensoidateknologianpuutteita.Tut-kimuksessapainopisteon pelkästäänpuheeseenliittyvissä käyttöliittymissä,ja teemojaovatmonikielisyys,adaptiivinenpuhetulosteiden,dialoginja syöt-teidenhallintasekävirhehallintaja erityistilanteidenkäsittely.
Tutkimuksenyleisenätavoitteenaon parantaapuheeseenpohjautuvienjär-jestelmienkäytettävyyttä:tutkimuksenkohteenaovaterityisestipelkkäänpu-heeseenpohjautuvat käyttöliittymät.TAUCHI-tutkimusryhmässäkehitetäänvuorovaikutusmenetelmiä,joiden avulla puhejärjestelmienkäytettävyyspa-ranee.Erityisesti kehitetäänarkkitehtuuria,jonka avulla vuorovaikutusme-netelmiävoidaantukeakäytännönpuhesovelluksissa.Konstruktiivisentutki-muksenkäytännöntavoitteenaon rakentaakäytännönsovelluksia,joidenra-kentamisestaja käytöstäsaatuihinkokemuksiinvuorovaikutusmenetelmienja arkkitehtuurinkehittäminenperustuu.Työn tieteellisettuloksetovat sitentoisaaltavuorovaikutusmenetelmiä,joidenavulla puhejärjestelmistävoidaantehdänykyistäkäytettävämpiä,ja toisaaltaarkkitehtuureja,jotka mahdollis-tavat vuorovaikutusmenetelmienhyödyntämisenpuhesovelluksissa.Lisäksitutkimuksentuloksenaon myöstoimivia puhesovelluksia.Kehitettävätjär-jestelmätovat suomenkielisiätai monikielisiä– useimmattieteellisettulok-setovatkuitenkinkieliriippumattomia.
Tutkimuksessaei käytetävarsinaistapuhetietokantaa,vaantutkimustyötävar-ten kerätäänpuhesovellustenkäyttäjienpuheenvuorojakeskusteluista,joitahekäyvätpuhejärjestelmienkanssa.Puhetallenteidenaihepiiri on siis varsinspesifiä,sisältäenyksisuuntaisiapuheenvuorojaihmisenja tietokoneenväli-sistävuorovaikutustilanteista.Puheenvuorotovat sitenlyhyitä lausumia,joi-densanastoja kielioppi onrajoitettua,kuten»luekolmasposti»ja »seuraavakansio».Nauhoitetutpuheenvuorot ovat esimerkkejä järjestelmänoikeastakäytöstä.Nauhoituksiaon yhteensätuhansia,puhujienmääräon muutamiakymmeniä.Puheenvuorottallennetaandigitaalisestiyhdenvuoronmittaisinanauhoituksinasiten,ettäyksi tiedostokattaayhdenpuheenvuoron.Puheen-vuoronlitterointi sisältyytiedostonimeen.Puhetallenteetsisältävätainutlaa-tuistadataaihmisenja koneenvälisestävuorovaikutuksestaja tarjoavat suu-ren määränluonnollistaaineistoamyösmuidenalueidenkäytettävyystutki-
B. Vastaukset 83
mukselle.Tutkimusryhmähyötyisi myöspuhetietokannoista,jotka heijaste-lisivat ihmistenvälistävuorovaikutusta.Räätälöityjentunnistimienkehittä-minenedellyttäälaajoja,myösihmistenvälistädialogiasisältäviäpuhetieto-kantoja.
Postimies-järjestelmäon toteutettuAdaptiivisetpuhekäyttöliittymät-tutki-musprojektissa,jonka tarkoituksenaon selvittää,mitenpuhtaastipuheeseenperustuvatkäyttöliittymättulisi rakentaa.Postimiesonmonikielinenpuhelin-pohjainensähköpostienlukuohjelma.Sähköpostivalittiin tutkimuskohteek-si haastavuutensavuoksi: sähköpostiviestienteksti vaatii esikäsittelyä,jot-ta viestienkuunteluolisi sujuvaa.Esimerkiksihymiöt on käsiteltävä,ennenkuin tekstinvoi lähettääpuhesyntetisaattoringeneroitavaksi ja postienauto-maattinenlajittelu kansioihinon myöstoivottavaa.Tärkeätutkimuksenkoh-de on puheenprosodiikan– äänenkorkeudenja voimakkuudensekäpuhe-nopeudenvaihtelunja taukojen esiintymisen– rooli synteesinymmärrettä-vyydenlisäämisessä.PuheliittymäonlaitteistotasollatoteutettuDialogic-yh-tiön toteuttamallapuhelinkortilla, jokaonliitetty PC-koneeseen.Varsinainenpuheentunnistinon rakennettuitse Microsoftin HTK toolkit -ohjelmistolla.Puhesynteesiton liitetty järjestelmäänMicrosoftin SAPI-rajapinnankautta;näinjärjestelmäänvoidaanliittää mikä tahansarajapinnantoteuttavasyntee-si – tällä hetkellä käytössäon TimehouseOy:n Mikropuhe-synteesinSAPI-versio.
Ovimiesontietojenkäsittely-ympäristöja tutkimuksentestialusta,jokaonto-teutettuTAUCHI-ryhmäntiloissa,jossasepalveleehenkilökuntaaja vierai-ta jokapäiväisissäviestintätilanteissa.Vieraille järjestelmätarjoaaopastus-palveluita.Järjestelmäntutkimuksellisenatavoitteenaontarkastellakaikkial-la läsnäolevaatietojenkäsittelyä(ubiquitouscomputing)ja puhekäyttöliitty-miä. Tutkimusliittyy SuomenAkatemianrahoittamaanUser InterfacesforUbiquitousComputing-projektiin.Tutkimuksenensisijaisenakohteenaovaterityisestiihmisenja koneenvuorovaikutukseenliittyvät ongelmat.Ovimie-henensimmäinenprototyyppion käyttövalmis kesällä2001.Järjestelmässähyödynnetäänuusiavuorovaikutustekniikoita,erityisestiääntäja puhetta.
Bussimieson parhaillaankehiteltäväaikataulujärjestelmäTampereenjouk-koliikenteelle.Tavoitteenaon puhelimenkauttakäytettäväjärjestelmä,jokakertoosuomenkielellä Tampereenseudunbussiaikataulut.Järjestelmääoh-jataanpuheellaja vastauksettuotetaanpuhesynteesinavulla. Käytettäväpu-heentunnistinon kehitettyTampereenteknillisenkorkeakoulunDigitaalisenmedianinstituutissa.EnsimmäinenversioBussimiehestäon valmis kesällä2001.Puheentunnistusmallitovat valmiit käytettäviksija seuraavaksimääri-tellään»kieliopit»eli järjestelmänymmärtämätilmaisut.
Jaspison yleinenpuhekäyttöliittymienmalli, joka on suunniteltuerityises-ti monikielisiäja adaptiivisia puhesovelluksiavarten.Malli on hajautettujapohjautuuyleisiin teknologioihin.Seon tarkoitettumahdollistamaanuuden-tyyppisiä puhuttuunkieleenpohjautuviasovelluksia.Päähuomioon erilai-sissavuorovaikutusteknologioissa,erityisestisiinä,mitenniitä voidaantukeapuhesovellustenarkkitehtuuritasolla.
TAUCHI-ryhmälläon käytössääntutkijahuoneitaja kaksikäytettävyyslabo-
84 PuheentutkimuksenresurssitSuomessa
ratoriota.SovelluksetrakennetaanpääosinJava-kielellä, joten ne ovat pit-kälti laitteistoriippumattomia.JärjestelmiäkehitetäänWindowsNT -alustoil-la.Laitteistoriippuvaisetosat,puhesynteesit,tunnistimetsekäpuhelinliittymätoimivatWindows-ympäristössä.PuheentunnistuksessakäytössäovatEntro-pic HTK sekäGrapHvite;puhesynteesinätoimii pääosinTimehouseOy:nMikropuhe.
Puhekäyttöliittymätutkimuksenvolyymi onkasvamassaTAUCHI-ryhmässä.Kehitteilläolevat puheeseenpohjautuvat järjestelmätovat lupaavia ja niidenpohjanaolevaaarkkitehtuuriakehitetäänedelleen.Sovellustenjatkokehityk-senmyötävoidaanodottaauusiaja ratkaisevastiparempiavuorovaikutusme-netelmiä.
B.23 Timehouse Oy
Timehouseon vuodesta1985toiminut ohjelmointiin (erityisestiC/C++) jaelektroniseenjulkaisuunerikoistunutyritys. Tuotettujasovelluksiaovatmm.videokortin ajurit, SGML-toimitusjärjestelmät,puhesyntetisaattoritja multi-mediatietosanakirjat.Tuotekehittelyssäja tutkimuksessaonkäytettysumeanlogiikanalgoritmeja(kutenhermoverkkoja,satunnaiskytkentämetodejajage-neettisiäalgoritmeja).Vuonna1993kehitettiinliikunta- ja puhekyvyttömilleALS-potilaille kommunikointijärjestelmä,jossakirjainmatriisiin katsomallavoidaanluodasanojapuhesyntetisaattorintuotettavaksi.Järjestelmäävartenkehitettiinomavideokortti ja adaptiivinentunnistusjärjestelmä.Viime vuosi-naTimehouseonkeskittynyt elektronisenThText-julkaisujärjestelmänkehit-tämiseen.Järjestelmäsisältäätäysin indeksoiduntietokannan,jota voidaanpäivittää internetissätoimitettujenosapäivitystenavulla. ThText-järjestelmäsisältäämyösapuvälineitägraafiseenjulkaisemiseen.Esimerkiksiseuraavatohjelmaton rakennettuThText-järjestelmällä:WSOY Kodin Lääkäri CD-Fakta,WSOY VuosiCD-2000ja WSOY YritystietoCD-ROM.
Mikropuhe on Timehousenkehittämäsuomenkielinenpuhesyntetisaattori.Ohjelmaavoi käyttääjoko sellaisenaanMikropuhe-tekstieditoriahyödyn-täentai apuohjelmanaSAPI-liitynnänkautta.MikropuheperustuuPuolassakehitettyynmikrofoneemiseensynteesiin.Syntetisaattorissaon hyödynnettyLauri Lehtisen Teknilliseenkorkeakouluun(Akustiikan ja äänenkäsittely-tekniikanlaboratorio)tekemänlisensiaattityöntutkimustuloksia.Timehouseon lisäksiitsekehittänyt synteesitekniikkaaja syntetisointimenetelmiä.Tois-taiseksikaikki synteesitekniikatperustuvatmikrofoneemiseenmenetelmään.
Mikropuhettaon hyödynnettypaljon korkeakouluissatapahtuvassapuheen-tutkimuksessa,mm.Teknillisenkorkeakoulunkognitiivisentieteenja tekno-logiantutkimusryhmän»puhuvassapäässä»(ks.54) ja Tampereenyliopistontietojenkäsittelytieteidenlaitoksenpuhekäyttöliittymätutkimuksessa(ks.82).MikropuheenuusinversiokäyttääohjelmaliitäntänäänMicrosoftSAPI:a,jo-kamahdollistaasyntetisaattorinkäytönuseammanWindows-ohjelmankans-sa.Uuteenversioonon lisätty myöslukuisiauusiakäyttäjäystävällisiäomi-naisuuksia,mm.kirjasimenvaihdon,hakutoiminnonja puhuttavansananko-rostuksen.Puhenopeus,äänenkorkeusjauseatmuutpuhearvotvoidaanvalita
B. Vastaukset 85
vapaasti.Mikropuheenuusimmassaversiossaonmukanakaksiääntä:naisenääni(Saga)ja miehenääni(Petteri).Molempiensisältönäonnoin60sekuntiamanuaalisestikäsiteltyjäääninäytteitä.
Äänisignaalinpoimimiseenja syntetisaattorillesopivaksikäsittelyynontehtyomatohjelmistot,koskasoveltuviaohjelmistojaei ole kaupallisestisaatavil-la. Kehitystyössäkäytettypuheaineistosisältääpääosinfoneemisekvenssejäkutenalla,amma,anna,jne.wav-tiedostoina.
Aika alkaaolla kypsämonipuolisillepuhesovelluksille, ja erityisestipuhe-limen välitykselläkäytettävätinformaatiopalvelut ovat yleistymässä.Puhe-lin ja vammaissovellustenlisäksipuhekäyttöliittymienavulla onmahdollistatuodatietotekniikkaaalueille,joilla senkäyttöei oleollut aikaisemminmah-dollista, koskakäyttäjänkädeteivät ole olleet vapaina:erilaisiahands-free-sovelluksiakehitetäänjatkuvasti.Puhuvantietokoneenkehitystyötuleejat-kumaanTimehousentoiminnassa.
B.24 Vieraiden kielten laitos (JOY)
Joensuunyliopiston Vieraidenkielten laitoksenjohtajanatoimii professoriJussi Niemi. Puheentutkimusliittyy fonetiikanja yleisenkielitieteentutki-mukseen,erityisestipuhesynteesinja prosodiikantutkimukseen.Tärkeinyk-sittäinentavoite on prosodistenilmiöiden mallintaminenpuhesynteesiävar-ten.
Laitoksellatyöskentelee10 henkilöä,joista5 toimii puheentutkimuksenpa-rissa.Työsuhteetrahoitetaanyliopistonperusrahoituksella(3 henkilöä),Te-kesinUSIX-rahoituksella(4 henkilöä)ja opetusministeriönhankerahalla(2osa-aikaistatyösuhdetta).Lisäksi saadaanprojektirahoitustaPohjois-Karja-lan liitolta.
TekesinUSIX-ohjelmastarahoitetaankolmevuotinen(2000–2002)suomen-kielisenpuheteknologianyhteishanke.Hankkessapyritäänkehittämäänkol-measuomenkielisenpuheteknologianaluetta,jotkaliittyvät kiinteästitoisiin-sa:puhesynteesi,puhujantunnistaminenja suomenkielisenpuhetietokannankehittäminen.
Kolmivuotisenhankkeenkokonaistavoitteitaovatakustisiinparametreihinpe-rustuvanpuhujakohtaisenprofiilin muodostaminen,edustavanpuhetietokan-nan luominen(200–300puhujaa)sekäsellaisenohjelmanlaatiminen,jokamuodostaaautomaattisestipuhujakohtaisenakustisenprofiilin äänitallentees-ta ja vertaasitä puhujatietokannassajo valmiiksi laskettuihin profiileihin.Edelleenohjelmaetsii tietokannastapuhujan,jolla on suurin samankaltai-suustutkittavanpuhujankanssa.Hankkeenviestiliikenteellisenosantavoit-teenaon tutkia puhujanosuuttaviestintunnistettavuudenja ymmärrettävyy-denkannaltaja tutkia kohinanpoistonmerkitystätunnistettavuudenparanta-misessa.
Tutkittavat parametritovat pitkäaikaisspektri,perustaajuus-ja amplitudiper-turbaatio,glottispiirteet,soinninsuhteellinenosuus,FFT- ja LPC-spektriteri-laisine optioineen,kepstri, formantit ja spektrihuiput,äänteidentransitiot,
86 PuheentutkimuksenresurssitSuomessa
perustaajuudenkeskiarvo, hajontaja vaihteluväli sekäprosodianyksilölli-set ominaisuudet.Erityistä huomiotakohdistetaantutkittavien parametrienanalyysioptioihin,parametrienlaskenta-algoritmeihin,parametrienmittauk-senautomatisoitavuuteen,tunnistuksenkieli- ja tekstiriippuvuuteensekäpa-rametrienpysyvyyteenolosuhteistariippumatta.
Hanketähtäätutkimuksenkauttakäytännönsovelluksiin,joidenavulla puhe-teknologiaanpohjautuvienpalvelujenlaatuavoidaanparantaaja saadalaa-jemmankäyttäjäkunnanulottuville. Hankkeenkoordinointivastuuon Joen-suunyliopistolla, tutkimusosapuolinahankkeessaovat Helsinginyliopistonfonetiikan laitos ja yleisenkielitieteenlaitos sekäJoensuunyliopiston vie-raidenkielten laitos. Rahoittajaosapuolinaovat Tekesin lisäksi Alma Me-dia Oyj, Ilmailulaitoksenlennonvarmistusosasto,Ilmavoimien viestikoelai-tos, Keskusrikospoliisin rikostekninenlaboratorio,Lingsoft Oy, Näkövam-maistenkeskusliittory, Onnettomuustutkintakeskus,ScandoOy sekäSoneraSolutionsOy.
Puhujantunnistamiseenliittyvän osahankkeentavoitteenaon tehdätietoko-neohjelma,jolla voidaanilmaista puhujakohtainenpuhujaprofiili puhujienforensistavertailuaja puhujantodentamistavarten.Lisäksi hankkeessake-hitetäänäänitteidenkohinanpoistoaja tutkitaanviestiliikenteenpuhujastajasiirtokanavastariippuvaapuheenymmärrettävyyttäja ymmärrettävyydenpa-rantamista.HankkeessahyödynnetäänTeknillisenkorkeakoulunja Helsinginyliopistonfonetiikanlaitoksenyhteistyössäkehittämääsuomenkielistäpuhe-tietokantaa(ks. 49). Hankkeellaon myösyhteys automaattisenpuheentun-nistuksenkehittämiseen,sillä tutkimuksessahyödynnetäänTKK:n akustii-kan laboratorionautomaattistapuheentunnistustavartensuunnittelemiasig-naalinkäsittelynesiprosessointikeinoja.
Puhesynteesiinliittyvän osahankkeentavoitteenaon luodajoustava, modu-laarinensuomenkieleensoveltuva tekstistä-puheeksi-järjestelmä,jota voi-taisiinkäyttääsekätutkimuksessaettäsovelluksissa.Järjestelmänkehittämi-sessähyödynnetäänJoensuunyliopistonkieliaineidenja Helsinginyliopistonfonetiikan laitoksenkäytettävissäolevia suomenkielen puheaineistoja.Li-säksihyödynnetäänNäkövammaistenkeskusliitonkirjastonäänikirjoja.Tär-keäosuuson myössanomalehtiKarjalaisella:sanomalehdendigitaalimuototoimii synteesihankeentestialustanaja kehitettäväntekstistä-puheeksi-jär-jestelmänensimmäisenäsovelluksena.ToinentärkeäyhteistyökumppanionAlma MediaOyj, jonka laajoihin lehtiaineistoihinon jo aiemminsovellettukieliteknologisiamenetelmiä.Puhesynteesikorpus,joka tunnetaanmyösni-mellä»Karjalainen-puhekorpus»sisältääluettuauutistekstiä.Studiossaääni-tettyjäsanomalehtitekstejäonyhteensänoin700virkettä.Kahdenammattilu-kijan tuottamaaaineistoaon 60 minuuttiadigitaalisessamuodossa.Aineistoonvainprojektinsisäisessäkäytössä.
Puhesynteesiäja muitapuheteknologianhankkeitaon vaikeakehittääilmanriittävän laajaaja tarkoitukseensopivaapuhetietokantaa.Suomenkielenpu-hetietokantaanliittyvän osahankkeentavoitteenaon laajentaajo olemassaoleva suppeasuomenkielinenpuhetietokanta(ks. 49) suomenkielen kan-naltaedustavammaksi.Laajennetuntietokannanytimenätuleeolemaansa-nakirjamainenpuhetietokanta(noin 10000 edustavaasanaa),joka mahdol-
B. Vastaukset 87
listaalähestäydellisenkielen fonotaksin,difoniperiaatteenedustavuudenjakoartikulaationkuvauksen.Samallasaadaanprosodianja reduktioilmiöidentutkimuksenkannaltamerkittävääaineistoa.Muu lisättäväaineistokoostuuirrallisistasanoistaja lauseistasekäeri puhetyylejäedustavastaaineistosta.
Käytössäoleva suomenkielinenpuhetietokantaei toistaiseksiole vielä opti-maalinen,koskaannoituaaineistoaon liian vähän.Lisäksieri segmentoijienvälistä luotettavuuttaei ole testattuja tavu-ja painotusmerkinnätpuuttuvat.Ihanteellinenpuhetietokantaolisi studiolaatuinenlaajatietokanta,johonoli-si tallennettu2–4henkilönpuhettavähintään45 minuuttia/puhuja.Puhetie-tokantasisältäisimyöspitkiä yhtämittaisiapuhejaksojaja aineistoolisi seg-mentoituluotettavasti virke-, lause-,sana-,tavu-, foneemi-,ja foonitasolla.Aineisto olisi lisäksi varustettupainomerkinnöillä,ja koko annotaatioolisiXML-muodossa.
Edellämainittujenpuheaineistojenlisäksi laitoksellaonkäytössäCOST258SpeakingStylesCorpusja Tapio Hokkasen puhelipsahduskorpus.COST258 SpeakingStyles-korpussisältää114 virkettä ja 9 osiotaerilaisia teks-tityyppejä.Kyseessäon yhdenpuhujan(foneetikon) tuottamans. laborato-riopuhe(»promptedlab speech»),jonka sisältönäon luetteloita,tiedotuksiaja lyhyitä uutisia.KorpusCOST258:Naturalnessof SyntheticSpeechonke-rättyyhteistyössäUniversitédeProvencenkanssa.Aineistoaon20minuuttiadigitaalisessamuodossa.Puhelipsahdusaineistokoostuuradiohaastatteluistaja urheiluselostuksista,joissaonuseitapuhujia.Aineistoaon155tuntia(noinmiljoonasanaa):52tuntiaradiohaastatteluja,100tuntiaurheiluselostuksiaja3 tuntiaJoensuunyliopistonsuomenkielenlaitoksennauhoitearkistonpuhe-kielen näytteitä.Aineisto on pääosinanalogisessamuodossa(C-kaseteilla);lipsahduskohdaton digitoitu (WAV-tiedostoina).PuhesynteesikorpuksenjaCOST258SpeakingStyles-korpuksensisältämäaineistoon litteroitu lause-, sana-ja foneemitasolla,lisäksilitteroinnissaondokumentoituF0:nvaihtelu.Puhelipsahdusaineistostavainpieniosaonannotoitutällä tarkkuudella.
Laitoksellaontutkimustavartenlaboratorio,tiedekunnanyhteinenäänittämöja 16 tietokonetta(3 Macintoshia,4 Windows-Pentiumia,2 Solaris-Sparciaja 7 Linux-Pentiumia).Akustinen analyysi suoritetaanPraat-,SpeechFi-ling System-jaSignalyze-ohjelmilla,AnnotointiPraat-,SFS-,Transcriber-jaEMU-ohjelmilla. PuhesynteesissäkäytetäänFestival- ja KPE80-ohjelmiajahermoverkkotutkimuksessaStuttgartNeuralNetwork Simulator, LVQ, SOMja PDP-ohjelmia.
Puheentutkimuskorostuulaitoksellakieliteknologianopetusverkostonmyö-tä. Teollisuudessatullaansijoittamaanmerkittäviälisäresurssejapuheentut-kimukseenja tässätarvitaanyhteistyötäkorkeakoulujenkanssa.Laitoksenpainopisteenätuleeolemaanerityisestiprosodianmallintaminen:COST258-korpuksenavulla pyritään automaattiseenF0-ilmiöiden luokitteluun ja erikieltenprosodistenominaisuuksienyhtenäisenmerkintätavankehittämiseen.
88 PuheentutkimuksenresurssitSuomessa
Hakemisto
AAaltonen,Olli, 51aivojenkuvantamismenetelmät,54aivotutkimus,51, 54Alatalo,Heikki, 67Alku, Paavo, 65Alma MediaOyj, 85ANDOLS, 42Astola,Jaakko, 45Audio ResearchGroup,45audiovisuaalinenpuhe,54audiovisuaalinenpuhetietokanta,55
BBoersma,Paul,67Bussimies,82
CCarlson,Lauri, 30Celia,63COST258 SpeakingStylesCorpus,
86COST-hanke,48
DDaisy-konsortio,63Digital MediaInstitute,45
EElisaCommunicationsResearchCen-
ter, 47
HHäkkinen,Kaisa,73Haavisto,Petri,62Hakulinen,Auli, 30HelsinginYliopisto, 48, 69Hokkanen,Tapio,86
Iihminen-kone-käyttöliittymät,54INTAS-hanke,48INTERACT-hanke,61
JJaspis,82
Joensuunyliopisto,84JyväskylänYliopisto, 71, 75
KKarjalainen,Matti, 40Karjalainen-puhekorpus,85KeinoHenkilö,54Keskusrikospoliisi,48, 85Kiel corpus,42Klippi, Anu, 48kognitiivinenneurotiede,51kognitiivinentiedeja teknologia,54Kohonen,Teuvo, 61kommunikaatiomekanismit,54Kotimaistenkielten tutkimuskeskus,
56Kuosmanen,Pauli, 47
LLaalo,Klaus,77, 78Laine,Matti, 26Laine,UntoK., 34lapsenäänteellisenkehityksentutki-
mus,48Laukkanen,Anne-Maria,64Lehtimäki,Pekka,77, 78Lehtinen,Esa,77, 78Lehtinen,Lauri, 83Leino,Pentti,69Leino,Timo, 64Leiwo, Matti, 71Linell, Per, 70LingsoftOy, 58, 85Londen,Anne-Marie,70Lyytinen,Heikki, 72
MMediaTeam,59
NNäkövammaistenkeskusliitto,63Näkövammaistenkirjasto,63neuroverkkotutkimus,61Niemi, Jussi,84Nokia ResearchCenter, 62
Hakemisto 89
Nuolijärvi, Pirkko, 56, 70Nykysuomalaisenpuhekielenmurros,
77
OOja,Erkki, 61Onnettomuustutkintakeskus,85Oulunnauhoitearkisto,78Oulunyliopisto,78
PPeräkylä, Anssi,53, 69, 70Postimies,82prosodiantutkimus,48puheenhavaitseminen,51puheentyylien tutkimus,48puhelipsahduskorpus,86puhesynteesi,48, 85puhesynteesikorpus,85puhujantunnistaminen,48, 85PUTTEPUH-projekti,42
QQuickSig,42, 49
RRäihä,Kari-Jouko, 54, 80Rautiomaa,Matti, 73
SSaarinen,Jukka,43Saarinen,Sirkka,73Sams,Mikko, 26, 54, 70Sauvola,Jaakko, 59Savijärvi, Ilkka, 75segmentointi,49Simula,Olli, 61Sorjonen,Marja-Leena,56, 70SpeechDat(II),45, 46, 50Sulkala,Helena,78Suojanen,Matti K., 76Suomenkielenäänitearkisto,73Suomenkielennauhoitearkisto,57, 75Suomenkielenomaksumisentutkimus,
72Suomenyleiskielenfonetiikka-tutkimusprojekti,
50suomenkielinenpuhetietokanta,48, 49,
85Suomenkielisenpuheteknologianyh-
teishanke,48, 84Suomi,Kari, 29Svenskasamtali Helsingfors,70Syrjänen,Kaj, 64
TTampereenteknillinen korkeakoulu,
43, 45
Tampereenyliopisto,53, 64, 76, 80TAUCHI-ryhmä,80Tekes,48, 84, 85Teknillinenkorkeakoulu,40, 54, 61Tiittula, Liisa, 70TimehouseOy, 83TIMIT, 42Toivonen,Raimo,67Tuomaala,Väinö,73Turunyliopisto,51, 73
Uuniversaalifoneemit,43USIX, 48, 50, 52, 84
VVainio,Martti, 32Viitanen,Jouko, 66Visala,Seppo,80VISU, 78vokaalitutkimus,48Vuorio,Anna,78Vuorovaikutustv-keskustelussa,70
YYli-Hietanen,Jari,45