Skip to main content

Abstraktit

Somalinkielisten suomen ääntämisestä
Eija Aho (1), Abdi Musse (1) & Minnaleena Toivola (2)
1) Helsingin yliopisto, 2) Jyväskylän yliopisto

Tutkimuksen aiheena on somalinkielisten suomen ääntäminen. Tutkimusaineisto koostuu vuosina 2008 – 2011 kerätystä Suomen Akatemian rahoittaman hankkeen Maahanmuuttajien suomen kielen ääntäminen – foneettinen pitkittäistutkimus suomen oppimisesta toisena kielenä (Pronounciation of Finnish by immgrants in Finland - ProoF) yhteydessä kerätystä lukupuhunnasta ja spontaanista puheesta. Lisäksi tutkittavana on pieni elisitoidun puheen aineisto, joka on koottu Helsingin yliopiston suomen kielen ja kulttuurin oppiaineen opinnäytetyötä varten. Kummankin aineiston somalinkieliset puhujat ovat muuttaneet aikuisena Suomeen. Osa oli aineistoja kerättäessä asunut Suomessa jo 20 vuotta ja osa vain muutaman kuukauden. Puhujat on jaettu ryhmiin asumisajan perusteella. Vertaamme näitä ryhmiä toisiinsa. Puhujilla ei ole aiempaa kokemusta suomen kielestä. Olemme tutkineet erityisesti segmentaalisia poikkeamia sekä kvantiteettia. Tulosten mukaan molemmissa aineistossa on samansuuntaiset tulokset. Kummassakin aineistossa puhujilla on ongelmia joidenkin vokaalien ja konsonanttien ääntämisessä, mutta kaikkiaan poikkeamien määrä on vähäinen. Tutkimus kuuluu kontrastiivisen fonetiikan alaan.

Recent developments in glottal inverse filtering
Manu Airaksinen, Paavo Alku
Department of Signal Processing and Acoustics, Aalto University

Glottal inverse filtering (GIF) is the process of estimating the glottal airflow waveform from a recorded segment of voiced speech. The research conducted at Aalto University over the past few years has produced improvements to the quality of glottal inverse filtering, especially in a controlled environment. These improvements include the Quasi Closed Phase (QCP) inverse filtering method, and a method for the automatic estimation of the lip radiation effect that enhances especially the human interpretability of the estimated glottal flow waveform. This presentation showcases inverse filtering examples with the newly developed methods compared to older state-of-the-art methods.

A hybrid approach to foreign accent recognition
Hamid Behravan, Ville Hautamäki & Tomi Kinnunen
Speech and Image Processing Unit, School of Computing, University of Eastern Finland

In this study, we investigate a hybrid approach to foreign accent recognition combining both phonotactic and acoustic based systems by treating the problem as a spoken language recognition task. We extract universal speech attributes that reflect speech and acoustic cues of foreign accents of a speaker. The obtained feature streams are then modeled with the state-of-the-art i-vector methodology. Testing on the Finnish Language Proficiency exam corpus, we find our proposed technique to achieve a significant performance improvement over the state-of-the-art systems using only spectral based features.

Pohjoissaamen morfologisen segmentaation aktiivinen oppiminen pienin resurssein
Stig-Arne Grönroos (1), Kristiina Jokinen (2), Katri Hiovain (2), Mikko Kurimo (1) & Sami Virpioja (3)
1) Department of Signal Processing and Acoustics, Aalto University 2) Institute of Behavioural Sciences, University of Helsinki 3) Department of Information and Computer Science, Aalto University

Moni Uralinen kieli on morfologisesti rikas, mutta tehokkaan kieliteknologian edellyttämät morfologisen analyysin työkalut uupuvat. Laadukkaan morfologisen analysaattorin rakentaminen käsin vaatii suuren määrän asiantuntijatyötä, mutta datalähtöinen lähestymistapa voi nopeasti tuottaa applikaatioiden kannalta riittävän laadukkaita tuloksia. Tutkimme tilastollisen mallin opettamista Pohjoissaamen morfologista segmentaatiota varten, käyttäen isoa annotoimatonta korpusta yhdistettynä pieneen määrään aktiivisesti valittuja käsinannotoituja sanoja. Morfologian tilastollisina malleina käytämme Morfessor Baseline ja FlatCat menetelmiä. Annotoituamme aktiivisen oppimismenetelmämme avulla 237 sanaa, saavutamme 20% parannuksen morfirajojen saantiin heikentämättä tarkkuutta.

Simulation of Vowel Sounds with 3D Printed Vocal Tracts
Antti Hannukainen (1), Jarmo Malinen (1), Tiina Murtola (2), & Pertti Palo (3)
1) Department of Mathematics and Systems Analysis, Aalto University 2) Department of Signal Processing and Acoustics, Aalto University 3) Clinical Audiology, Speech and Language (CASL) Research Centre, Queen Margaret University

We produce vowel sounds with 3D printed vocal tract geometries and a purpose-built sound source. The vocal tract geometries were acquired from prolonged productions of Finnish vowels produced by a 26-year-old healthy male participant. The quality of the productions was controlled for with sound recordings which were acquired simultaneously with the MRI images. The geometries are excited with a purpose-built acoustic signal source. The glottis signal used in the simulations is produced with the DICO model using vowel geometries for [e] and [o] as the acoustic load required by the model. f0 ranges from 100 Hz to 200 Hz in the simulations. The teeth are not visible in MRI, and joining separate tooth geometries with the soft tissue geometries acquired with MRI requires additional effort. Further development and fine tuning of the acoustic sound source remains future work as well.

Miten kvantaalisuudelle käy? Suomen pyöreiden etuvokaalien akustiikkaa tarkastelemassa
Satu Hopponen
Itä-Suomen yliopisto

Kvantaaliteorian mukaan vokaaleista kolme, eli [i u ɑ], ovat artikulatorisesti, akustisesti ja havainnoinnin kannalta äärimmaisiä. Akustiikan osalta tämä tarkoittaa tietynlaisia formanttikuvioita, eli sitä, mille korkeuksille ja etäisyyksille formantit sijoittuvat. Aiemmat tutkimukset vahvistavat teoriassa esitetyt ilmiöt todellisiksi amerikanenglannin osalta, mutta muita kieliä ei kvantaaliteoreettisista lähtökohdista ole juurikaan tutkittu. Niinpä suomen vokaaleita on hyödyllistä tarkastella, silla suomessa osa vokaaleista ([y ø]) poikkeaa tavallisista vastineistaan ([i e]) vain pyöreyden osalta. Kvantaaliteorian oletusten mukaan kvantaalivokaali [i]:n relevantit piirteet eivät siis voi [y]:n osalta toteutua täydessä laajuudessaan, ja myös valmiiksi vähemmän kvantaalisen [e]–[ø] -parin kohdalla tulisi olla havaittavissa muutoksia. Pilottiaineistolla tehdyt akustiset mittaukset vahvistavat, että [y] on vähemmän kvantaalinen kuin [i]. Sama toteutui myös kontrolleina toimineiden [e]:n ja [ø]:n kohdalla. Merkillepantavaa mittaustuloksissa on se, että niissä havaitut muutokset ovat hyvin systemaattisia. Aikaisemmin tehtyjen tutkimusten perusteella tiedetään, että suomen lyhyet vokaalit ovat ääntämykseltään pitkiä keskeisempiä, mutta pilottiaineiston suppeuden takia ei kyseistä eroa voitu havaita varmasti. Niinpä myös pitkien ja lyhyiden vokaalien akustiikan vertailu kvantaaliteorian nakökulmasta on suunnitteilla laajemmalla aineistolla.

Kielitaustan vaikutus lasten vieraan kielen oppimiseen
Katja Immonen (1,2) & Maija S. Peltola (1,2)
1) Fonetiikka, Turun yliopisto 2) LAB-lab

Vieraan kielen oppiminen asettaa oppijalle usein erilaisia haasteita. Kohdattavat oppimisvaikeudet voivat olla hyvin eriasteisia sen seurauksena, miten eri- tai samankaltainen oppijan äidinkieli on kohdekieleen verrattuna. Lapset ovat kuitenkin kielenoppijoina yleensä aikuisia menestyksekkäämpiä aivojensa plastisuuden ansiosta. Väitöskirjatutkimukseni selvittää erilaisten kielitaustojen vaikutusta 7-11-vuotiaiden lasten vieraan kielen oppimiseen. Tutkimus koostuu viidestä osatutkimuksesta. Ensimmäisessä osatutkimuksessa tutkitaan suomenkielisillä yksikielisillä lapsilla, kuinka vieraan kielen äänteen prototyyppi sekä havaitsemisen magneettiefekti syntyvät lasten aivoihin kahden päivän harjoittelun aikana. Tutkimuksessa pyritään simuloiman luonnollisessa kieliympäristössä tapahtuvaa muistijälkien muodostumista siten, että kokeen harjoitusosioissa lapset kuulevat syntetisoidulta vokaalijatkumolta vieraan kielen vokaalin eri variantteja ja kategorian prototyyppistä edustajaa soitetaan heille prosentuaalisesti eniten. Lisäksi passiivisen kuuntelutreenauksen mahdollisia pitkäaikaisvaikutuksia selvitetään puolen vuoden päästä tehtävällä seurantatutkimuksella, jotta nähdään säilyvätkö synnytetty muistijälki ja magneettiefekti myös treenauksen loputtua. Myöhemmissä osatutkimuksissa tutkitaan muistijäljen muodostumista samaa koeasetelmaa käyttäen yksikielisillä englanninkielisillä sekä katalaani-espanja-kaksikielisillä lapsilla. Englanninkieliset sekä katalaani-espanja-kaksikieliset lapset osallistuvat myös puheentuottotutkimukseen, jossa testataan artikulatorisen kuuntele-ja-toista -harjoittelun vaikutuksia vieraan kielen tuottoon. Erikielisten lasten tuloksia on tarkoitus verrata keskenään kielitaustan vaikutusten selvittämiseksi. Viimeiseksi tutkitaan auditiivisesti ja motorisesti aktiivisten harjoitustyylien vaikutuksia suomenkielisten lasten vieraan kielen tuottoon ja havaitsemiseen. Tarkoituksena on selvittää miten vahvasti tuotto ja havaitseminen ovat toisiinsa yhteydessä sekä kuinka ne vaikuttavat toisiinsa vierasta kieltä opittaessa. Tutkimuskokonaisuudessa selvitetään, kuinka erilaisista kielitaustoista tulevat lapset oppivat havaitsemaan ja tuottamaan teoreettisesti mahdollisimman vaikean vieraan kielen äännekontrastin sekä kuinka erilaiset treenausmenetelmät vaikuttavat erikielisten lasten oppimiseen. Tulosten toivotaan antavan arvokasta lisätietoa siitä, kuinka erilaiset äidinkielten äännejärjestelmät sekä kaksikielisyys vaikuttavat lasten oppimiseen ja minkälaisista harjoitusmenetelmistä lapset hyötyvät oppimisessaan eniten.

Rinnastuksen prosodiaa suomalaisessa viittomakielessä
Tommi Jantunen
Jyväskylän yliopisto

Tarkastelen esityksessäni prosodian ja syntaksin yhteispeliä suomalaisen viittomakielen rinnastetuissa lauseissa. Prosodialla viittaan niin kutsuttujen ei-manuaalisten artikulaattoreiden eli esimerkiksi silmien, pään ja kehon kerrosteiseen toimintaan manuaalisen eli käsillä tuotetun viitonnan aikana. Aineistollisesti tarkasteluni pohjaa sekä kielenoppaiden kanssa käytyihin keskusteluihin että noin 40 minuutin videomateriaaliin, johon on viittomien ja lausetasoisten käännösten lisäksi annotoitu viittojien eimanuaalinen toiminta. Aineiston erityispiirre on sen tietokonenäköpohjaisesti toteutettu analyysi viittojien pään liikkeistä. Suomalaisessa viittomakielessä 'tai'-rinnastaminen toteutetaan lähtökohtaisesti lauseiden väliin sijoittuvan koordinaattorin, TAI-viittoman avulla. Aineisto osoittaa, että prosodisesti 'tai'-rinnastuksessa lauseet tuotetaan hivenen eri kohdissa viittomatilaa siten, että keho liikkuu TAI-viittoman aikana sivusuunnassa viittomatilan yhdestä paikasta toiseen paikkaan. Lähtökohtaisesti myös 'mutta'-rinnastaminen perustuu lauseiden väliin sijoittuvan koordinaattorin, MUTTA-viittoman käyttöön. Toisin kuin 'tai'-rinnastuksessa, 'mutta'-rinnastuksessa prosodiikka ei kuitenkaan ilmene kehon sivusuuntaisena liikkumisena, vaan tärkeimmäksi prosodiseksi merkitsimeksi nousee viittoman MUTTA aikainen pään syvyyssuuntainen liike. 'Ja'-rinnastaminen poikkeaa lähtökohdiltaan 'tai'- ja 'mutta'-rinnastamisesta sikäli,että siinä ei perustapauksessa käytetä koordinaattoriviittomaa. Prosodialtaan 'ja'-rinnastus on myös muita tapauksia epäselvempi. Prototyyppisesti 'ja'-rinnastus kuitenkin muistuttaa 'tai'-rinnastusta, mutta aineiston tietokonenäköpohjainen päänliikeanalyysiosoittaa, että pään sivusuuntaisella kallistusliikkeellä on 'ja'-rinnastuksessa merkitsevämpi rooli. Pääargumenttini on, että prosodia ja syntaksi toimivat yhdessä suhteellisen systemaattisesti suomalaisen viittomakielen rinnasteisissa rakenteissa. Yleisellä tasolla tarjoan aineistollista tukea myös kirjallisuudessa esitetylle argumentille, jonka mukaan manuaalisten merkitsinten poissaolo rinnastuksessa kasvattaa prosodian roolia (Tang & Lau 2012). Kirjallisuus Tang, Gladys & Lau, Prudence (2012). Coordination and subordination. In Roland Pfau, Markus Steinbach & Bencie Woll (Eds.), Sign language: An international handbook, 340–365. Berlin: Mouton De Gruyter.

Vowel Characteristics in Native and Foreign Languages
Kati Järvinen (1), Michael O'Dell (2) & Olli Aaltonen (3)
1) Speech and Voice Research Laboratory, School of Education, University of Tampere, Finland 2) Phonetics, School of Language, Translation and Literary Studies, University of Tampere, Finland 3) Department of Speech Sciences, Institute of Behavioural Sciences, University of Helsinki, Finland

Vowel characteristics in native and foreign languages were studied. Twelve native Finnish speaking and 12 native English speaking subjects read a text in two languages, Finnish and English, and vowels were extracted from the samples. Formant frequencies, formant bandwidths and spectral moments (center of gravity, skewness, kurtosis) of vowels in the two languages were compared. The results show that the vowel formants change between languages, which suggests that people may change vocal tract settings when speaking a foreign language compared to speaking the native one. Also some difficulties in reaching native-like formant frequencies are evident. The formant bandwidths showed some changes but it is not possible to conclude in terms of bandwidths that a voice quality change accompanies language shift. Some changes in spectral moments were found, which may be influenced by the changes in formant frequencies. We discuss the difficulties in finding vocal characteristics associated with the shift to foreign language per se, separate from the obvious differences in the two languages.

Miten kieliharrastus vaikuttaa vieraan äänteen oppimiseen ikääntyneillä?
Katri Jähi (1), Paavo Alku (2) & Maija S. Peltola (1)
1) Fonetiikka ja Learning, Age and Bilingualism -laboratorio, Turun yliopisto 2) Signaalinkäsittelyn ja akustiikan laitos, Aalto yliopisto

Ikääntyneiden oppimista tutkittaessa erilaiset taustatekijät nousevat tärkeään asemaan, sillä niillä saattaa olla enemmän vaikutusta kognitiivisiin kykyihin kuin pelkällä kronologisella iällä. Tämän tutkimuksen tarkoituksena oli selvittää, miten kieliharrastus vaikuttaa vieraan äänteen oppimiseen ikääntyneillä. Koehenkilöt olivat 62–73 -vuotiaita eläkeläisiä ja heidät oli jaettu kahteen ryhmään. Kieliryhmässä olleet koehenkilöt rekrytoitiin jatkotason kielikurssilta ja toisessa ryhmässä olleilla koehenkilöillä oli muita kuin kielten oppimiseen liittyviä harrastuksia (esimerkiksi liikunta ja lukeminen). Kummankaan ryhmän koehenkilöt eivät osanneet ruotsin kieltä juuri perusteita enempää, eivätkä he käyttäneet säännöllisesti ruotsia. He eivät olleet myöskään asuneet muissa Pohjoismaissa kuin Suomessa. Koehenkilöt osallistuivat kaksipäiväiseen tutkimukseen, joka sisälsi kaksi tuottokoetta ja kaksi harjoitusosiota (tutkimukseen kuului myös MMN-mittaus, dirkriminaatio- ja reaktioaikakoe, hyvyydenarvio ja identifikaatiokoe, mutta tämän posterin yhteydessä esitellään vain tuottokokeen tulokset). Näissä molemmissa koehenkilöt kuulivat semisynteettisiä epäsanoja /tʉ:ti/ ja /ty:ti/ ja heidän oli tarkoitus toistaa sanat mahdollisimman tarkasti perässä. Äänne /ʉ/ on suomenkieliselle vieras, mutta samankaltainen akustisesti lähellä olevien suomen /y/ ja /u/ äänteiden kanssa (eroavat pääsiassa toisen formantin (F2) suhteen). Vieraan kielen oppimisen teorioiden valossa tämän kaltainen tilanne aiheuttaa maksimaalisia oppimisvaikeuksia. Tuottokokeen materiaalista mitattiin kolme ensimmäistä formanttia sekä niiden keskihajonnat. Tilastoanalyysi ei osoittanut muutosta formanttien osalta kummassakaan ryhmässä, mikä selittynee keskiarvoista lasketulla datalla. Mikäli osa koehenkilöistä tuottaa aluksi hyvin /y/ kaltaisen äänteen ja osa /u/ kaltaisen äänteen, saattaa keskiarvot pysyä samoissa lukemissa, vaikka kehitystä tapahtuisi. Keskihajontojen analyysi kuitenkin osoitti, että kieliryhmällä F2 keskihajonta laski merkitsevästi harjoittelun seurauksena, kun toisella koehenkilöryhmällä vastaavaa yhtenäistymistä ei tapahtunut. Toisin sanoen kieliä opiskelleet seniorit muuttivat tuottoaan yhdenmukaiseksi, kun toisella ryhmällä vastaavaa kehitystä ei tapahtunut.

Prosodic predictability in the perception of prominence in speech
Sofoklis Kakouros & Okko Räsänen
Department of Signal Processing and Acoustics, Aalto University

Sentence prominence is a component in speech that the speaker is relatively free to manipulate. It is known that prominence perception is affected by both linguistic and acoustic factors, and that prominence can be considered as a perceptual shift in the attentional focus of the listener. However, little is known about the actual mechanism that drives the perception of prominence. In this work, the role of predictability of the acoustic prosodic features of speech is investigated. The hypothesis is that unpredictability of the stimuli drives attentional focus and thereby prominence perception. The present study investigates predictability of F0, energy, duration, and spectral tilt at two different levels of analysis. The first investigates the predictability of sentence-level prosodic feature trajectories while the second one focuses on word-specific modeling of predictability. Analyses at both levels are compared with the perception of sentence prominence by human listeners. The results indicate that predictability seems to play a role in the perception of prominence with low predictability correlating with the perception of prominence.

Akustisen mallin MAP adaptointi puheentunnistuksessa
Katri Leino, Seppo Enarvi & Mikko Kurimo
Signaalinkäsittelyn ja akustiikan laitos, Aalto Yliopisto

Puhekielen tunnistus on haastava ja moninainen ongelma. Ihmisten puhetyylit eroavat luontaisesti toisistaan, sillä jokaisella on omanlaisensa äänensävy ja puhetapa. Ihmisten puhuessa toisilleen myös tunteet ja keskustelukumppanit vaikuttavat puheeseen. Puhe saattaa välillä olla nopeaa, välillä hidasta. Sanat saattavat katkeilla, eivätkä lauserakenteet välttämättä ole kieliopillisesti korrekteja. Lisäksi puhekieli vaihtelee paikkakunnittain ja uudistuu jatkuvasti. Ongelmana on ollut, että montaa suomen kielen puhekielen korpusta ei ole saatavilla. Lisäksi korpukset usein eroavat toisistaan huomattavasti, mikä ei ole eduksi akustisen mallin parametrien estimoimisen kannalta. Jos aineistossa on liikaa hajontaa, estimaatit saattavat jäädä kehnoiksi. Akustisten mallien adaptointi on hyvin tyypillinen keino saada malli tietynlaiselle puheelle sopivaksi. Maximum Likelihood Linear Regression (MLLR) adaptointi on yleisesti käytetty adaptointimenetelmä, sillä se on kevyt ja nopea eikä tarvitse kuin muutaman lauseen saavuttaakseen selviä parannuksia tunnistustulokseen. MLLR ei kuitenkaan pysty hyödyntämään suurta määrää adaptointiaineistoa. Jos aineistoa on runsaasti, mutta ei kuitenkaan tarpeeksi kokonaisen mallin opettamiseen, on Maximum a Posteriori (MAP) adaptointi soveltuvampi menetelmä. MAP adaptointi muistuttaa proseduuriltaan Maximum Likelihood (ML) opetusta, mutta hyödyntää myös alkuperäisen mallin parametrejä uusien laskemisessa. Uudet estimaatit lasketaan alkuperäisten ja adaptointiaineistosta estimoitujen parametrien painotettuna keskiarvona painottamalla varmempia estimaatteja.

Puheen ja puheentutkimuksen teemaverkosto
Pekka Lintunen (1), Tommi Nieminen (2) & Riikka Ullakonoja (3)
1) Kieli- ja käännöstieteiden laitos, Turun yliopisto 2) Suomen kieli ja kulttuuritieteet, Itä-Suomen yliopisto 3) Kielten laitos, Jyväskylän yliopisto

Esittelemme posterissamme uutta, Suomen soveltavan kielitieteen yhdistyksen AFinLAn alaisuuteen vuonna 2014 perustettua Puheen ja puheentutkimuksen teemaverkostoa. Teemaverkosto on tarkoitettu puheesta, suullisesta kielitaidosta (puheen tuottamisesta ja ymmärtämisestä), prosodiasta, fonetiikasta, ääntämisestä tai muista puhutun kielen osa-alueista kiinnostuneille soveltavan kielitieteen tutkijoille. Tavoitteena on tarjota verkostoitumismahdollisuuksia ja ajankohtaista keskustelua eri kielten ja puhetta eri näkökulmista tutkivien välille sekä kehittää alan yhteistyötä myös opettajien ja muiden yhteistyötahojen suuntaan. Verkoston toiminta alkoi AFinLAn syyssymposiumissa pidetyssä tapaamisessa marraskuussa 2014. Toiminnasta tiedotetaan sähköpostilistalla (puhe-ja-puheentutkimus-afinla@googlegroups.com). Verkosto järjestää tapaamisen vuosittain AFinLAn syyssymposiumin yhteydessä sekä mahdollisuuksien mukaan oman teemaseminaarin. Ensimmäinen teemaseminaari pidetään Jyväskylässä 17. huhtikuuta 2015 aiheesta ”Ääntäminen, suullinen kielitaito ja oppiminen”.

Assessing speech tempo and its influence on rhythm
Zofia Malisz (1), Michael O'Dell (2), Tommi Nieminen (3) & Petra Wagner (1)
1) Bielefeld University, 2) University of Tampere, 3) University of Eastern Finland

A widely used measure of speech tempo is overall syllable rate, e.g. number of syllables per second (or minute). While this measure has the advantage of being quite simple, on a finer analysis it may become misleading. If taken at face value it would seem to imply that changing tempo is simply a matter of multiplying all durations by some constant. It is obvious, however, that in addition to tempo differences, many other variable rhythmic properties of speech also have a profound influence on measured durations of syllables or other units of speech. We discuss the difficulties involved in assessing speech tempo empirically due to its interaction with other rhythmic influences, especially those concerning the hierarchical organization of speech and so-called rhythmic gradation (rhythmische Abstufung). We illustrate these difficulties using data from our ongoing research comparing Finnish and Polish spoken at various tempos.

Improving recognition of foreign names in Finnish speech recognition
André Mansikkaniemi & Mikko Kurimo
Department of Signal Processing and Acoustics, Aalto University

The correct recognition of foreign proper names (FPNs) in Finnish speech recognition has for long been a difficult challenge. The challenge in recognizing FPNs is a combination of many factors. Pronunciation rules that cover native words usually give unreliable results for foreign words. Foreign names are often rare and topic-specific. Background language models usually give unreliable estimates for FPNs. A third factor that is specific to morph-based language models is oversegmentation (base form of the word is split into different parts). Oversegmentation of foreign words complicates the mapping of non-standard pronunciation rules on to separate morph units. We have implemented a set of unsupervised methods for improving the recognition of foreign names. An unsupervised language model (LM) adaptation framework based on two-pass decoding is used. In-domain articles which match the first-pass ASR output and where topic-related FPNs might occur are retrieved and used to adapt the background LM. Vocabulary adaptation is applied alongside unsupervised LM adaptation. The aim is to improve both language and pronunciation modeling for FPNs. A selection algorithm is used to find the most likely topically related foreign words from in-domain text. New pronunciation rules are generated for the selected words. Morpheme adaptation is also evaluated on the FPN candidate words, to ensure optimal results are gained from pronunciation adaptation. Improvements in average word error rate (WER) and foreign proper name error rate (FER) are achieved using a combination of unsupervised LM adaptation with vocabulary adaptation focused on FPNs.

F0 Characteristics of Estonian Adolescents
Einar Meister & Lya Meister
Laboratory of Phonetics and Speech Technology Institute of Cybernetics at Tallinn University of Technology, Estonia

We will report some preliminary data on speaking fundamental frequency characteristics of Estonian adolescents. 169 girls and 135 boys in the age range from 9 to 18 years were recorded while reading a text corpus contains linguistically diverse material: digits, numbers, phone numbers, time and date expressions, IT terms, sentences with place, person and institution names, phonetically rich sentences, two longer passages; samples of spontaneous speech are elicited with pictures to be described and topic suggestions for storytelling (about school, hobbies, etc.). In total, 70 items per speaker were recorded. Recordings were carried out in ten schools around Estonia. F0 mean, median, minimum, maximum, and standard deviation were calculated from read utterances. For the F0 extraction different settings of lower and upper frequency for male and female subjects were used. For male speakers, F0 mean decreases gradually from 230 Hz to 186 Hz in the age from 9 to 12 years, due to puberty voice mutation it drops down ca 50 Hz in the age 12–13, and then it lowers further from 136 Hz to 110 Hz at the age from 13 to 18 years. For female speakers, F0 mean shows a gradual change from 250 Hz (9 years) to 210 Hz (18 years). The standard deviation of F0 means shows the largest values in males of age 13 and 14 –the subjects of this age groups are probably at the end of the voice mutation period and their F0 is still rather variable. F0 range is rather stable in females at all ages; in males it narrows after the age of 14.

Prosovar-hankkeen väliraportti
Puheaineiston keruusta verkossa sekä havaintoja aineistosta
Tommi Nieminen (2) , Tommi Kurki (1), Hamid Behravan (1) & Heini Kallio (3)
1) Turun yliopisto, 2) Itä-Suomen yliopisto, 3) Helsingin yliopisto

Koneen säätiön rahoittama Suomen prosodian alueellinen ja sosiaalinen vaihtelu -hanke, tuttavallisemmin Prosovar, käynnistyi 1.7.2013 ja sen nykyinen rahoitus päättyy 31.5.2015. Hankkeen johtaja on FT, dosentti Tommi Kurki Turun yliopistosta ja muut jäsenet FT Tommi Nieminen Itä-Suomen yliopistosta, M. Sc. Hamid Behravan Turun yliopistosta sekä FM Heini Kallio Helsingin yliopistosta. Lisäksi hankkeeseen on kuulunut rahoittamattomia tutkimusyhteistyökumppaneita. Hankkeen tavoitteena on ollut paitsi nimensä mukaisesti tutkia suomen prosodian variaatiota myös pyrkiä kehittämään uusia menetelmiä aineistonkeruuseen ja aloittaa nimenomaan prosodian tarkasteluun soveltuvan korpuksen koostaminen. Laajojen puhekorpusten keruu perinteisin menetelmin informantteja yksitellen haastattelemalla on hidasta ja työlästä. Siksi tässä hankkeessa ei ole haluttu kerätä uutta aineistoa pelkästään vanhalla tavalla. Ajatuksena on ollut, että verkkosovelluksen avulla keruuvaihetta voitaisiin hajauttaa laajemmalle vapaaehtoisten joukolle Web 2.0:n hengessä joukkoistamalla. Keruusivusto (https://puhu.utu.fi/) avautuikin yleisölle loppukeväästä 2014, valitettavasti hankalaan aikaan yliopistojen ja korkeakoulujen kesälomien alla. Sivustoa pyrittiin kevään 2014 kuluessa aktiivisesti mainostamaan ennen kaikkea kielentutkijayhteisölle eri konferenssien, seminaarien ja muiden tutkijatapaamisten yhteydessä. Todella suurta yleisöä sivusto ei toistaiseksi ole tavoittanut, mikä on hidastanut aineiston kertymistä. Varsinaista vikaa konseptissa ei kuitenkaan ole. Tehtävät ovat osoittautuneet toimiviksi (myös perinteisiin keruumenetelmiin sovellettuina) ja aineiston laatu on enimmäkseen riittävän hyvää juuri tutkimustarkoitukseen nähden, mitä helpottaa prosodisten piirteiden (ennen kaikkea keston ja F0:n) suhteellinen robustius. Pääasiallinen pulma on saada tieto sivustosta välittymään sen potentiaalisille käyttäjille. Esitelmässämme tarkastelemme sekä näitä hankkeen metodiin liittyviä kysymyksiä että esittelemme jo kertynyttä aineistoa.

Determination of Articulatory Reaction Time by Automatic Segmentation of Tongue Ultrasound
Pertti Palo, Sonja Schaeffler & James M. Scobbie
Clinical Audiology, Speech and Language (CASL) Research Centre, Queen Margaret University

Manual segmentation of video data (ultrasound and/or regular videos) is very time consuming. This is true even if the task is a simple one – such as to look for a single event (articulation onset) in each token. In a study exploring a new approach for automatically measuring articulatory speech related reaction times, we analyze Ultrasound Tongue Imaging (UTI). In our approach we use forced alignment techniques which are widely used in automatic segmentation of speech signals. Instead of applying the techniques to the speech signal, we apply them to Pixel Difference data (i.e. Euclidean distances of consecutive ultrasound frames). The data consist of single words spoken as responses in a speech reaction time task. The focus of this study is on comparing manual segmentation with the automated approach.

Puheen tunnistus kaikuisissa olosuhteissa ohjaamattomaan oppimiseen perustuvan menetelmän avulla
Kalle Palomäki & Heikki Kallasjoki
Signaalinkäsittelyn ja akustiikan laitos, Aalto-yliopisto

Tämä työ käsittelee puheen tunnistusta kaikuisissa olosuhteissa ohjaamattomaan oppimiseen perustuvan menetelmän avulla. Työ on esitetty ICASSP 2014 yhteydessä järjestetyssä Reverb-Workshopissa. Menetelmässä kaikuinen puhe kuvataan vastaamaan kaiuttoman puheen tilastollista jakaumaa. Menetelmä ei tee oletuksia kaiunnasta vaan käyttää hyväkseen kaiuttoman puhtaan puheen tilastollisia ominaisuuksia kaiuttoman priorijakauman perusteella. Menetelmä käyttää hyväkseen piirre-esitystä, jossa on kaiuntaan nähden riittävän pitkä aikakonteksti puheen spektristä. Puheesta muodostetaan supervektoriesitys johon kerätään useita peräkkäisiä mel-spektrivektoreita. Sitten supervektorit dekorreloidaan PCA-muunnoksella. Seuraavaksi kaikuisen puheen dekorreloidut piirrevektorit kuvataan noudattamaan kaiuttoman puheen priorijakaumaa. Lopuksi piirteitä jälkikäsitellään ja piirteet kuvataan alkuperäisen kaiuttoman puheen kaltaisiksi mel-spektreiksi. Menetelmän toimivuus testataan Reverb Challenge testimateriaalilla, joka perustuu Wallstreet Journal –korpukseen. Tulokset osoittavat, että menetelmä toimii paremmin kuin verrokki, jossa kaiuntaa ei yritetä poistaa. Tulokset osoittavat myös aikakontekstin hyödyllisyyden, koska paras tulos saavutetaan kaiuntaan nähden riittävän pitkällä aikakontekstilla.

Äidinkielen äännejärjestelmän vaikutus uuden vieraan kielen äänteen oppimisessa
Kimmo Peltola (1,2), Henna Tamminen (1,2), Laura Bosch-Galceran (3) Paavo Alku (4) & Maija S. Peltola (1,2)
1) Fonetiikka, Turun yliopisto, 2) Learning, Age and Bilingualism laboratorio (LAB-lab), Turun yliopisto, 3) Universitat de Barcelona, 4) Signaalinkäsittelyn ja akustiikan laitos, Aalto yliopisto

Useat tutkimukset osoittavat, että ihmisen oman äidinkielen äännejärjestelmällä on keskeinen vaikutus siihen, kuinka vieraan kielen äänteitä opitaan tuottamaan ja havaitsemaan. Tässä tutkimuksessa tarkasteltiin Espanjan Barcelonassa asuvien katalaani-espanja -kaksikielisten kykyä oppia tuottamaan uusi, vieraan kielen oppimisteorioiden valossa vaikeaksi opittavaksi luokiteltava äänne kuuntele ja toista -harjoittelun avulla. Tutkimuksessa käytettiin ärsykkeinä semisynteettisesti muodostettuja epäsanoja /ty:ti/ ja /tʉ:ti/. Tutkimuksen kohteena oli erityisesti vokaali /ʉ/, joka ei esiinny kummankaan kielen vokaali-inventaarissa. Koehenkilöinä toimi 15 kaksikielistä oppijaa, jotka osallistuivat kahden päivän aikana yhteensä neljään mittaus- ja neljään harjoituskertaan. Nauhoitetuista tuotoksista mitattiin vokaalien akustiikan kannalta keskeiset formantit, eli F1 ja F2. Alustavien analyysien mukaan näyttäisi siltä, että kohdeäänteen tuottaminen ei ollut kokeeseen osallistuneille kovinkaan helppoa. Varsinkin F1 -arvojen osalta tuotokset poikkeavat malliäänteestä huomattavasti. Lisäksi alun konsonantti tuotti myös suuria vaikeuksia. Primaarina analyysikohteena on vokaalien akustiikka, mutta jatkossa konsonanttien aksentillisesta tuotosta tehdään erillinen raatiarviotesti, jossa arvioidaan harjoituksen vaikutuksia aksentin hiotumiseen.

Päänliikkeet suomalaisessa viittomakielessä foneettisesta näkökulmasta
Anna Puupponen
Kielten laitos/viittomakielen keskus, Jyväskylän yliopisto

Esitelmäni aiheena on päällä tuotetut liikkeet ja asennot suomalaisessa viittomakielessä. Keholla,päällä ja kasvoilla tuotetut liikkeet ja asennot ovat olennainen osa viittomista. Käsien artikulaation lisäksi viittojan kehon, pään ja kasvojen toiminta on mukana niin yksittäisiä viittomia tuotettaessa kuin myös syntaktisten rakenteiden, laajempien tekstien ja vuorovaikutuksen jäsentymisessä. Esitelmäni käsittelee erilaisten viitottaessa tuotettujen päänliikkeiden foneettisia muototyyppejä, jonka lisäksi tarjoan esimerkkejä päänliikkeiden prosodisista, kieliopillisista, vuorovaikutuksellisista ja tekstuaalisista tehtävistä viitottaessa. Esitys pohjaa päänliikkeiden muotoja ja funktioita koskeviin tutkimuksiin (Puupponen 2012; Puupponen et al. käsikirjoitus), joiden aineistot koostuvat suomalaista viittomakieltä sisältävistä monologi- ja dialogimateriaaleista. Videoaineistojen keruussa, käsittelyssä ja analyysissä on käytetty tietokonenäköön ja Motion Capture (mocap) -teknologiaan pohjautuvia menetelmiä. Keskityn esitelmässäni eritoten vapaamuotoisessa yhtäjaksoisessa dialogiaineistossa esiintyviin, syvyyssuunnassa toteutuviin päänliikkeisiin. Käyn esitelmässä läpi päänliikkeiden välisiä eroja syvyyssuuntaisen liikkeen amplitudia (liikeradan laajuutta) tarkasteltaessa. Kyseisten päänliikkeiden voidaan nähdä muodostavan neljä foneettista päänliiketyyppiä: nyökkäys, nyökytys, työntö- ja vetoliike. Nyökkäysliikkeet ovat aineistoissa tiheimmin esiintyviä päänliikkeitä ja niiden välillä ilmenee eniten variaatiota sekä muotojen että funktioiden osalta. Nyökytysliikkeet ovat useampia nyökkäyksiä sisältäviä toistollisia liikkeitä, joiden liikevaiheet ovat liikeradaltaan yksittäisiä nyökkäyksiä keskimäärin pienempiä liikkeitä. Aineiston työntöliikkeet ovat kestoltaan nyökkäystä keskimäärin pidempiä liikkeitä, joissa viittojan pää liikkuu syvyyssuunnassa eteenpäin. Pään vetoliikkeissä pää liikkuu syvyyssuunnassa taaksepäin ja ne ovat liikeradaltaan aineiston päänliikkeistä keskimäärin suurimpia. Runsas variaatio on tyypillistä nyökkäysten lisäksi myös muille kolmelle päänliikeryhmälle. Vaikka aineiston päänliikkeiden muodoista ja funktioista on löydettävissä tunnusomaisia piirteitä, ne eivät ole kategorisia: useissa tapauksissa päänliikkeet sijoittuvat kahden tai useamman muoto- tai funktiotyypin väliselle alueelle. Päänliikkeiden funktioiden ja muotojen nähdään muodostavan päällekkäisiä ja toisiinsa kytköksissä olevia jatkumoja. Lähteet Puupponen, A. (2012). Horisontaaliset ja vertikaaliset päänliikkeet suomalaisessa viittomakielessä. Pro gradu -tutkielma. Jyväskylän yliopiston kielten laitos. Puupponen, A.; Wainio, T.; Burger, B. & Jantunen, T. (käsikirjoitus). Head movements in the dimension of depth in FinSL: nods, nodding, head thrusts and head pulls. [Lähetetty arvioitavaksi31.10.2014].

Improving independent vector analysis in speech and noise separation tasks
Ana Ramírez López (1), Nobutaka Ono (2), Ulpu Remes (1), Kalle Palomäki (1) & Mikko Kurimo (1)
1) Aalto University, Finland 2) National Institute of Informatics, Japan

Independent vector analysis (IVA) is an efficient multichannel source separation method for fully blind conditions. However, source models traditionally assumed in IVA present some limitations when comes to speech and noise separation tasks. Consequently, it is expected that using better source models that overcome these limitations will improve the source separation performance of IVA. In this work, included in the Master's thesis of the first author, an extension of IVA is proposed, with a new source model more suitable for speech and noise separation tasks. The proposed extended IVA was evaluated in a speech and noise separation task, and proved to improve the performance over baseline IVA. Furthermore, extended IVA was evaluated with several post-filters, aiming to realize an analogous setup to a multichannel Wiener filter (MWF) system. This kind of setup proved to further increase the separation performance of IVA.

Suomen fonologisen pituusopposition harjoittaminen ohjeistetulla kuuntele ja toista –harjoittelulla
Antti Saloranta (1,2), Paavo Alku (3) & Maija S. Peltola (1,2)
1) Fonetiikka, Turun yliopisto, 2) LAB-lab, Turun yliopisto, 3) Signaalikäsittelyn ja akustiikan laitos, Aalto-yliopisto

Äänteiden fonologinen pituus on suomessa erittäin tärkeä piirre, joka voi esiintyä lähes millä tahansa suomen äänteellä lähes missä tahansa tavussa. Vastaavanlainen kestovaihtelu on jokseenkin harvinainen muun Euroopan ja maailman suuremmissa kielissä, ja aiheuttaa usein suuria oppimisvaikeuksia suomen kieltä opiskeleville aikuisille, kuten maahanmuuttajille tai vaihto-opiskelijoille. Syynä tähän on erityisesti se, että äidinkielen omaksuminen aiheuttaa aivoissa muutoksia, jotka vähentävät huomattavasti kykyä havaita äidinkielessä esiintymättömiä piirteitä. Äänteiden kestovaihtelua esiintyy esimerkiksi saksassa ja englannissa, mutta siihen liittyy tyypillisesti myös äänteiden laadullinen vaihtelu, eikä kesto ole ensisijainen merkitystä erottava piirre. Tämän väitöskirjatutkimuksen tarkoituksena on tutkia, äänteiden keston tarkemman erottelun harjoittamista eri kielitaustoista tuleville suomen oppijoille. Menetelmäksi on valittu kuuntele ja toista –harjoitus, jota tehostetaan ohjeistuksella sekä antamalla kielikonteksti. Näiden ohjeiden tarkoituksena on kohdistaa oppijoiden huomio vokaalien pituuteen, ja täten pyrkiä alentamaan aivojen kynnystä havaita omalle äidinkielelle epätyypillinen pituusvaihtelu. Tämänkaltaisesta menetelmästä on viime vuosina saatu tutkimuksissa hyviä tuloksia uusien vokaali- ja konsonanttikontrastien oppimisessa, mutta sitä ei ole tiettävästi vielä sovellettu äänteiden pituuden harjoittamiseen. Lisäksi projektissa selvitetään puheen havaitsemisen suhdetta ei-kielellisiin ääniin, sekä tietokonemallinnuksen hyödynnettävyyttä oppimistulosten ennustamisessa. Tutkimuksen koehenkilöinä käytetään Turkuun tulevia vaihto-oppilaita, ja se toteutetaan kokonaisuudessaan Turun yliopiston tiloissa. Oppimistuloksia mitataan MMN-herätevastemittauksilla, behavioraalisesti diskriminaatiokokeella sekä koehenkilöiltä äänitettyjen produktioiden akustisella analyysilla. Peruskoeasetelma on kaksipäiväinen, mutta osalle ryhmistä tullaan lisäämään kolmas koepäivä oppimistulosten pitkäaikaisemman säilymisen mittaamiseksi. Harjoiteltavana olevat pituuskontrastit on istutettu semisynteettisesti tuotettuihin suomalaisiin pseudosanoihin. Tutkimuksen ensisijainen tavoite on saada tieteellistä näyttöä kielistudio-opetuksen toimivuudesta, ja tutkimustuloksia voitaneen tulevaisuudessa hyödyntää kielenopetuksen kehittämiseen erityisesti maahanmuuttajille sekä Suomessa opiskeleville ulkomaalaisille sopivammaksi.

Sanakontekstin vaikutus vokaaliprototyyppien sijoittumiseen vokaaliavaruudessa
Janne Savela (1), Osmo Eerola (2)
1) Informaatioteknologian laitos, Turun Yliopisto, 2) Liiketalous, ICT ja bioalat -tulosalue, Turun ammattikorkeakoulu

Aikaisemmat tutkimuksemme ovat keskittyneet isoloitujen vokaalien havaitsemiseen ja prototyyppisyyteen. Tässä tutkimuksessa raportoimme, miten sanakonteksti vaikuttaa vokaalin prototyyppisyyteen kolmella erilaisella prototyyppisyysmittarilla, joita ovat absoluuttinen ja painotettu prototyyppi sekä kategorian aritmeettinen keskiarvo. Sanakontekstin vaikutusta tutkitaan mittaamalla psykoakustisin kuuntelukokein, miten suomen sanoissa ensimmäisen tavun vokaali vaikuttaa jälkimmäisen tavun vokaalin hyvyysarvioon ja nimeämiseen. Tarkoituksena on toisin sanoen selvittää, vaikuttaako ensimmäisen tavun vokaalin ja toisen tavun vokaalin välillä ns. kontrastiefekti. Hypoteesina on, että kontrasti tapahtuu, eli ensimmäinen vokaali vaikuttaa tunnistukseen: jälkimmäisen todennäköisyys tulla nimetyksi eri vokaaliksi kasvaa, verrattuna samojen ärsykkeiden tunnistusta ilman kontekstia. Edelleen raportoimme, vaikuttaako vokaalin laatu kontrastin määrään ja suuntaan eli vaikuttaako vokaalisointu siihen, miten paljon eri prototyyppityyppimittarit siirtyvät vokaaliavaruudessa. Oletuksena on, että vokaaliharmonian mukaisissa sanoissa todennäköisyys nimetä jälkimmäinen vokaali vokaaliharmonian mukaisesti on suurempi kuin sanoissa, joissa vokaalit rikkovat vokaaliharmonian. Tutkimuksessa käytetään kahta eri sanakontekstia /hih_V/ ja /hahV/ ja kahta sataa erilaista F1-F2 kombinaatiota. Koehenkilöiden tehtävänä on arvioida ärsykkeiden (jälkimmäinen vokaali) kategoria ja antaa niille arvosana väliltä 1 – 7. Nimeäminen tapahtuu kerran kunkin ärsykkeen kohdalla. Vokaalitulokset analysoidaan kolmella tavalla: Ensimmäisessä, absoluuttisen prototyypin arvioimisessa, arvioituihin F1 ja F2 formanttiarvoihin on laskettu vain kaikkein korkeimmat arvosanat (6-7). Toisessa, painotetun prototyypin arvioimisessa, käytetään kaikkia yli 3 arvosanan saaneita ärsykkeitä. Kolmannessa mittarissa, aritmeettisessa keskiarvossa, otetaan huomioon kaikki tietyksi ärsykkeeksi nimetyt ärsykkeet arvosanasta (1-7) riippumatta. Alustavien tulosten perusteella eri prototyyppimittarit käyttäytyvät eri tavalla. Suurimmat erot vokaalien välillä saadaan absoluuttisissa prototyypeissä. Käytettäessä painotettuja prototyyppejä tai aritmeettisia keskiarvoja erot vokaalien välillä ovat pienempiä. Edelleen alustavissa tutkimuksissa näyttää olevan eroja /ɑ/ ja /i/ vokaalien välillä. Tilanteessa /ɑ/ muutos on ensisijassa etäämmäksi prototyyppisestä ensitavun ärsykkeestä ja molemmissa formanteissa. Tilanteessa /i/ muutos on ensisijassa aritmeettisessa keskiarvossa ja F1 arvoissa. Fonetiikan päivillä raportoidaan useammalta koehenkilöltä saadut tulokset.

Model-based unsupervised segmentation of speech
Shreyas Seshadri, Okko Räsänen & Unto K. Laine
Department of Signal Processing and Acoustics, Aalto University

The paper outlines a novel approach to speech segmentation. Traditional approaches to blind phonetic segmentation of speech are based on tracking changes in a certain feature space of the acoustic signal. The drawback of these techniques is that they operate locally in time. They fail to capture the overall structural properties of speech and the signal changes that occur within and across phonetic units, although this information is critical for accurate segmentation. This leads to notably worse performance than what can be achieved with supervised methods. In the current, so-called, model-based approach, we attempt to improve the existing unsupervised methods by constructing statistical models for the discovered segments as more speech data, and therefore more segments, are perceived. The models can be randomly initialized or they can be constructed from the segments discovered using the traditional change-based methods. Once the models have learned typical behavior of the signal features within and across the segments, more accurate estimates for segment boundaries can be obtained by tracking the points of change in the most likely model. We investigate the model-based approach using different signal features such as permutation coding and traditional frequency domain approaches such as MFCCs. We also analyze segmentation errors generated by the traditional change-based approach and the model-based approach, using different signal features.

Hyperarticulation in Lombard speech: qualitative and quantitative comparison between Finnish and Slovak
Juraj Šimko(1), Mona Lehtinen(1) & Štefan Beňuš(2,3)
1) University of Helsinki, Finland, 2) Slovak Academy of Sciences, Bratislava, Slovakia, 3) Constantine the Philosopher University, Nitra, Slovakia

Over the last century researchers collected a considerable amount of data reflecting the properties of Lombard speech, i.e., speech in a loud environment. The documented phenomena include effects on intensity, fundamental frequency, spectral tilt, speech rate and articulation. Relatively little attention has been paid to the effects on relative extent of movement of individual articulators. A recent work on Slovak material, has found a non­‐linearity of the effect of noise on articulatory movemen and quantitatively different effects on the movement extent for different articulators. Using a measure of relative activity of articulators, a HH‐index, the analysis have shown a distinct effects of prosodic and segmental influences on the jaw and the tongue, respectively; with lip articulation showing a mixed response to both influences. The study suggested that articulatory coordination is a result of resolving these influences in an efficient way. In the present work we replicate and extent the aforementioned study with Finnis material. We compare the results for Finnish with the Slovak results, both qualitatively and quantitatively. The main interest is in verifying language‐independence of the observed phenomena in the light of prosodic and phonetic differences between these two languages.

Harjoittelu vahvistaa kielen oppijoiden muistijälkiä ja havaitsemista
Henna Tamminen & Maija S. Peltola
Fonetiikka, Turun yliopisto Learning, Age and Bilingualism laboratorio, Turun yliopisto

Tässä tutkimuksessa tarkasteltiin artikulatorisen kuuntele-ja-toista -harjoittelun vaikutusta kielten opiskelijoiden puheen havaitsemiseen. Tavoitteena oli tutkia, millaisia vaikutuksia kouluissakin käytetyllä kuuntele-ja-toista -harjoittelumenetelmällä on kohdekielen opiskelijoiden havaitsemiseen – voiko harjoitteleminen vahvistaa oppijoiden havaitsemista ja muistijälkiä. Testasimme sitä behavioraalisin kuuntelukokein sekä psykofysiologisin menetelmin. Tutkimukseen osallistui 11 suomalaista englannin pääaineopiskelijaa. Tutkimus oli kolmipäiväinen ja se koostui behavioraalisista kuuntelukokeista (identifikaatio-, hyvyydenarviointi-, erotteluherkkyys- ja reaktioaikamittauksista), mismatch negatiivisuus (MMN) herätevastemittauksista sekä artikulatorisesta harjoittelusta. Harjoiteltavana kontrastina oli englannin sointioppositio sanoissa /fi:l/ ’feel’ ja /vi:l/ ’veal’. Tämä on suomalaiselle kielen oppijalle vaikea kontrasti, sillä /f/ ja /v/ assimiloituvat molemmat suomen /f/-kategoriaan, vaikkakin epätasaisesti. Suomen lähes foneeminen kirjoitusasu vaikeuttaa varmasti edelleen tämän kontrastin havaitsemista ja tuottamista, koska sekä suomen /ʋ/ että englannin /v/ ovat ortografisesti samanlaiset. Identifikaatio- ja hyvyydenarviointikokeissa käytettiin 15 sanaärsykkeen jatkumoa. Jatkumon ärsykkeet erosivat toisistaan ainoastaan ensimmäisen äänteen soinnin alkamishetken (VOT) suhteen siten, että toisen ääripään labiodentaalinen frikatiivi oli täysin soinniton ja toisen täysin soinnillinen. Erottelukokeissa ja MMN-kokeessa ärsykkeinä oli kaksi sanaa kyseiseltä jatkumolta. Sanat oli valittu kokeisiin aiemman englantia äidinkielenään puhuvien henkilöiden tekemän idenfikaatiokokeen perusteella siten, että ne edustivat eri sanoja ja niiden ensimmäisen äänteen VOT:n välinen ero oli 42 ms. Kielen opiskelijoiden havaitsemista ja muistijälkiä voidaan vahvistaa kuuntele-ja-toista -harjoittelun avulla, sillä kategoriaraja muuttui systemaattisemmaksi, reaktioajat lyhenivät, erotteluherkkyys kasvoi ja MMN-vaste suureni. On siis selvää, että pitkälle edistyneiden kielen opiskelijoiden havaitsemista voidaan vahvistaa harjoittelun avulla.

Fokus ääntämisen oppimiseen
Riikka Ullakonoja, Mikko Kuronen, Hannele Dufva & Elina Tergujeff
Kielten laitos, Jyväskylän yliopisto

Esittelemme uuden, SLS:n (Svenska litteratursällskapet i Finland) rahoittaman tutkimusprojektin Fokus på uttalsinlärningen med svenska som mål- och källspråk (2015-2017) teoreettisia lähtökohtia. Teoreettisten lähtökohtien lisäksi esittelemme alustavia havaintoja venäläisten maahanmuuttajien tuottaman suomenruotsin suomen ruotsin prosodiasta, esimerkiksi sana- ja lauseintonaatiosta. Projektissa tutkitaan vieraan kielen ääntämisen oppimista ja opettamista ja kiinnostuksen kohteenamme ovat mm. miten puhujan äidinkieli vaikuttaa opittavan kielen ääntämiseen, millaiset ääntämispiirteet ovat yleisesti ottaen vaikeita oppia puhujan äidinkielestä riippumatta, millaisia yksilöllisiä eroja oppimisessa esiintyy ja miten ne selittyvät sekä millaiset opetusmetodit parhaiten edistävät vieraan kielen ääntämisen oppimista aikuisiällä. Oppijoiden lähtö- tai kohdekielenä projektissa on ruotsi ja muut tutkittavat kielet ovat maamme muut puhujamäärältään suurimmat kielet suomi, venäjä ja englanti. Aiempi tieto erityisesti ruotsin, suomen ja venäjän oppimisesta on vähäistä. Projektin kielet ovat myös foneettisesti mielenkiintoisia lähtö- ja kohdekielinä erilaisuutensa vuoksi. Hankkeessa foneettinen tutkimus yhdistyy kielenoppimisen ja kielenopetuksen näkökulmiin: tavoitteena on ennen kaikkea tuottaa sellaista tietoa ääntämisen oppimisesta, jota voidaan hyödyntää ääntämisen opettamisessa niin oppimateriaalien kuin menetelmienkin osalta.

Foneettinen tutkimus Helsingin yliopistossa
Martti Vainio
Käyttäytymistieteiden laitos, Helsingin yliopisto

Foneettisella tutkimuksella on Helsingin yliopistossa hyvin pitkä historia.  Nykyinen tutkimus heijastaa osaltaan tuota historiaa; mm. vokaalien akustiikkaa on tutkittu 1880-luvulta ja puhesynteesiä vuodesta 1972.  Esittelen puheessani fonetiikan tutkimusryhmässä tehtävää tutkimusta fonetiikan kaikilta traditionaalisilta osa-alueilta: artikulatorisesta, akustisesta ja auditiivisesta fonetiikasta.  Lisäksi esittelen nykyiset kytkentämme muihin tutkimusryhmiin laitoksellamme ja sen ulkopuolella.

Transforming emotional speech into graphic musical form
Teija Waaramaa, Jarkko Niemi & Jari Eerola
School of Communication Media and Theatre, University of Tampere

This presentation concerns emotion extraction from vocal stimuli using conventional western music transcription in order to represent the utterances in a graphic form. The idea was on an experimental level to try to describe vocal emotions in a visual form and ask whether this method could be used in developing of emotional speech synthesis. The material was derived from an earlier study where Finnish female actor produced nonsense sentences (N8) expressing sadness, fear, anger, disgust, joy, surprise, interest, and a neutral emotional state. In intercultural listening tests conducted on four continents the expressions were extremely well identified independently on the listeners’ cultural or language backgrounds. Vocal acoustic parameters and the melodic contours of the utterances were analyzed by Praat software. The melodic contours were transformed to a reference pitch and the musical scales were drawn from them. The final graphic form of notations was made by Transcribe transcription software and Finale notation program. It was found that standard deviation of the melody was greatest in joy (extended over one octave) and smallest in sadness (three semitones). Variation on intensity was greatest in anger and it was increasing towards the end of the sentence. In joy the intensity was loaded at the beginning of the utterance. It seems possible to utilize the conventional notation in highlighting some fundamental characteristics and showing the progress of a vocal expression. The analyzed utterances can easily be compared as motif groups or paradigms because the note symbols can easily be moved or regrouped.

Ennakointi nopeuttaa äänteiden tunnistusta 1–2-vuotiailla
Sari Ylinen (1), Alexis Bosseler (1), Katja Junttila (1) & Minna Huotilainen (1,2)
1) Kognitiivisen aivotutkimuksen yksikkö, käyttäytymistieteiden laitos, Helsingin yliopisto 2) Työterveyslaitos, Helsinki

Kyky ennakoida tulevia tapahtumia on tärkeää ympäristöön sopeutumiselle ja päätöksenteolle. Ennakointi vaikuttaa merkittävästi myös puheen käsittelyyn aivoissa, kuten sanojen ja äänteiden tunnistukseen. Tässä tutkimuksessa tarkasteltiin aivosähkökäyrän tapahtumasidonnaisia kuulovasteita mittaamalla, miten sanakonteksti vaikuttaa äänteiden tunnistukseen 1- ja 2-vuotiailla lapsilla. Aivovasteita verrattiin kahdessa koetilanteessa. Tavutilanteessa lapsille esitettiin tavusarjoja, joissa toistuvien [ko]-tavujen joukossa oli satunnaisesti poikkeavia [ka]- ja [ke]-tavuja. Sanatilanteessa esitettiin samat tavut samalla todennäköisyydellä, mutta ne muodostivat yhdessä [ku(k)]-kontekstitavun kanssa sanat [kuk:o], [kuk:a] tai epäsanan [kuk:e], joka lasten näkökulmasta on uusi, heille tuntematon sana. Tavutilanteessa [ke]-tavun erottelua ja tunnistusta heijastavat aivovasteet syntyivät 1-vuotiailla 190-250 ms ja 2-vuotiailla 310-370 ms aikaviiveellä. [ka]-tavun synnyttämät vasteet eivät tavutilanteessa eronneet [ko]-tavun vasteista. Sanatilanteessa puolestaan [ka]-tavu, joka täydensi tutun [kuk:a]-sanan, synnytti molemmilla ikäryhmillä negatiivisen vasteen 130-190 ms aikaikkunassa. Tämän vasteen tulkittiin ilmentävän sanan tunnistusta. [ke]-tavu, joka täydensi lapsille tuntemattoman [kuk:e]-(epä)sanan, synnytti positiivisen vasteen 40-100 ms aikaikkunassa eli hyvin varhain. Tämä vaste tulkittiin ennakointivirhesignaaliksi, koska koetilanne muodosti ennakoinnin tutuista sanoista. Ennakointivirheen voimakkuus korreloi voimaakkaasti 1-vuotiaiden ymmärtämien sanojen lukumäärän kanssa. Näin ollen sanatason ennakoinnit näyttävät liittyvän kiinteästi sekä sanojen tunnistukseen että uusien sanojen oppimiseen. Äänteiden osalta tulokset osoittavat, että lapsilla sanakontekstin mahdollistama ennakointi nopeuttaa samojen vokaalien tunnistusta merkittävästi: jopa yli 150 ms.

Aksentoitujen CV.CV-rakenteisten sanojen F0 ja segmenttikestot Etelä-Pohjanmaalla ja Pohjois-Savossa
Riikka Ylitalo
Oulun yliopisto

Tässä tutkimuksessa tarkastellaan ns. puolipidennysaseman sisältäviä sanoja, joiden vokaalinkestot vaihtelevat suomen murteiden välillä siten, että puolipidennysmurteissa V2 on V1:tä pidempikestoinen, puolipidennyksettömissä murteissa päinvastoin (esim. Kettunen 1940: kartta 198; Wiik 1985: 254–306; Wiik & Lehiste 1968: 569–574). Vaikka puolipidennys on tunnettu ja jonkin verran tutkittukin ilmiö, suomen kielialueelta edelleen puuttuu riittävän laajaan aineistoon ja riittävän tarkkoihin foneettisiin mittauksiin perustuva kokonaiskuva ilmiön levinneisyydestä ja toteutumismuodoista. Tutkin väitöskirjassani (Ylitalo 2009) perustaajuutta ja segmenttikestoja Oulun, Tampereen ja Turun seuduilla useissa eri sanarakenteissa ja aksentoitujen lisäksi aksentoimattomissa sanoissa, mutta ehdottomasti eniten eroja perustaajuudessa ja segmenttikestoissa varieteettien välillä oli aksentoiduissa CV.CV(X)-rakenteisissa sanoissa, vielä tarkemmin niiden kahdessa ensimmäisessä tavussa. Tällä perusteella keskityn jatkotutkimuksessa juuri aksentoituihin CV.CV-rakenteisiin sanoihin. Ensimmäisessä vaiheessa jatkotutkimusta laajennan aksentoitujen CV.CV-rakenteisten sanojen perustaajuuden ja segmenttikestojen tutkimusta Pohjois-Savoon ja Etelä-Pohjanmaalle. Aiempien tutkimusten perusteella ennakko-oletuksena on, että Etelä-Pohjanmaalla tutkittavien sanojen V1 on V2:ta pidempikestoinen, Pohjois-Savossa tilanne saattaa olla päinvastainen. Perustaajuutta aksentoiduissa CV.CV(X)-rakenteisissa sanoissa näillä murrealueilla ei tietääkseni ole aiemmin tutkittu. Tutkimusmateriaalina on 30 CV.CV-sanaa, jotka on sijoitettu aksentoituun asemaan kehysvirkkeissä, jotka koehenkilöt lukevat äänitysstudiossa tietokoneen ruudulta. Koehenkilöt ovat nuoria, naispuolisia yliopisto-opiskelijoita, jotka ovat kotoisin joko Etelä-Pohjanmaalta tai Pohjois-Savosta, ja ovat asuneet korkeintaan muutaman vuoden aikuisiässä muualla. Koehenkilöiden tuottamien kohdesanojen segmenttikestot ja F0 mitataan Praat-ohjelman avulla, ja mittaustulokset analysoidaan tilastollisesti. Tutkimusmateriaali ja menetelmät ovat suoraan vertailukelpoisia väitöskirjani materiaalin ja menetelmien kanssa.
Lähteet
Kettunen, Lauri 1940: Suomen murteet III A. Murrekartasto. Suomalaisen Kirjallisuuden Seuran Toimituksia 188. Helsinki: SKS.
Wiik, Kalevi 1985: Suomen murteiden vokaalien kestoista. – Olli Aaltonen & Timo Hulkko (toim.), Fonetiikan päivät – Turku 1985. XIII Fonetiikan päivillä Turun yliopistossa 30.–31.8.1985 pidetyt esitelmät, 253–317. Turun yliopiston suomalaisen ja yleisen kielitieteen laitoksen julkaisuja 26.
Wiik, Kalevi & Lehiste, Ilse 1968: Vowel quantity in Finnish disyllabic words. – Paavo Ravila (toim.), Congressus Secundus Internationalis Fenno-Ugristarum. Helsingiae habitus 23.–28. VIII. 1965. Pars I. Acta Linguistica s. 569–574. Helsinki: Suomalais-Ugrilainen Seura.
Ylitalo, Riikka 2009: The Realisation of Prominence in Three Varieties of Standard Spoken Finnish. Väitöskirja. Acta Universitatis Ouluensis B 88.