PROSODINS MEKANIK talande maskiner och maskinellt tal

40
PROSODINS MEKANIK talande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”

description

PROSODINS MEKANIK talande maskiner och maskinellt tal. Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”. Översikt. Talande maskiner Talsyntes Källa-filter-modellen Formantsyntes Linjär prediktion Formantsyntes och sång Emotionell prosodi i formantsyntes Maskinellt tal - PowerPoint PPT Presentation

Transcript of PROSODINS MEKANIK talande maskiner och maskinellt tal

Page 1: PROSODINS MEKANIK talande maskiner och maskinellt tal

PROSODINS MEKANIKtalande maskiner och maskinellt tal

Staffan LarssonApril 2003

”Mitt Hjärtas Melodi”

Page 2: PROSODINS MEKANIK talande maskiner och maskinellt tal

Översikt• Talande maskiner

– Talsyntes• Källa-filter-modellen• Formantsyntes• Linjär prediktion• Formantsyntes och sång

– Emotionell prosodi i formantsyntes

• Maskinellt tal– Mekaniska strukturer– Åke Hodell: General Bussig, Igevär– Steve Reich: Different Trains– Charles Dodge: Speech Songs– Med mera

Page 3: PROSODINS MEKANIK talande maskiner och maskinellt tal

Grunder

• Övertoner (harmoniska)– Ett harmoniskt ljud med grundfrekvens F har

övertoner med frekvens 2F, 3F, …

• Filter– Ändrar amplituden hos övertoner– Resonansfilter/bandpassfilter: förstärker

övertoner kring en viss frekvens

• Sampling– Diskretisering i tid; indelning i ”frames”

• Kvantisering– Diskretisering av varje tidsutsnitt

Page 4: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talande maskiner

Page 5: PROSODINS MEKANIK talande maskiner och maskinellt tal

Text till tal

En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform

Page 6: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 7: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talsyntes

• Källa-filter-modellen

• F0 modellerar glottis; en övertonsrik grundton• Filtret modellerar munhålan

PITCH-PULSEGENERATOR

NOISEGENERATOR

RESONATIONSYSTEM (FILTER)

F0

SPEECH

AMP

Page 8: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talsyntes forts.

• Filtermodeller– Formantsyntes– Linear Predictive Coding (LPC)

• Syntesmetoder– Regelbaserad: baserat på teori

implementerad i regelsystem– Analysbaserad: baserad på inspelat tal

(vanligtvis samplat)• Resultatet av analysen är en uppsättning

dynamiska parametrar

Page 9: PROSODINS MEKANIK talande maskiner och maskinellt tal

Formantsyntes

• Akustisk modell– Filtret analyseras som ett antal formanter, F1-F4– Normalt varieras bara F1 och F2; resten är statiska

• Formanterna modelleras av bandpassfilter med variabel frekvens– Parallell- eller seriekopplade

• Vokaler definieras av värden på formantfrekvenserna

• Vissa konsonanter kan modelleras som lokuspunkter– Andra konsonanter modelleras som brus, (”s”, ”f”)

Page 10: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 11: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tidiga exempel på talsyntes• Bell labs (1950)

– forskning om analys och syntes av tal i syfte att minimera mängden information som skickas t ex i en telefonledning

• Vocoder– Analysera tal som akustiska parametrar

• F0/noise• 10 bandpassfilter med variabel amplitud

– Använd dessa parametrar för att driva syntes som approximerar originalet

• Voder *– Manuell kontroll av parametrar

• Pattern Playback * – Parametrar styrs av spektrogramläsare

Page 12: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 13: PROSODINS MEKANIK talande maskiner och maskinellt tal

OVE I

• Oratis Verbis Electris– Gunnar Fant– Svensk vokalformantsyntes från 50-talet– utvecklades främst i pedagogiskt syfte, men

kan möjligen även ses som ett mellanting mellan musikinstrument och talmaskin.

• Fyra seriekopplade bandpassfilter – F0, F1 och F2 styrs manuellt

• Demo *– Analog– Digital

Page 14: PROSODINS MEKANIK talande maskiner och maskinellt tal

Ove II

Page 15: PROSODINS MEKANIK talande maskiner och maskinellt tal

Linjär prediktion

• Artikulatorisk modell– Filtret modellerar munhålan, modellerad

som en tub med ett antal cylindriska sektioner av olika längd och diameter

• Filter: ett ”all-pole” filter• Predicera nästa sampel baserat på

viktad summa av föregående samples• Mer realistisk återgivning

– MEN svårare att kontrollera parametrar, t ex F0; filtret är instabilt

Page 16: PROSODINS MEKANIK talande maskiner och maskinellt tal

Regelbaserad vs. Analysbaserad syntes

• Regelbaserad: regler för övergångar mellan fonem– Formant: regler för formantövergångar, lokusteori

(OVE II)– LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)*

• Analysbaserad: sampling och analys av mänskligt tal– Formant: formantdetektion– LPC: den metod som numera är vanligast

• Manuell syntes– Ove, VODER

Page 17: PROSODINS MEKANIK talande maskiner och maskinellt tal

Flera talsyntessystem

• DECtalk (1980-) *– Baserad på KlattTalk (formantsyntes)– Formanter, lokusregler– Flera olika röster (Klatt, arkiv D)

• Speak and Spell (1980)– Linjär prediktion

Page 18: PROSODINS MEKANIK talande maskiner och maskinellt tal

Emotionell prosodi i formantsystes

• Formantsyntes har även använts i forskning på prosodins roll i uttryckandet av emotioner

• Janet Cahn– The Generation of Affect in Synthesized

Speech– Affect Editor (program)

• Grundantagandern– Affektinformation är i stort sett oberoende

av lexikal information– Emotioners effekt på talsignalen kan

kvantifieras

Page 19: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tidigare forskning…

• …om akustiska korrelat till emotioner– Sporadiskt sedan 40-talet– Primära parametrar: F0 och rytm

• Dessa parametrar kan kontrolleras i syntes

• Fysiologiska förklaringar (Williams & Stevens 1981)– Sympatiska(?) nervsystemet aktiveras (rädsla, ilska,

glädje) > högre blodtryck och puls > högljutt, snabbt tal med hög frekvensenergi

– Paraympatiska nervsystemet aktiveras (uttråkadhet, sorg) > lägre blodtryck och puls > långsamt tal med låg tonhöjd och frekvensenergi

Page 20: PROSODINS MEKANIK talande maskiner och maskinellt tal

Alternativa representationer

• Generativ modell– Utgår från talarens mentala tillstånd

• Akustisk modell– Utgår från den akustiska signalen som den uppfattas

av åhöraren– En uppsättning parametrar som motsvarar

talsignalens emotionella korrelat

• Den förra är teoretiskt mer intressant, men den andra är enklare– Lättare att kvantifiera och utvärdera– Vi vet mer om akustiska än mentala korrelat

Page 21: PROSODINS MEKANIK talande maskiner och maskinellt tal

Affektparametrar

• Fyra grupper– Tonhöjd (pitch): egenskaper hosF0– Timing: rytm och talhastighet– Röstkvalitet– Artikulation

• Tonhöjd och timing är även egenskaper hos ord och fraser

• Ej absolut indelning• Parametrar har värden mellan –10 och

10; 0 är neutral

Page 22: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tonhöjdsparametrar

• Accent shape: the rate of F0 change for any pich accent– Pitch accent: distinctive pitch applied to the lexically stressed

syllable of a word such that the word as a who is percieved as reciveving sentential stress

• Average pitch: average F0 relative to speaker’s normal pitch

• Countour slope: overall trend of pitch range (expanding, contracting or level)

• Final lowering: terminal pitch contour• Pitch range: range of F0 variation• Reference line

Page 23: PROSODINS MEKANIK talande maskiner och maskinellt tal

Timingparametrar

• Fluent pauses: frequency of pausing between syntactic or semantic units

• Hesitation pauses: frequency of pausing within syntactic or semantic units

• Speech rate• Stress frequency: ratio of stressed

(pitch accented) to stressable (potentially pitch accented) words

Page 24: PROSODINS MEKANIK talande maskiner och maskinellt tal

Röstkvalitetsparametrar• Breathiness: amount of frication noises

co-present with nonfricatives• Brilliance: ratio of low to high frequency

energy• Laryngearization: narrow and irregular

subglottal pulse; ”creakiness”• Loudness: percieved loudness

Artikulationsparametrar• Precision: degree of slurring or

enunciation

Page 25: PROSODINS MEKANIK talande maskiner och maskinellt tal

Affect Editor

• Akustisk beskrivning av emotionellt tal > syntetiskt expressivt tal

• Syntes: DECtalk3– Stor grad av kontroll över prosodi och röstkvalitet

• Mappning – från akustiska parametrar + text (annoterad med

intonation och ordklassinformation)– till syntesens inställningar + fonologisk

representation

>ghostview

Page 27: PROSODINS MEKANIK talande maskiner och maskinellt tal

Formantsyntes av sång (Dodge)

• Kräver mer komplex modell av munhålan (mer komplext filter)

• Interaktion mellan glottis och munhåla

• ”Sångformanten”– Lägre frekvens på F4 och F5 än i tal– F4 och F5 ligger nära varandra (2500-

3500 Hz)

Page 28: PROSODINS MEKANIK talande maskiner och maskinellt tal

Sångsyntes: tidiga exempel

• Bell labs (1961)– 1961: Max Mathews (with the

assistance of a number of technicians at Bell Labs) made a computer sing "Bicycle Built for Two."

• DAVO (1958) *– Georg Rosen, MIT

• Charles Dodge (mer senare)

Page 29: PROSODINS MEKANIK talande maskiner och maskinellt tal

Mekaniskt tal

Page 30: PROSODINS MEKANIK talande maskiner och maskinellt tal

Mekaniska strukturer (Manovich)

• Mekanisering av media: diskretisering– Sampling– Kvantisering

• Möjliggör mekaniska operationer– Upprepning, loopning– Utsträckning i tid– Gradvis modifiering / modulering– Överlagring (”compositing”)

• Har även använts inom ljudkonst och musik

Page 31: PROSODINS MEKANIK talande maskiner och maskinellt tal

”Cross-synthesis” (Dodge)• Analys – manipulation – syntes

– Tal samplas och analyseras som parametrar som kodas digitalt (vanligtvis LPC)

– Valda parametrar manipuleras– Återsyntes med manipulerade parametrar

• Vanliga operationer– Kopiera parametrar från en sekvens till en annan; skapa

repetitioner– Interpolera värdet av en given parameter för en sekvens

(värde 1 -> värde 2)– Förläng en sekvens i tid– Ändra värdet på en parameter i en sekvens till ett fixt

värde– Öka värdet på en parameter i en sekvens till ett fixt värde

Page 32: PROSODINS MEKANIK talande maskiner och maskinellt tal

Ljudkonst och tal

• ”Konkret poesi”– Utgångspunkten är talets fysiska egenskaper,

snarare än innehållet– I Sverige: Fylkingen (Sten Hansson, Ilmar

Laaban, Åke Hodell mfl)

• EMS, Stockholm– 1960-tal– En av världens mest avancerade ljudstudios

(ryms numera på en billig PC)– Ej digital sampling, men analog teknik med

linkande möjligheter; dock mycket arbetsamt

Page 33: PROSODINS MEKANIK talande maskiner och maskinellt tal

Åke Hodell

• General Bussig *– Upprepning, gradvis modifiering– Noggrant modulerad prosodi, närmar sig

musik

• Igevär *– Utsträckning i det absurda– Från språkljudet abstraheras det språkliga

bort, kvar blir ett ljud som balanserar på gränsen mellan mänskligt och mekaniskt

Page 34: PROSODINS MEKANIK talande maskiner och maskinellt tal

Steve Reich

• Different Trains *• Använder talets prosodiska melodi som

grundmaterial för musikaliska figurer• Sampling, överlagring, upprepning• Melodi i tal och musik

– Tal: glidande toner (glissando)– Musik: diskreta toner – Transformation av F0 till melodi innebär en

ytterligare (manuell) ”sampling”, d v s diskretisering i tid och tonhöjd

Page 35: PROSODINS MEKANIK talande maskiner och maskinellt tal

Charles Dodge

• Sysslade tidigare med orkester- och kammarmusik

• Speech Songs (1972)– ”A man sitting in a cafe”– Detta är en dikt inläst av Dodge som

analyserats och återsyntetiserats – Modifierad F0, repetition, m.m.

• Any similarity is purely coincidental– ”cross synthesis” av inspelning av Caruso

Page 36: PROSODINS MEKANIK talande maskiner och maskinellt tal

Andra artister som använder talsyntes

• Nämnda i Computer Music:– Paul Lansky– Frances White– Judy Klein

• www.epitonic.com– 386DX– Gamers In Exile

• Samt ett flertal som använder vocoder

Page 37: PROSODINS MEKANIK talande maskiner och maskinellt tal

Sammanfattning

• Tal kan mekaniseras– samplas, analyseras, lagras, manipuleras och syntetiseras

• Exempel på detta är– Talsyntes

• Formantsyntes• Linear Predictive Coding

– Sångsyntes– Språkbaserad ljudkonst och musik

• Tal, även syntetiskt, bär emotioner– Vare sig man vill eller ej– Kan i viss mån kontrolleras– Kan utnyttjas i konstnärliga syften

• Mekaniskt tal är verkligen märkligt/konstigt/knäppt!– Varför?

Page 38: PROSODINS MEKANIK talande maskiner och maskinellt tal

• A: the consonant /d/ before a series of vowels having the same F1. The second formant transition appears to originate from an invisible locus at 1800 Hz, after Delattre et al. (1955).

• B: If the second formant onset frequency (hub) is fixed at 1800 Hz, left panel, several different consonants are heard.

 

Page 39: PROSODINS MEKANIK talande maskiner och maskinellt tal

En abstrakt lingvistisk

representation av en text genomgår ett antal

transformationer som resulterar i en akustisk

vågform

Text till tal:

Page 40: PROSODINS MEKANIK talande maskiner och maskinellt tal

Genusperspektiv?

• Talsyntes oftast manliga röster• Svårare att syntetisera kvinnliga röster?

– Svårare att analysera pga färre övertoner– Att minska storleken på den simulerade

munhålan samt höja F0 fungerar inte

• ”Mannen är normen”– De flesta analyser av tal utgår från manliga

talare– Inte konstigt att denna modell inte

omedelbart fungerar för att syntetisera kvinnligt tal