Kalbos sintezė iš tekstopijus/CLF/Sinteze_ppt.pdf2020 03 17 P.Kasparaitis. Kompiuterinės...
Transcript of Kalbos sintezė iš tekstopijus/CLF/Sinteze_ppt.pdf2020 03 17 P.Kasparaitis. Kompiuterinės...
Kalbos sintezė iš teksto
Doc. Pijus Kasparaitis
2019-2020 m. m. pavasario semestras
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 2
Sintezės sąvoka
Automatinis žmogaus balso generavimas naudojant raidžių keitimą garsais
Esminis skirtumas nuo įrašymo/atkūrimo įrenginio,kad gali generuoti naujus sakinius,t. y. perskaityti bet kokį tekstą
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 3
Sintezės sudedamosios dalys
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 4
Lingvistinis teksto apdorojimas
Pradinis teksto apdorojimas
Skiemenavimas
Kirčiavimas
Transkribavimas
Trukmių modeliavimas
Intonacijos modeliavimas
Pradinis teksto apdorojimas
Skaičių, datų, simbolių, santrumpų keitimas tekstu
123456789123,123456789123
20% 21% 22% ir t.t.
2015-07-28, t.y. 2015 m. liepos 28 d.
Skaidymas/apjungimas į frazes
Be to, aš, matyt, nežinojau, kas bus.
52020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 5
Kirčiavimas
Daiktavardžių kirčiuotės
1. Bro-liams, bro-lius
2. La-pams, la-pus
3. Lan-gams, lan-gus
4. Na-mams, na-mus
Veiksmažodžių kirčiavimas
Nu-ne-ša
Nu-ne-šiu
Nu-ne-štam
62020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 6
Žodžių daryba
Žmog-us
Žmog-el-is
Žmog-el-iuk-as
Žmog-el-iuk-išk-as
Žmog-el-iuk-išk-um-as
...
72020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 7
Transkribavimas
Suskardėjimas
čirkšdavo -> čirgždavo
Suduslėjimas
gergžtum -> gerkštum
Sužvarbėjimas
anksčiau -> ankščiau
82020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 8
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 9
Garsų trukmes įtakojantys faktoriai
Fonemos "prigimtinė" trukmė
Su padėtimi susiję faktoriai Sakinio ar frazės pradžia ar pabaiga
Sakinio ar žodžio kirtis
Gretimo garso tipas (skardus/duslus sprogstamasis/pučiamasis)
Frazės ilgis žodžiais
Žodžio padėtis frazėje
Žodžio ilgis skiemenimis
Skiemens padėtis žodyje
Garso padėtis skiemenyje
Priebalsio priklausymas priebalsių grupei
Skiemens struktūra ir t. t.
Kalbėjimo greitis
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 10
Tono aukštį įtakojantys faktoriai
Pagrindinio tono aukštis turi savyje skirtingų lygių informaciją Frazė pradedama aukštesniu tonu ir
baigiama žemesniu
Tono pakėlimas ar nuleidimas pačioje frazės pabaigoje leidžia pasakyti sakinį keliomis intonacijomis: konstatuojamąja, klausiamąja ir šaukiamąja
Kirčiuoti skiemenys išskiriami iš kitų pagrindinio tono pakėlimu
Atskiri garsai gali turėti įtakos pagrindinio tono aukščiui
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 11
Signalo formavimo metodų klasifikacija
Artikuliaciniai
Formantiniai
Konkatenaciniai
Statistiniai-parametriniai
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 12
Artikuliacinis metodas
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 13
Formantinė sintezė
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 14
Formantinės sintezės pliusai/minusai
Pliusai
lankstumas
sklandūs perėjimai tarp garsų
geras sintezuotos kalbos suprantamumas
Minusai
daug rankinio darbo
sukūrimas užima daug laiko
sintezuota kalba skamba mechaniškai
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 15
Konkatenacinė sintezė
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 16
Konkatenacinės sintezės pliusai/minusai
Pliusai
gera sintezuotos kalbos kokybė
kalba skamba natūraliai
minimalūs skaičiavimai sintezės metu
Minusai
galima sintezuoti tik kalbą neutralia intonacija, galimybė sintezuoti emocionalią kalbą labai ribota
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 17
Konkatenacinėje sintezėje naudojami segmentai
Reikalavimai segmentams maži nedaug apima perėjimus tarp garsų
Dažniausiai naudojami segmentai difonai pusskiemeniai trigarsiai
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 18
Vienetų parinkimo metodas
Rasti geriausią įrašytų elementų seką norimam pasakymui sudaryti
Kainos
Tikslinės kainos: ilgiai, tono aukštis
Jungimo kainos: akustinis neatitikimas
Įrašų bazės sudarymas
Kaip sintezuojamas balsas?
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 19
Jungimo kainos
Klausimas: kodėl imama
Vãsaros jūra nuplóvė spalvàs
Ẽglė Sarapáitė ir Giẽdrė Paugáitė
o ne
Vãsaros jūra nuplóvė spalvàs
Ẽglė Sarapáitė ir Giẽdrė Paugáitė
Atsakymas: sa jungimo kaina mažesnė nei ar
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 20
Keitimo kainos
Klausimas: kodėl imama
herefòrdų, aberdinų, angùsų
ar prisimeni nãgą žaliojè lankojè
o ne
herefòrdų, aberdinų, angùsų
galimýbes táikyti juõs Lietuvojè
Atsakymas: ko keitimo į go kaina mažesnė nei vo
keitimo į go, t. y. panašesnis kontekstas
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 21
Signalo modifikavimas
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 22
Statistinės parametrinės sintezės schema
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 23
y – akustiniai požymiai.
x – lingvistiniai požymiai:
• fonemos požymiai;• skiemens požymiai;• žodžio požymiai;• frazės požymiai.
Apmokymo etapas Sintezės etapas
Balso analizė
Teksto analizė
Modelio apmokymas
Parametrų genera-vimas
Teksto analizė
Balso sintezė
Modelis
Tekstas
Balsas
Tekstas
y
xx
Balsas
Akustiniai požymiai
Kepstro koeficientai;
Kepstro koeficientų pokyčiai laike;
Kepstro koeficientų pokyčių pokyčiai;
Pagrindinio tono aukštis;
Tono pokytis;
Tono pokyčio pokytis;
Periodiškumo/aperiodiškumo parametras.
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 24
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 25
Lingvistiniai požymiai (1)
Fonemos požymiai fonemos pavadinimas dvi fonemos į kairę ir į dešinę fonemos atstumas nuo skiemens
pradžios ir pabaigos
Skiemens požymiai1
ar kirčiuotas ilgas ar trumpas priegaidė fonemų skaičius
1 šie keturi požymiai apskaičiuojami ir ankstesniam bei tolimesniam skiemenims
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 26
Lingvistiniai požymiai (2)
Skiemens požymiai skiemens atstumas nuo žodžio pradžios
ir pabaigos; skiemens atstumas nuo frazės pradžios
ir pabaigos; kirčiuotų skiemenų skaičius einant link
frazės pradžios ir pabaigos; atstumas iki artimiausio kirčiuoto
skiemens einant link frazės pradžios ir pabaigos;
skiemens centro pavadinimas
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 27
Lingvistiniai požymiai (3)
Žodžio požymiai skiemenų skaičius žodyje (taip pat ir
ankstesniame bei tolimesniame žodyje) žodžio atstumas nuo frazės pradžios ir
pabaigos
Frazės požymiai skiemenų skaičius žodžių skaičius frazės intonacija
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 28
Sintezuotos kalbos įvertinimas
Suprantamumas
Natūralumas
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 29
Sintezės panaudojimas
Interneto portalų klausymui
Teksto įgarsinimui
Pranešimų autobusų ar geležinkelio stotyse skaitymui
Robotuose ir virtualiuose asistentuose
Automobių navigacijos sistemose
Aklieji darbui su kompiuteriais ar išmaniaisiais telefonais
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 30
Kaip aklieji dirba kompiuteriu?
Įvedimas
klaviatūra
pelė visiškai nenaudojama
Išvedimas
vaizdo ekrane padidinimas
Brailio eilutė
balso sintezė
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 31
Balso sintezė akliesiems
Ekrano skaitymo programos
Specialūs reikalavimai sintezei
greičio keitimas
skaitymas paraidžiui
didžiosios raidės ir pan.
Delfi
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 32
Visuotinė lietuvių enciklopedija
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto
2020 03 17 33
Paslauga RoboBraille
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto
2020 03 17 34
Spektaklis “Remote Vilnius”
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 35
Spektaklis “Remote Vilnius”
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 36
Robotas NAO
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 37
Robotas Pepper
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 38
Vilkaviškio autobusų stotis
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 39
Virtualus „Gera dovana“ asistentas
P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto2020 03 17 40
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 41
Literatūra
Kasparaitis, P. (2001). Lietuvių kalbos kompiuterinė sintezė. Daktaro disertacija. Vilniaus universitetas, Vilnius
Fujisaki, H., Ohno, S., Wang, C. (1998). A command-response model for f0 contour generation in multi-lingual speech synthesis. In: Proceedings of the Third ESCA/COCOSDA International Workshop on Speech Synthesis, 299-309
Klatt, D. (1980). Software for a cascade/parallel formant synthesizer.
J. Acoust. Soc. Am., 67, pp. 971-995
Moulines, E., F. Charpentier (1989). Pitch Synchronous Waveform Processing Techniques for Text-To-Speech Synthesis Using Diphones. Proc. EUROSPEECH 89, (2), pp. 13-19
Dutoit, T., V. Pagel, N. Pieret, O. Van der Vreken, F. Bataille (1996). The MBROLA Project: Towards a Set of High-Quality Speech Synthesizers Free of Use for Non-Commercial Purposes, Proc. ICSLP 96, pp. 1393 – 1396
Hunt, A., Black, A. (1996). Unit selection in a concatenative speech synthesis system using a large speech database. In: ICASSP 1996, Atlanta, pp. 373–376
Zen. H. (2014). Statistical Parametric Speech Synthesis. https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/42624.pdf
2020 03 17 P.Kasparaitis. Kompiuterinės lingvistikos įvadas. Kalbos sintezė iš teksto 42
Literatūra Wu, Zh., O. Watts, S. King, (2016). Merlin: An Open Source Neural Network Speech
Synthesis System. in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), Sunnyvale, CA, USA;
van den Oord, A., Y. Li, I. Babuschkin et al., (2018). Parallel WaveNet: fast high-fidelity speech synthesis, in Proceedings of the 35th International Conference on Machine Learning (ICML), pp. 3915–3923, Stockholm, Sweden;
Arik, S. O., M. Chrzanowski, A. Coates et al., (2017). Deep voice: real-time neural text-to-speech, in Proceedings of the 34th International Conference on Machine Learning, pp. 195–204, Sydney, Australia;
Shen, J., R. Pang, R. J. Weiss et al., (2018). Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions, in Proceedings of the 2018 IEEE ICASSP, pp. 4779–4783, Calgary, Canada;
Schmidt-Nielsen, A. (1995). Intelligibility and Acceptability Testing for Speech Technology. In A. Syrdal, R. Bennett, S. Greenspan (Eds.), Applied Speech Technology, CRC Press, Boca Raton, Ann Arbor, London, Tokyo. pp. 195-232;
Kasparaitis, P. (2016). Lietuviško balso sintezatorių kokybės vertinimas. Kalbų studijos = Studies about languages. 2016, nr. 28, p. 80-91;
Kasparaitis, P., G. Skersys (2017). Lietuviško balso sintezės dabartis ir perspektyvos. Bendrinė kalba, 90.