Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií
description
Transcript of Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií
![Page 1: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/1.jpg)
Riaditeľ Ing. Ladislav Hluchý, CSc.
Paralelného a distribuovaného spracovania informácií
Ing. L. Hluchý, CSc.Modelovanie a riadenie diskrétnych systémov
Ing. Ivana BudinskáNávrh a testovanie číslicových systémov
M. FischerováElektrónová litografia
RNDr. I. KostičNumerické metódy a algoritmy
Doc. RNDr. L. Halada, CSc.Spracovanie reči
Ing. M. RuskoSenzorické systémy
Ing. Š. Havlík, DrSc.
![Page 2: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/2.jpg)
Speech databasesfor basic research, for training & testing of ASR and TTS
![Page 3: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/3.jpg)
Speech recognition server
Telephone server
Speech synthesis server
Voice operated information systemsteleservices
![Page 4: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/4.jpg)
Speech synthesis (TTS)
Text to speech, telephone applications, tools for the blind
![Page 5: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/5.jpg)
Syntéza reči
Súčasný stav:„Unit selection“
syntetizátor s modelovaním prozódie pomocou CART stromov
Ukážka: Kempelen 2.1
S p e e c h D B5 0 0 pho ne tic al ly
balanc e d s e nte nc e s
A u to m a ticH M M la b e lle r
P ro s o d y m o d e lsb u ild ing
a b
c d
. . .
C A R T s U nit s e le c tio n
U nit c o nc a te na tio n
P ho ne tictra ns c rip tio n
T E X T
S P E E C H
syn th esisa n a lysis
![Page 6: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/6.jpg)
Model tvorby reči
na princípe Zdroj - Filter
![Page 7: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/7.jpg)
HMM syntéza - Motivácia
• Jeden z hlavných problémov korpusovej syntézy reči je „data sparsity“. Syntéza je veľmi kvalitná ak syntetizované jednotky majú pokrytie v korpuse, a naopak podstatne horšia ak požadované jednotky korpus neobsahuje. Inými slovami, problémom je generalizovanie „unseen data“.
• ASR založené na HMM-GMM majú práve túto vlastnosť generalizovania výborne rozpracovanú v tréningu AMs.
![Page 8: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/8.jpg)
HMM syntéza používa natrénované AMs modely a reč generuje priamo z nich
HMMs modelujú spektrum a navyše - čo nie je v ASR – aj F0.
![Page 9: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/9.jpg)
Výhody a nevýhody HMM syntézy
• Úplný model reči má veľkosť do 1MB, na rozdiel od korpusovej syntézy, ktorá má x100MB
• Kontextuálne zhlukovanie (ako v ASR) je oveľa flexibilnejšie ako výber jednotiek
• Výborný framework pre modifikáciu a konverziu hlasov (možno meniť kvalitu hlasu!)
• Dobrá plynulosť generovanej reči, ale stále nízka kvalita reči (reč zneje stále roboticky)
![Page 10: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/10.jpg)
Dramatic Piece Reader (DRAPER)
Architecture of Draper
![Page 11: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/11.jpg)
Automatic speech recognition (ASR)
Speech to text, dictation, media monitoring
![Page 12: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/12.jpg)
Speech recognition schematic diagram
![Page 13: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/13.jpg)
Automatický prepis diktátu pre MSSR (APD)
• Objednávka MSSR na vytvorenie softvéru na automatické prepisovanie diktátu do textu (napríklad diktovanie súdnych rozhodnutí sudcami)
Systém vykonáva:
– On-line prepis reči (Diktačný systém)
– Off-line prepis z diktafónových nahrávok reči
![Page 14: Riaditeľ Ing. Ladislav Hluchý, CSc. Paralelného a distribuovaného spracovania informácií](https://reader036.fdocuments.net/reader036/viewer/2022062309/5681449a550346895db14783/html5/thumbnails/14.jpg)
Ďakujeme za pozornosť
Oddelenie analýzy a syntézy rečiUI SAV