Korpus pro automatické rozpoznáníčeských slov v anglickém mluveném
projevu
Ondřej Cífka, Ondřej Bojar
Ústav formální a aplikované lingvistiky, MFF UK
Korpusová lingvistika Praha, 17. září 2016
1 / 18
ObsahI Motivace: Alex Translate, tlumočník pro turistyI Překlad mluvené řeči obecněI Problémy v našem kontextu a jejich řešení
I Nedostatek dat v doméněI Rozpoznání českých slov anglickým ASR
I Empirické vyhodnocení
2 / 18
Alex TranslateI systém pro automatický překlad mluvené angličtiny do
češtiny (speech-to-speech translation)I zaměření na cestovní ruch (služba pro anglofonní turisty)I použit ke sběru dat → malý mluvený korpusI ukázka: � 277 278 178
3 / 18
Překlad mluvené řeči
I zvukový signál ve zdrojovém jazyce(angličtina) → text v cílovém jazyce(čeština)
I hlavní podúlohy:I rozpoznání řeči (ASR)I strojový překlad (MT)+ popř. syntéza řeči (TTS)
Speech recognition
(ASR)
where is the nearesttram stop
Machine translation
(MT)
kde je nejbližšízastávka tramvaje
4 / 18
Rozpoznání řeči (ASR)
5 / 18
Statistické rozpoznání řečiI akustický model (AM): zvukový signál ↔ hlásky
I trénovací data: mluvený korpusI výslovnostní lexikon: hlásky ↔ slova
I ručně sestavený nebo generovaný pravidlyI jazykový model (LM): pravděpodobnosti řetězců slov
I trénovací data: textový korpus, ideálně specializovaný prokonkrétní úlohu
6 / 18
ProblémyI potřebujeme korpus specializovaný pro danou doménu
(konverzační věty z oblasti cestovního ruchu)I nasbíraná data zdaleka nestačí k natrénování modelů
I použití českých místních názvů v anglické řeči (druhcode-switchingu)
I Does this tram go to Vítězné náměstí?I ASR toto zpravidla neřešíI chybí data zachycující tento jev
7 / 18
Nahrávky a přepisy hovorů1
I 14 minutI 35 hovorůI 364 promluvI použito pro ladění a testování systému
could you call my hotel and tell them that i’m coming lategood morning what’s the weather in the city of ústí nadlabemare you from pragueis this food gluten free
1http://hdl.handle.net/11234/1-17358 / 18
Trénování ASR
I výběr vět z korpusuCommon Crawl
I výběr hesel z Wikipediesouvisejících s Českem
I část nahraných hovorůpoužita k ladění vahjazykového modelu
referenční text„phrasebooksentences“
referenční LM korpusCommon Crawl
další korpusyčásti CzEngua Wikipedie
ladicí textpřepisy hovorů
vybraný text
interpolovanýLM
ASRmodel
výslovnostnílexikon
akustickýmodel
could you call my hotel andtell them that i'm coming late
good morning what's the weatherin the city of ústí nad labem
is this food gluten free
how do you pronounce thatdo you have any meatless dishes
does this tram go to the prague castlei don’t have a boyfriend
thank you so muchit’s surprising what you don’t know
i love to go out and have a good timehe is that person to me
you have been busy
z Common Crawl
9 / 18
Rozpoznání českých slov v anglické řečiI vybereme množinu českých slov, která chceme umět
rozpoznat (v našem případě názvy ulic a obcí), přidámeje do výslovnostního lexikonu
I problém: akustický model pro angličtinu používá saduhlásek, která není vhodná pro češtinu
I známé přístupy:I rozšířit sadu hlásek o specificky české hlásky, např. kombinací
s českým akustickým modelem (Stemmer et al., 2001;Modipa – Davel, 2010)
I přepsat česká slova pomocí výslovnostních pravidel proangličtinu (Modipa – Davel, 2010)
I přepsat českou výslovnost pomocí anglických hlásek (Wang –Tong, 2014)
10 / 18
Rozpoznání českých slov – přepis hlásekI přepis české výslovnosti pomocí anglických hlásek
I nevýhoda: nelze přesně zachytit specificky české hlásky (alety cizinec stejně nemusí vyslovit správně)
I výhoda: není nutné měnit akustický model
souhlásky samohlásky/dvojhlásky
Czech ex. English ex. Czech ex. English ex.>ts cár t s tsunami o oko O oughtc ťapka
>tS cheese au
“auto aU
“cow
é ďábel>dZ jeans eu
“euro æ u —
ñ ňadra n need ou“
ouško oU“
oatr rád ô readrfi řád Z visionr̊fi křáp S she
11 / 18
Rozpoznání českých slov – trénovací korpusI věty z anglické Wikipedie obsahující jména českých ulic a
obcíI 90 031 vět, 2 360 589 slov (134 625 českých)
The Technical University of Liberec is a medium-sizedinstitution.In 1946, Baron Georg Beess, the last nobleman from theBeess family to own properties in Hnojník, was expelled fromthe country and was deprived of his property according to theBeneš decrees affecting the Germans in Czechoslovakia.In May 1975, the 1968 Constitutional Law of Federation wasfurther amended to allow Gustáv Husák to take over thepresidency from the ailing Ludvík Svoboda.
12 / 18
Testovací mluvený korpus1
I 54 předepsaných vět obsahujících jména míst v Česku,zejména v Praze
How can i get from Malostranské náměstí to Anděl?I need to get to Troja, can you drive me there?What is the weather like in Pardubice?
I přečteno 5 mluvčími studujícími v Praze → 256nahraných vět
I různé národnosti (Rusko, Sýrie, Írán)I různé úrovně znalosti češtiny (žádná až velmi vysoká)I odstraněny nahrávky, které se neshodovaly s předlohou
1http://hdl.handle.net/11234/1-1735,https://drive.google.com/open?id=0B_NnBoXZxx0uOXZyQmlZRENuSTQ
13 / 18
VýsledkyI varianty systému:
I adaptovaný lexikon: přidány výslovnosti českých slovI adaptovaný LM: do jazykového modelu „přimíchán“ výběr z
Wikipedie v poměru 1 : 9I testovací korpusy:
I calls2 : nahrávky uživatelůI cstest: nahrávky připravených vět s českými jmény
Systém%WER % poznaných jmen
calls2 cstest cstest
baseline 22,0 64,8 0,0adaptovaný lexikon 21,9 61,9 6,4adaptovaný lexikon + LM 22,9 58,2 13,5
14 / 18
Další krokyI dokončení adaptace jazykového modeluI prozkoumání výslovnosti českých slov nerodilými mluvčími
15 / 18
ShrnutíI sestaven malý řečový korpus
I (nerodilí mluvčí v anglické promluvě užívají česká slova)
http://hdl.handle.net/11234/1-1679
I sestaven textový korpus anglických vět s českými jményI návrh přepisu českých hlásek pomocí anglických pro ASRI experimenty dokládají zlepšení rozpoznávání českých slov
16 / 18
� 277 278 178
17 / 18
LiteraturaModipa, T. – Davel, M. H. Pronunciation modelling of foreign words for Sepedi ASR. 2010.
Stemmer, G. – Nöth, E. – Niemann, H. Acoustic modeling of foreign words in a German speechrecognition system. In INTERSPEECH, s. 2745–2748, 2001.
Wang, L. – Tong, R. Pronunciation modeling of foreign words for Mandarin ASR by consideringthe effect of language transfer. In INTERSPEECH, s. 1443–1447, 2014.
18 / 18
Top Related