MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
MaschinelleSprachverarbeitungBASIERENDAUFFOLIENVONDR.H.ZINSMEISTER
GertrudFaaβUniversitätStuNgart,InsPtutfürmaschinelle
SprachverarbeitungAzenbergstr.12,70174StuNgart
[email protected]‐stuNgart.de
1
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Einleitung• Anwendungen• LinguisPk• Organisatorisches
Einleitung
2
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Einleitung• ComputerlinguisPk(CL),NaturalLanguageProcessing(NLP),Sprachtechnologie,HumanLanguageTechnology(HLT),Speechandlanguageprocessing
• WICHTIGSTESBUCH(DieserKurs):DanielJurafskyandJamesHMarPn(JUMA).SpeechandLanguageProcessing.SecondEdiPon(2008).PearsonPrenPceHall
Einleitung
3
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Anwendungen– Sprachsteuerung(z.B.Autotelefon)– Unterstützungvon(Seh‐/Hör‐)Behinderten– Textkorrektur(„SpellChecker“)– InformaPonsextrakPon
– MaschinelleÜbersetzung– ...
Einleitung
4
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Spracherkennung(z.B.SprachsteuerungAutotelefon)– AnalysedesSprachsignals
• VerteilungderEnergieimFrequenzsprektum
• CharakterisPscheParameter
– LexikalischeDekodierung• Wörterbuchabgleich
– MorphosyntakPscheAnalyse• MöglicheSatzteile
– Resultat:Wornolge
Spracherkennung
5
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
http://de.wikipedia.org/wiki/Spracherkennung
Spracherkennung
6
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
http://de.wikipedia.org/wiki/Bild:Spectrogram_-iua-.png
Spracherkennung
7
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Sprachsynthese(z.B.Ansagesysteme,Sehbehinderten‐Unterstützung)
– AutomaPscheProdukPonvongesprochenerSpracheaufBasisvonGraphem‐Phonem‐TranskripPonen
– Auch:TTS(Text‐to‐Speech)– Input:Text– Graphem‐Phonem‐Umsetzung
– Prosodie(LinguisPscheAnalyse:WortakzentundSatzmelodie)
– Synthese– Output:SynthePschesSprachsignal
– Online‐Demo:hNp://mary.doi.de/
Sprachsynthese
8
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
Kleine, böse Beispiele (teilweise nach Hess, 2007)
• Abkürzungen – NATO, UK, USA, EU, UNIX • Funktionen von Zahlen im Text
• Die Telefonnummer ist 4152637 • Berlin hatte 4152637 Einwohner
• Information über Wortklasse • TRANSfer - to transFER
• UMfahren vs. umFAHRen • morphologische Zerlegung
• beinhalten (be-in-halten oder bein-halten?) • Multilingualität (z.B. Ansagedienst fuer Kinofilme oder südafr. Kauderwelsch: Die (Deutsch=di:) zulu (IsiZulu=sulu) beer (Engl.:=bi:r) is (Afrikaans=es) baie (Malai=ba:ia) good (Afrik.=chut)
Sprachsynthese
9
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Korrekturprogramme– SuchenundKorrigierenvonFehlerninTextdokumenten
– “Nichtwort”‐Korrektur• Lexikonabgleich• Vorschlag:ähnlichsteWörter
10
Korrekturprogramme
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
– KontextabhängigeFehler• “FalschDudasfalschmachst,…”• Verwechslungsmengen
• WahrscheinlichkeitvonWornolgen
– GrammaPk‐Korrekturprogramme,OpPcalCharacterRecogniPon(OCR)Systeme
11
Korrekturprogramme
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
– InformaPonsextrakPon=InformaPonRetrieval(IR)• AuffindenvonInformaPonenimInternetoderinDatenbanken(dt:Volltextsuche)
• Eingabe:Benutzeranfrage• Ausgabe:Textdokumente,Websites,Bilddokumente• Ziele:
– AnteilrelevanterInformaPonmaximieren– AnteilirrelevanterInformaPonminimieren
• Beispiel:Online‐Bib,WebSearchEngines
12
Informationsextraktion
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• ExtrakPonaustextuellen(unstrukturiertenRessourcen)• FüllenvonTemplates,d.h.automaPscheExtrakPonvonInformaPonenüberimVorausbesPmmte
– EnPtäten(Personennamen,Orte,Zeitangaben,etc.)
– Beziehungen(Rollen:Vater(von),Chef(von))– SachverhaltenundEreignissen(FällevonDrogenschmuggel,AkquisiPoneneinesUnternehmens)
• GefüllteTemplates=strukturierteInformaPon
13
IR
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
14
IR: Beispiel
Text
Yesterday,New‐YorkbasedFooInc.announcedtheiracquisiPonofBarCorp.
Template
MergerBetween(company1,company2,date)
MergerBetween(Foo Inc., Bar Corp, day-before-ref_day)
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
15
Frage-Antwort Syteme
– Frage‐AntwortSysteme• EingabeundAusgabenatürlichsprachlicherÄuβerungen• Domänenabhängig
– Einfacher,daDomänenwisseninOntologien(Begriffshierarchien,‐klassifikaPonen)modelliertwerdenkann
– Bsp.Medizin,Autoindustrie
• Domänenunabhängig– “nextstepbeyondsearchengines”
• AntwortenwerdenausKorpora,DatenbankenoderdemWebextrahiert,z.B.hNp://www.answerbus.com
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
16
Text mining
– ErweiterungdesDataMiningaufunstrukturierteTextresourcen
– ErkennenvonMustern(PaNernmatching)durchClustering– Beispiele
– (ausHearst,2003)Extractallthenamesofpeopleandcompaniesthatoccurinnewstextsurroundingthetopicofwirelesstechnologytotrytoinferwhotheplayersareinthatfield
– EinneuerProduktnamesolleingeführtwerden.Prüfe,obdiesesWortbereitsinVerwendungistundwennja,inwelchenBedeutungen(mulPlingualerKontext).
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
17
Textklassifikation
– Auch:Textkategorisierung– AutomaPschesZuordneneineselektronischesDokumentsaufgrundseinesInhaltszueinerodermehrerenvordefiniertenKlassen
– Wissenserwerb• BasiertaufmaschinellemLernen• Merkmalsberechnung,‐auswahlundModellbildung(Klassenprofil)
– KlassifikaPonsalgorithmus• EinordnungneuerDokumenteaufgrundder(gelernten)Wissensbasis(z.B.Spamfilter)
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
18
Textzusammenfassung
– Engl.SummarizaPon
– Ziele• WichPgeStelleninTexten
– IdenPfizieren– Markierenbzw.Extrahieren
– Zueinemneuen,kürzerenTextzusammenfassen
• Erstellungeinesnicht‐redundantenAuszugseinesTexts– Beispiele:
• hNp://www.extractorlive.com/
• hNp://swesum.nada.kth.se/index‐eng.html
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
19
Maschinelle Übersetzung
– MaschinelleÜbersetzung• HistorischdieersteAnwendungderCL• Undwahrscheinlichauchdieschwierigste…• MehrdeuPgkeiten(Ambiguitäten)
– Lexikalisch» Monolingual:Umschlag(Verband,Brief)
» Monolingual:Bank=InsPtuPon,Gebäude,Ort)
» Bilingual:Bank‐>bank/bench‐>Ufer,etc.
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
20
Maschinelle Übersetzung
– Strukturell» IchsahdenMannmitdemFernrohraufdemBerg
» FrauenundKinderunter13Jahren(Weltwissen!)
• SituaPons‐,Welt‐,und/oderDomänenwissennöPg
• Beispiele– hNp://babelfish.altavista.com/
– hNp://google.com/language_tools
– MöglicheBedeutungen/ÜbersetzungeneinzelnerWörtervorherprüfenmitLEO:hNp://dict.leo.org/
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
21
Weitere Anwendungen
– ComputergestützteLexikographieundTerminologie
– Dialogsysteme
– Sprachlehr‐undlernsysteme– ElektronischeKommunikaPonshilfen– Generierungs‐undAuskun}systeme– MulPmodaleSysteme
– …
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• LinguisPscheBeschreibungsebenen– Spracherkennung/Sprachsynthese
• Phonologie(funkPonaleEigenscha}envonLauten)• PhonePk(physikalischeEigenscha}en)
– Textverarbeitung• Morphologie
• Syntax• Morphosyntax
– SemanPscheAnalyse
Linguistik
22
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• PhonologieundPhonePk– AnalysedesEingangs‐Audiosignals– AbleiteneinerWortsequenz– ErzeugungeinesAudiosignals
Phonologie/Phonetik
23
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Morphologie– AnalysederbedeutungsvollenKomponenteneinesWortes(wordformaPon)• Ichfürchte,dufürchtest• Lade‐Raum‐Türen
Morphologie
24
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Syntax– AnalysederstrukturellenBeziehungenzwischenWörtern
– AnordnungundGruppierungvonWörtern
Syntax
25
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• SemanPk– Bedeutung!– LexikalischeundkomposiPonaleSemanPk– BeideshängtengmitdenanderenBeschreibungsebenenzusammen!
Semantik
26
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• PragmaPk/Diskurs– SpracheimKontext(Anaphernauflösung)
– SprachgebrauchumZielezuerreichen– AnalysevonlinguisPschenEinheiten,diegröβeralseinSatzsind
Pragmatik/Diskurs
27
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Undwiewirddasprogrammiert?– DatenvonRegelntrennen(WörtervonSatzstrukturen,MorphemevonWörtern)
– Daten=Lexicon,Strukturen=Regeln– UmfangdesLexikonskannsehrunterschiedlichsein,jenachzugrundeliegenderTheorie
– TeilweisestaPsPscheAnsätze– MEHRINDENNÄCHSTENSEMINARTERMINEN!
Linguistik
28
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
• Studiengang:MedieninformaPk(Bachelor)• Semester:3,4,6
• ECTSPunkte:4• Prüfungsleistung
– Programmierprojekt– PräsentaPon
Organisation
29
MASCHINELLESPRACHVERARBEITUNG–GertrudFaaßBasierendaufFolienvonDr.HZinsmeister
REFERENZEN
I.Cramer & S. Schulte im Walde (2006) Computerlinguistik und Sprachtechnologie. Im Auftrag des Instituts für Deutsche Sprache, Mannheim. Erschienen in der Reihe Studienbibliographien Sprachwissenschaft” im Stauffenburg Verlag Brigitte Narr GmbH, Tübingen: A. Einführung und Orientierungshilfe
Jurafsky and Martin (2008). Speech and Language Processing. 2nd Edition. Upper Saddle River: Prentice-Hall
M.Hearst (2003): What is Text Mining? http://people.ischool.berkeley.edu/ hearst/text-mining.html
W.Hess (2007). Systeme der akustischen Mensch-Maschine-Kommunikation. Folien. www.ikp.uni- bonn.de/dt/lehre/materialien/sammk/sam 3f.pdf
Klabunde et al. (2004). Computerlinguistik und Sprachtechnologie. Heidelberg: Elsevier
30
Top Related