Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems...
-
Upload
katrina-ziegler -
Category
Documents
-
view
107 -
download
0
Transcript of Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems...
GliederungGliederung
Projektziele (Muss-Kriterien)Projektziele (Muss-Kriterien) Architektur d. SystemsArchitektur d. Systems FestivalFestival als Modul als Modul Erstellen einer Stimme für eine begrenzte Erstellen einer Stimme für eine begrenzte
DomäneDomäne SpezifikationSpezifikation Ausblick – mögliche Erweiterungen Ausblick – mögliche Erweiterungen
(Kann-Kriterien)(Kann-Kriterien)
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Implementierung einer Internet-basierten Anwendung, Implementierung einer Internet-basierten Anwendung, die Anfragen des Benutzers (an eine Datenbank) in die Anfragen des Benutzers (an eine Datenbank) in natürlicher Sprache beantwortet.natürlicher Sprache beantwortet.
modularer Aufbau: relativ einfache Übertragung auf modularer Aufbau: relativ einfache Übertragung auf verschiedene Wissensbasen möglichverschiedene Wissensbasen möglich Zwei Domänen: Wetter und VerkehrsauskunftZwei Domänen: Wetter und Verkehrsauskunft
Erstellen einer eigenen Stimme für eine solche Erstellen einer eigenen Stimme für eine solche Anwendung mit begrenzter Domäne Anwendung mit begrenzter Domäne (begrenzte Anzahl von vorkommenden Wörtern)(begrenzte Anzahl von vorkommenden Wörtern)
mpeg-Codierung der gesprochenen Antwort (mpeg-Codierung der gesprochenen Antwort (lamelame))
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
ProjektzieleProjektziele
Zugriff auf externe Informationssysteme Verwaltung der Kommunikation des Benutzers mit
diesem externen System Bearbeitung des gelieferten Ergebnisses Extraktion der Information aus dem Ergebnis Generierung des natürlichsprachlichen Ausdrucks als
Sable/XML-Datei (Selektion des XML-Templates) Übergabe an festival Ausgabe als mpeg-Datei
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
VorgehensweiseVorgehensweise
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SchematischeSchematischeÜbersicht:Übersicht:
Rück-fragen
festival
User
Browser
Server
Datenbank / Web
Textgenerierung
SprachausgabeUser-interface
Sprach-synthese
Informations-verarbeitung
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Festival Festival
Sprachsynthese-System / ModulSprachsynthese-System / Modul Centre for Speech Technology Research (CSTR),Centre for Speech Technology Research (CSTR),
University of EdinburghUniversity of Edinburgh Scheme-basierter Kommandozeileninterpreter: SIODScheme-basierter Kommandozeileninterpreter: SIOD Ausspracheparameter: SABLE / XML -MarkupAusspracheparameter: SABLE / XML -Markup erstellen + einbinden: eigene Stimmenerstellen + einbinden: eigene Stimmen einbinden: externer Waveform-Generator: MBROLAeinbinden: externer Waveform-Generator: MBROLA
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Festival, Stufen der Festival, Stufen der Sprachsynthese Sprachsynthese
Text analysis
Linguistic analysis
Waveform generator
SABLEinput
MBROLA Our_voice
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Festival, Stufen der Sprachsyntese I:Festival, Stufen der Sprachsyntese I:
Textanalysis:Textanalysis: •chunking :tokenzing, untterances (sentences)•normalization / desambiguierung:
z.B.On May 5 1996, the university bought 1996 computers
verschiedene Aussprache von Zahlen je nach Verwendung/Kontext
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Festival, Stufen der Sprachsyntese II:Festival, Stufen der Sprachsyntese II:
Linguistic Analysis:Linguistic Analysis: •Word pronunciation
•BOMB: Lexikon und Regelnkontextabh. Features wie /r/-Auslaut
im UK-Englischen nur vor Vokal ausgesprochenz.B. far away
•prosody: •phrasing, duration, intonation, power
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Festival, Stufen der Sprachsyntese III:Festival, Stufen der Sprachsyntese III:
Waveform Generation:Waveform Generation: •Mit externem Waveform-Generator:
•festival: Text analysis + linguistic Analysis
•MBROLA: synthetisiert Sprache aus Phonen und Informationen über Dauer und Pitch
XML-Markup für SprachsyntheseXML-Markup für Sprachsynthese
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SABLE:SABLE:
<SABLE><SPEAKER NAME="male1">The boy saw the girl in the park <BREAK/> with the telescope. Good morning <BREAK /> My name is Stuart, which is spelled<RATE SPEED="-40%"> <SAYAS MODE="literal">stuart
</SAYAS> </RATE>though some people pronounce it <PRON SUB="stoo art">stuart</PRON>. My telephone number is <SAYAS MODE="literal">2787</SAYAS>.</SPEAKER></SABLE>
SPEAKER Auswahl einer Stimme Attribut/Parameter: NAME z.B.
male1, male2, female1, etc.
<SPEAKER name="male1"> ... Gesamter gesprochener Text ...</SPEAKER>
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SABLE: Tags 1SABLE: Tags 1
BREAK: Sprechpause Attribut LEVEL: Die Länge der Pause
kann spezifiziert sein durch: Large, Medium, Small oder number.
Einstelliger Tag, enthält schließendes „/“
<BREAK LEVEL="LARGE"/>
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SABLE: Tags 2SABLE: Tags 2
SAYAS: identifiziert Tokens Attribut MODE : literal, date, time,
phone, net, postal, currency, math, fraction, measure, ordinal, cardinal, or name.
z.B. <SAYAS MODE="date"> 1998 </SAYAS>
<SAYAS MODE="cardinal"> 1998 </SAYAS>
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SABLE: Tags 3SABLE: Tags 3
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SABLE: Tags 4SABLE: Tags 4
LANGUAGE <LANGUAGE id="english"> ...</LANGUAGE>
PRON <PRON SUB="toe maatoe">tomato</PRON>
RATE The address is <RATE SPEED="-40%">10 Main Street </RATE>.
VOLUME Please speak more <VOLUMELEVEL="loud">loudly</VOLUME>, exceptwhen I ask you to speak <VOLUMELEVEL="quiet">in a quietvoice</VOLUME>.
input: list of phonemes + prosodic information (duration of phonemes and a piecewise linear description of pitch) != TTS
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
MBROLAMBROLA
e 40 0 102m 50 b 50 r 30 @U 80 5 119 35 126 70 140l 50@ 50 50 173
Begrenzte DomäneBegrenzte Domäne (limited domain): (limited domain): die Anzahl der zu synthetisierenden Wörter ist beschränktdie Anzahl der zu synthetisierenden Wörter ist beschränkt keine Eigennamen: offene Klassekeine Eigennamen: offene Klasse wenn Wort nicht in Trainingsdaten auftaucht, kann es wenn Wort nicht in Trainingsdaten auftaucht, kann es
nicht synthetisiert werdennicht synthetisiert werden
Vorgehensweise:Vorgehensweise:– Sätze auswählenSätze auswählen– Sätze aufzeichnenSätze aufzeichnen– Tonmaterial auszeichnen: Phone (labels)Tonmaterial auszeichnen: Phone (labels)– Grundfrequenz extrahieren (range of pitch)Grundfrequenz extrahieren (range of pitch)– Datenbank für Synthese generierenDatenbank für Synthese generieren
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
festival-Stimme für eine begrenzte Domänefestival-Stimme für eine begrenzte Domäne
The time is now, almost twenty past four, in the morningThe time is now, almost twenty past four, in the morning
The time is now, exactly twenty-five past five, in the The time is now, exactly twenty-five past five, in the morningmorning
The time is now, just after half past six, in the morningThe time is now, just after half past six, in the morning
The time is now, alsmot twenty to eight, in the morningThe time is now, alsmot twenty to eight, in the morning
es sollen alle Wörter vorkommenes sollen alle Wörter vorkommen gleiches Wort 2-5 xgleiches Wort 2-5 x
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
festival-Stimme für eine begrenzte Domäne : festival-Stimme für eine begrenzte Domäne :
Auswahl der SätzeAuswahl der Sätze
Optimal:Optimal:– professioneller Sprecherprofessioneller Sprecher
(exakte, konsistente Aussprache)(exakte, konsistente Aussprache)– professionelles Tonstudioprofessionelles Tonstudio
schalldichte Umgebung ohne Echoschalldichte Umgebung ohne Echo möglich:möglich:
– PC mit passabler SoundkartePC mit passabler Soundkarte– wichtig: gutes Mikrofonwichtig: gutes Mikrofon
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Sätze aufzeichnenSätze aufzeichnen
Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone lokalisiert.lokalisiert.
Von Hand nachbearbeitenVon Hand nachbearbeiten
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnenTonmaterial auszeichnen
festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Grundfrequenz extrahierenGrundfrequenz extrahieren
Männliche StimmeMännliche Stimme– 80-200 Hz , default 100 Hz80-200 Hz , default 100 Hz
Weibliche StimmeWeibliche Stimme– 120-300 Hz, default 200 Hz120-300 Hz, default 200 Hz
Typisch: für einige Äußerungen sehr gut, für andere sehr Typisch: für einige Äußerungen sehr gut, für andere sehr schlechtschlecht
kann nur diejenigen Phrasen synthetisieren, für die kann nur diejenigen Phrasen synthetisieren, für die Beispiele vorhanden warenBeispiele vorhanden waren
Probleme:Probleme:– Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung – Unkorrekte / inkonsistente AusspracheUnkorrekte / inkonsistente Aussprache– Grundfrequenz-Bestimmung nicht immer gutGrundfrequenz-Bestimmung nicht immer gut– immer: Phon-Auszeichnung von Hand nachbessernimmer: Phon-Auszeichnung von Hand nachbessern
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne AnmerkungenAnmerkungen
Spezifikation I: Allgemeine SpezifikationSpezifikation I: Allgemeine Spezifikation
Spezifikation II: Domänenspezifische SpezifikationSpezifikation II: Domänenspezifische Spezifikation– Domäne 1: Domäne 1: VRNVRN – Verkehrsauskunft – Verkehrsauskunft– Domäne 2: Domäne 2: DonnerwetterDonnerwetter - Wettervorhersage - Wettervorhersage
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
SpezifikationSpezifikation
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Spezifikation I: Allgemeine Architektur Spezifikation I: Allgemeine Architektur
User
Speech Synthesis
Server URL
DB
html Parser
I nfo
-attribut1 -...
+methode1() ...
Templates: Slots, Filler (Sable tags)
Text to Speech
Domäne 1: Domäne 1: VRNVRN
Auswahlmöglichkeiten:Auswahlmöglichkeiten:– Start: Start:
» OrtOrt» HaltestellentypHaltestellentyp» HaltestellennameHaltestellenname
– Ziel: Ziel: » OrtOrt» HaltestellentypHaltestellentyp» HaltestellennameHaltestellenname
– Abfahrts-/AnkunftszeitAbfahrts-/Ankunftszeit– DatumDatum
Web-Web-InterfaceInterface
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
www.vrn.de
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Klassendiagramm für die Domäne Klassendiagramm für die Domäne VRNVRN
11 1..*1..*
-Verbindungsmenge-Verbindungsmenge
VerbindungAuskunft
+startOrt
+startHaltestelle
+startHaltestTyp
+zielOrt
+zielHaltestelle
+zielHaltestTyp
+verkehrsmittel
+zielZeit
+startZeit
+dauer()
+auskunft()
-anzahlVerbindungen
-templateFehler
-templateMitUmstieg
-templateOhneUmstieg
+erstelleVerbindungen()
Templates:Templates:– Template1:Template1:
Ihre Verbindung:Ihre Verbindung:Die Fahrt von START, HALTESTELLE_START nach ZIEL, Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit VERKEHRSMITTEL. VERKEHRSMITTEL. (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) in VERKEHRSMITTEL(NR) um.)*in VERKEHRSMITTEL(NR) um.)*Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL ankommen.ankommen.
– Template2:Template2:Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Bitte versuchen Sie es zu einem späteren Zeitpunkt noch Bitte versuchen Sie es zu einem späteren Zeitpunkt noch einmal.einmal.
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Templates:Templates:
Template1:Template1:<SABLE><SPEAKER NAME="male1"><SABLE><SPEAKER NAME="male1">
Ihre Verbindung:<BREAK/>Ihre Verbindung:<BREAK/>Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um <SAYAS <SAYAS
MODE=“time"> MODE=“time"> ABFAHRTSZEITABFAHRTSZEIT</SAYAS></SAYAS> mit VERKEHRSMITTEL. mit VERKEHRSMITTEL.
<BREAK/><BREAK/>
(Bitte steigen Sie in UMSTIEGSORT(NR) um (Bitte steigen Sie in UMSTIEGSORT(NR) um <SAYAS MODE=“time"> <SAYAS MODE=“time"> UMSTIEGSZEIT(NR) UMSTIEGSZEIT(NR) </SAYAS></SAYAS> in in VERKEHRSMITTEL(NR) um.)*VERKEHRSMITTEL(NR) um.)*<BREAK/><BREAK/>Sie werden voraussichtlich um Sie werden voraussichtlich um <SAYAS MODE=“time"> <SAYAS MODE=“time"> ANKUNFTSZEIT ANKUNFTSZEIT </SAYAS></SAYAS> in ZIEL ankommen. in ZIEL ankommen.
</SPEAKER></SPEAKER></SABLE></SABLE>
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Erweitertes Template – mit Sable-TagsErweitertes Template – mit Sable-Tags
Beispieltext 1: Ohne UmsteigenBeispieltext 1: Ohne Umsteigen
Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 21 Uhr 07 mit der Regionalbahn 23053 in beginnt um 21 Uhr 07 mit der Regionalbahn 23053 in Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 in Heidelberg ankommen.in Heidelberg ankommen.
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Beispiel 1:Beispiel 1:
Ohne Umsteigen (VRN)Ohne Umsteigen (VRN)
Beispieltext 2: Mit UmsteigenBeispieltext 2: Mit Umsteigen
Ihre Verbindung: Ihre Verbindung: Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 11 Uhr 11 mit der Regionalbahn 28374 in Richtung um 11 Uhr 11 mit der Regionalbahn 28374 in Richtung Germersheim.Germersheim.Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Uhr 21 in die Regionalbahn 28191 in Richtung Stuttgart um. Uhr 21 in die Regionalbahn 28191 in Richtung Stuttgart um. Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg ankommen.ankommen.
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Beispiel 2:Beispiel 2:
Mit Umsteigen (VRN1)Mit Umsteigen (VRN1)
Domäne 2: Domäne 2: DonnerwetterDonnerwetter
Einfache Auswahl:Einfache Auswahl:– StadtStadt– Kurzfristige VorhersageKurzfristige Vorhersage– Längerfristige VorhersageLängerfristige Vorhersage
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
www.donnerwetter.de
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Einmaliges Einlesen in Einmaliges Einlesen in Datenbank und jeweiliges Datenbank und jeweiliges Auslesen je nach Anfrage.Auslesen je nach Anfrage.
Speichern der Sätze in (Text-)Datenbank:Speichern der Sätze in (Text-)Datenbank:
Diverse Fehler-Templates, Diverse Fehler-Templates, z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc. z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc.
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
TemplatesTemplates
StadtStadt Kurzfristige VorhersageKurzfristige Vorhersage
AachenAachen Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 9 Grad ab.9 Grad ab.
AugsburgAugsburg Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab.10 Grad ab.
...... ......
Gesprochener Text:Gesprochener Text:Die aktuelle Wettervorhersage für Mannheim für den Die aktuelle Wettervorhersage für Mannheim für den 1.2.2002. Bis zum Mittag wechseln sich Sonne und 1.2.2002. Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab.leichter Bewölkung auf 10 Grad ab.
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Beispiel Beispiel DonnerwetterDonnerwetter
Wettervorhersage für Wettervorhersage für Mannheim (1. Feb. 2002)Mannheim (1. Feb. 2002)
Demo-Implementation auf WebserverDemo-Implementation auf Webserver
Erweiterung zu einem DialogsystemErweiterung zu einem Dialogsystem
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Ausblick und mögliche Erweiterungen Ausblick und mögliche Erweiterungen
Sprachsynthese: Sprachsynthese: FestivalFestival
Spracherkennung: Spracherkennung: Sphinx IISphinx II
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Erweiterung zu einem Dialogsystem Erweiterung zu einem Dialogsystem
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Architektur eines natürlichsprachlichen Architektur eines natürlichsprachlichen Dialogsystems:Dialogsystems:
Anwen-dungs-daten
Spracherkennung Parsing Kontextanalyse
Kontext-verarbeitung
SprachsyntheseText-
generierung
Dialog-steuerung
Diskurshistorie
Sprachverstehen
Sprachgenerierung
Textgespr. Sprache
System-ausgabe
Benutzer-eingabe
In: In: ComputerlinguistikComputerlinguistik, 2001, 2001
Entwickelt an der Entwickelt an der Carnegie Mellon University (CMU)Carnegie Mellon University (CMU) Erkenner für kontinuierliche SpracheErkenner für kontinuierliche Sprache Open Source (Apache-ähnliche Lizenz)Open Source (Apache-ähnliche Lizenz) echtzeitfähigechtzeitfähig sprecherunabhängigsprecherunabhängig plattformunabhängig (Linux/Unix/Windows)plattformunabhängig (Linux/Unix/Windows) Gibt eine Menge von bewerteten Hypothesen zurück Gibt eine Menge von bewerteten Hypothesen zurück
(N-best List)(N-best List)
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Sphinx II:Sphinx II:
Bsp. Bsp. CommunicatorCommunicatorAuskunfts- und Reservierungssystem für Auskunfts- und Reservierungssystem für Flüge (Nordamerika)Flüge (Nordamerika)
ELEVEN ELEVEN AX L EH V AX NAX L EH V AX N ELEVEN(2) ELEVEN(2) IY L EH V AX NIY L EH V AX N EXIT EXIT EH G Z AX TEH G Z AX T EXIT(2) EXIT(2) EH K S AX TEH K S AX T
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Erstellen eines Lexikons (.dic-File):Erstellen eines Lexikons (.dic-File):
�Verschiedene Aufnahmen werden mit der Verschiedene Aufnahmen werden mit der Auto-Labeling-Funktion von Sphinx Auto-Labeling-Funktion von Sphinx analysiert analysiert �Lexikon ist eine Zuordnung aus Wortform Lexikon ist eine Zuordnung aus Wortform und erkannten Phonenund erkannten Phonen
N-gramN-gram models models, N ist normalerweise drei:, N ist normalerweise drei:– Beschreibt die Wahrscheinlichkeit einer Sequenz von WörternBeschreibt die Wahrscheinlichkeit einer Sequenz von Wörtern– Beispiel:Beispiel:
» 0.7782 ARE YOU LISTENING0.7782 ARE YOU LISTENING» 0.7782 ARE YOU READY0.7782 ARE YOU READY» 0.3010 BACKWARD FIVE METERS0.3010 BACKWARD FIVE METERS» 0.3010 BACKWARD ONE METER0.3010 BACKWARD ONE METER» 0.3010 BACKWARD TWO METERS0.3010 BACKWARD TWO METERS
Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Angabe von kontextspezifischen Angabe von kontextspezifischen Informationen/Language Model Files:Informationen/Language Model Files:
ReferencesReferences
festivalfestival-Dokumentation-Dokumentation– http://http://wwwwww..cstrcstr.ed..ed.acac..ukuk//projectsprojects//festivalfestival//manualmanual//festivalfestival__toctoc..htmlhtml
festvoxfestvox– http://http://festvoxfestvox..orgorg//festvoxfestvox//festvoxfestvox__toctoc..htmlhtml
IMS German Version of festivalIMS German Version of festival – Dokumentation – Dokumentation– http://http://wwwwww..imsims.uni-.uni-stuttgartstuttgart.de/.de/phonetikphonetik//synthesissynthesis//indexindex..htmlhtml
Limited Domain VoicesLimited Domain Voices– http://http://wwwwww-2.-2.cscs..cmucmu..eduedu/~/~awbawb//paperspapers/ICSLP2000_/ICSLP2000_ldomldom//indexindex..htmlhtml
Sphinx IISphinx II – http://http://wwwwww..speechspeech..cscs..cmucmu..eduedu//sphinxsphinx/doc/Sphinx./doc/Sphinx.htmlhtml
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg
Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne
EndeEnde