Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems...

39
Gliederung Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival Festival als Modul als Modul Erstellen einer Stimme für eine Erstellen einer Stimme für eine begrenzte Domäne begrenzte Domäne Spezifikation Spezifikation Ausblick – mögliche Erweiterungen Ausblick – mögliche Erweiterungen (Kann-Kriterien) (Kann-Kriterien) Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus Rüggenmann Klaus Rüggenmann Studienprojekt 2001/02 Studienprojekt 2001/02 Uni Heidelberg Uni Heidelberg Informationsbeschaffung, Sprachgenerierung und Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachsynthese in einer begrenzten Domäne in einer begrenzten Domäne

Transcript of Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems...

Page 1: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

GliederungGliederung

Projektziele (Muss-Kriterien)Projektziele (Muss-Kriterien) Architektur d. SystemsArchitektur d. Systems FestivalFestival als Modul als Modul Erstellen einer Stimme für eine begrenzte Erstellen einer Stimme für eine begrenzte

DomäneDomäne SpezifikationSpezifikation Ausblick – mögliche Erweiterungen Ausblick – mögliche Erweiterungen

(Kann-Kriterien)(Kann-Kriterien)

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Page 2: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Implementierung einer Internet-basierten Anwendung, Implementierung einer Internet-basierten Anwendung, die Anfragen des Benutzers (an eine Datenbank) in die Anfragen des Benutzers (an eine Datenbank) in natürlicher Sprache beantwortet.natürlicher Sprache beantwortet.

modularer Aufbau: relativ einfache Übertragung auf modularer Aufbau: relativ einfache Übertragung auf verschiedene Wissensbasen möglichverschiedene Wissensbasen möglich Zwei Domänen: Wetter und VerkehrsauskunftZwei Domänen: Wetter und Verkehrsauskunft

Erstellen einer eigenen Stimme für eine solche Erstellen einer eigenen Stimme für eine solche Anwendung mit begrenzter Domäne Anwendung mit begrenzter Domäne (begrenzte Anzahl von vorkommenden Wörtern)(begrenzte Anzahl von vorkommenden Wörtern)

mpeg-Codierung der gesprochenen Antwort (mpeg-Codierung der gesprochenen Antwort (lamelame))

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

ProjektzieleProjektziele

Page 3: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Zugriff auf externe Informationssysteme Verwaltung der Kommunikation des Benutzers mit

diesem externen System Bearbeitung des gelieferten Ergebnisses Extraktion der Information aus dem Ergebnis Generierung des natürlichsprachlichen Ausdrucks als

Sable/XML-Datei (Selektion des XML-Templates) Übergabe an festival Ausgabe als mpeg-Datei

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

VorgehensweiseVorgehensweise

Page 4: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SchematischeSchematischeÜbersicht:Übersicht:

Rück-fragen

festival

User

Browser

Server

Datenbank / Web

Textgenerierung

SprachausgabeUser-interface

Sprach-synthese

Informations-verarbeitung

Page 5: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Festival Festival

Sprachsynthese-System / ModulSprachsynthese-System / Modul Centre for Speech Technology Research (CSTR),Centre for Speech Technology Research (CSTR),

University of EdinburghUniversity of Edinburgh Scheme-basierter Kommandozeileninterpreter: SIODScheme-basierter Kommandozeileninterpreter: SIOD Ausspracheparameter: SABLE / XML -MarkupAusspracheparameter: SABLE / XML -Markup erstellen + einbinden: eigene Stimmenerstellen + einbinden: eigene Stimmen einbinden: externer Waveform-Generator: MBROLAeinbinden: externer Waveform-Generator: MBROLA

Page 6: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Festival, Stufen der Festival, Stufen der Sprachsynthese Sprachsynthese

Text analysis

Linguistic analysis

Waveform generator

SABLEinput

MBROLA Our_voice

Page 7: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Festival, Stufen der Sprachsyntese I:Festival, Stufen der Sprachsyntese I:

Textanalysis:Textanalysis: •chunking :tokenzing, untterances (sentences)•normalization / desambiguierung:

z.B.On May 5 1996, the university bought 1996 computers

verschiedene Aussprache von Zahlen je nach Verwendung/Kontext

Page 8: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Festival, Stufen der Sprachsyntese II:Festival, Stufen der Sprachsyntese II:

Linguistic Analysis:Linguistic Analysis: •Word pronunciation

•BOMB: Lexikon und Regelnkontextabh. Features wie /r/-Auslaut

im UK-Englischen nur vor Vokal ausgesprochenz.B. far away

•prosody: •phrasing, duration, intonation, power

Page 9: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Festival, Stufen der Sprachsyntese III:Festival, Stufen der Sprachsyntese III:

Waveform Generation:Waveform Generation: •Mit externem Waveform-Generator:

•festival: Text analysis + linguistic Analysis

•MBROLA: synthetisiert Sprache aus Phonen und Informationen über Dauer und Pitch

Page 10: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

XML-Markup für SprachsyntheseXML-Markup für Sprachsynthese

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SABLE:SABLE:

<SABLE><SPEAKER NAME="male1">The boy saw the girl in the park <BREAK/> with the telescope. Good morning <BREAK /> My name is Stuart, which is spelled<RATE SPEED="-40%"> <SAYAS MODE="literal">stuart

</SAYAS> </RATE>though some people pronounce it <PRON SUB="stoo art">stuart</PRON>. My telephone number is <SAYAS MODE="literal">2787</SAYAS>.</SPEAKER></SABLE>

Page 11: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

SPEAKER Auswahl einer Stimme Attribut/Parameter: NAME z.B.

male1, male2, female1, etc.

<SPEAKER name="male1"> ... Gesamter gesprochener Text ...</SPEAKER>

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SABLE: Tags 1SABLE: Tags 1

Page 12: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

BREAK: Sprechpause Attribut LEVEL: Die Länge der Pause

kann spezifiziert sein durch: Large, Medium, Small oder number.

Einstelliger Tag, enthält schließendes „/“

<BREAK LEVEL="LARGE"/>

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SABLE: Tags 2SABLE: Tags 2

Page 13: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

SAYAS: identifiziert Tokens Attribut MODE : literal, date, time,

phone, net, postal, currency, math, fraction, measure, ordinal, cardinal, or name.

z.B. <SAYAS MODE="date"> 1998 </SAYAS>

<SAYAS MODE="cardinal"> 1998 </SAYAS>

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SABLE: Tags 3SABLE: Tags 3

Page 14: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SABLE: Tags 4SABLE: Tags 4

LANGUAGE <LANGUAGE id="english"> ...</LANGUAGE>

PRON <PRON SUB="toe maatoe">tomato</PRON>

RATE The address is <RATE SPEED="-40%">10 Main Street </RATE>.

VOLUME Please speak more <VOLUMELEVEL="loud">loudly</VOLUME>, exceptwhen I ask you to speak <VOLUMELEVEL="quiet">in a quietvoice</VOLUME>.

Page 15: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

input: list of phonemes + prosodic information (duration of phonemes and a piecewise linear description of pitch) != TTS

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

MBROLAMBROLA

e 40 0 102m 50 b 50 r 30 @U 80 5 119 35 126 70 140l 50@ 50 50 173

Page 16: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Begrenzte DomäneBegrenzte Domäne (limited domain): (limited domain): die Anzahl der zu synthetisierenden Wörter ist beschränktdie Anzahl der zu synthetisierenden Wörter ist beschränkt keine Eigennamen: offene Klassekeine Eigennamen: offene Klasse wenn Wort nicht in Trainingsdaten auftaucht, kann es wenn Wort nicht in Trainingsdaten auftaucht, kann es

nicht synthetisiert werdennicht synthetisiert werden

Vorgehensweise:Vorgehensweise:– Sätze auswählenSätze auswählen– Sätze aufzeichnenSätze aufzeichnen– Tonmaterial auszeichnen: Phone (labels)Tonmaterial auszeichnen: Phone (labels)– Grundfrequenz extrahieren (range of pitch)Grundfrequenz extrahieren (range of pitch)– Datenbank für Synthese generierenDatenbank für Synthese generieren

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

festival-Stimme für eine begrenzte Domänefestival-Stimme für eine begrenzte Domäne

Page 17: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

The time is now, almost twenty past four, in the morningThe time is now, almost twenty past four, in the morning

The time is now, exactly twenty-five past five, in the The time is now, exactly twenty-five past five, in the morningmorning

The time is now, just after half past six, in the morningThe time is now, just after half past six, in the morning

The time is now, alsmot twenty to eight, in the morningThe time is now, alsmot twenty to eight, in the morning

es sollen alle Wörter vorkommenes sollen alle Wörter vorkommen gleiches Wort 2-5 xgleiches Wort 2-5 x

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

festival-Stimme für eine begrenzte Domäne : festival-Stimme für eine begrenzte Domäne :

Auswahl der SätzeAuswahl der Sätze

Page 18: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Optimal:Optimal:– professioneller Sprecherprofessioneller Sprecher

(exakte, konsistente Aussprache)(exakte, konsistente Aussprache)– professionelles Tonstudioprofessionelles Tonstudio

schalldichte Umgebung ohne Echoschalldichte Umgebung ohne Echo möglich:möglich:

– PC mit passabler SoundkartePC mit passabler Soundkarte– wichtig: gutes Mikrofonwichtig: gutes Mikrofon

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Sätze aufzeichnenSätze aufzeichnen

Page 19: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone Innerhalb der wav-Datei werden die Bereiche der einzelnen Phone lokalisiert.lokalisiert.

Von Hand nachbearbeitenVon Hand nachbearbeiten

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Tonmaterial auszeichnenTonmaterial auszeichnen

festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne Grundfrequenz extrahierenGrundfrequenz extrahieren

Männliche StimmeMännliche Stimme– 80-200 Hz , default 100 Hz80-200 Hz , default 100 Hz

Weibliche StimmeWeibliche Stimme– 120-300 Hz, default 200 Hz120-300 Hz, default 200 Hz

Page 20: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Typisch: für einige Äußerungen sehr gut, für andere sehr Typisch: für einige Äußerungen sehr gut, für andere sehr schlechtschlecht

kann nur diejenigen Phrasen synthetisieren, für die kann nur diejenigen Phrasen synthetisieren, für die Beispiele vorhanden warenBeispiele vorhanden waren

Probleme:Probleme:– Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung Nebengeräusche (Lippen) -> falsche Phon-Auszeichnung – Unkorrekte / inkonsistente AusspracheUnkorrekte / inkonsistente Aussprache– Grundfrequenz-Bestimmung nicht immer gutGrundfrequenz-Bestimmung nicht immer gut– immer: Phon-Auszeichnung von Hand nachbessernimmer: Phon-Auszeichnung von Hand nachbessern

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

festival-Stimme für eine begrenzte Domäne festival-Stimme für eine begrenzte Domäne AnmerkungenAnmerkungen

Page 21: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Spezifikation I: Allgemeine SpezifikationSpezifikation I: Allgemeine Spezifikation

Spezifikation II: Domänenspezifische SpezifikationSpezifikation II: Domänenspezifische Spezifikation– Domäne 1: Domäne 1: VRNVRN – Verkehrsauskunft – Verkehrsauskunft– Domäne 2: Domäne 2: DonnerwetterDonnerwetter - Wettervorhersage - Wettervorhersage

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

SpezifikationSpezifikation

Page 22: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Spezifikation I: Allgemeine Architektur Spezifikation I: Allgemeine Architektur

User

Speech Synthesis

Server URL

DB

html Parser

I nfo

-attribut1 -...

+methode1() ...

Templates: Slots, Filler (Sable tags)

Text to Speech

Page 23: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Domäne 1: Domäne 1: VRNVRN

Auswahlmöglichkeiten:Auswahlmöglichkeiten:– Start: Start:

» OrtOrt» HaltestellentypHaltestellentyp» HaltestellennameHaltestellenname

– Ziel: Ziel: » OrtOrt» HaltestellentypHaltestellentyp» HaltestellennameHaltestellenname

– Abfahrts-/AnkunftszeitAbfahrts-/Ankunftszeit– DatumDatum

Web-Web-InterfaceInterface

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

www.vrn.de

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Page 24: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Klassendiagramm für die Domäne Klassendiagramm für die Domäne VRNVRN

11 1..*1..*

-Verbindungsmenge-Verbindungsmenge

VerbindungAuskunft

+startOrt

+startHaltestelle

+startHaltestTyp

+zielOrt

+zielHaltestelle

+zielHaltestTyp

+verkehrsmittel

+zielZeit

+startZeit

+dauer()

+auskunft()

-anzahlVerbindungen

-templateFehler

-templateMitUmstieg

-templateOhneUmstieg

+erstelleVerbindungen()

Page 25: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Templates:Templates:– Template1:Template1:

Ihre Verbindung:Ihre Verbindung:Die Fahrt von START, HALTESTELLE_START nach ZIEL, Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit HALTESTELLE_ZIEL, beginnt um ABFAHRTSZEIT mit VERKEHRSMITTEL.  VERKEHRSMITTEL.  (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) (Bitte steigen Sie in UMSTIEGSORT(NR) um UMSTIEGSZEIT(NR) in VERKEHRSMITTEL(NR) um.)*in VERKEHRSMITTEL(NR) um.)*Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL Sie werden voraussichtlich um ANKUNFTSZEIT in ZIEL ankommen.ankommen.

– Template2:Template2:Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Leider kann Ihre Anfrage im Moment nicht bearbeitet werden. Bitte versuchen Sie es zu einem späteren Zeitpunkt noch Bitte versuchen Sie es zu einem späteren Zeitpunkt noch einmal.einmal.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Templates:Templates:

Page 26: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Template1:Template1:<SABLE><SPEAKER NAME="male1"><SABLE><SPEAKER NAME="male1">

Ihre Verbindung:<BREAK/>Ihre Verbindung:<BREAK/>Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um Die Fahrt von START, HALTESTELLE_START nach ZIEL, HALTESTELLE_ZIEL, beginnt um <SAYAS <SAYAS

MODE=“time"> MODE=“time"> ABFAHRTSZEITABFAHRTSZEIT</SAYAS></SAYAS> mit VERKEHRSMITTEL.  mit VERKEHRSMITTEL.  

<BREAK/><BREAK/>

(Bitte steigen Sie in UMSTIEGSORT(NR) um (Bitte steigen Sie in UMSTIEGSORT(NR) um <SAYAS MODE=“time"> <SAYAS MODE=“time"> UMSTIEGSZEIT(NR) UMSTIEGSZEIT(NR) </SAYAS></SAYAS> in in VERKEHRSMITTEL(NR) um.)*VERKEHRSMITTEL(NR) um.)*<BREAK/><BREAK/>Sie werden voraussichtlich um Sie werden voraussichtlich um <SAYAS MODE=“time"> <SAYAS MODE=“time"> ANKUNFTSZEIT ANKUNFTSZEIT </SAYAS></SAYAS> in ZIEL ankommen. in ZIEL ankommen.

</SPEAKER></SPEAKER></SABLE></SABLE>

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Erweitertes Template – mit Sable-TagsErweitertes Template – mit Sable-Tags

Page 27: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Beispieltext 1: Ohne UmsteigenBeispieltext 1: Ohne Umsteigen

Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Ihre Verbindung: Die Fahrt von Mannheim, Haltestelle Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, Hauptbahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 21 Uhr 07 mit der Regionalbahn 23053 in beginnt um 21 Uhr 07 mit der Regionalbahn 23053 in Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 Richtung Karlsruhe. Sie werden voraussichtlich um 21 Uhr 22 in Heidelberg ankommen.in Heidelberg ankommen.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Beispiel 1:Beispiel 1:

Ohne Umsteigen (VRN)Ohne Umsteigen (VRN)

Page 28: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Beispieltext 2: Mit UmsteigenBeispieltext 2: Mit Umsteigen

Ihre Verbindung: Ihre Verbindung: Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Die Fahrt von Ludwigshafen Mundenheim, Haltestelle Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt Bahnhof, nach Heidelberg, Haltestelle Hauptbahnhof, beginnt um 11 Uhr 11 mit der Regionalbahn 28374 in Richtung um 11 Uhr 11 mit der Regionalbahn 28374 in Richtung Germersheim.Germersheim.Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Bitte steigen Sie in Limburgerhof, Haltestelle Hanhof, um 11 Uhr 21 in die Regionalbahn 28191 in Richtung Stuttgart um. Uhr 21 in die Regionalbahn 28191 in Richtung Stuttgart um. Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg Sie werden voraussichtlich um 11 Uhr 57 in Heidelberg ankommen.ankommen.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Beispiel 2:Beispiel 2:

Mit Umsteigen (VRN1)Mit Umsteigen (VRN1)

Page 29: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Domäne 2: Domäne 2: DonnerwetterDonnerwetter

Einfache Auswahl:Einfache Auswahl:– StadtStadt– Kurzfristige VorhersageKurzfristige Vorhersage– Längerfristige VorhersageLängerfristige Vorhersage

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

www.donnerwetter.de

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Einmaliges Einlesen in Einmaliges Einlesen in Datenbank und jeweiliges Datenbank und jeweiliges Auslesen je nach Anfrage.Auslesen je nach Anfrage.

Page 30: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Speichern der Sätze in (Text-)Datenbank:Speichern der Sätze in (Text-)Datenbank:

Diverse Fehler-Templates, Diverse Fehler-Templates, z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc. z.B. keine aktuellen Daten vorhanden, Bitte später noch einmal versuchen etc.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

TemplatesTemplates

StadtStadt Kurzfristige VorhersageKurzfristige Vorhersage

AachenAachen Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf heiter bis wolkig. Maximal 16 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 9 Grad ab.9 Grad ab.

AugsburgAugsburg Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab.10 Grad ab.

...... ......

Page 31: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Gesprochener Text:Gesprochener Text:Die aktuelle Wettervorhersage für Mannheim für den Die aktuelle Wettervorhersage für Mannheim für den 1.2.2002. Bis zum Mittag wechseln sich Sonne und 1.2.2002. Bis zum Mittag wechseln sich Sonne und Wolken ab, auch zum Nachmittag ist es dann heiter bis Wolken ab, auch zum Nachmittag ist es dann heiter bis wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei wolkig. Maximal 18 Grad. In der Nacht kühlt es sich bei leichter Bewölkung auf 10 Grad ab.leichter Bewölkung auf 10 Grad ab.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Beispiel Beispiel DonnerwetterDonnerwetter

Wettervorhersage für Wettervorhersage für Mannheim (1. Feb. 2002)Mannheim (1. Feb. 2002)

Page 32: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Demo-Implementation auf WebserverDemo-Implementation auf Webserver

Erweiterung zu einem DialogsystemErweiterung zu einem Dialogsystem

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Ausblick und mögliche Erweiterungen Ausblick und mögliche Erweiterungen

Page 33: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Sprachsynthese: Sprachsynthese: FestivalFestival

Spracherkennung: Spracherkennung: Sphinx IISphinx II

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Erweiterung zu einem Dialogsystem Erweiterung zu einem Dialogsystem

Page 34: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Architektur eines natürlichsprachlichen Architektur eines natürlichsprachlichen Dialogsystems:Dialogsystems:

Anwen-dungs-daten

Spracherkennung Parsing Kontextanalyse

Kontext-verarbeitung

SprachsyntheseText-

generierung

Dialog-steuerung

Diskurshistorie

Sprachverstehen

Sprachgenerierung

Textgespr. Sprache

System-ausgabe

Benutzer-eingabe

In: In: ComputerlinguistikComputerlinguistik, 2001, 2001

Page 35: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Entwickelt an der Entwickelt an der Carnegie Mellon University (CMU)Carnegie Mellon University (CMU) Erkenner für kontinuierliche SpracheErkenner für kontinuierliche Sprache Open Source (Apache-ähnliche Lizenz)Open Source (Apache-ähnliche Lizenz) echtzeitfähigechtzeitfähig sprecherunabhängigsprecherunabhängig plattformunabhängig (Linux/Unix/Windows)plattformunabhängig (Linux/Unix/Windows) Gibt eine Menge von bewerteten Hypothesen zurück Gibt eine Menge von bewerteten Hypothesen zurück

(N-best List)(N-best List)

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Sphinx II:Sphinx II:

Bsp. Bsp. CommunicatorCommunicatorAuskunfts- und Reservierungssystem für Auskunfts- und Reservierungssystem für Flüge (Nordamerika)Flüge (Nordamerika)

Page 36: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

ELEVEN ELEVEN AX L EH V AX NAX L EH V AX N ELEVEN(2) ELEVEN(2) IY L EH V AX NIY L EH V AX N EXIT EXIT EH G Z AX TEH G Z AX T EXIT(2) EXIT(2) EH K S AX TEH K S AX T

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Erstellen eines Lexikons (.dic-File):Erstellen eines Lexikons (.dic-File):

�Verschiedene Aufnahmen werden mit der Verschiedene Aufnahmen werden mit der Auto-Labeling-Funktion von Sphinx Auto-Labeling-Funktion von Sphinx analysiert analysiert �Lexikon ist eine Zuordnung aus Wortform Lexikon ist eine Zuordnung aus Wortform und erkannten Phonenund erkannten Phonen

Page 37: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

N-gramN-gram models models, N ist normalerweise drei:, N ist normalerweise drei:– Beschreibt die Wahrscheinlichkeit einer Sequenz von WörternBeschreibt die Wahrscheinlichkeit einer Sequenz von Wörtern– Beispiel:Beispiel:

» 0.7782 ARE YOU LISTENING0.7782 ARE YOU LISTENING» 0.7782 ARE YOU READY0.7782 ARE YOU READY» 0.3010 BACKWARD FIVE METERS0.3010 BACKWARD FIVE METERS» 0.3010 BACKWARD ONE METER0.3010 BACKWARD ONE METER» 0.3010 BACKWARD TWO METERS0.3010 BACKWARD TWO METERS

Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).Können automatisch aus Korpora mit relevanten Sätzen erstellt werden (LMTool).

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Angabe von kontextspezifischen Angabe von kontextspezifischen Informationen/Language Model Files:Informationen/Language Model Files:

Page 38: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

ReferencesReferences

festivalfestival-Dokumentation-Dokumentation– http://http://wwwwww..cstrcstr.ed..ed.acac..ukuk//projectsprojects//festivalfestival//manualmanual//festivalfestival__toctoc..htmlhtml

festvoxfestvox– http://http://festvoxfestvox..orgorg//festvoxfestvox//festvoxfestvox__toctoc..htmlhtml

IMS German Version of festivalIMS German Version of festival – Dokumentation – Dokumentation– http://http://wwwwww..imsims.uni-.uni-stuttgartstuttgart.de/.de/phonetikphonetik//synthesissynthesis//indexindex..htmlhtml

Limited Domain VoicesLimited Domain Voices– http://http://wwwwww-2.-2.cscs..cmucmu..eduedu/~/~awbawb//paperspapers/ICSLP2000_/ICSLP2000_ldomldom//indexindex..htmlhtml

Sphinx IISphinx II – http://http://wwwwww..speechspeech..cscs..cmucmu..eduedu//sphinxsphinx/doc/Sphinx./doc/Sphinx.htmlhtml

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

Page 39: Gliederung Projektziele (Muss-Kriterien) Projektziele (Muss-Kriterien) Architektur d. Systems Architektur d. Systems Festival als Modul Festival als Modul.

Azim Kücükoba Azim Kücükoba Kai Jung Kai Jung Klaus RüggenmannKlaus Rüggenmann Studienprojekt 2001/02Studienprojekt 2001/02Uni HeidelbergUni Heidelberg

Informationsbeschaffung, Informationsbeschaffung, Sprachgenerierung und Sprachsynthese Sprachgenerierung und Sprachsynthese in einer begrenzten Domänein einer begrenzten Domäne

EndeEnde