Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk

22
NTNU Telecommunications Taleteknologi-prosjekter ved NTNU/SINTEF Historikk og status Magne H. Johnsen, Teleteknikk

description

Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk. Hva inngår i taleteknologi. Talekoding Talesyntese Talegjenkjenning Talebaserte dialogsystemer Andre felt: Talergjenkjenning (stemmegjenkjenning) Taleanalyse og taleforbedring - PowerPoint PPT Presentation

Transcript of Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status Magne H. Johnsen, Teleteknikk

Page 1: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Taleteknologi-prosjekter ved NTNU/SINTEF – Historikk og status

Magne H. Johnsen, Teleteknikk

Page 2: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Hva inngår i taleteknologi

• Talekoding

• Talesyntese

• Talegjenkjenning

• Talebaserte dialogsystemer

• Andre felt:– Talergjenkjenning (stemmegjenkjenning)

– Taleanalyse og taleforbedring

– Språkbank/databaser

Page 3: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Samarbeid og finansiering

• Finansiering : – NFR, Telenor FoU, NRK, ...

• Faglig samarbeid : – Telenor FoU

– SINTEF

– NTNU

Page 4: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Historikk - talekoding

• Perioden 1975 – 1990

• Hva er talekoding:– Metoder for komprimering av digitalisert tale

anvendt innen telefoni og lignende.

• Eksempler på arbeid ved NTNU/SINTEF:– GSM (mobiltelefoni)

– Bildetelefon

– INMARSAT (maritim satelitt-telefon)

Page 5: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Historikk – talesyntese (TTS)

• Perioden 1985-1990 & 2003-2006– Hva er talesyntese : Tekst til tale

– Eksempel på arbeid :

» Første versjon av Talsmann

– Framtidig arbeid:

» KUNSTI- FONEMA 2003 -2006

Page 6: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Historikk talegjenkjenning

• Perioden 1985 – nå– Hva er talegjenkjenning : Tale til tekst

og/eller mening

– Eksempler på arbeid :» Teksting av direktesendte TV-programmer

» Diverse gjenkjennere i TABUSS/SPODIS dialogsystemet

– Framtidig arbeid :

» MOBEL 2002-2004

» BRAGE 2002-2006

Page 7: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Historikk dialogsystemer

• Perioden 1997 – nå

• Hva er et dialogsystem:– Menneske – maskin kommunikasjon

– Talebasert brukergrensesnitt

– Lingvistisk og semantisk kunnskap!

• Eksempler på arbeid:– TABUSS/SPODIS

• Framtidig arbeid– BRAGE 2002 - 2006

Page 8: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Talesyntese - FONEMA

• Dagens TTS for norsk er for dårlig for mange anvendelser.

• Datadrevet bølgeformsyntese gir bedre løsning.

• Talestil, dialekt, ”personlighet” etc. i den syntetiserte talen påvirkes av tale-databasen.

• Metoden krever innsamling og bearbeiding av store mengder taledata.

Page 9: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Mål for FONEMA

• Lingvistisk modell for prosodi i norsk til bruk i talesyntese

• Automatiserte prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser

• En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse

• En demonstrator med stemmer tilpasset noen ulike anvendelser

• Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk (dialekter)

Page 10: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Teksting av direktesendte TV-programmer- et tilbud for hørselshemmede

TV studio Kommentator rom

Tekst-TV

Gjenkjenner

Page 11: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Systembeskrivelse

• Den første storvokabular gjenkjenner for kontinuerlig tale på norsk!

• Åpent vokabular(OOV rate for testsett: 5.6%)

• Splitting av sammensatte ord(reduserer OOV rate fra 5.6% til 2.2%)

• Bigram språkmodell(enkel statistisk metode)

– Estimer sannsynligheten til ordpar P(ord2=Jagland | ord1=Torbjørn) = 80% P(ord2=Berntsen | ord1=Torbjørn) = 5% P(ord3=Nordgård | ord1=Torbjørn)= ?% . . . . . . . . .

• Leksikon:15 K ord basert på tekst-TV

• Taler-tilpasning

• Tilpasset programtypen’Nyheter og politikk’

• Tilpasset bokmål

Page 12: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Tale- og tekst-databaser

Datasett #Timer Type #Talere

Trening 19 lest + spontan 50

Test 3,5 spontan 6

Adapsjon 6 lest + spontan 6

~1,5 mill. ord (~85 K forskjellige) redigert underteksting hentet hovedsaklig fra Dagsrevyen

Page 13: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Resultater for uerfarne kommentatorer

68

76

69

80

54

72

53

83

7377

71

78

50

55

60

65

70

75

80

85

90

95

100

DV HH HK IS KB TH

Andel korrekte ord

Før adapsjon

Etter adapsjon

% k

orr

ekte

o

rd

Taler ID

Page 14: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Resultater for uerfarne talere

• Tilsvarende for en erfaren taler :

– 90% etter adapsjon

68

76

69

80

54

72

53

83

7377

71

78

50

55

60

65

70

75

80

85

90

95

100

DV HH HK IS KB TH

Andel korrekte ord

Før adapsjon

Etter adapsjon

% k

orr

ekte

o

rd

Taler ID

Page 15: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Evaluering av resultatene

• Eksempel for en uerfaren taler IS:– 32% av setningene er korrekte

– 32% inneholder feil, men er fullt forståelige (semantisk)

– 36% kan ikke brukes

• Ikke praktisk brukbar pga.:– Total tidsforsinkelse var for stor

– “Kritiske feil” MÅ unngås!

» Hun er i Brussel......

» Hun er en trussel......

– Ytelsen bør opp fra ca. 90% til minst 95% korrekt for ord

» Bl.a. Ved hjelp av trigram språkmodell

Page 16: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

SPODIS 1997 -2001• Prosjektdeltakere:

• Institutt for teleteknikk

• Lingvistisk institutt

• Institutt for datateknikk og informasjonsvitenskap

• SINTEF Tele og data

• Samarbeid med Telenor FoU

• Oppbygging av generisk kunnskap og verktøy for talebaserte dialogsystemer

• Utvikle prototyp for talebasert informasjonssystem for busstransport

• Produsere 3 doktorgrader

Page 17: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Talebasert bussrute dialogsystem - tlf. 73 51 78 30

• En talegjenkjenner vil :• gjøre feil • gi flere forslag til tekst.

• Lingvistisk og semantisk analyse kan:• detektere og korrigere ordfeil. • velge riktig forslag til tekst • trekke ut meningen (brukers

hensikt).• Dialog manager skal:

• Huske dialogens historie og prediktere/velge neste ’tema’

• huske all informasjon som er gitt av brukeren.

• forme systemets respons til bruker

• trekke ut ønsket informasjon fra databasen.

Tale-gjenkjenner

Lingvistiskog semantisk

analyse

Dialogmanager

Tale-syntese

Hvor vil dureise fra?

Når går neste buss til byen?

Dialog-system

Data

Page 18: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

BRAGE 2002 - 2006

• Prosjektdeltakere : som SPODIS

• Utvikle og utteste teori og verktøy for gjenkjenning av norsk spontan tale.

• Utvikle talesentriske multimodale bruker-grensesnitt til menneske-maskin dialoger.

• Utvikle automatiske metoder for komplisert dialog-beskrivelse og-håndtering

• Demonstrere anvendelser basert på framtidens ’mobiltelefoner’

• Utdanne 4 doktorgrads-kandidater

Page 19: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Spontan tale er forskjellig fra tekst!

• Bakgrunnsstøy

• Flere informasjoner

• ’Dobbelt-samtale’

• Spontan diktering

Page 20: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Teknologistatus - talegjenkjenning

• Spontane dialoger omtrent som samtaler mellom fremmede?

12

7

16

19

31

0

5

10

15

20

25

30

35

Tallstrenger Styring ogkontroll

Diktering -begrensetdomene

TV -nyhetssending

Samtale(fremmede)

Samtale(venner)

Ord

feilra

te [

%]

Page 21: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Talesentrisk multimodalt dialogsystem

(foil fra Eurescom-prosjektet MUST)

PSTN

Tabulib C++Library

GUI

Phone

ASR

TTS

Telephone(GSM)

Dialogue/ContextManager

WWWHTTP

DB

Pocket PC

Mobile MultimodalTerminal

Application Server

(W)LAN/TCP/IP

Page 22: Taleteknologi-prosjekter  ved NTNU/SINTEF  –  Historikk og status Magne H. Johnsen, Teleteknikk

NTNU Telecommunications

Dialoger og naturlig språk

• Talegjenkjenningsmål:– Akseptabel ytelse for spontan tale til dialog-formål

– Suksess-rate viktigere enn ordfeil-rate!

• Dialogmål:– Hvor generelle dialoger klarer en beskrive/programmere?

– Kan en utnytte dette til å lage gode dialog-strukturer?

– Hvordan takle feil i talegjenkjenner?

• Lingvistiske mål:– Hva skiller nedskrevet spontan tale fra tekst?

– Hvordan modellere forskjellen?

– Robust parsing av spontan tale