Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

41
T.Gy. Beszedfelism es szint. 2014.02.14. 1 Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés Takács György 2. előadás 2014. 02. 14.

description

Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés. Takács György 2. előadás 2014. 02. 14. Tartalom. Az emberi beszéd alapelemei Beszédszervek, beszédszervek működése A beszédérzékelésben résztvevő szervek és működésük Beszéddel kapcsolatos alapfogalmak. - PowerPoint PPT Presentation

Transcript of Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

Page 1: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

1

Beszédfelismerés és beszédszintézis

Emberi beszédkeltés és beszédérzékelés

Takács György

2. előadás

2014. 02. 14.

Page 2: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

2

Tartalom

• Az emberi beszéd alapelemei

• Beszédszervek, beszédszervek működése

• A beszédérzékelésben résztvevő szervek és működésük

• Beszéddel kapcsolatos alapfogalmak

Page 3: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

3

Nyelv és beszéd

• A nyelv az emberi kommunikáció és az emberi gondolkodás legfőbb eszköze

• A kommunikáció a társadalmi élet és a munkamegosztás alapvető feltétele

• A nyelv egy jelrendszer, amelynek elemeihez egy nyelvközösségen belül ugyanaz a jelentés tartozik

• A beszéd a nyelv elsődleges megnyilvánulása• A beszéd útján közvetíthető információ sebessége

15…20 bit/s értéket érhet el. (Webster, J.C.: Information in simple multidimensional speech messages. J.A. S. A. Vol. 33. pp. 940-944.)

Page 4: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

4

Az emberi információ-feldolgozás egy általános modellje

Forrás: Christopher D. Wickens and Justin G. Hollands, Engineering Psychology and Human Performance, Third ed. (Upper Saddle River, NJ: Prentice Hall, 2000)

Page 5: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

5

A természetes beszédlánc

Page 6: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

6

Beszédhang• A legkisebb olyan egységek, amelyek sorozatával

egy nyelvet megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük.

• A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes.

• A beszédhangok a nyelvre jellemzőek!• Egyes nyelvekben a hangmagasság hajlítása is

megkülönböztet beszédhangokat.• Az élő beszéd olyan leírása, amely a beszéd

hangzásának leírására törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

Page 7: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

7

Page 8: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

8

A beszédhangok folytonos és diszkrét természete

Page 9: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

9

A beszéd szerkezete• A beszéd egymástól megkülönböztethető

elemek szervezett időbeni egymásutánisága – soros szerkezet.

• Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

• Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

• A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

Page 10: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

10

A fonéma

• Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő

• A fonémakészlet elemei a fonémák. • Az azonos fonémákat képviselő

beszédhangok az allofonok.

Page 11: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

11

Page 12: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

12

Page 13: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

13

Page 14: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

14

Page 15: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

15

Page 16: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

16

Page 17: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

17

Page 18: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

18

Page 19: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

19

Page 20: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

20

Oktatóprogram:

• Digitus……takacsgy/mnyba

Page 21: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

21

Page 22: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

22

Page 23: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

23

Page 24: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

24

Page 25: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

25

Page 26: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

26

Page 27: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

27

Page 28: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

28

Page 29: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

29

Page 30: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

30

Page 31: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

31

Page 32: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

32

A hallás frekvencia és szintfüggése

Szabad térben (süketszobában) mért görbeseregHelmholtz rezonátor Fülkagyló hatása

Létezik diffúz térben és fejhallgatóval mért görbesereg is!

Weber-Fechner:hangosságérzet

00

lg20lg10)(.p

p

I

IphonérzetH

Fletcher-Stevens:hangosság6,0

1

2

3,0

1

2)(

p

p

I

IsonHangosság

40dB+40dB=43dB

40 dB felett igaz csak!!!40phon=1son1son+1son=2son

Page 33: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

33

phon, son, dB• Inger érzet

• W-F szerint : logaritmikus, százszoros intenzitású hangot hússzor hangosabbnak hallunk

• Fl-St szerint : hatványkitevős (0,3), százszoros intenzitású hangot négyszer hangosabbnak hallunk

• Kísérlet: 10 hang 500Hz-től 500 Hz-enként, 60 dB intenzitással szól, mekkora intenzitású 1 kHz-es hangot hallunk ugyanolyan erősnek?

• Eredmény: a 93 dB-est! W-F szerint: a 70 dB-est kellene ugyanolyan erősnek hallani!

• Milyen átszámítás a jó, hogy a 10 jelet 10-szer olyan hangosnak halljuk?

10

40

2

phon

son

60 phon=4 son, 10 x 4=40 son=93 dB

402lg

lg10

sonphon

Page 34: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

34

A phon-son átszámítási görbe

(Tarnóczy Tamás)

Page 35: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

35

A hallás kritikus sávjaiBizonyos feltételekkel a W-F törvény igaz! Bizonyos frekvenciasávokon belül az intenzitások összegződnek! Ezek a sávok a kritikus sávok.

Barkhausen tiszteletére „Bark”-ak nevezték el a sávokat, 24 db létezik.Sávszélességük változó, 400 Hz-ig 100 Hz, 1 kHz felett a frekvencialogaritmusával arányosan növekszik.

(Tarnóczy Tamás)

Page 36: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

36

Hangelfedés a frekvencia tartományban

• Megszólaló színuszos hang, vagy keskenysávú zörej a hallásküszöb görbét módosítja, a jel frekvencia környezetében érzéketlenebb lesz hallásunk.

1) Nagyobb intenzitású elfedő jel szélesebb frekvenciasávban okoz elfedést

100 1000 10000

f(Hz)

p(dB)

20

40

6

0

80

100 1 k Hz

4,5 k Hz250 Hz

2) A fedőgörbe nem szimmetrikus, nagyobb frekvenciák felé szélesebbsávban hat (kórus: basszus, szoprán)A görbe alatti intenzitású hangokat nem halljuk!

A hangesemény dinamikusan változó fedőgörbét alakít ki, ami a görbealatt van energiában, azt nem kell átvinni! (Digitális jelek adatredukciója)

Page 37: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

37

Hangelfedés az időtartományban

Utóelfedés: egy erős hang-inger után, míg az alaphártyarezgései lecsillapodnak, a kisebb intenzitású hang nemhallható!

Előelfedés: a korábban meg-Szólaló hangot egy későbbérkező erős hang elfed!Az idegpályákon az áramimpulzusok sebessége a kiváltó inger nagyságától függ?Az időbeli elfedés jelenségét szintén kihasználjuk a digitális jelek adatredukciójánál!

Page 38: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

38

Két hang hangosságának összegeFigyelembe kell venni a kritikus sávokat és a hangelfedés jelenségét a

hang intenzitásának függvényében!Ha a két hang frekvenciában távol van egymástól, és nem túl nagy

intenzitású (elfedési görbének nincs szerepe), a son-ok összegződnek.Minél nagyobb energiájú a két hang, annál távolabb kell lenni egymástól

frekvenciában, pl. 90 dB esetén 10-12 kritikus sáv távolság szükséges!

Kritikus sávon belül az intenzitások összegződnek.Ha az egyik hang sokkal hangosabb, elfedi a másikat! (Nem szimmetrikus

az elfedés, mély-magas hang, nem mindegy, melyik az erősebb!

Digitális hang adatredukciója: pl. 32 frekvenciasávra bontva a jelet egyszerű összegzési és elfedési törvények érvényesek!

Page 39: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

39

Dinamikus hallásküszöb kialakulása

0,1 0,2 0,5 1 2 5 10 f (kHz)

p(dB)

Abszolút hallásküszöb Eredő hallásküszöb

50

40

30

20

10

0

Page 40: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

40

Hangesemény sávszélessége és a hangosság kapcsolata

• Kísérlet: 50 dB-es színuszjel hangossága 2 son

Tíz db. 40 dB-es színuszjel összhangossága 7,9 son

A két jel energiája azonos, de a nagyobb sávszélesség miatt hangosabbnak halljuk!

Rövid ideig tartó hang hangosságának fokozása:kissé torzítva a hangot, többspektrumvonal jelenik meg, az eredeti jelhez hozzáadva,a hangosság nagyobb lesz!(Exciter)

Page 41: Beszédfelismerés és beszédszintézis Emberi beszédkeltés és beszédérzékelés

T.Gy. Beszedfelism es szint. 2014.02.14.

41

A hallás időállandói• Hallásunk több rezgőrendszer kapcsolata útján alakul ki

• Minden rezgőrendszer rendelkezik feléledési (berezgési) és lecsengési idővel (időállandóval, a végállapot 63 %-a)

• Mély hangokra 50 ms, 1000 Hz feletti hangokra 20 ms

• A teljes hangérzet kialakulásához kb. 200 ms szükséges, ez idő elteltével kapja meg az agy a teljes információ mennyiséget!

• A 200 ms „ablakozás” miatt a hangmagasság érzékelésünk nem pontos! (Megérthető a színuszjel, ill. a kapuzott színuszjel Fourier-transzformáltja alapján!) 1 tfx

- Egy 200 ms időtartamig észlelt színuszjelet 5 Hz pontossággal hallunk- Az 50 ms időállandó miatt több, különböző frekvenciájú mély hangot azonos magasságúnak érzünk!- A hangmagasság érzékelése függ az intenzitástól is!