Multimodális beszéd
description
Transcript of Multimodális beszéd
![Page 1: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/1.jpg)
Multimodális beszéd
Facial Animation alapjai
(szabványok, rendszerelemek, megvalósítások)
Srancsik Bálint
Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar
![Page 2: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/2.jpg)
Miért fontos a FA?
• Többletinformációt adhat
• Érzelem kifejezése• Zajos környezetben
növeli az érthetőséget• Hallók és siketek közti
kommunikáció• stb…
![Page 3: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/3.jpg)
FA jellegzetességei
Beszéd• Intonáció• Hangerő• Ritmus• Hangszín
• Fonéma
• 8000 - 48000 Hz
Vizuális beszéd• Ajak• Nyelv• Fogak• Arcpofa
• Vizéma
• 25 - 100 fps
![Page 4: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/4.jpg)
Magyar vizémakészletMGH MSH
E B, P, M
É F, V
I T, D, N
Ö, O R
Ü, U SZ, Z, C, DZ
Á L
A S, ZS, CS, DZS
TY, GY, J, NY
K, G
H
![Page 5: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/5.jpg)
Teszt
![Page 6: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/6.jpg)
Teszt eredmény (MSH)
![Page 7: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/7.jpg)
Mi köze a FA-nek az informatikához vagy a távközléshez?
• Filmek• Játékok• Web• Videotelefon• Mesterséges intelligencia• Virtuális lények• stb…
![Page 8: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/8.jpg)
FA – informatikai megközelítés
Kutató• Modellezési és
animálási eljárások• Face tracking (real
time)• Beszélő fejek hang
alapján• stb…
Művész• FA csak egy része
a projektnek• A létező legjobb
eljárást használják• „Létező” azt jelenti,
hogy a 3D-s szoftverbe be van építve
![Page 9: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/9.jpg)
FA – informatikai megközelítés
Kutató MűvészMPEG-4
![Page 10: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/10.jpg)
De az MPEG-4 nem a tömörítésről szól?
• Főként!• A szabvány elkészítéséhez sok
munkacsoportot hoztak létre• Az egyik a Synthetic Natural Hybrid Coding
lett. (SNHC) Feladata pl. a 2D-s és 3D-s grafikák bevezetése a szabványba
• SNHC egy része a Face and Body Animation (FBA) lett. Feladata az arc képének kódolás és dekódolása
![Page 11: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/11.jpg)
Encoder és decoder
Encoder
?
Decoder
?Adat
formátum
Az MPEG-4 FBA-ban nincs szabványosítva a kódoló és a
dekódoló
![Page 12: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/12.jpg)
Paraméterezés
![Page 13: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/13.jpg)
Az ideális paraméterezés
• Ábrázolhatóság• Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság
![Page 14: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/14.jpg)
Az MPEG-4 FA ideális?
Megvizsgáljuk!
Előtte azonban néhány kifejezés:
FDP – Face Definition Parameter
FP – Feature Point
FAP – Facial Animation Parameter
FAPU – Facial Animation Parameter Unit
(FAT – Face Animation Tables)
![Page 15: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/15.jpg)
FDP
Feladata a 2 vagy 3 dimenziós modell alakjának, textúrájának leírása. Ezen felül alapot szolgáltat az animáláshoz, de magát a mozgatást nem ő végzi.
Az FDP lényegében arra használják, hogy egy általános arcból egy egyedi arcot definiáljanak.
Az arc alakjának definiálására használják az FP-ket.
![Page 16: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/16.jpg)
FP
![Page 17: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/17.jpg)
FP
Az MPEG-4 84 FP-t határoz meg a természetes arc leírásához.
Egy MPEG-4 kompatibilis modellhez az FP-k helyzetének pontos ismerete szükséges
Az FP-ket két részre lehet osztani:
Más FP-kel mozgatott FP-k•FAP-ok által mozgatott FP-k
mozgatják•Csak definiálnak•Pl.: Hajon lévők
Külön mozgatott FP-k•FAP-ok mozgatják
•Definiálnak és mozgatnak•Pl.: Ajak körvonalán lévők
![Page 18: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/18.jpg)
FAPAz FP mozgatása a
feladata. Tehát lényegében az animálás.
Az encoder és a decoder között ezek mennek át.
A szabvány 68 paramétert különböztet meg 10 csoporban.
FAP-ok reprezentálják az alap arcmozgásokat.
![Page 19: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/19.jpg)
FAPAz első csoportba tartozó két FAP magas
szintű paraméter -> előre definiált komplexebb mozgásokat lehet végrehajtani velük.
1. Vizéma
Az angol fonémáknak megfelelő vizémákat állítják elő.
2. Arckifejezés
A hat alapérzelem kifejezésére használják.
(Ezek kombinálásából több is előállítható)
![Page 20: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/20.jpg)
FAPA többi 66 FAP alacsony szintű FAP.
Ez azt jelenti, egy vagy több FP-t mozgat. (Akár az összes FP-t)
Az alacsony szintű FAP-oknak nagyobb a prioritása.
Egy FAP lehet egy- vagy többirányú.
A szabvány miden egyes FAP-ra definiálja a pozitív irányú mozgást illetve hogy egy- (U) vagy többirányú (B).
![Page 21: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/21.jpg)
FAPA mozgatás során a kívánt FAP-oknak
megfeleltetünk egy-egy értéket.
Pl.: (FAP 17)=100
De mit jelent, hogy 100?
- mm?- egység?- pixel?
A válasz: hat féle mértékegység van:
IRISD; ES; ENS; MNS; MW; AU
![Page 22: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/22.jpg)
FAPU
![Page 23: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/23.jpg)
FAPUA konkrét mértékegységek a következők:
IRISD=IRISD0/1024
ES=ES0/1024
ENS=ENS0/1024
MNS=MNS0/1024
MW=MW0/1024
AU=10E-5 rad
![Page 24: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/24.jpg)
FAPUA FAPU minden modellre más és más.
A szabvány leírja, hogy melyik FAP-ot melyik FAPU-ban mérik.
Tehát a FAPU modellfüggő, MPEG-4 szabványú modell mozgatásához elengedhetetlen ezek ismeret.
17 push_t_lip Depth displacement of top middle lip
MNS B forward 2 2 1 +-1080 +-360
![Page 25: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/25.jpg)
FA megvalósításaTehát az MPEG-4 szabvány leírja, hogy
hogyan mozognak az FP-k a FAP-ok függvényében.
De hogyan mozog a modell az FP-k függvényében?
![Page 26: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/26.jpg)
Grafikai alapokVertex: pont 3D-ben, három koordinátával adott.
Mesh: rács 3D-ben, tetszőleges két vertex össze vannak kötve.
Polygon: felület 3D-ben, tetszőleges három (vagy több) vertex által meghatározott sík.
Normál: irány 3D-ben, a polygon normálvektora.
IndexedFaceSet: a vertexek sorozata, indexelve és megadva azok poziciója.
coordIndex: mely három (vagy több) vertex határoz meg egy polygont, és hogy az merre néz; a vertex-indexekkel van megadva.
![Page 27: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/27.jpg)
FA megvalósítása
FP
Hatókör
![Page 28: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/28.jpg)
FA megvalósításaEgy FP csak a neki definiált hatókörön
belüli vertex-eket mozgatja.
De a vertex mozgatás nem lineáris. Az FP-től mért távolsággal arányos.
Tehát azokra a vertexekre kevésbé hat, melyek a hatókör szélén vannak, míg a belsőkre jobban.
De a vertex mozgása a távolság arányában sem lineáris. Általában koszinuszos.
![Page 29: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/29.jpg)
FA megvalósításaProbléma lehet a hatókör
definiálása. Főleg a száj környékén.
Hiszen az ajaknál nem biztos, hogy szabad mozgatni a közeli vertexeket.
Megoldás: az FP-hez tartozó vertexeket fel kell sorolni!
![Page 30: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/30.jpg)
Az MPEG-4 FA ideális?
• Ábrázolhatóság • Használhatóság• Kidolgozottság• Orthogonalitás• Absztrakciós képesség• Megjósolhatóság• Hordozhatóság• Mérhetőség• Hatékonyság
Nem ideális!
(De minden eddiginél jobb)
![Page 31: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/31.jpg)
A Pázmány és más speech to animation rendszerek
összehasonlítása
![Page 32: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/32.jpg)
Speech Text Aniamtion
ÖsszehasonlításMás rendszerek (speech to text; text to animation)
Speech Text Aniamtion
Pázmány rendszer (speech to animation)
![Page 33: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/33.jpg)
Más rendszerek
![Page 34: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/34.jpg)
Pázmány rendszerek
Synchronised audiovisual Database
Video preprocessing
Audio preprocessing
MPEG4 based facial animation
model
FP Feature points
coordinates
Acoustic feature extraction
NN
PCA-1
w1 … w6 weights of the
principal components
MFCC
Audiovizuális adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log.txt
![Page 35: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/35.jpg)
Audiovizuális-adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log mátrix
![Page 36: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/36.jpg)
Audiovizuális adatbázis
![Page 37: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/37.jpg)
Szűrés
-deinterlace az frame-ek közti átmenet „simítására”
-HSV adjust a saturation eltolására, így a világosabb pontok jobban kiemelődtek
![Page 38: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/38.jpg)
![Page 39: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/39.jpg)
![Page 40: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/40.jpg)
MPEG4 pontok azonosítása
![Page 41: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/41.jpg)
Abszolút koordináta rendszer
![Page 42: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/42.jpg)
Relatív koordináta rendszer
![Page 43: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/43.jpg)
Audiovizuális-adatbázis
MPEG4 pontokdetektálása
Javítás
MPEG4 pontokazonosítása
6D PCA 30-32D Koordinátatranszformációk
Szűrés
Log mátrix
![Page 44: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/44.jpg)
Eredeti
![Page 45: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/45.jpg)
Előállított
![Page 46: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/46.jpg)
Első négy főkomponens
![Page 47: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/47.jpg)
Idő
![Page 48: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/48.jpg)
Hanghullám
![Page 49: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/49.jpg)
Lucia
![Page 50: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/50.jpg)
Log to Lucia konverzió
Log mátrix
MPEG-4 szerintimegfeleltetés
Skálázás és irány
Lucia
Normálás(referencia frame)
Medián szűrő
![Page 51: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/51.jpg)
Teszt
![Page 52: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/52.jpg)
47,9%52,1%
54,9%
45,1%
97,1%
2,9%Teszt eredménye
Jeltolmács
Lucia (pont) Lucia (hang)
Talált
Nem talált
![Page 53: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/53.jpg)
Hisztogram
![Page 54: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/54.jpg)
Hisztogram
![Page 55: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/55.jpg)
Hisztogram
![Page 56: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/56.jpg)
Hisztogram
![Page 57: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/57.jpg)
Hisztogram
![Page 58: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/58.jpg)
Hisztogram
![Page 60: Multimodális beszéd](https://reader036.fdocuments.net/reader036/viewer/2022081520/568153dc550346895dc1d587/html5/thumbnails/60.jpg)
Pázmány Péter Katolikus EgyetemInformációs Technológiai Kar
Köszönöm a figyelmet!