Seminar Ski Multimodalna Interakcija Covek Racunar

Univerzitet u Novom Sadu Tehniki fakultet Mihajlo Pupin Zrenjanin

SEMINARSKI RADtema:

MULTIMODALNA INTERAKCIJA OVEK RAUNARpredmet:

INTERAKCIJA OVEK - RAUNAR

predmetni nastavnik:

student

Doc. Vatag Atila

dr

Karuovi

Dijana

broj indeksa:

91/09-10

Zrenjanin, 2011. godina

-9-

SA D R A J1 SKRAENICE KORIENE U TEKSTU SEMINARSKOG RADA 2 PREDGOVOR 3 UVOD 4 MULTIMODALNA INTERAKCIJA OVEK RALUNAR 4. 1 4. 2 4.2. Humanocentrini prilaz 1 4.2. Prilaz baziran na sistemu 2 4. 3 5. 1 5.1. Mogunosti sistema 1 5. 2 5.2. Sistem za praenje pogleda u realnom vremenu 1 5.2. Prepoznavanje kljunih rei 2 5.2. Primena 3 5. 3 5.3. 1 5.3. Interfejs 2 5.3. Konstrukcija sistema 3 -914 14 Target pool 13 Multimodalni Pool Instruktor 13 12 12 11 Inteligentna Oglasna Tabla 11 10 Mitovi i pogrena verovanja u vezi multimodalne 9 10 10 interakcije Put That There 9 8 Modaliteti 7 Definicija Interakcije ovek Raunar 3 4 5 6 6

5 MULTIMODALNI SISTEMI

5.3. Virtualni instruktor 4 5.3. Test sistema sa ljudima 5 5. 4 5.4. Upravljanje 1 5.4. Model ponaanja 2 5.4. Emocionalno izraavanje sintetikog govora 3 6 ZAKLJUAK 7 LITERATURA Multimodalni Poker

15 15 16 17 18 19 20 20

-9-

1.

SKRAENICE KORIENE U TEKSTU SEMINARSKOG RADA

ACM SIGCHI ACM's Special Interest Group on Computer-Human Interaction ALMA - A Layered Model of Affect APT - Automated Pool Trainer CeBIT - Centrum der Bro- und Informationstechnik CWI - Centrum Wiskunde & Informatica FPS - Frame per Sec GIF - Graphics Interchange Format GUI Graphical User Interface HCI Human-Computer Interaction HD - High Definition iGBBS - intelligent Guiding Bulletin Board System LCD - Liquid Crystal Display MARY TTS - Modular Architecture for Research on speech Synthesis Text-toSpeech System

MIT - Massachusetts Institute of Technology PAD - Pleasure-Arousal-Dominance PC - Personal Computer PDA Personal Digital Assistant PK - Primary Key RFID - Radio-Frequency IDentification SAPI - Speech Application Programming Interface SDMS - Spatial Data Management System SK - Secondary Key UI User Interface WIMP - Window, Icon, Menu, Pointing device SVM - Support Vector Machines

-9-

2.

PREDGOVOR

Raunari, automatizovani sistemi na temelju vetake inteligencije sada se nalaze u svim segmentima ivota. U veoma kratkom vremenskom periodu postali su kljuni elementi svakodnevnog ivota dananjice, gotovo je nezamisljiv ivot mnogih bez tih pametnih ureaja. Kada sem se rodio, veina ljudi nije imala ni TV. Danas vei deo stanovnika ove planete koristi se raunarom, mobilnim telefonom ili drugim digitalnim ureajem. Kada sam se ja rodio i za vreme mog detinjstva samo smo u nauno fantastinim filmovima mogli videti ureaje koji rade na glasovne komande. Multimodalni sistemi su zato dans jedan od glavnih razvojnih pravaca informatike. Tradicionalnu tastatura mi interakciju sa raunarom polako zamenjuju nove tehnologije. Meu tim novim tehnologijama sve veu i veu ulogu zauzima multimodalana interakcija oveka i raunara. Ova nova dostignua donose nove dimenzije na polju komunikacije oveka i raunara. Sve vie prostora zauzimaju u poljima nastave, zabave, navigacije, ...

-9-

3.

UVOD

U proteklih 20 godina informatika se mnogo razvila kao samostalna nauka. Kako se informatika razvijala tako je interakcija oveka i rauanra (Human-Computer Interaction, HCI) postala jedna bitna oblast informatike. Nauka interakcije oveka i raunara prouava prirodu i nain komunikacije izmeu korisnika i rauanra. Pozornica interakcije izmeu raunara i korisnika je korisniki interfejs (User Interface, UI), koji u sebi ujednako sadri hardver kao i softver. Interakcija ovek raunar istovremeno ispituje oveka i raunar i iz tog razloga ova nauka se naslanja na poznavanja iz oblasti humanistike i informatike. Sa strane informatike najzanajnije oblasti su raunarska grafika, vetaka inteligencija, operativni sistemi, programski jezici i razvojna okruenja. Sa strane humanistikih nauka najznaajnije su oblasti komunikacija, lingvistika, drutvene nauke, kongitivna psihologija i ponaanje. Budunost korisnikih interfejsa je u multimodalnosti. Raunari postaju svakodnevni deo naeg ivota. Primarni cilj nauke interakcija ovek raunar je konstruisanje takvog rauanarskog sistema sa odgovarajum interfjesom, kojim e se lako koristi i oni budui korisnici koji nemaju nikakvo tehniko predznanje, omoguavajui laki rad i udobniji ivot ljudi u svakodnevnom ivotu.

-9-

4.

MULTIMODALNA INTERAKCIJA OVEK -RAUNAR

Prvi revolucionarni korak u olakavanju interakcije oveka i rauanra bila je pojava grafikog interfejsa (Graphical User Interface, GUI) u osamdesetim godinama. Kako je ovek vizuelno bie, naunici i informatiari doli su do zakljuka da bi grafika manipulacija komandama u mnogome pribliila prosenom oveku raunar. Nakon pojave prvih grafikih interfejsa pojavili su se i prvi ureaji koje je karakteristikovala jednostavnost. Prvi ovakav ureaj je svima nama dobro poznat stari mi. Iako je pojava mia bila veliki korak, po pitanju interakcije ovek raunar, nisu iskoriena sva ljudska ula.4.1.

Definicija interakcije ovek raunar

Trenutno nema jedinstvena, opte prihvaena, tana definicija za interakciju ovek raunar. Jedna od najire prihvaenih definicija je definicija koju je dala ACM SIGCHI: Interakcija ovek raunar kao nauka bavi se projektovanjem interaktivnihraunarskih sistema, eksperimentima i implementacijom, odnosno prouavanjem ovih pojava.

Prema Rope Raisamu da bi konstruisali sisteme za lake i udobnije korienje treba da razumemo tri osnovna pojma:1- Korisnik: osoba koja komunicira sa sistemom; 2- Sistem: tehnologija i njena upotrebljivost; 3- Interakcija: veza izmeu korisnika i sistema;

Prema ovim osnovama, jasno je da je nauka interakcija ovek raunar interdisciplianrna nauka. Arhitekta jednog ovakvog sistema treba poznaje teme koje dodiruju psihologiju i konkitivne nauke, sociologiji, ergonomiji, grafiki dizajn i informatiku. Iz pogleda interakcija ovek raunar pojam ulaz je veoma bitna. U praksi veliki deo intarakcija odvija se na multimodalan nain, ali treba tano da znamo koja je razlika izmeu akcija korisnika i realne informacije koju sistem detektuje kao ualz nakon akcije korisnika. Naprimer, kada stitsnemo neko dugme na tastaturi, tastatura koristi modalitet dodira, ali postoje korisnici koji se slue vizuelnim modalitetom tokom kucanja pogledaju na tastaturu da li su pritisli odgovarajue dugme, ili gledaju na

-9-

monitor da li su otkucali ono to su i nameravali. Prosean raunar od ovoga nite ne detektuje samo tumai ukucanu poruku. Treba razlikovati i interfejse: naredba i nenaredba. Prva podrazmueva takve akcije preko kojih na eksplicitan nain izvravamo naredbe (klik na dugme, odvaranje menija). Druga podrazumeva takve dogaaje ili radnje kojima na indirektan nain moemo podeavati sistem u zavisnosti od zahteva korisnika. Stanje raspoloenja oveka je odlian primer za ovo. Kada dva oveka komuniciraju oseanja igraju jako vanu ulogu. Ovo je vrlo vaan deo nauke o multimodalnoj ovek raunar komunikaciji iz razloga to oseaje mnogo puta izraavamo na multimodalan nain u realnom ivotu. Takvi sistemi, koji su u stanju da prepoznaju ljudska oseanja i emotivna stanja (stres, dosada, nepanja, gnev, tuga, ...) i na osnovu toga da reaguju i prilagode se korisniku, mnogo su prirodnija, pouzdanija i efikasnije e videti i razumeti oveka. U ovom seminarskom radu baviemo se multimodalnom interakcijom ovek raunar uglavnom posmatrano iz ugla informatike.

4.2.

Modaliteti

Izuzev tradicionalnog naina, koja prodrazumeva nivo tastaura mi, multimodalna interakcija omoguava niz dodatnih mogunosti za komunikaciju sa sistemom. Najea ovakva multimodalna komunikacija zasniva se na: - vizualnom modalitetu prepoznavanje slika kao ulaz i animaciji kao izlaz; - zvunom modalitetu prepoznavanje glasa kao ulaz i sintetiki govor kao izlaz. Naravno pored ovog moemo se koristiti i drugim vrstama modaliteta kao to su dodir (ekrani na dodir, elektronske olovke). Razvoj multimodalnih korisnikih interfejsa pripadaju nauci iz oblasti koja se bavi prouavanjem interakcije ovek raunar. Korienjem vie vrsta modaliteta poveava se i procenat preciznijeg prepoznavanja kako svaki tip modaliteta ima svoj nedostatak koje su drugi modaliteti istovremeno u stanju da kompenzuju. Zamislimo mobilni telefon sa malim ekranom i sitnim dugmadima. Dugake rei je izuzetno teko napisati sa njim, ali je tu re vrlo jednostvano izgovoriti. Ili, zamislimo hirurga tokom operacije kome je odmah potrebna neka informacija za operaciju, kako sedne za raunarom i trai podatak. Bilo bi mnogo zgodnije da se hirurg obrati reima raunari i da mu on odgovori u to kraem vremenu. Multimodalni korisniki interfejsi su laki za korienje. Uloen trud tokom dizajniranja i projektovanja jednog multimodalnog sistema omogui e

-9-

da korisnici razliitog nivoa obrazovanja koriste taj sistem, ak i lica za posebnim potrebama. Prema Maybury & Walsh prednosti multimodalne komunikacije ovek raunar su: Efikasnost: svaki tip modaliteta treba iskoristiti za ono u emu je ono najbolje; Redundanca: komunikacija e se odvijati nesmetano sa veom verovatnoom, kako za istu stvar sa vie kanala dospevaju razliite reference; Prepoznavanje: u sluaju prostornog konteksta mogunost prepoznavanja raste; Prirodnost: dolazi od toga da se korienje modalnosti slobodno bira to rezultuje takvu ovek raunar komunikaciju koja je slina komunikaciji ovek ovek; Preciznost: raste, kada je neki drugi modalitet u stanju da bolje oznai objekat, nego glavni modalitet; Singerija: informacija koja dolazi sa nekog komunikacionog kalana moe da precizira, modifikuje ili ispravi informaciju koja stie sa nekog drugog kanala; U sluaju kada govorimo o interakciji ovek raunar, pod modalitetom podrazumevamo sledee : ulni organi, kojima ovek detektuje izlaznu informaciju raunara; Senzor ili ureaji, preko kojeg raunar moe da primi ulaznu informaciju; Manje formalno formulisai ovo, modalitet izmeu oveka i raunara oznaava komunikacioni kanal. Prema Roope Raismou multimodalnu interakciju moemo posmatrati iz dva ugla. Prva je bazirana na psihologiji i ovoj temi prilazi sa aspekta oveka: upravljanje i detekcija. U ovom sluaju modalitet kao re oznaava ulazno izlazni komunikacioni kanal. U drugom sluaju ovoj temi prilazi sa aspekta rauanara gde se sistemi konstruiu na bazi modaliteta ulaza ili izlaza dva ili vie raunara i zajednikih informacija dospelih putem ovih kanala, dopunjujui jedan drugog.4.2.1.

Humanocentrini prilaz

Naglasak je na ljudskom modalitetu recepcije i upravljanja, odnosno na ljudske ulazno izlazne kanale tokom humanocentrinog prilaska multimodalnoj interakciji ovek raunar. Recepcija je takav proces u kojoj informacije ulni organi prenose na vii nivo. Komunikacioni kanal sastoji se od ulnih organa, nervne mree, mozga i miie. U ovakvom kontekstu modalitet je u uskoj povezanosti sa ulnim organima ljudskog organizma. Sirbenagel je 1979 godine skupio razliite percepcije i -9-

spojio ih je sa odgovarajuim modalitetima, to je prikazao sledeom tabelom: Oseaj Vid Sluh Dodir Njuh Degustacija Ravnotea ulni organ Oi Ui Koa Nos Jezik Oragan ravnoteeTABELA 1

Modalitet Vizualno Auditivna ulo dodira ulo mirisa ulo ukusa Vestibularni

Neurobioloki modalitete moemo grupisati u sedam grupa: 1. unutranja hemija (eer, pH); 2. spoljanja hemija (njuh, degustacija); 3. fiziki senzacije (dodir, pritisak, temperatura, bol); 4. miine senzacije kinestezija (tegljenje, naprezanje); 5. oseaj ravnotee; 6. sluh; 7. vid; Kako unutranje hemijske procese vrlo teko moemo iskoristit, tako da se sa njima neemo baviti u ovom radu. Osim kinestezije, osatle neurobioloke modalitete moemo pronai u TABELI 1. Kinestezija igra vanu ulogu u odreivanju poloaja delova tela.4.2.2.

Prilaz baziran na sistemu

Informatika je ve na mnogo naina definisala multimodalne korisnike interfejse. Definicije koje se odnose na multimudalnu interakciju objedinio je Chatty, zasnovan na to, da su svi naunici u to vreme (1994) multimodalne sisteme zamiljali kao sisteme koje raspolau sa vie ulaznih interfejsa (multi senzorska veza) ili sisteme koji jedan ulazni siglan intrepretiraju na vie naina. Veina informatiara slae se sa nainom kojim je Chatty definisao multimodalnu interakciju ovek raunar. Pojam multimodalnog korisnikog interfejsa podrazumeva takve sisteme, koji mogu obraditi vie razliitih ulaza kombinujui ih u jednu inteligentnu celinu. Izlazni ureaji ve se due vreme razvijaju bre od onih ureaja sa kojima moemo upravljati sistemom. Ako bi uporedili dananje multimodalne izlazne ureaje sa ulaznim multimodalnim ureajima , pokazalo bi se da ove dve grupe nisu u ravnotei.

Nigay & Coutaz na sledei nain definiu multimodalitet:

-9-

Multimodalitet pokazuje to svojstvo sistema, da je u stanju da na razliitekomunikacione kanala komunicira sa korisnikom i automatski izdvaja sadraj koji moe da tumai. Multimedija i multimodalni sistemi mogu koristiti vie vrsta komunikacionih kanala. Nigay & Coutaz ipak prave razliku izmeu dva sistema, prema tome to multimodalni sistemi moraju biti sposoni da automatski modeluju sadraj informacije na neki vii abstraktni nivo. Iako je jedan klijent elektronske pote u stanju da prosleuje audio i video fajlove, to ga ne ini multimodalnim, kako on samo prosleuje informaciju sa jedne adrese elektronske pote do druge adrese elektornske pote.4.3.

Mitovi ili pogrena verovanja u vezi multimodalne interakcije

Sharon Oviatt je tokom svojih testova na interaktivno inteligentne mape rezimirala mitose i pogrena vervanja u vezi multimodalnih sistema. Interaktivnom mapom kojim se koristila tokom testova moglo se upreavljati govorom, svetlsnom olovkom ili njihovom kombinacijom. Kroz testove, ljudi su trebali da izvre razne zadatke sa ovom dinamikom interaktivnom mapom, kao to su odreivanje mesta, proraunavanje daljine. Tokom testova testirani su davali prednost multimodalnoj interakciji i instiktivno su koristili najefikasnje metode za upravljanje sistemom.

5. 5.1.

MULTIMODALNI SISTEMI

Put That There

Pojam multimodalnog korisnikog interfejsa uveo je Richard Bolt 1980 godine sa svojim sistemom Put That There. Dva naunika MIT-a (Massachutes Institue of Technology), Richard Bolt i Chris Schmandt stvorili su sistem koji je na osnovu pokazivanja i prepoznavanja glasa bio u stanju da na ekrnau konstruie dogaaje. Ovaj sistem bio je jedan deo projekta nazvna Spatial Data Managment System SMDS, koji je imao cilj da u prostoru indexira objekte i podatke iz svakodnevnog ivota, kao t je kancelarija. Ovaj sistem su smestili u jednu sobu na iju sredinu je postavljena fotelja, sa obe strane po jedan ekran a ispred jedan veliki projektor. Jedan od ekrana sa strane je prosleivao informacije SMDS sistemu, ukljuijui i poziciju korisnika. Ekran sa druge strane je o toj poziciji prikazivao detaljniju sliku, tj. uvelianu sliku. Za navigaciju ova dva bona ekrana koristili su dojstik. Jedan od njih je omoguio kretanje kroz kordinatni sistem, dok se sa drugim zumiralo na multimedijalne objekte u toj sobi (mape, knjige, slike, ...).5.1.1.

Mogunosti sistema -9-

Interakcija sa Put That There sistemom bila je ograniena na objekte koje su bile vidljive na centralnom projetkoru. Ove objekte je bilo mogue kreirati, obrisati, pomerati, kopirati ili menjati neku njenu osobinu (boja, veliina). Prema ideji ovi oblici su predstavljali neke fizike objekte stvarnog sveta. Osobinu multimodaliteta ovog sistema je dalo to, to je korisnik mogao iskljuivo govorom ili putem kombinacije govora i pokazivanja da komunicura sa sistemom. U sluaju kombinovane komunikacije pokazivanje je uvek pratio. Mogunosti ovog sistema dobro pokazuje primer: POMERI PLAVI TROUGAO NA DESNU STRANU ZELENOG KVADRATA. Isto ovo bi postigli da smo izdali komandu Stavi to tamo ako bi to znailo palavi trougao a tamo desna strana zelenog kvadraat. Prednost ovog sistema je da je u stanju da tumai izraze zavisne jedne od druge. Sistem prepoznavanja govora bio je u stanju da prepozna 120 rei a za detektovanje pokazivanja bilo je potrebno 2 senzora. Prvi senzor je sluio za detekciju ugla i pravca (bio je montiran na zglob korisnika) i uz njegovu pomo pokazivalo se na kordinate centralnog projektora. Drugi senzor je bio zaduen za izraunavanje pozicije prvog senzora dok je korisnik sedeo u fotelji. Na adresi http://www.youtube.com/watch?v=RyBEUyEtxQo postoji snimak originalnog eksperimenta.

5.2.

Inteligentna informaciona i oglasna tabla

U ovom poglavlju voleo bih da pokaem jednu inteligentnu informacionu i oglasnu tablu koja je razvijena u Tajvanu na Univerzitetu National Cheng Kung University. Razne informacione i oglasne table dananjice mog se nai na vanim i frekventnim mestima. Ove table zauzimaju mnogo mesta, nisu fleksibilne i ne ponaaju se interaktivno sa korisnicima. Ove nedostatke su probali da otklone sa inteligentnim Guiding Bulletin Board System iGBBS, iju osnovu daje prepoznavanje govora i praenje pogleda. Cilj iGBBS-a je da obezbedi multimodalni interjefs koji je udoban i lagan za za korienje korisnicima. Korisnici su u osnovi u stanju da sa svojim pogledom i pomeranjem glave upravljaju sistemom, ali oni koji preferiraju verbalnu komunikaciju mogu sa predefinisanim kljunim reima isto tako da dobiju traenu informaciju. Konstrukcija sistema data je na slici dole: Praenje pogleda u realnom vremenuPrepoznavanje kljunih rei

kamera

mikrafon korisnik

Administracija bazom i Prikazivanje

-9-

ethernet / Wi-Fi administrator Glavni moduki IGBBS-a: - praenje pogleda u realnom vremenu: zadatak ovog mudula je upravljanje sistemom, kada da se probudi sistem da bio bio spreman za korienje; - prepoznavanje kljunih rei: u stanju je da prepozna kljune rei iz govora korisnika i da na njih reaguje odgovarajuim akcijama; - menader podataka i prikazivanje: omoguava ugodan rad administratorima;5.2.1.

Sistem za praenje pogleda u realnom vremenu

ovek po prirodi uvek gleda u onom pravcu gde je neto zapazio. Prema tome, ako sistem detektuje, da je jedan korisnik uperio svoj pogled u njega, to znai, da eli da ga koristi. U sluaju iGBBS-a razvojni tim je iskoristio metodu osnova pojavljivanja i statistiki pristup koje su razvili Viola & Jones, a kasnije Lienhart modifikovao. Nakon to je sistem perpoznao jedno lice treba samo da odredi orijentaciju za njega. Iz te informacije moe da donese odluku da li da aktivira sebe ili ne. Za utvrivanje ovoga prvi korak je utvrivanje karakteristinih taaka i pojedinanosti u okviru prepoznatog lica. Nakon pronalaska karakteristinih taaka i pojedinosti sistem definie objekat za koji kosisnik pokazuje interesovanje.5.2.2.

Prepoznavanje kljunih rei

Algoritam ovog sistema za prepoznavanje kljunih rei jedinstven je po tome to u jednom nizu instrukcija moemo koristit i vie kljunih rei i sistem e te rei obraditi zajedniki. Kako bi sistem mogao da se koristi sa vie kljunih rei odjednom bilo je potrebno definisati tabelu relacija kljunih rei na osnovu koje moe da se donese odluka, da data kombinacija klunih rei zapravo ima iza sebe stvarnu potrebu za informacijom. Definicija relacione tabele je (PK {SK}), gde je PK skup primarnih kljueva dok je SK skup sekundarnih kljueva. Prema ovom pristupu u jednoj relaciji, moe da postoji samo jedan primarni klju, dok skup sekundarnih kljueva moe biti i prazan, ili njegovi elementi mogu biti u nekoj relaciji sa primrnim kljuem. Za ilustraciju ovog, tvorci

-9-

sistema konstruisali su diagram, na osnovu koga kao i na osnovu poloaja pozicije kljunih rei u reenici, sistem u stanju je da prepozna viestruke kljune rei.

Nakon prepoznavanja svih kljunih rei, sistem procenjuje mogue kombinacije primarnih i sekundarnih kljueva. Ako se jedna sekundarna kljuna re jako labavo vezuje za primarnu kljunu re (gledajui na osnovu diagrama, nalazi se daleko od primarne rei), onda efekat te rei sistem uvaava u manjoj meri. Sistem u celosti funkcionie na osnovu prikazane tabele, tj. sistem na osnovu mrene funkcije daje teinu svakuoj kljunoj rei i na osnovu datih teina donosi odluku koje e kombinacije da koristi.5.2.3.

Primena

Prototip sistema prikazan je na National Cheng Kung University, na prvom spratu Tehnikog fakulteta. Bilo ko mogao je da ga koristi kako bi saznao gde se nalaze odreene laboratorije, amfiteatri, kancelarija, ... Sistem je pokretao jedan INTEL Pentium IV procesor na 1 GHz i bio je sposoban da u jednoj sekundi prepozna 20 pogleda. Sistem za prepoznavanje kljunih rei funkcionisao je sa 36,2% faktorskom grekom, to zani da su korisnici na vako 2,76 pitanje dobili taan odgovor. Sistem je u osnovi postigao svoj clij, a to je da eliminise nedostatke tradicionalne oglasne table, naime iGBBS je fleksibilan jer se lako nadograuje, mogao se postaviti bilo gde i tavie nudio je multimodalnu komunikaciju.

5.3.

Multimodalni Pool Instruktor

Cilj automatizovanog pool instruktora razvijen na Aalbor fakultetu je automatizacija pojedinih faza uenja. Automatizovani Pool instruktor (Automated Pool Trainer, -9-

ATP) ostvaruje komunikaciju multimodalno virtualnog ovek raunar instruktora. Sistem u centar stavlja poduavanje, koje je i inae jedan od osnovnih zadataka informatike. Jedinstvenost ovog sistema je u poduavanju praktine vetine, dok ostali softverski paketi prenose samo teorijska znanja. U ovakvoj situacije neadekvatna bi bila primena tradicionalnog interfejsa WIMP (Window, Icon, Menu, Pointing device), te stvorio se prostor za konstruisanje jednog novog multimodalnog sistema.5.3.1.

Target Pool

Kao za osnovu ATP-a kosien jesistem koji je razvio porfesionalni pool igra, Kim Davenport, Target Pool. Uz pomo njegovog sistema, igra koji eli da veba razvija svoje vetine prema unapred definisanim vebama i situacijama i usvojeno znanje sam vrednuje. Za svaku vebu postoji detaljan opis. Igra posle svakog udarca zapie na papir rezultat i nakon odreenog broja ponovljenih pokuaja alanlizira rezultat. U zavisnosti od razultata analize, dobija sledei zadatak za vebanje. Target Pool sadri vie od 140 vebi grupisanih u 10 celina. U veini vebi potrebna je samo bela i neka druga kugla. Na sledeoj slici moemo videti poziciju bele kugle i poziciju neke druge kugle, mesto gde treba udariti belu kuglu, odnosno sa debelom linijom oznaenu idealnu putanju treba da prati bela kugla.

Zbog same konstrukcije Target Pool odlian je osnov za jedan multimodalni sisem, kako sadri ujedno i grafike i tekstualne elemente.5.3.2.

Interfejs

Korisnik moe da komunicira sa sistemom na vie naina. Preko ekrana na dodir direkto moe da koristi objekte GUI-a, moe da daje verbalne instrukcije sistemu preko beinog mikrafona ili ak da pomera kugle na stolu koje detektuje kamera instalirana iznat pool stola. Kao opciono,

-9-

mogue je koristiti i kombinaciju mi tastaura, koje slue za kompleksnije operacije (kreiranje novog korisnika, pisanje poruka). Sistem vizualno moe da prikae informacije na touchscreen ili preko velikog projektora koji je postavljen pored stola. Takoe ima i ugraen sintetizator govora, ali pravu poslasticu ovog sistema ini laserksa glava, koja crta direktno idelanu putanju bele kugle na stolu. Ukratko, sistem na sledei nain komunicira sa korisnikom: - sintetiki govor: korisnik ne traba da deli svoju panju izmeu pool stola ili ekrana; - grafiki prikaz: slui za grafiki prikaz instrukcija; - video prikaz: reprodukuje zadnji udarac korisnika radi analize; - animirani virtualni instruktor: demonstrira sledei zadatak, govori korisniku; - tekstualni prikaz: rezmie auditivnih instrukcija na monitoru; - laserski zrak: uz pomo neposredno emitovanih linija i krugova oznaava mesta kugli, idealnih putanja;5.3.3.

Konstrukcija sistema

Centralni hardver sistema ini jedan PC vrhinskih performansi dopunjen sa potrebnim softverom i ureajima. U daljem tekstu bie prikazani vaniji moduli sistema: Laserski modul: pokretao ga je jedan X Y skener podreenog PCa. Posmatrajui performanse, mogao je da izmeu 600 taaka povue liniju pri brzini od 50Hz. Rezultat je jedna kontinualna, lomljena linija bez treperenja na pool stolu. U vremen nastanka ovog sistema koristio se crveni laser, koji i nije najbolje reenje na zelenoj povrini pool stola i kao drugi veliki nedostatak crvenog lasera iskazao se u bledenju linija da veim daljinama. Modul za prepoznavanje govora i sinterizator govora: ove module ostvarili su pomou IBM-ovog Viavoice ureaja. Za visoki stepen prepoznavanja govora, korisnik je koristio beini mikrafon i razvijena je jednoznaajna gramatika. Za svakog novog korisnika bilo je potrebno da se sistem podui, kako bi se na adekvatan nain prilagodio na nov nain izgovora i na nove boje glasova. Modul za obradu slika: zadatak ovog mudula sastoji se u prepoznavanju pozicije kugli na pool stolu. Pomou ovog, sistem je ustanovio da li je igra tokom postavljanja kugle iste postavio na odgovarajua mesta na poetku vebe, odnosno da nakon udarca utvrdi relativnu poziciju kugli u odnosu na traenu poziciju. Nudio mogunost snimanja pojedinih udaraca koje sistem analizira i obavetava korisnika u vezi postignutog. Ovaj posao je u vreme nastanka sistema obraivao jedan INTEL Pentium III procesor na 600MHz sa brzinom od 12 FPS. Ovo je bilo dovoljno za praenje kugli u realnom vremenu. Preciznost pozicioniranja je bila sa grekom od 1 1,5 cm u zavisnosti od stvarnih poloaja kugli.

-9-

5.3.4.

Virtulani instruktor

injenica je da ljudi nisu navikli da se obraaju i govore jednom pool stolu ili ekranu. Zbog ovog se pojavila potreba za nekom vrstom personalizacije sistema kako bi se korisnici oseali udobno. Korisnici ljudi, voljni su da komuniciraju sa virtualnim osobama ukoliko su oni programirani konzistentnim i ubedljivim linou. U suprotnom sluaju virtualna osoba nee biti autentian partner i korisnik e izgubiti poverenje u ceo sistem. Tako mislei, tvorci ovog sistema mislili su da sistem treba da gestikulira i da ukae na elemente GUI-ja i traili su takav karakter koji ima mogunost gestikuliranja, odnosno da se kree po ekranu. Uz ove uslove odluili su se da koristite modul Microsoft MS Agents. Oni su DirectX i SAPI kompaktibilni i lako se integriu u bilo koju Windows aplikaciju. Razne gestove osvaruju pomou animiranih GIF redova, a Microsoft je obezbedio ak i jednu ugraenu bibljoteku gestova za modul.

Na slici se vidi virtualni pool instruktor, James. Prvobitni vid komunikacije instruktora je sintetiki govor. On saoptava naredni zadatak, daje ideje tako da korisnik ne treba da gleda u monitor ili projektor svo vreme. U toku izvravanja vebi, James svo vreme uti, ne ometa korisnika. Obraa se korisniku samo ako ga on pita neto.

5.3.5.

Test sistema sa ljudima

Nakon nekoliko pred testova odraen je i jedan test usmeren na opsluivanje. Prvenstveno je uticaj James-a posmatran. Uestvovalo je est ljudi koji su pojedinano oko 90 minuta proveli uei od James-a. U ovih 90 minuta uraunato je i vreme za poduavanje sistema na govor novog korisnika. Iz donjeg diagrama se jasno vidi da su se korisnici oseali udobno dok su komunicirali sa virtualnim instruktorom James-om.

-9-

Drugi cilj testa je bio da se sazna da korisnici koju vrstu modalnosti preferiraju u odnosu na druge. Tvorci sistema su na osnovu odgovra doli do zakljuka, da korisnik daje prednost virtualnom instruktoru, tj. James-u, ali kako je testiranje izvreno sa jako malim brojem ljudi dobijeni rezultati su samo statistiki pokazatelji.

5.4.

Multimodalni Poker

Na CeBIT-u 2008 godine razvojni tim IDEAS4Games prikazao je ovaj interaktivni Multimodalni Poker. Tokom prezentacije ovog sistema jedan posetioc imao je prilike da se oproba protiv dva igraa kojima je upravljao raunar u igiri pokera sa 5 karata. Posetioc je igrao delioca, kako je igra opremljena pravim RFID ipovima koji itaju karte. Dva vetaka protivnika Sam i Max imaju sofisticiran emocionalni prikaz i vrhunski sintetizator govora. Sam je u osnovi jedan prijatan, crtanoliki lik, dok je Max jeden odbojniji, tarminatorliki robot. Oba lika pokree open source Horde3D engine. Na slici koja sledi prikazana je multimodalna poker maina.

-9-

Na slici se vidi kako je sistem konstruisan. Sto je podeljen na tri dela koji predstavljaju tri igraa. Mesta predviena za karte imaju RFID itae pomou kojih sistem prepoznaje karte. Putem monitora koji se nalazi preko igraa na stolu i pomou mia, igra moe da izdaje komande kao to su: dizanje, pas, ... Pored ovog monitor prikazuje i druge bitne podatke za igru: koliki je ulog, .... Iznad tabele se nalazi 42 monitor na kojem se vide Sam i Max, dva virtualna igraa. Kada korisnik prie stolu i zapone igru, Sam i Max objasne prvo pravila igre. Nakon toga igra podeli karte za prvi krug i igra poinje. Tokom igre, dva virtualna igraa reaguju na deavanja, na deljenje, dizanje, ... Oni su razliite linosti i igraju razliitim stilom. Sam, koji je vie ovekoliki igra koristi algoritam zasnovan na pravilima. Max sa svojim algoritmom sirove snage za sve kombinacije za igru od 5 karate, izraunava mogue kombinacije (2,58 miliona). Zanimljivost sistema je da oba virtualna igraa, mogu menjati svoje linosti, raspoloenje, stav, ... u zavisnosti toka igre.5.4.1.

Upravljanje

Sam i Max su programirani sa SceneMaker programom. Dialoge su grupisali u takozvane scene povezane govorne celine. U principu jedna ovakva scena je jedan script u kojoj se definie, ta da kee i kako da se ponaa virtualni igra. ta vie, programeri su posebnu panju posvetili da virtualni igrai ne ponavljaju iste reenice. U pomo reavanju ovog problema, pozvali su crnu listu, u koju su iskoritene scene smetene i

-9-

blokirane no oko 5 minuta i ta scena je zamenjena sa odgovarajuom drugom. Za ovo su brojano izkazano, stvorili 73 grupe sa ukupno 335 scena. Poker igra je logiki proces gde je mogue odreene korake dobro definisati. Zbog ovog je bilo mogue da programeri sa jednim scenskim procesom modeliraju, kad ta moe da kae odnosno da uradi virualni igra. Ovaj scenski proces opisali su sa hiper grafom. Na svakom voru hiper grafa postoje pod grafi. Svakom jednom voru podreena je jedna ili vie scena. Tokom izvrenja, sistem prolazi kroz ovih vorova na osnovu trenutnog stanja igre i poteza tri igraa. Dialozi i mimike izabrani na vorovima odreuju multimodalno ponaanje virtualnih igraa.5.4.2.

Model ponaanja

Za definisanje ponaanja u realnom vremenu programeri su koristili model po imenu ALMA. Ona radi sa tri faktora ponaanja: emcije: ponaanje na kratkim stazama, vezan za neki konkretni dogaaj, akciju, objekat; raspoloenje: ponaanje na srednjim stazama, nije vezan za nikakav dogaaj, akciju, objekat; karakter: ponaanje na duge staze i u osnovi formira specifinost karaktera; ALMA implementira kongitivni model razvijen od strane Ortony, Clore i Collins, sa PAD modelom raspoloenja i BigFive karaker modelom. Izmeu tri nivoa ponaanja postoji jaka veza: karakter odreuje osnovno raspoloenje i uslovljava intenzitet razliitih emocija; emocije, kao dogaaji utiu na raspoloenje; a raspoloenja jaaju ili tupe pojednine emocije prouzrokovane dogaajima. ALMA je u stanju da izrauna 24 emocionalna stanja. Izraunate emocije utiu na raspoloenje jedinke. to je emocija intenzivnija, to je vea promena raspoloenja. Jedisntveno je to, to trenutno raspoloenje utie na intenzitet emocija. Pomou ovog mogue je smulirati da je radost mnogo veeg intenziteta, dok je tuga mnogo manjeg intenziteta. Pojedina raspoloenja obeleavaju sa (P, A, D) trojkom: P: pleasure duh; A: arousal zainteresovanje; D: dominance dominantnost; Na primer, ako je svako svojstvo pozitivno (+P, +A, +D), raspoloenje je ODLINO. Trenutno raspoloenje i emocije formiraju ponaanje virtualnih igraa. Na disanje utiu parametri PAD-a. Ako su oni pozitivni, igra bre uzima vazduh, dok kod negativnih vrednosti disanje je usporeno. Menja se i kvalitet govora. U sluaju mirnog raspoloenja govori neutralnim glasom, dok u neprijatnom okruenju ili prezirnom postaje agresivniji. Ako je raspoloenje odlino, govor postaje osetljivo sretniji i topliji.

-9-

Na poetku igre ponaanje Sama i Maxa skoro da je identino. Oboje su smireni. Uprkos razliitim linostima, kako igra napreduje, razlika u njihovom ponaanju se sve vie ispoljava. Samovo ponaanje ima tendenciju prama pozitivnom, dok Maksovo onaanje dobija tendenciju negativnog tako da on postaje neprijateljksi nastrojen.

5.4.3.

Emocionalno izraavanje sintetikog govora

Prema razvojnom timu ubedljiv govor je preduslov da virtualna linost bude to realistinija. Za ovaj sistem naveden stav je bio veoma bitan kako se on temelji na izraavanju oseaja to je i imao za cilj. Odogarajui sintetizator govora treba ujedno da omogui odgovarajui kavlitet, prirodno izraavanje tokom stvaranja glasovnih zvukova. Meutim ova dva kriterijuma uklopiti istovremeno je veoma teko. Ispitana su dve vrste sinteze govora: - uanpred smiljen skup reenica : ukoliko bi koristili govor iz ovog skupa, skoro da bi generisan sisntetiki govr bio prirodan, ali u svom drugim sluajevma ova metoda je nepouzdana. - Statistino-parametrina sinteza: daje konstatntan kvalitet, ali u proseku generisan sintetiki govor je tup zbog mnogo filtera koji se koriste nad generisanim glasom. Na kraju programeri su modifikovali oba naina i uptrebili ih posebno jedan od drugog, jedan nain na jednog virtuelnog igraa i drugi nain na drugog. Glas Sama su stvorili pomou unapred snimljenog skupa reenica. Za skup reenica potreban za stavranje upotrebljeno je 400 reenica sa nemakog Wikipedia, sa kojom su zadovoljili u nemakom jeziku najvanije diade. Pored ovog iskoriteno je 200 reinica koje se koriste u svetu igraa pokera. Ove reenice snimljene su u studiju pomou profesionalnog glumca. Ovih 600 reenica snimljene su u 4 stila (neutralan, sretan, agresivan i tuan) i na kraju ove datoteke su iskoriene za besplatan alat itanja tekstova MARY TTS. Glas Maxa je generisan pomou Statistino-parametrine sinteze. Ova metoda pomou govorne datoteke ui statistike modele. Tokom izvrenja programa jedan vocoder generie glas prema statistikom modelu. Zbog statistike karakteristike generisan glas je u veini sluajeva tup, ali je konstantnog kvaliteta. Za poboljanje izraavanja razvojni tim upotrebio je razliite audio efekte. Vocoderu moemo podesiti frekvenciju, brzinu govora i visinu. Pored ovog razvili su i skaliranje izgovora. Pomou njega mogli su da skrate izgovor, odnosno da apuu. Kombinacijom ova dva softvera postigli su eljene govorne stilove, sa jednostavnim podeavanjem parametara ovih programa.

-9-

6. ZAKLJUAK Budunost pripada multimodalnim korisnikim interfejsima. Jedan sistem nije dovoljno samo ubrzati, poveati njrgov kapacitet, nadograditi ga kako bi prosean ovek iskoristio sav potencijal koji se krije u njima. Bez sofisticiranijih interfejsa multimodalni sistemi nee biti udobniji i privlaniji iz ega sledi da ih ni iroke mase nee prihvatiti. Multimodalnost nam istovremeno moe olakati ivot i pribliiti nove tehnologije za svakoga ko eli uivati u prednostima koje donse nove informacione tehnologije. Na nama je da korisniku to zadovoljstvo olakamo preko multimodalnog pristupa.

-9-

7.

LITERATURA

-

Fazekas and I. Snta, Recognition of facial gestures from thumbnail picture, in Proc. of NOBIM'2004, 2728, May, (2004), Stavanger, Norway, 5457. Fazekas and I. Snta, Recognition of facial gestures based on support vectore machines, Lecture Notes in Computer Science, 3522, (2005) 469 475. G. Olaszy, G. Nmeth, P. Olaszi, G. Kiss and G. Gordos, PROFIVOX - A Hungarian professional TTS system for telecommunications applications, International Journal of Speech Technology, 3, (2000) 201216. Zs. Ruttkay, A. Fazekas and P. Rig, Hungarian talking head according to MPEG-4, in roc. of Harmadik Magyar Grafika s Geometria Konferencia, 1718, November, (2005), Budapest, Magyarorszg, 1623

-

-

-

-9-

Seminar Ski Multimodalna Interakcija Covek Racunar

Documents

Transcript of Seminar Ski Multimodalna Interakcija Covek Racunar