연립방정식을 이용한 도시온도와 건물에너지 소비의 … 이수진 김기중 이승일_연립방정식.pdf연립방정식을 이용한 도시온도와 건물에너지
음성인식기술을 이용한 일본드라마 감성분석
-
Upload
cyberemotion -
Category
Education
-
view
1.125 -
download
4
Transcript of 음성인식기술을 이용한 일본드라마 감성분석
![Page 1: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/1.jpg)
한국연구재단 학제간 융합연구팀 주최 세미나
음성인식 기술을 이용한 일본 드라마 감성 분석
(Analysis of Japanese Drama using Emotional Speech Recognition)
2011. 6. 10( 금 ).
김성호
영남대학교 전자공학과
![Page 2: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/2.jpg)
Outline
Introduction of emotional speech recognition Related works and current status Standard emotional recognition system
MFCC feature Classification by SVM
Experimental results Concusions
2
![Page 3: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/3.jpg)
Introduction
Speech A sequence of elementary acoustic symbols
Information in speech Gender information, age, accent, speaker’s identity, health, and
emotion
Application of emotional speech recognition Recently, increased attention in this area 융합과제 : 반한 감정에 대한 정량적 분석에 도움 . Human-Robot interaction Smart call-centers Computer tutoring system
3
![Page 4: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/4.jpg)
Related Works (2007-2008)
[J. Sidorova, 2007] Feature: pitch, intensity, formant, harmonicity 116 dim. Classifier: MLP (neural-network) Number of emotions: 7 types (neutral, angry, disgusted, fear, joy,
surprise, sad) Test DB: EMO-DB (Deutch) 80.67%
[T. Danisman, 2008] Feature: MFCC, energy Classifier: SVM (Support Vector Machine) Number of emotions: 5 types (angry, happy, neutral, sad,
surprise) Test DB: DES-DB (Denmark) 67.6%
4
![Page 5: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/5.jpg)
Related Works (2009-2011)
[M. Vondra, 2009] Feature: F0, Intensity, MFCC Classifier: GMM (Gaussian Mixture Model) Number of emotions: 7 types Test DB: EMO-DB (Deutch) 71.63%
[M. El Ayadi, 2011] Survey Feature
Best feature is unknown. Classifier
• HMM, GMM• SVM, Neural Net, k-NN
Current performance Speaker independent: around 50% Speaker dependent: over 90%
5
![Page 6: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/6.jpg)
Standard Method of Emotional Speech Recognition
Key algorithm Feature extractor: MFCC Classifier: SVM
6
Recognized emotions
MFCCSVM orNearest class mean classifier
MFCC
Training acoustic files
Testing acoustic files
![Page 7: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/7.jpg)
Feature for Emotional Speech Recognition
Mel Frequency Cepstral Coefficients (MFCC) Convey information of short time energy in frequency domain
7
Signal
Fourier transform (frequency domain)
Mapping the power spectrum onto the mel scale
Take Log of powers at each mel frequency
Final MFCC: Amplitude of resulting spectrum
Mel scale: 사람이 차이를 느끼는
주파수 간격
Mel
Sca
le
Hertz ScaleTake discrete Cosine transform
![Page 8: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/8.jpg)
Classifier: Support Vector Machine
8
Feature space Learning: Finding optimal classifier
Recognition: Performed by the learned classifier
Ex. y=ax+b
Original SVM basically binary class classifier Multiclass SVM use multiple SVMs and voting
![Page 9: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/9.jpg)
Classifier: Nearest Class Mean
9
Feature space
Learning: Finding class means
Recognition: Finding nearest class
![Page 10: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/10.jpg)
Exp.1 on EMO Database
EMO DB 7 types (happy, angry, anxious, fearful, bored, disgusted, neutral) 10 kinds of sentences 10 people (male 5, female 5) Language: Deutch
10
anger
happy
boredom
![Page 11: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/11.jpg)
Recognition using Nearest Class Mean Classifier
Learning: 150 (randomly selected), test: 150
11
Recognition rate: 47.0%
![Page 12: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/12.jpg)
Recognition using SVM
Recognition rate: 38.0%
12
SVM 보다 Nearest Class Mean Classifier 가 우수함 .
![Page 13: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/13.jpg)
Exp2. 독일어로 학습 일본어 테스트 놀람
13
슬픔
기쁨
독일어와 일본어의 차이로 인해 인식이 불안정함 .
![Page 14: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/14.jpg)
Exp3. 일본어로 학습 일본어로 테스트
14
'neutral
'anger’
'happy’
‘surprise’
'sad'
DB 구성 : 5 개 감정 , 57 개 음성클립( 언덕 위의 구름 4 화만 활용 )
![Page 15: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/15.jpg)
인식결과 : Nearest Class Mean Classifier 이용
15
56.7%
surprise
happy
anger
neutral
sad
![Page 16: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/16.jpg)
인식결과 : SVM 이용
16
86.6%
SVM 인식 기법이 더 우수함 .
surprise
happy
anger
neutral
sad
![Page 17: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/17.jpg)
Exp.4 확장 실험
학습 : 158 음성 클립 (1-4 화 , 2 초 / 클립 ) 26,635x20dim 10 회 반복 (cross-validation, random sampling, 5000 개
feature, 16ms/feature) 평균인식률 : 92.85
17
surprise
happy
anger
neutral
sad
![Page 18: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/18.jpg)
제 1 화 전체 음성 파일 분석 결과
세 주인공의 유년시절 나레이션 많음 . 배경 음악 자주 있음 .
18
surprisehappy
anger
neutral
sad
surprise
불꽃놀이 헤어짐 영어수업
순양함 감탄
![Page 19: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/19.jpg)
제 2 화 전체 음성 파일 분석 결과
세 주인공의 학창시절 나레이션 많음 . 배경 음악 자주 있음 .
19surprise
해군 훈련
![Page 20: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/20.jpg)
제 3 화 전체 음성 파일 분석 결과
청일전쟁 직전 나레이션 많음 . 배경 음악 자주 있음 .
20surprise
부친상 , 회상 , 나레이션
조선군대 파병 관련 관료 대화
![Page 21: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/21.jpg)
제 4 화 전체 음성 파일 분석 결과
청일전쟁 나레이션 많음 . 배경 음악 자주 있음 .
21
육상전쟁 해상전쟁 종군기자나레이션
![Page 22: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/22.jpg)
제 5 화 전체 음성 파일 분석 결과
청일전 승리 얘기 미국 방문 나레이션 많음 .
22
민비시해사건소개 ( 놀람 )
미국 무도회 나이아가라폭포관광 ( 놀람 )
![Page 23: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/23.jpg)
제 6 화 전체 음성 파일 분석 결과
23
![Page 24: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/24.jpg)
제 7 화 전체 음성 파일 분석 결과
24
해군교육(anger)
문학인죽음(sad)
장례식(sad)
![Page 25: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/25.jpg)
제 8 화 전체 음성 파일 분석 결과
25
![Page 26: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/26.jpg)
제 9 화 전체 음성 파일 분석 결과
26
출항 , 헤어짐(sad)
전투(anger)
전투(anger)
![Page 27: 음성인식기술을 이용한 일본드라마 감성분석](https://reader030.fdocuments.net/reader030/viewer/2022013102/557cbddad8b42a59078b485f/html5/thumbnails/27.jpg)
결론
감성 언어 인식 기법 결론 MFCC 특징량 추출 및 인식기 (SVM, Nearest mean class
classifier) 개발 독일어 7 종 감정 인식 성능은 최대 47% 임 . 독일어 학습 일본어 감정 인식 성능은 매우 안좋음 . 일본어 5 종 감정 학습 일본어 감정 인식 최대 성능은 92.85%
임 .
‘ 언덕위의 구름’ 전체 음성 분석 결과 1-9 화 전체 음성 파일에 적용 및 통계적 분석 결과 특정 장면에서
감정이 일부 상관 관계가 있었지만 , 배경 음악 , 나레이션 등에 의해 무의미한 부분이 많음 .
반한 감정 관련 음성학적으로 특이 사항을 발견하기 어려웠음 .
27