Sistemas de Áudio - dca.fee.unicamp.brrafael/ee840/Minicurso_SomEspacial.pdf · Sistemas de...

Post on 11-Nov-2018

228 views 0 download

Transcript of Sistemas de Áudio - dca.fee.unicamp.brrafael/ee840/Minicurso_SomEspacial.pdf · Sistemas de...

Sistemas de Áudio: do monoaural ao ambisonics

(passando pelo binaural)

Prof. Dr. Bruno Masiero

Fonógrafo (1877)

CODEC

Localização de sonsFisiologia e Psicoacústica

O sistema auditivo

O Sistema auditivo (expandido…)

Percepção de direção do som

Interaural Time Delay (ITD)

Interaural Time Delay (ITD)

• sin 𝜃 sin 𝜃 𝜃 + sin 𝜃 𝑟 𝜃 +sin 𝜃 𝑐 𝑟 𝜃 + sin 𝜃 𝑐

• 𝑐𝑐𝜃𝜃𝑛𝑖 sin 𝜃 𝑠 𝑟 𝜃 +sin 𝜃 𝑐 𝜃 + sin 𝜃 +

𝜃𝜃𝑟𝑟𝑡𝑡 = Δ𝑡 =𝑟 𝜃+sin 𝜃

𝑐

Interaural Time Delay (ITD)

• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 +sin 𝜃 𝑟 𝜃 + sin 𝜃 𝑐 𝑟 𝜃 +sin 𝜃 𝑐

• 𝑑 = 2𝑟 ≈ 18cm

Interaural Time Delay (ITD)

• 0,67ms

• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 +sin 𝜃 𝑟 𝜃 + sin 𝜃 𝑐 𝑟 𝜃 +sin 𝜃 𝑐

• 𝑑 = 2𝑟 ≈ 18cm

• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 0,67ms

Interaural Time Delay (ITD)

• 740Hz

• 𝜋𝜋

• 0,67ms

• 𝑚𝑐81 𝑟𝑟 ≈ 2 sin 𝜃 sin 𝜃 𝜃 + sin 𝜃 𝑟 𝜃 +sin 𝜃 𝑐 𝑟 𝜃 + sin 𝜃 𝑐

• 𝑑 = 2𝑟 ≈ 18cm

• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 0,67ms• 𝐼𝑇 𝐷 𝑚𝑎𝑥 ≈ 𝑚𝑎𝑥 𝑥 𝑚𝑎𝑥 ≈ 740Hz

Interaural Level Difference (ILD)

Efeito de precedência

Summinglocalization

Cone de confusão

Resolvendo o cone de confusão

Head-Related Transfer Function

Head-Related Transfer Function

Head-Related Transfer Function

ILD

Head-Related Transfer Function

ILD ITD

Medindo HRTF

Balão de cor

Amplitude Cor

1kHz 8kHz

Balão de dados

Amplitude raioFase Cor

HRTF (esquerda)

Medindo HRTF

Áudio Espacial

CODEC

Paradigmas

•Paradigmas de gravação

•Paradigmas de reprodução

•Paradigmas de codificação

Gravação

Técnicas de gravação

•Dois paradigmas principais:1. Gravação independente de fontes e

pós-produção/auralização2. Arranjo de microfones

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)

• AB (dois omni distantes)

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)

• AB (dois omni distantes)

• MS (um direcional e um figura de oito)

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)

• AB (dois omni distantes)

• MS (um direcional e um figura de oito)

• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)

• AB (dois omni distantes)

• MS (um direcional e um figura de oito)

• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)

• Eigenmic (Usados para descrever campo sonoro chegando a um ponto do espaço)

Arranjo de microfones

• Arranjos com dois microfones são os mais utilizados• XY (dois cardióides juntos)• AB (dois omni distantes)• MS (um direcional e um figura de oito)

• Arranjos concêntricos• 5.1 (cardióides apontando para as posições dos falantes)• Eigenmic (Usados para descrever campo sonoro

chegando a um ponto do espaço)

• Possível outros arranjos com outras configurações

Captação próxima/individual

• O áudio proveniente de cada fonte sonora é captado individualmente (close miking)

• As trilhas são mixadas posteriormente para cada tipo de sistema de reprodução.

Reprodução espacial

Técnicas de reprodução espacial

• Três paradigmas1. Panorama

2. Síntese de campo

3. Binaural

Panorama 2D

SomaVetorial

Posição da fonte

Efeito de precedência

Summinglocalization

Panorama de amplitude

Jens Blauert and Rudolf Rabenstein, Schallfeldsynthese mit Lautsprechern I − Beschreibung und Bewertung. ITG-Fachtagung „Sprachkommunikation“ – Bochum, October 2010

Panorama: Lei das Tangentes

𝑔𝐿 𝑔𝑅

tan 𝜃

tan 𝜃0=𝑔𝑅 − 𝑔𝐿𝑔𝑅 + 𝑔𝐿

𝜃

−𝜃0 𝜃0

Panorama 2D

Surround Sound

• Extensão do PANORAMA DE AMPLITUDE para um formato envolvente e comercialmente viável

Panorama 3D

Ville Pulkki, Virtual sound source positioning using vector base amplitude panning, Journal of the Audio Eng. Society,1997

Karl-Heinz Stockhausen, Spherical Concert Hall, World Expo in Osaka, 1970

VBAP: Triângulo ativo

Ville Pulkki, Virtual sound source positioning using vector base amplitude panning, Journal of the Audio Eng. Society,1997

𝑔1 𝑔2 𝑔3

= 𝑝𝑥 𝑝𝑦 𝑝𝑧

𝑙𝑥 1

𝑙𝑥 2

𝑙𝑥 3

𝑙𝑦 1

𝑙𝑦 2

𝑙𝑦 3

𝑙𝑧 1

𝑙𝑧 2

𝑙𝑧 3

−1

IEM-CUBE (Graz, Austria)

24 Loudspeakers, ~4th Order

Ambisonics

• Enquanto VBAP propõem usar 3 altofalantes por direção, AMBISONICS propõem o uso de todos os altofalantes para sintetizar um fonte virtual.

• Baseado no conceito de análise harmônica (esféricas)

Conhecemos Fourier no tempo...

1a a 3a harmônicas

1a e 2a harmônicas

Primeira harmônica

Séries de Fourier (notação complexa)

𝑠 𝑡 =

𝑚=−∞

𝐶𝑚𝑒𝑗𝑚𝜔0𝑡 𝜔0 =

2𝜋

𝑇

𝐶𝑚 =1

𝑇

−𝑇/2

𝑇/2

𝑠(𝑡)𝑒−𝑗𝑚𝜔0𝑡𝑑𝑡

Séries de Fourier (notação complexa)

Domínio do tempo

Domínio da frequência

𝑠 𝑡 =

𝑚=−∞

𝐶𝑚𝑒𝑗𝑚𝜔0𝑡 𝜔0 =

2𝜋

𝑇

𝐶𝑚 =1

𝑇

−𝑇/2

𝑇/2

𝑠(𝑡)𝑒−𝑗𝑚𝜔0𝑡𝑑𝑡

Harmônicas Esféricas (SH)

E. Williams, Fourier Acoustics

𝑑 𝜗, 𝜑 =

𝑛=0

𝑚=−𝑛

𝑛

𝐷𝑛,𝑚 ∙ 𝑌𝑛𝑚(𝜗, 𝜑)

Soundfield TM

1st OrderEigenmic TM

~4th Order

Aquisição Ambisonics

• Propõem uma cadeia completa de gravação, transmissão e reprodução ESCALÁVEL de som espacial

Spherical microphone arraysPetersen, Moller-Juhl,

B&K, 2003-2010

Jin, v.Schaik, 2006-2010

Li, Duraiswami, O‘Donavan, Grassi, 2004-2010

Rafaely&Park, 2004/2010

Takashima, Nakagawa,Williams,2008

Meyer, Elko 2000-2010

Spherical (or platonic) sound sources

IEM Graz, Austria

CNMAT Berkeley, USA

IRCAM Paris, France

Unicamp, Campinas, Brazil

Aproximando uma onda plana

𝑒𝑗𝑘𝑟 cos 𝜃 =

𝑛=0

𝑖𝑛 2𝑛 + 1 𝑗𝑛 𝑘𝑟 𝑃𝑛 cos 𝜃

• 𝑗𝑛 𝑘𝑟 é a função de Bessel esférica

• 𝑃𝑛 cos 𝜃 é o polinômio de Legendre

Aproximando uma onda plana

𝑛 = 0

Componentes de primeira ordem

𝑛 = 1

Componentes de segunda ordem

𝑛 = 2

Aproximando uma onda plana

𝑛 = 2

Aproximando uma onda plana

𝑛 = 5

Aproximando uma onda plana

𝑛 = 10

Aproximando uma onda plana

𝑛 = 20

Ambisonics

PANORAMA?

ou

SÍNTESE DE CAMPO?

Ambisonics

PANORAMA?

ou

SÍNTESE DE CAMPO?

• Ambisonics permite transição suave entre os dois paradigmas.• De acordo com seu criador M. Gerzon, para baixas

ordens Ambisonics funciona baseado em princípios psicoacústicos.

• High Order Ambisonics (HOA): síntese de campo.

Síntese de Campo: WFS

• Baseado no princípio de Huygens

Síntese de Campo: WFS

• Involve solução da integral de Kirchhoff-Helmholtz

Síntese de Campo: WFS e HOA

• Controlam o campo sonoro

• Pode sintetizar fontes pontuais a distâncias menores que a dos falantes

• Necessitam de centenas de altofalantes

• Artefatos ocorrem nas altas frequências• (depende da distância entre falantes)

Binaural

Blauert, J., 1995, "An Introduction to Binaural Technology“

Fones Falantes

Reprodução binaural

Binaural

J. Blauert. Communication Acoustics. Springer-Verlag, 2005

Individual

77

Binaural

J. Blauert. Communication Acoustics. Springer-Verlag, 2005

Individual

77

Binaural

J. Blauert. Communication Acoustics. Springer-Verlag, 2005

Individual

Individual

77

Binaural

J. Blauert. Communication Acoustics. Springer-Verlag, 2005

Individual

77

Binaural

J. Blauert. Communication Acoustics. Springer-Verlag, 2005

Individual

77

Binaural: Equalização

Equalização individual de fones

Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.

Equalização individual de fones

média

Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.

Equalização individual de fones

média

Vales suavizados

Masiero B, Fels J. Perceptually Robust Headphone Equalization for Binaural Reproduction. 130th AES Convention. London, England; 2011.

Diafonia (crosstalk)sL

sR

eReL

Crosstalk Cancellation (CTC)

I1'

t

1

t

I

t

I1

I

Left Ear

Right SpeakerLeft Speaker

Right Ear

t

Crosstalk Cancellation (CTC)

I1'

t

1

t

I

t

I1

I

Left Ear

Right SpeakerLeft Speaker

Right Ear

t

22'

2

Crosstalk Cancellation (CTC)

I1'

t

1

t

I

t

I1

I

Left Ear

Right SpeakerLeft Speaker

Right Ear

t

22'

2

3'3

3

Crosstalk Cancellation (CTC)

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

82

Crosstalk Cancellation (CTC)

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

82

Crosstalk Cancellation (CTC)

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

𝑒𝐿𝑒𝑅

=𝐻𝐿𝐿 𝐻𝑅𝐿

𝐻𝐿𝑅 𝐻𝑅𝑅

𝑯

𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅

𝑪

𝑠𝐿𝑠𝑅

82

Crosstalk Cancellation (CTC)

• in min 𝑪 𝑪𝑪min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2

• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +

𝛽 𝑪𝒔 2

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

𝑒𝐿𝑒𝑅

=𝐻𝐿𝐿 𝐻𝑅𝐿

𝐻𝐿𝑅 𝐻𝑅𝑅

𝑯

𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅

𝑪

𝑠𝐿𝑠𝑅

82

Crosstalk Cancellation (CTC)

• 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗ 𝑯𝑯+𝑰𝑰𝛽𝛽 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯+𝑰𝛽 −1 −1 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗

• in min 𝑪 𝑪𝑪 min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽 𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2

• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +

𝛽 𝑪𝒔 2

• Result• 𝑪 = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

𝑒𝐿𝑒𝑅

=𝐻𝐿𝐿 𝐻𝑅𝐿

𝐻𝐿𝑅 𝐻𝑅𝑅

𝑯

𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅

𝑪

𝑠𝐿𝑠𝑅

82

Crosstalk Cancellation (CTC)

• 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗ 𝑯𝑯+𝑰𝑰𝛽𝛽 𝑯 ∗ 𝑯+𝑰𝛽 𝑯 ∗ 𝑯+𝑰𝛽 −1 −1 𝑯 ∗ 𝑯+𝑰𝛽 −1 𝑯 ∗ 𝑯𝑯𝑯 ∗ ∗ 𝑯 ∗

• in min 𝑪 𝑪𝑪 min 𝑪 min 𝑪 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑯𝑪𝑪𝒔𝒔−𝒔𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 𝑯𝑪𝒔−𝒔 2 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 𝛽𝛽 𝑪𝒔 𝑪𝒔 𝑪𝑪𝒔𝒔 𝑪𝒔 𝑪𝒔 𝛽 𝑪𝒔 2 2 𝛽 𝑪𝒔 2 𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2 min 𝑪𝑯𝑪𝒔−𝒔 2 + 𝛽 𝑪𝒔 2

• Goal: • 𝒎in 𝑪 min 𝑪 𝑯𝑪𝒔 − 𝒔 2 +

𝛽 𝑪𝒔 2

• Result• 𝑪 = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

• = 𝑯∗𝑯+ 𝑰𝛽 −1𝑯∗

𝑒𝐿𝑒𝑅

=𝐻𝐿𝐿 𝐻𝑅𝐿

𝐻𝐿𝑅 𝐻𝑅𝑅

𝑯

𝐶𝐿𝐿 𝐶𝑅𝐿𝐶𝐿𝑅 𝐶𝑅𝑅

𝑪

𝑠𝐿𝑠𝑅

82

Individual

CTC individual

83

#5 - #5(matched)

#6 - #2(mismatched)

Majdak P, Masiero B, Fels J. Sound localization in individualized and non-individualized crosstalk cancellation systems. J Acoust Soc Am. 2013 Apr;133(4):2055–68.

Binaural

• Estático VS Dinâmico

Masiero B, Vorländer M. A Framework for the Calculation of Dynamic Crosstalk Cancellation Filters. IEEE/ACM Trans Audio, Speech, Lang Process. 2014. 22(9):1345–54.

Binaural Dinâmico

Áudio orientado a objetoE seus desafios...

CODEC

CODEC

Sopa de letrinhas...

• MPEG-7:• padrão de descrição de conteúdo multimídia

• MPEG-4:• padrão mais comumente utilizado para compressão de

dados digitais de áudio e vídeo

• MP3:• MPEG-1/2 Audio Layer 3: um dos primeiros tipos de

compressão de áudio com perdas

Padrões MPEG

1. Parametric Stereo

2. MPEG Surround

3. Spatial Audio Object Coding (SAOC)

Parametric Stereo Coding

MPEG Surround Coding

• Usado para transmissão eficiente de formato 5.1 comprimido em stereo ou mono e metadados espaciais

• Codificação baseada em CANAIS

Stereo Upmixing

Stereo Upmixing

MPEG Spatial Audio Oriented Coding

• ISO/IEC 23003-2:2010 Standard

• SAOC utiliza o conceito de OBJETOS SONOROS, istoé, sinais monofônicos não-correlacionados, que sãofornecidos ao CODEC para compressão e podem sermixados no receptor de acordo com o sistema de reprodução disponível e as informaçõesparamétricas enviadas

MPEG Spatial Audio Oriented Coding

MPEG Spatial Audio Oriented Coding

• Mas e se não tenho as gravações individuais de cada objeto da cena?

• É aqui que entram novos paradigmas de processamento de sinais!

• Modelo da audição espacial

• Arranjos densos de microfones

• Separação cega de fontes

• Desconvolução com esparsidade

DirAC (Aalto Univ. & Fraunhofer IIS)

Agora só falta vocês botarem a boca no trombone...

Imagens extraídas dePulkki, Karjalainen, Communication Acoustics, John Wiley & Sons, 2015