AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
-
Upload
ryohei-suzuki -
Category
Technology
-
view
647 -
download
6
description
Transcript of AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone:
高周波音の映像収録時
埋め込みによる編集支援
鈴木良平
坂本大介
五十嵐健夫
東京大学大学院情報理工学系研究科
1
映像制作の大衆化
高性能カメラの普及 映像共有文化の発達
さまざまな人々が、さまざまな目的で映像コンテンツを作っている
2
問題
魅力的な映像の編集は依然として難しい
なぜか?
3
1. オーサリングソフトの習熟コストの高さ
2. 映像の文脈的内容を反映した編集は手間が掛かる
…エフェクト追加、カット、キャプションなど
少しでも自動化できないか?
本研究の目的
■ビデオ撮影時に映像に意味情報を注釈し
■注釈情報を用いて映像編集を支援する
ワークフローと基礎技術の提案
(対象:実写映像)
4
AnnoToneの基本アイデア
■注釈情報を不可聴な高周波音に変調
■撮影中、カメラのマイクから重畳録音
利点
• ほぼあらゆるビデオカメラで利用できる
• 映像データそのものに情報を格納できる
• 不要時には簡単なフィルタ処理で除去できる
5
AnnoToneを用いた
映像編集のワークフロー
Workflow
6
1. 機材のセットアップ
■ビデオカメラにスマートフォンを固定
■スマートフォン上でAnnoToneアプリを起動
スマートフォンの取り付け アプリの起動7
2. 映像の撮影
■撮影中、スマートフォンがユーザー入力や
センサデータを取得、ビデオカメラに吹き込む
センサデータ
ユーザー入力
撮影シーン
音声透かし信号
8
注釈済み映像の編集
■注釈付き音声から注釈情報を抽出、編集に利用
■編集完了後、透かし除去器により注釈シグナルを除去
9
AnnoToneの利用例
Applications
10
撮影時映像編集
• 映像撮影中に演技の良し悪しのヒントを記録
• 成功した部分だけを自動的に抽出し、結合
収録時の様子
成功 失敗 成功
Good! Bad! Good!
成功 成功
自動結合結果
(時間)
11
位置情報を用いた映像編集
• 移動撮影中のカメラのGPS座標系列を編集に利用
地図上のスケッチによる対応映像の切り出し
地図画像の重畳
12
グラフィックの自動合成
• チェス試合撮影時に棋譜をタッチパネルで記録
• 棋譜から試合状況のグラフィックを自動合成
棋譜記録用UI グラフィックが合成された映像 13
AfterEffectsとの統合
• AnnoToneプラグインが注釈情報を抽出
• エフェクトやアニメーションの生成に利用可能
⇒既存の映像制作ノウハウの有効活用14
関連研究
Related work
15
ContextCam[Patel & Abowd, 2004]
■撮影時に位置・場面等の注釈を記録し、映像管理に活用
■注釈情報は映像の各フレームに画像透かしとして埋込み
既存のビデオカメラと組み合わせることは出来ない16
Cryptone[Hirabayashi & Shimizu, 2012]
■高周波音を用いた、ライブ会場でのインタラクション
■ラウドスピーカーと観客手持ちスマートフォンとの連携
本研究では編集支援のために同様の音声透かし技術を利用17
0100111010
注釈埋め込みの手法
Methods
18
高可聴域を用いた音声透かし
音声透かし (Bender et al., 1996)
• 人間には分からない形で音声信号に情報を埋め込む
• 多くの手法はオフラインな埋め込み
高可聴域への情報コーディング
Fre
quency (
Hz)
20
20k
22k
18k
高可聴域
(ほぼ不可聴)
情報埋め込み可能
+信号除去が容易
19
音声データ記録域
ヒト可聴域
DTMFベースの埋め込みプロトコル
Dual-Tone Multi-Frequency (DTMF)
• 7周波数のうち2正弦波の重ねあわせで4bitを表現
USC [Hirabayashi&Shimizu, 2012]を拡張
• 可変長のパケットを表現するプロトコルを開発
• シグナルあたり10msで、400bpsのグロスレート
音声透かし信号のスペクトログラム 20
性能評価
Evaluations
21
音声透かしの信頼性
■埋め込んだ音声透かしの抽出成功率
– 様々な音響条件(静音・街中・音楽再生)で試験
– いずれの条件でも95%以上の成功率を検証
■音声圧縮に対する透かしの保存率
– Ogg Vorbis, AC-3, AACでは中音質以上で損失なし
– MP3では高音質でも半数以上損失(∵コーデック特性)
※デコード速度(Java実装)
– 約11倍速(2GHz Intel Core i7, 8GB RAM)22
音声透かしの不可聴性
■注釈済み音源からの検知が可能か実験(6人)
• 透かしは完全に不可聴ではない(個人差・年齢依存)
• 透かし除去器の適用後はほぼ完全に不可聴となった
0
20
40
60
80
100
silent public rock electronic
Noti
ced
Wa
term
ark
Ra
te (
%)
Before Erasure
After Erasure
23
Quiz 1
Q. どちらが透かし入り?
24
A B
Quiz 2
Q. どちらが透かし(フィルタ済み)入り?
25
A B
まとめ
Conclusions
26
研究の目的
• 映像編集を支援するための注釈手法の開発
• 注釈付ビデオを編集するワークフローの提案
アプローチ
• 注釈情報を音声透かし信号として重畳録音
• カメラに取り付けたスマートフォンからの吹込み
• 編集ソフト用ライブラリやAEプラグインの開発
27
利点
• 特殊な機材が不要
• ファイル形式に非依存
• 映像との同期性に優れる
⇒映像制作プロセスへの導入が容易
制約
• 目的ごとのアプリ開発必要性(AnnoToneはToolkit)
• 透かし除去時の音質低下
28
29
注)スマートフォン記録に対する比較
※スマホ撮影時には直接メタデータを書き出せる
– e.g., Adobe XMP
• ビデオカメラ自体の性能差
– 画質、機能面など
• 外部ファイルとの対応付けが不要
– 編集ソフトを選ばない
– 切り出し処理などで時間対応が崩れない
30