201310合同ゼミ論文紹介
-
Upload
saya-katafuchi -
Category
Technology
-
view
374 -
download
4
description
Transcript of 201310合同ゼミ論文紹介
吉村研究室
B2211017
片渕 小夜
201310合同ゼミ①
3次元空間中の文字の回転角度を利用した情景中文字の検出と認識
2013/10/07 IS1-03 1
目次 1. 文字認識技術の概要と諸問題
2. 提案手法の説明
3. 実験の説明と考察
4. まとめ
5. 参考文献
2013/10/07 IS1-03 2
1.文字認識技術の概要と諸問題
2013/10/07 IS1-03 3
文字認識技術の概要と諸問題(1)
2013/10/07 IS1-03 4
今では携帯電話やタブレットPC,スマートフォンでカメラが内蔵されていない機器は殆ど無い
カメラを入力手段とする文字認識への期待が高まっている
文字認識技術の概要と諸問題(2)
2013/10/07 IS1-03 5
カメラで撮影した文字は回転や透視投影の変形を含み、
従来のフラットヘッドスキャナで取得された文書画像を対象とするOCRでは認識が難しい
文字認識技術の概要と諸問題(3)
2013/10/07 IS1-03 6
従来手法では…
1. アフィン不変な特徴を用いたレイアウトに依存しない文字認識手法
→認識対象は白の背景に黒で印刷された文字、情景内からの文字検出については考慮されていない
2. 教師なし学習を用いて情景内から文字を検出、認識する手法
→回転している文字について考慮されていない
回転や透視投影の影響を受けている文字を 情景内から検出、認識する手法を提案する
2.提案手法の説明
2013/10/07 IS1-03 7
大まかな流れ
2013/10/07 IS1-03 8
1. 連結成分切り出し
2. 文字認識
3. 非文字の棄却、文字検出
1.連結成分切り出し
2013/10/07 IS1-03 9
面積が50px以下の領域はノイズとして判定
2.文字認識
2013/10/07 IS1-03 10
① 特徴抽出 標準文字に対して計算機上で3次元の回転処理を施し回転文字を生成、特徴抽出を行う
回転はx軸,y軸,z軸の順に
行われる
回転処理を行う際には画素値
の線形補間を用いている
2.文字認識
2013/10/07 IS1-03 11
② 特徴抽出 特徴ベクトルとして加重方向指数ヒストグラム(392次元)を抽出して使用する
特徴抽出によって得られた特徴ベクトルから、文字のクラスごとに平均ベクトル、共分散行列の固有値、固有ベクトルを算出し、それらを学習辞書とする
A
A
A
2.文字認識
2013/10/07 IS1-03 12
③ 認識 識別関数としてMQDF(Modified quadratic discriminant function)を採用
→識別精度を損なうこと無く、計算量を大幅に削減できる
(補足)数式中の変数
2013/10/07 IS1-03 13
X:入力文字のn次元特徴ベクトル M:母集団の平均ベクトル k:識別に用いる固有ベクトル数 N:各クラスのサンプル数 P(ω):クラスωの事前確立 Φ𝑖 , 𝜆𝑖:標本共分散行列の第i固有ベクトルと第i固有値 𝜎2:特徴ベクトルXの事前確立分布を球状と仮定した場合の分散 𝑁0:𝜎
2の信頼度定数
3.非文字の棄却、文字検出
2013/10/07 IS1-03 14
取り出した連結成分集合に非文字の連結成分が含まれている
→非文字連結部分を棄却
非文字連結部分
3.非文字の棄却、文字検出
2013/10/07 IS1-03 15
① 小さな非文字の連結部分を除去 ピリオドと分類された連結部分を棄却
※この研究では「1つの文字は連結した1つの領域で成り立っている」として文字を認識するため、「i」,「j」の2つの連結領域からなる文字を認識することはできない
i j ピリオドと判断され棄却 i j
3.非文字の棄却、文字検出
2013/10/07 IS1-03 16
② 閾値よりも大きい値を持つ連結成分を非文字として棄却
MQDFの値が最小となる文字クラスに連結成分を分類
→値が小さいほどその連結成分が文字である可能性が高い
なお、閾値は全ての連結成分に対して求めた識別関数値(MQDF
の出力値)ヒストグラムを用いた大津の判別分析により決定する
3.非文字の棄却、文字検出
2013/10/07 IS1-03 17
③ グループA, グループBに含まれる連結成分の数をカウントし、少ない方のグループを棄却する
3.実験の説明と考察
2013/10/07 IS1-03 18
実験データ
2013/10/07 IS1-03 19
認識対象文字が合計1271個含まれる情景内画像50枚
※学習した回転角度の範囲内で回転している文字
※Z軸まわりの回転角度が一定である
文字検出の精度を比較
するため、2値化によって
画像中の全ての文字連結成分
を切り出せる画像を扱う
評価基準
2013/10/07 IS1-03 20
R 再現率 =𝑇𝑃
𝑇𝑃 + 𝐹𝑁∗ 100 %
𝑃 適合率 =𝑇𝑃
𝑇𝑃 + 𝐹𝑃∗ 100(%)
𝐹 𝐹値 =2 ∗ 𝑅 ∗ 𝑃
𝑅 + 𝑃(%)
TP(TruePositive),TN(TrueNegative):文字、非文字を正しく認識した個数
FP(FalsePositive),FN(FalseNegative):文字、非文字を誤って分類した個数
実験手法(1)
2013/10/07 IS1-03 21
同じ平面に印字されている文字は、3次元空間中であってもある程度同じ向きを持つと想定される
回転角度を想定した結果を用いて連結成分を絞り込む
同じ回転角度を持つ!
実験手法(2)
2013/10/07 IS1-03 22
A) 文字の回転角度による棄却を行わない手法
B) 文字の回転角度による棄却を追加した手法(2クラスを許容とする) 2クラス:最大個数の回転角度クラスとその回転角度±10度のクラスのうち連結成分数の多い方のクラス
C) 文字の回転角度による棄却を追加した手法(3クラスを許容とする) 3クラス:最大個数の回転角度クラスとその回転角度±10度の2クラス
実験結果(1)
2013/10/07 IS1-03 23
実験結果(2)
2013/10/07 IS1-03 24
実験結果(3)
2013/10/07 IS1-03 25
文字の回転角度を用いた非文字の連結成分棄却により誤検出が
減少していることがわかる
実験結果(4)
2013/10/07 IS1-03 26
4.まとめ
2013/10/07 IS1-03 27
研究のまとめ
2013/10/07 IS1-03 28
情景内に含まれる回転や透視投影の変形を含む文字を認識することができた
回転文字の辞書を作成
MQDFによるある種の「文字らしさ」をもって判定をしている
回転角度による棄却により精度向上
ただし、文字は1つの連結成分として考えられているため、認識ができない文字がある
辞書の容量削減、推定精度の向上
X,Y軸周りの回転角度を用いた文字検出の精度向上
この研究が面白いと感じた部分
2013/10/07 IS1-03 29
iPhoneを使った文字認識アプリを作ったことがある
1. 2値化
2. テキストライン検出、文字のベースラインを2次スプライン曲線で当てはめる
3. 文字の並ぶピッチを判断、1文字ごとに分割し文字を抽出
4. 回転文字に対応していない 1. ex:1->/, O(オー)->0(ゼロ)などの誤検出
回転文字の辞書を作ることを思いつかなかった
5.参考文献
2013/10/07 IS1-03 30
使用した論文 蔵元 侃太,大山 航,若林 哲史,木村 文隆
『3次元空間中の文字の回転角度を利用した情景文字の検出と認識』
『SSII2013第19回画像センシングシンポジウム』(2013年6月)IS1-03
2013/10/07 IS1-03 31
参考ページ
2013/10/07 IS1-03 32
画像処理ソリューション(2013/08/23アクセス)
http://imagingsolution.blog107.fc2.com/
吉田大祐(2006)『eラーニングのための単語辞書を使用した板書手書き文字認識』(2013/09/14アクセス)
http://miuse.mie-u.ac.jp/bitstream/10076/9124/1/2006T028.pdf