201310合同ゼミ論文紹介

32
吉村研究室 B2211017 片渕 小夜 201310合同ゼミ① 3次元空間中の文字の回転角度を利用し た情景中文字の検出と認識 2013/10/07 IS1-03 1

description

201310月の合同ゼミの時のスライド.

Transcript of 201310合同ゼミ論文紹介

Page 1: 201310合同ゼミ論文紹介

吉村研究室

B2211017

片渕 小夜

201310合同ゼミ①

3次元空間中の文字の回転角度を利用した情景中文字の検出と認識

2013/10/07 IS1-03 1

Page 2: 201310合同ゼミ論文紹介

目次 1. 文字認識技術の概要と諸問題

2. 提案手法の説明

3. 実験の説明と考察

4. まとめ

5. 参考文献

2013/10/07 IS1-03 2

Page 3: 201310合同ゼミ論文紹介

1.文字認識技術の概要と諸問題

2013/10/07 IS1-03 3

Page 4: 201310合同ゼミ論文紹介

文字認識技術の概要と諸問題(1)

2013/10/07 IS1-03 4

今では携帯電話やタブレットPC,スマートフォンでカメラが内蔵されていない機器は殆ど無い

カメラを入力手段とする文字認識への期待が高まっている

Page 5: 201310合同ゼミ論文紹介

文字認識技術の概要と諸問題(2)

2013/10/07 IS1-03 5

カメラで撮影した文字は回転や透視投影の変形を含み、

従来のフラットヘッドスキャナで取得された文書画像を対象とするOCRでは認識が難しい

Page 6: 201310合同ゼミ論文紹介

文字認識技術の概要と諸問題(3)

2013/10/07 IS1-03 6

従来手法では…

1. アフィン不変な特徴を用いたレイアウトに依存しない文字認識手法

→認識対象は白の背景に黒で印刷された文字、情景内からの文字検出については考慮されていない

2. 教師なし学習を用いて情景内から文字を検出、認識する手法

→回転している文字について考慮されていない

回転や透視投影の影響を受けている文字を 情景内から検出、認識する手法を提案する

Page 7: 201310合同ゼミ論文紹介

2.提案手法の説明

2013/10/07 IS1-03 7

Page 8: 201310合同ゼミ論文紹介

大まかな流れ

2013/10/07 IS1-03 8

1. 連結成分切り出し

2. 文字認識

3. 非文字の棄却、文字検出

Page 9: 201310合同ゼミ論文紹介

1.連結成分切り出し

2013/10/07 IS1-03 9

面積が50px以下の領域はノイズとして判定

Page 10: 201310合同ゼミ論文紹介

2.文字認識

2013/10/07 IS1-03 10

① 特徴抽出 標準文字に対して計算機上で3次元の回転処理を施し回転文字を生成、特徴抽出を行う

回転はx軸,y軸,z軸の順に

行われる

回転処理を行う際には画素値

の線形補間を用いている

Page 11: 201310合同ゼミ論文紹介

2.文字認識

2013/10/07 IS1-03 11

② 特徴抽出 特徴ベクトルとして加重方向指数ヒストグラム(392次元)を抽出して使用する

特徴抽出によって得られた特徴ベクトルから、文字のクラスごとに平均ベクトル、共分散行列の固有値、固有ベクトルを算出し、それらを学習辞書とする

A

A

A

Page 12: 201310合同ゼミ論文紹介

2.文字認識

2013/10/07 IS1-03 12

③ 認識 識別関数としてMQDF(Modified quadratic discriminant function)を採用

→識別精度を損なうこと無く、計算量を大幅に削減できる

Page 13: 201310合同ゼミ論文紹介

(補足)数式中の変数

2013/10/07 IS1-03 13

X:入力文字のn次元特徴ベクトル M:母集団の平均ベクトル k:識別に用いる固有ベクトル数 N:各クラスのサンプル数 P(ω):クラスωの事前確立 Φ𝑖 , 𝜆𝑖:標本共分散行列の第i固有ベクトルと第i固有値 𝜎2:特徴ベクトルXの事前確立分布を球状と仮定した場合の分散 𝑁0:𝜎

2の信頼度定数

Page 14: 201310合同ゼミ論文紹介

3.非文字の棄却、文字検出

2013/10/07 IS1-03 14

取り出した連結成分集合に非文字の連結成分が含まれている

→非文字連結部分を棄却

非文字連結部分

Page 15: 201310合同ゼミ論文紹介

3.非文字の棄却、文字検出

2013/10/07 IS1-03 15

① 小さな非文字の連結部分を除去 ピリオドと分類された連結部分を棄却

※この研究では「1つの文字は連結した1つの領域で成り立っている」として文字を認識するため、「i」,「j」の2つの連結領域からなる文字を認識することはできない

i j ピリオドと判断され棄却 i j

Page 16: 201310合同ゼミ論文紹介

3.非文字の棄却、文字検出

2013/10/07 IS1-03 16

② 閾値よりも大きい値を持つ連結成分を非文字として棄却

MQDFの値が最小となる文字クラスに連結成分を分類

→値が小さいほどその連結成分が文字である可能性が高い

なお、閾値は全ての連結成分に対して求めた識別関数値(MQDF

の出力値)ヒストグラムを用いた大津の判別分析により決定する

Page 17: 201310合同ゼミ論文紹介

3.非文字の棄却、文字検出

2013/10/07 IS1-03 17

③ グループA, グループBに含まれる連結成分の数をカウントし、少ない方のグループを棄却する

Page 18: 201310合同ゼミ論文紹介

3.実験の説明と考察

2013/10/07 IS1-03 18

Page 19: 201310合同ゼミ論文紹介

実験データ

2013/10/07 IS1-03 19

認識対象文字が合計1271個含まれる情景内画像50枚

※学習した回転角度の範囲内で回転している文字

※Z軸まわりの回転角度が一定である

文字検出の精度を比較

するため、2値化によって

画像中の全ての文字連結成分

を切り出せる画像を扱う

Page 20: 201310合同ゼミ論文紹介

評価基準

2013/10/07 IS1-03 20

R 再現率 =𝑇𝑃

𝑇𝑃 + 𝐹𝑁∗ 100 %

𝑃 適合率 =𝑇𝑃

𝑇𝑃 + 𝐹𝑃∗ 100(%)

𝐹 𝐹値 =2 ∗ 𝑅 ∗ 𝑃

𝑅 + 𝑃(%)

TP(TruePositive),TN(TrueNegative):文字、非文字を正しく認識した個数

FP(FalsePositive),FN(FalseNegative):文字、非文字を誤って分類した個数

Page 21: 201310合同ゼミ論文紹介

実験手法(1)

2013/10/07 IS1-03 21

同じ平面に印字されている文字は、3次元空間中であってもある程度同じ向きを持つと想定される

回転角度を想定した結果を用いて連結成分を絞り込む

同じ回転角度を持つ!

Page 22: 201310合同ゼミ論文紹介

実験手法(2)

2013/10/07 IS1-03 22

A) 文字の回転角度による棄却を行わない手法

B) 文字の回転角度による棄却を追加した手法(2クラスを許容とする) 2クラス:最大個数の回転角度クラスとその回転角度±10度のクラスのうち連結成分数の多い方のクラス

C) 文字の回転角度による棄却を追加した手法(3クラスを許容とする) 3クラス:最大個数の回転角度クラスとその回転角度±10度の2クラス

Page 23: 201310合同ゼミ論文紹介

実験結果(1)

2013/10/07 IS1-03 23

Page 24: 201310合同ゼミ論文紹介

実験結果(2)

2013/10/07 IS1-03 24

Page 25: 201310合同ゼミ論文紹介

実験結果(3)

2013/10/07 IS1-03 25

文字の回転角度を用いた非文字の連結成分棄却により誤検出が

減少していることがわかる

Page 26: 201310合同ゼミ論文紹介

実験結果(4)

2013/10/07 IS1-03 26

Page 27: 201310合同ゼミ論文紹介

4.まとめ

2013/10/07 IS1-03 27

Page 28: 201310合同ゼミ論文紹介

研究のまとめ

2013/10/07 IS1-03 28

情景内に含まれる回転や透視投影の変形を含む文字を認識することができた

回転文字の辞書を作成

MQDFによるある種の「文字らしさ」をもって判定をしている

回転角度による棄却により精度向上

ただし、文字は1つの連結成分として考えられているため、認識ができない文字がある

辞書の容量削減、推定精度の向上

X,Y軸周りの回転角度を用いた文字検出の精度向上

Page 29: 201310合同ゼミ論文紹介

この研究が面白いと感じた部分

2013/10/07 IS1-03 29

iPhoneを使った文字認識アプリを作ったことがある

1. 2値化

2. テキストライン検出、文字のベースラインを2次スプライン曲線で当てはめる

3. 文字の並ぶピッチを判断、1文字ごとに分割し文字を抽出

4. 回転文字に対応していない 1. ex:1->/, O(オー)->0(ゼロ)などの誤検出

回転文字の辞書を作ることを思いつかなかった

Page 30: 201310合同ゼミ論文紹介

5.参考文献

2013/10/07 IS1-03 30

Page 31: 201310合同ゼミ論文紹介

使用した論文 蔵元 侃太,大山 航,若林 哲史,木村 文隆

『3次元空間中の文字の回転角度を利用した情景文字の検出と認識』

『SSII2013第19回画像センシングシンポジウム』(2013年6月)IS1-03

2013/10/07 IS1-03 31

Page 32: 201310合同ゼミ論文紹介

参考ページ

2013/10/07 IS1-03 32

画像処理ソリューション(2013/08/23アクセス)

http://imagingsolution.blog107.fc2.com/

吉田大祐(2006)『eラーニングのための単語辞書を使用した板書手書き文字認識』(2013/09/14アクセス)

http://miuse.mie-u.ac.jp/bitstream/10076/9124/1/2006T028.pdf