オープンソースで作るスマホ文字認識アプリ

有限会社来栖川電算山口陽平オープンソースカンファレンス名古屋２０１２

自己紹介

はじめに

紹介するＯＳＳ

設計

実装

？？？

まとめ

参考文献

あじぇんだ

自己紹介

山口陽平

有限会社来栖川電算

プログラミング言語・型理論の研究者

世界を美しく記述することを夢見る３３歳

名古屋工業大学大学院出身

未踏ソフトウェア経験

人を驚かせるのが好き

Nativeコードより速いJavaコード

1日でHaskellを作る

ハードリアルタイムJavaVM

1000台越え構成のペタバイト級分散DB

PC上で秒間1000万クエリ処理できるKVS

山口陽平

※あくまでもイメージです。実物に髪の毛はありません。

概要名古屋工業大学発ベンチャー（2003年）

目的ソフトウェアの品質・生産性向上

スタッフ役員３人・正社員７人・アルバイト９人

データ作成４人・家政婦２人

IPA未踏ソフトウェア経験者多数

社風職人・挑戦・自由

昼食・夕食・飲み会は無料

有限会社来栖川電算

イオン千種・名大病院・名工大の間

はじめに

何を作るの？

準備するもの

取り組む姿勢

スマホで撮影した写真から単語を抽出するアプリ

何を作るの？

準備するもの

スマホ

Android 2.3

サーバ

Scientific Linux 6.2

Java SE 7

Apache Tomcat 7.0

OpenCV-2.2.0

O2-tools-2.00

nhocr-0.20

開発環境

サーバと同じソフト

android-sdk_r18

Eclipse Indigo JavaEE IDE for Web Developers.

ここを紹介するよ！

考慮すること

動くこと

分かりやすさ

考慮しないこと

認識精度

安全性

信頼性

可用性

拡張性

取り組む姿勢

紹介するＯＳＳ

OpenCV

NHocr & O2-tools

元はインテル製の画像処理ライブラリ

APIが単純で割と使いやすい様々な画像（※GIF除く）の読み書きに便利

様々な分野のアルゴリズムを網羅画像処理・特徴抽出とディスクリプタ抽出

クラスタリング・多次元空間探索・オブジェクト検出

ビデオ解析・カメラキャリブレーション・姿勢推定

ステレオ・機械学習

サイト

【公式】http://opencv.willowgarage.com/

【日本コミュニティ】http://opencv.jp/

OpenCV

日本語OCR・画像処理ライブラリ

一文字認識の認識精度はわりとよい一応、行認識もできる

コマンドラインツールがある画像ファイルの文字認識・フォントからの辞書作成

本格的に使うにはわりと改良がいるコード量が少ないので難しくはない

サイト

【後藤研究室】http://www.imglab.org/

注意

一部をコメントアウトしないとビルドできない場合が

NHocr & O2-tools

設計

概要（もう一度）

スマホアプリ

文字認識サービス

文字認識コマンド

スマホで撮影した写真から単語を抽出するアプリ

概要

マッシュアップでシンプルに！

主な作り込みは単語抽出（言語処理）だけ

スマホアプリ

中継するだけ！

主な作り込みは文字認識コマンドの中

OepnCV・NHocrのAPIはシンプルで使いやすい！

難しいのは文字領域抽出だけ

文字認識コマンド

実装

画像読込

二値化

文字領域抽出

文字認識

XML出力

言語処理

OpenCVなら画像の読み書きが簡単！

BMP DIB JPEG JPG JPE PNG PBM PGM PPM SR RAS TIFF TIF

画像読込

#include <opencv/cv.h> #include <opencv/highgui.h> int main() { IplImage* tImage = cvLoadImage("input/club_adriana.jpg", CV_LOAD_IMAGE_COLOR); cvNot(tImage, tImage); cvSaveImage("output/not_club_adriana.png", tImage); cvReleaseImage(&tImage); return 0; }

OpenCVには基本的な二値化アルゴリズムがある！

cvThreshold：与えた閾値で二値化する。（大津の方法も）

cvAdaptiveThreshold：近傍の平均から閾値を決める。

二値化

#include <opencv/cv.h> #include <opencv/highgui.h> int main() { IplImage* tImage = cvLoadImage( "input/club_adriana.jpg", CV_LOAD_IMAGE_GRAYSCALE); IplImage* tBinarizedImage = cvCreateImage( cvGetSize(tImage), tImage->depth, tImage->nChannels); cvAdaptiveThreshold(tImage, tBinarizedImage, 256, CV_ADAPTIVE_THRESH_MEAN_C, CV_THRESH_BINARY, 19); cvSaveImage("output/binarized_club_adriana.png", tBinarizedImage); cvReleaseImage(&tBinarizedImage); cvReleaseImage(&tImage); return 0; }

ライトが当たっているとなかなかうまくいかない

ヒストグラムで文字がある場所を見つけるぞ！

ぐるぐるループしながら四則演算するだけ

行の上下に余分なものが写っているとうまくいかない

文字領域抽出

NHocrなら文字認識が簡単！ ①辞書の選択・初期化など ascii+（英数字）

jpn（日本語）

ユーザ辞書

②画像形式の変換

OpenCV ⇒ NHocr

③文字認識入力文字の場所

出力 {文字:距離, ..., 文字:距離}

文字認識

#include <opencv/cv.h> #include <opencv/highgui.h> #include <siplib.h> #include <nhocr.h> int main() { NHrec tNHrec; tNHrec.setlibdir( (char*) "/usr/local/moji/nhocr-0.20/share/"); tNHrec.setdiccodes((char*) "ascii+"); tNHrec.open(); IplImage* tImage = cvLoadImage("input/Ao.png", CV_LOAD_IMAGE_GRAYSCALE); SIPImage* tSIPImage = createSIPImage(tImage); int tCount = 10; RecResultItem tCondidates[tCount]; tNHrec.rec_character(tSIPImage, 0, 0, tImage->width, tImage->height, tCondidates); for (int tIndex = 0; tIndex < tCount; tIndex++) printf("%c:%f¥n", (char)tCondidates[tIndex].id, tCondidates[tIndex].dist); sip_DestroyImage(tSIPImage); cvReleaseImage(&tImage); tNHrec.close(); return 0; }

各文字領域は複数の候補を持つ

各候補は文字と距離を持つ

XML出力

様々な言語処理

距離の和が最も小さいパスを選ぶ。

文字種を限定する。

記号・数字・英字（大・小）・かな・カナ・漢字

辞書に含まれている単語だけを選ぶ。

文法にあうパスを選ぶ。

正規表現・文脈自由・自然言語

言語処理

簡単に使えるけどそれ以外が難しい

AdaptiveThresholdもあんまり使えない

ヒストグラム使った文字領域抽出が話にならない

１位だけを採用する言語処理でも話にならない

WebAPIで画像をPOSTするだけ

難しいことは全部サーバでやってくれる！

recognize.jp まだまだ利用申請できるよ！どんどんしてね！

タンゴチュウが（前より）賢くなった！

４月のrecognize.jpのアップデートで目に見えて良くなったぞ！

１年前とくらべて・・・４倍の賢さだ！

情景画像からの

http://tangochu.jp

説明前に宣伝させて！

写真（情景画像）から単語を抽出

例えばメニューチラシお菓子のパッケージレシート名刺看板 …

タンゴチュウとは

情景画像の文字認識とは

従来のOCRとは戦場が違う

悪環境下での文字認識

手書き・様々な書体・かすれ・点描・きついパース・統一性のない並び・逆光・陰・影・グラデーション・モアレなど

情景画像の文字認識とは

目指すはこんなかっこいい世界！

手軽に文字認識を体験できる！

タンゴチュウ for Twitter

@tcfox

手軽に文字認識を体験できる！

タンゴチュウ for Twitter

写真の検索・整理に役立つ！

タンゴチュウ for Evernote

4倍の賢さ・6倍の速さ

着実に進化している！

情景画像文字認識ではトップクラス

性能推移

棚卸し・検査・電子辞書などに

用途を限定すると非常に高精度

既に稼働していて、驚くほど高性能

出版系・測量系からも引き合いがきているぞ！

カスタマイズＯＫ

Android端末への組み込みもやってるよ

とにかくアクセス！

http://tangochu.jp

萌えキャラたちも待ってるぞ！

まとめ

オープンソースを活用すれば

とりあえず動くものは作れる

性能がでるかは腕次第

recognize.jpを使えば割とよい

今回のスマホアプリのソースコードはダウンロードできるようにしておくよ！

参考文献

リンクとか

Scientific Linux http://www.scientificlinux.org/

Jave SE http://www.oracle.com/technetwork/java/

Apache Tomcat http://tomcat.apache.org/

Android SDK & ADT (Eclipse Plugin) http://developer.android.com/index.html

Eclipse & CDT http://www.eclipse.org/

参考文献①

OpenCV

http://opencv.willowgarage.com/

【日本コミュニティ】http://opencv.jp/

O2-tool

http://www.imglab.org/p/O2/

http://code.google.com/p/nhocr/

参考文献②

recognize.jp（情景画像文字認識ＡＰＩ）

http://recognize.jp/

撮って文字入力（文字認識ＩＭＥ）

http://www.nttdocomo.co.jp/smt/service/trial/trial_app/totte_moji/index.html

タンゴチュウ（情景画像文字認識サービス）

http://tangochu.jp/

来栖川電算

http://kurusugawa.jp/

参考文献③

どんどん賢くするので応援してね

ご清聴ありがとうございました

オープンソースで作るスマホ文字認識アプリ

Technology

Transcript of オープンソースで作るスマホ文字認識アプリ

スマホで安否確認 「元気にしＴＥＬ？！」 ～ 常時動作アプリ ～

イオンやビッグローブと協業し、 格安スマホ向けア …sourcenext.co.jp/~/media/Files/cojp/pr/sozai/2014/...1 新サービス Androidアプリ ＜特長＞ ・月額360円※1で人気アプリが使い放題

スマホ×カーナビ連携アプリ 「NaviCon」のご紹介

今日からスマホで自動散水アプリで簡単 もちろん無料 個別認識 App StoreかGoogle Play から専用アプリをインストール。シンプルで見やすい画面で、女性

オープンソース ＆ オープンデータ

Ohotech特盛#13 スマホで操作するカメラ付きWi-Fiラジコンカー ― C#とラズパイとWebアプリの技術で作っちゃおう! ―

CORPORATION OVERVIEW - infortech.co.jp · ロボット開発 業務系アプリ 就業、給与、 会計、SFA スマホ・ タブレット アプリ 情報系 システム 業務系

フロント・リアカメラ2台 スマホ 映像 確認...フロント・リアカメラ2台で常時録画 最 12時間（上書き） スマホ専 アプリでWi-Fi接続 スマホで録画された映像が確認

アプリこそスマホ攻略の最大のカギとなる！ アプリを活用し …現在。商品・サービスの情報を発信する企業にとっては、スマートフォンを使ったマーケティング施策

Firebird ユニバーサル オープンソース データベース

オンライン会議...iPhoneやiPad、Androidのどちらも、アプリでJitsi Meetを選択してスマホにインストールします。 iPhoneは「App Store」で「Jitsi

「広報いずみさの」の写真が動く スマホやタブレッ …...2015/02/02 · 無料アプリ「Aurasma（オーラズマ）」の動作環境 •iOS4.3以上 •Android

ANXELL TECHNOLOGY CORPORATIONgoldmanexa.com/wp-content/uploads/2018/08/772c7928888a16...アクセスモデル スマホ /パスコード スマホ / RFID インプットパワー 12VDC

情報と地域 オープンソースと地域振興 · 3．オープンソースの開発スタイルとビジネス 3-4 オープンソースとトランザクションコスト

スマホ決済サービス「Origami Pay」...株式会社Origamiが提供するスマホ決済サービス「Origami Pay」と口 座連携を開始しました。Origamiアプリを通じてのお支払が当金庫の口座

登山用GPSGPSアプリ アプリ ジオグラフィカジオ …geographica.biz/tmp/map_and_geographica.pdf1 登山用GPSGPSアプリ アプリ ジオグラフィカジオグラフィカ説明書

オープンソースERP(Compiere/OpenBravo/ADempiere/iDempiere) …

1807 Timeline スマホ用 - シャーロック株式会社Timelineアプリのダウンロード方法 ①「シャーロック株式会社」を検 索して、トップ画面を②の画面

サイトデータ資料 - starts-pub.jp · スマホWEB・アプリ合わせて、スマホからの予約が 56％と半数以上に。ディナーやホテルなど単価が⾼めの

登山用GPSGPSアプリ アプリ ジオグラフィカジオグラフィカ …geographica.biz/tmp/gps_and_map.pdf1 登山用GPSGPSアプリ アプリ ジオグラフィカジオグラフィカ説明書

スマホで安否確認「元気にしＴＥＬ？！」～　常時動作アプリ　～

イオンやビッグローブと協業し、格安スマホ向けア …sourcenext.co.jp/~/media/Files/cojp/pr/sozai/2014/...1 新サービス Androidアプリ＜特長＞・月額360円※1で人気アプリが使い放題

スマホ×カーナビ連携アプリ「NaviCon」のご紹介

今日からスマホで自動散水アプリで簡単もちろん無料個別認識 App StoreかGoogle Play から専用アプリをインストール。シンプルで見やすい画面で、女性

オープンソース＆オープンデータ

CORPORATION OVERVIEW - infortech.co.jp · ロボット開発業務系アプリ就業、給与、会計、SFA スマホ・タブレットアプリ情報系システム業務系

フロント・リアカメラ2台スマホ映像確認...フロント・リアカメラ2台で常時録画最 12時間（上書き）スマホ専アプリでWi-Fi接続スマホで録画された映像が確認

アプリこそスマホ攻略の最大のカギとなる！アプリを活用し …現在。商品・サービスの情報を発信する企業にとっては、スマートフォンを使ったマーケティング施策

Firebird ユニバーサルオープンソースデータベース

「広報いずみさの」の写真が動くスマホやタブレッ …...2015/02/02 · 無料アプリ「Aurasma（オーラズマ）」の動作環境 •iOS4.3以上 •Android

ANXELL TECHNOLOGY CORPORATIONgoldmanexa.com/wp-content/uploads/2018/08/772c7928888a16...アクセスモデルスマホ /パスコードスマホ / RFID インプットパワー 12VDC

情報と地域オープンソースと地域振興 · 3．オープンソースの開発スタイルとビジネス 3-4 オープンソースとトランザクションコスト

スマホ決済サービス「Origami Pay」...株式会社Origamiが提供するスマホ決済サービス「Origami Pay」と口座連携を開始しました。Origamiアプリを通じてのお支払が当金庫の口座

登山用GPSGPSアプリアプリジオグラフィカジオ …geographica.biz/tmp/map_and_geographica.pdf1 登山用GPSGPSアプリアプリジオグラフィカジオグラフィカ説明書

1807 Timeline スマホ用 - シャーロック株式会社Timelineアプリのダウンロード方法 ①「シャーロック株式会社」を検索して、トップ画面を②の画面

登山用GPSGPSアプリアプリジオグラフィカジオグラフィカ …geographica.biz/tmp/gps_and_map.pdf1 登山用GPSGPSアプリアプリジオグラフィカジオグラフィカ説明書