Solrにおける日本語処理の現状€¦ ·...

Solrにおける日本語処理の現状

株式会社ロンウイット www.rondhuit.com

Apache Lucene/Solr •  Apache Lucene

–  Javaで書かれたオープンソースの全文検索ライブラリ

•  Apache Solr –  Luceneをベースに開発されたオープンソースの全文検索サーバ

よくある質問／問題

•  あいまい検索はできますか？ •  形態素解析とN-gramどちらを使えばいいですか？ •  ハイライトが正しく動作しません。 •  ハイライトがずれます。

あいまい検索はできますか？

•  あいまい検索とは？ –  ユーザによって「あいまい」の定義はさまざま

•  全角・半角混じり文の検索 •  カタカナ語の表記揺れ •  正式名称短縮名称検索 •  いすずいすゞ •  結合文字検索 •  西暦和暦検索 •  ワイルドカード検索／正規表現検索／あいまい（Fuzzy）検索 •  Google 「もしかして・・・」 •  Googleサジェスト

CharFilter – クラス図 Reader

CharStream

+correctOffset(int):int

CharReader

input:Reader

CharFilter

input:CharStream

correct(int):int

BaseCharFilter

pcmList: List<OffCorrectMap>

getLastCumulativeDiff ():int addOffCorrectMap (int,int):void

OffCorrectMap

off:int cumulativeDiff:int

MappingCharFilter

文字オフセット補正の動き

CharReader

CharFilter

correctOffset(補正前オフセット)

Tokenizer

TokenFilter

Reader

correctOffset(補正前オフセット)

補正後オフセット=補正前オフセット

補正後オフセット

CharFilterImpl correct(補正前)

補正後

CharFilterはcorrectOffset()が呼ばれたら、まず、自身のcorrect()を使ってオフセット補正を行い、その後上流のcorrectOffset()を呼び出す

"CharStream aware" Tokenizer

MappingCharFilter •  <charFilter/>のmapping属性で指定されたファイルに従った「文字マッピング」を実行する。

•  mapping.txtのサンプル # Syntax: # "source" => "target" # "source".length() > 0 (source cannot be empty.) # "target".length() >= 0 (target can be empty.)

# example: # "À" => "A" # "\u00C0" => "A" # "\u00C0" => "\u0041" # "ß" => "ss" # "\t" => " " # "\n" => ""

# À => A "\u00C0" => "A"

# Æ => AE "\u00C6" => "AE"

# Ç => C "\u00C7" => "C"

MappingCharFilter（オフセット補正）

a => aa b => bbb cc => cccc

(1,-1)

(2,-2)

(2,-1)

(3,-2)

文字数が増える場合

MappingCharFilter（オフセット補正）

aa => a bbb => b cccc => cc

(1,+1)

(1,+2)

(2,+2)

文字数が減る場合

形態素解析とN-gram

今日はいい天気です

今日今日はいい

天気です

日は

はいいい

い天

天気気で

です

形態素解析

N-gram （N=2）

MeCab Sen Rosette言語処理プラットフォーム（RLP）

CJKTokenizer NGramTokenizer

形態素解析とN-gram

形態素解析 N-gram

長所

• 自然言語の単語に近い • N-gramよりもインデックスサイズを小さくできる • 単語の品詞が抽出できる

• 実装が容易 • 辞書不要 • 新語への対応が容易

短所

• 新語への対応が困難 • 辞書のメンテナンスが必要 • N-gramよりも検索漏れが生じやすい

• 形態素解析よりもインデックスサイズが大きくなりがち • Nより短い文字が検索漏れとなる

用途 • NLP • 固有表現抽出

• 特許検索 • ブログ検索

単語の境界がはっきりしない例

製造部門長谷川

ハイライトのトラブル

•  ハイライトとは？

•  トラブルその１「N-gramを使うとハイライトがおかしくなります」

•  トラブルその２「FVHを使うとハイライトがずれます」

ハイライトスニペット

検索語の強調表示

FastVectorHighlighter

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ルシーンは検索エンジンライブラリです。

1 2 3 4 5 6 7

q=ルシーン^2 "検索ライブラリ"~1

ルシーン boost=2 X

検索ライブラリ slop=1 X

QueryPhraseMap

FieldTermStack

ルシーン (0,4,1) 検索 (5,7,3) ライブラリ (11,16,5)

FieldPhraseList

ルシーン [(0,4)] boost=2 検索ライブラリ [(5,7),(11,16)] boost=1

FieldFragList

ルシーン [(0,4)] 検索ライブラリ [(5,7),(11,16)] totalBoost=3

Solrサブスクリプション・パッケージ

BASIC LANGUAGE ENTERPRISE Solr 1.4 √ √ √

バグフィックス √ √ √ 各種プラグイン √ √ √ サポートサービス √ √ √

言語判別 √ √ 類義語辞書 √ √ 固有表現抽出 √

ロンウイットは、OSSのSolrを企業／団体様が安心してお使いいただけるよう、年間購読料形式の「サブスクリプション・パッケージ」としてご提供しています。お客様のアプリケーションの目的に応じたエディションをご選択いただけます。

Solrサブスクリプション・パッケージ •  各種プラグイン

–  全角／半角／新旧漢字混じり、カタカナ語表記揺れ吸収検索 –  Java 6のNormalizerを使用した正規分解／互換分解／正規合成／互換合成処理による検索

–  踊り字検索 –  ギャル文字検索 –  顔文字検索 –  1-gram最適化検索 –  専門用語抽出 –  カタカナひらがなローマ字検索 –  日本語文章境界を認識するハイライター –  日本語サジェスチョン –  Heritrixアーカイブファイルローダー

※提供予定の機能を含みます。また機能は順次追加されます。

Solrサブスクリプション・パッケージ •  言語判別

–  世界およびインターネット上で使われている主要な下記25言語をサポート：アラビア語、ベンガル語、デンマーク語、ドイツ語、ギリシャ語、英語、スペイン語、ペルシャ語、フィンランド語、フランス語、ヒンディー語、ハンガリー語、アイスランド語、イタリア語、日本語、ジャワ語、韓国語、オランダ語、ノルウェー語、ポルトガル語、ロシア語、スウェーデン語、タイ語、トルコ語、中国語

•  類義語辞書 –  SynonymFilterで利用可能な分野別類義語辞書：

分野およそのエントリ数

コンピューター 8,000 政治・経済 14,000

医療 3,000 科学 2,500 教育 3,000

芸能・スポーツ 2,000

Solrサブスクリプション・パッケージ •  固有表現抽出

–  人名／地名／国名／組織名などを文章から抽出 –  ベイズ理論に基づき、抽出すべき語の「文脈パターン」を事前学習

※BASIS Technology社の固有表現抽出製品REXを用いています。

ロンウイットのSolr技術トレーニング •  特徴

–  Lucene/Solrコミッター監修 –  演習付き –  PDFテキスト（持ち帰りOK） –  受講後1ヶ月のアフターサポート付き

•  トレーニングコース –  Solr 1.4 基礎 –  Solr 1.4 応用 –  Solr 1.4 運用（？） –  Solr 1.4 プラグイン開発 –  Solr 1.4 DIH開発（？）

※2010年6月より順次ご提供できる予定です。

ご静聴ありがとうございました！

Solrにおける日本語処理の現状€¦ ·...

Documents

Transcript of Solrにおける日本語処理の現状€¦ ·...

外国語（英語コミュニケーション1）102-228 (3)

外国語図書 International Book （英語・English平成26年度 外国語図書 (International Book Year 2014) 外国語図書 (International language books) 4 2011000264 Pattern

超楽々暗記 中国語単語 入門編② 単語チェックリスト（日本語 ...超楽々暗記 中国語単語 入門編② 単語チェックリスト（日本語→中国語）

This is KODAIRA!!Graduation ProspectsGTEC for Students 2 第2外国語 Second Foreign Language1 3年生では第2外国語（中国語,韓国語,スペイン語,フラン ス語,ドイツ語）を選択して学習します。ネイティブの先生か

国語（2月3日）...国語（2月3 日） 83 初 校 国語（2月日） 84 初 校 国語（2月日） 85 初 校 国語（2月日） 86 初 校 国語（2月日） 87 初 校

ApeosPort C2360 / C20603 ＊1：日本語・英語・中国語（簡体字・繁体字）・韓国語・タイ語・ベトナム語・インドネシア語。＊2：Near Field Communication（近距離無線通信）。＊3：C2360は標準

Homines dum docent discunt Men learn while they teachMen learn while they teach 国際言語文化センター准教授 吉 田 桂 子 甲南大学国際言語文化センターでは、韓国語、中国語、ドイツ語、日本語、フランス語、英語の運

社会人の科目...70 キリスト教 社 会 人 文 語学 【 韓国語 語学 英 語 語学 イタリア語 語学 中国語 人 会 社会 講 義 形 態 科 目 名 対 面

日本語母語話者による英語・中国語における誤用： 東京外国 …repository.tufs.ac.jp/bitstream/10108/86849/1/acs092009...日本語語者にる英語・中国語における誤用：国語学国英語・中国語学習者

ノルウェーにおける言語状況と言語政策・言語教育 …ノルウェーにおける言語状況と言語政策・言語教育政策 -3-1.1. ノルウェー語史 ‐

55 56 · 2020. 3. 10. · （通常運転時） 緊急時4カ国語表示 地震感知時など、緊急時には4カ国語表示（日本語・英語・中国語・韓国語）をします。

基本表現編.ppt - 호환성 모드Ÿº本... 韓国語 2018-05-10 韓国語 6 “SEEMILE 韓国語” APP 会話練習 1a데이트때누가돈을내요? 2a한국에서는말을걸때뭐라고해요?

日本語共通8カ国語 - mhlw.go.jp · Title: 日本語共通8カ国語.indd Created Date: 1/31/2017 5:48:21 PM

JA...シンガポール・オフィス主催ウェビナー– 2014 年8 月18 日 JA 3／31 ページ ランス語、韓国語、標準中国語、ロシア語、スペイン語、トルコ

小学校外国語（英語）教育とローマ字教育の考察 外 …...小学校外国語（英語）教育とローマ字教育の考察 ―外国語活動と国語科ローマ字学習の連携を考える―

国際語としての日本語に関する 国際シンポジウムの報告...国際語としての日本語に関する国際シンポジウム 主催：サンパウロ大学 •

き台）...化 へ 向 け た 改 善 方 策 に つ い て 検 討 が 必 要 。 国 語 言 語 文 化 （ 仮 称 ） 論 理 国 語 （ 仮 称 ） 現 代 の 国 語

外国語（英語コミュニケーション1）102-217 (5)

芝中学校1年 学習の概要国語一 [週時間数3] 中学校の国語の授業は、国語一と国語二に分かれます。国語一は現代国語と言われるも ので、現在、私たちが使っている国語（日本語）について勉強します。そもそも言葉とい

外国語（英語コミュニケーション1）102-239 (1)

外国語図書 International Book （英語・English平成26年度外国語図書 (International Book Year 2014) 外国語図書 (International language books) 4 2011000264 Pattern

超楽々暗記中国語単語入門編② 単語チェックリスト（日本語 ...超楽々暗記中国語単語入門編② 単語チェックリスト（日本語→中国語）

This is KODAIRA!!Graduation ProspectsGTEC for Students 2 第2外国語 Second Foreign Language1 3年生では第2外国語（中国語,韓国語,スペイン語,フランス語,ドイツ語）を選択して学習します。ネイティブの先生か

国語（2月3日）...国語（2月3 日） 83 初校国語（2月日） 84 初校国語（2月日） 85 初校国語（2月日） 86 初校国語（2月日） 87 初校

Homines dum docent discunt Men learn while they teachMen learn while they teach 国際言語文化センター准教授吉田桂子甲南大学国際言語文化センターでは、韓国語、中国語、ドイツ語、日本語、フランス語、英語の運

社会人の科目...70 キリスト教社会人文語学【韓国語語学英語語学イタリア語語学中国語人会社会講義形態科目名対面

日本語母語話者による英語・中国語における誤用：東京外国 …repository.tufs.ac.jp/bitstream/10108/86849/1/acs092009...日本語語者にる英語・中国語における誤用：国語学国英語・中国語学習者

55 56 · 2020. 3. 10. · （通常運転時）緊急時4カ国語表示地震感知時など、緊急時には4カ国語表示（日本語・英語・中国語・韓国語）をします。

JA...シンガポール・オフィス主催ウェビナー– 2014 年8 月18 日 JA 3／31 ページランス語、韓国語、標準中国語、ロシア語、スペイン語、トルコ

小学校外国語（英語）教育とローマ字教育の考察外 …...小学校外国語（英語）教育とローマ字教育の考察 ―外国語活動と国語科ローマ字学習の連携を考える―

国際語としての日本語に関する国際シンポジウムの報告...国際語としての日本語に関する国際シンポジウム主催：サンパウロ大学 •

き台）...化へ向けた改善方策について検討が必要。国語言語文化（仮称）論理国語（仮称）現代の国語

芝中学校1年学習の概要国語一 [週時間数3] 中学校の国語の授業は、国語一と国語二に分かれます。国語一は現代国語と言われるもので、現在、私たちが使っている国語（日本語）について勉強します。そもそも言葉とい