テキストと用語の間:コーパス からの用語抽出と構造化

39
テテテテテテテテテ テテテテ テテテテテテテテテテテ 影影 影影影影影影影影 影影影影影影影影影 2004 影 11 影 27 影

description

テキストと用語の間:コーパス からの用語抽出と構造化. 影浦 峡 国立情報学研究所 人間 ・ 社会情報研究系 2004 年 11 月 27 日. 発表概要. コーパスからの用語抽出 頻度を用いる手法 学習素性を用いる手法 現状の限界と課題 用語の構造化 文脈ベクトルを用いるクラスタリング 語の内部構造を用いる手法 現状の限界と課題. 発表概要. コーパスからの用語抽出 頻度を用いる手法 教師あり学習を用いる手法 現状の限界と課題 用語の構造化 文脈ベクトルを用いるクラスタリング 語の内部構造を用いる手法 現状の限界と課題. - PowerPoint PPT Presentation

Transcript of テキストと用語の間:コーパス からの用語抽出と構造化

Page 1: テキストと用語の間:コーパス からの用語抽出と構造化

テキストと用語の間:コーパス

からの用語抽出と構造化

影浦 峡国立情報学研究所人間・社会情報研究系2004 年 11 月 27 日

Page 2: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法学習素性を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 3: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 4: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:概要

テキスト中である頻度上の特徴をもって出現する要素を用語と認定する手法高い頻度であらわれる、とか・・・・・・

大きく、二種類のタスク用語抽出:個々の語がどれだけ他の語と違う

かを計る。単純語・複合語に適用できる連語抽出:並んで現れる語がどれだけ強く関

係しているかを計る、連語や複合語の抽出

Page 5: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:流れ

1. テキスト集合を得る2. テキストを形態素解析する     

       = 単位切り+品詞の付与

3. 用語の候補となる単語や単語列を、品詞や品詞のパターンで指定する

4. その単位に対して、着目する頻度的振舞いを計る統計的/数量的尺度を適用

5. ある閾値以上のものを用語とみなす

Page 6: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出: tfidf

tfidf = fti log (N/Ni) • fti: 用語候補 ti の文書集合内頻度• N: 全文書数• Ni: ti を含む文書数

情報検索分野で、検索キーワードの重み付けによく使われる手法

一応情報理論的解釈がなりたつ

Page 7: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出: tfidf

尺度が定義される世界は語と文献の行列

d1 d2 … dj … D

t1 f11 f12 f1j f1.t2 f21 f22 f2j f2.…ti fi1 fi2 fij…T f.1 f.2 f.j F

Page 8: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:代表性

仮説:ある単語が「特徴的」な単語であれば、その単語が現れる文脈も「特徴的」であるだろう。例:助詞「は」はどこにでも現れるが、語

「きのこ」が現れる文脈(トピック)は限られる

だから、ある語が現れる文脈が、平均的な文脈とどれだけ離れているか?が鍵文脈中の単語分布間の距離をとればよい

Page 9: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:代表性

Rep(t) = ( Dist(Pt,P) / Dist(PRt,P) )Dist: 二つの分布間の距離Dt : 用語 t が含まれる文書集合Pt: Dt における語の分布P: 全文書 D における語の分布PRt: Dt と同じ大きさの無作為抽出文

書における語の分布

Page 10: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:代表性

尺度が定義される世界は語と語の行列

t1 t2 … tj … T

t1 f11 f12 f1j f1.t2 f21 f22 f2j f2.…ti fi1 fi2 fij…T f.1 f.2 f.j N

Page 11: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:語構成貢献度

仮説:沢山の複合語を作る要素は専門用語性が高いと言えるだろう例:「症」は沢山の複合語で使われるが、

「山」は 1 種類の複合語で使われるだけ・・・とか。

だから、複合語内で前・後に連接する要素の数が多い要素は、重要だろう。複合語を構成する要素についてそれを数え

る。

Page 12: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:語構成貢献度

各要素について、複合語内での前接数pre と後接数 post とを数える

複合語 m1m2…mk の重みは:W(m1m2…mk)=

1/k^α *∑ i (pre(mi)+post(mi))

Page 13: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による用語抽出:語構成貢献度

定義される世界は複合語内要素の行列

t1 t2 … tj … T

t1 f11 f12 f1j f1.t2 f21 f22 f2j f2.…ti fi1 fi2 fij…T f.1 f.2 f.j N

Page 14: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による連語抽出

仮説:ある二つの単語が、偶然並んで現れるよりも有為に多い頻度で並んで現れれば、それは、その二つの単語の並びは連語、慣用句、用語だからである例:出現確率:「医療」 0.01 、「情

報」 0.005 、「医療情報」 0.0001 とする。「医療」と「情報」が相互に独立なら0.00005 のはずなので、それより「医療情報」の出現は有為に大きい

Page 15: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による連語抽出

尺度が定義される空間は(二語連接の例)

右要素が出現

右要素が出現しない

左要素が出現

左要素の出現頻度

左要素が出現しない

左要素以外の頻度

右要素の出現頻度

右要素以外の頻度

要素全体の総頻度

Page 16: テキストと用語の間:コーパス からの用語抽出と構造化

頻度による連語抽出

この分割表の上で定義される統計的尺度を用いればよいカイ二乗検定対数尤度比特殊相互情報量 ・・・ など

Page 17: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 18: テキストと用語の間:コーパス からの用語抽出と構造化

用語抽出:教師あり学習手法

手作業で用語にタグを付けた学習用データを作成しておく

品詞列や文字列、出現位置など様々な素性を工夫して、用語と非用語を識別する「モデル」を学習させる

たんぱく質やゲノム名など、特定カテゴリーの要素に有効性が証明されている

Page 19: テキストと用語の間:コーパス からの用語抽出と構造化

用語抽出:教師あり学習手法

基本的には、タスクを、分類問題としてとらえるもの。

最近では、学習のメカニズムとしては、サポートベクタマシン( SVM) などがよくつかわれる。ほかに、決定木など、いろいろ使うことができる。

Page 20: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 21: テキストと用語の間:コーパス からの用語抽出と構造化

用語抽出:現状と課題

再現率と精度の奇妙な平均等でパフォーマンスを論じているが、これは現実の要請にまるで合わない

沢山の重み付け尺度が提案されているが、このように評価される限りでは、どれも似たり寄ったり(ただし手法的な美しさや健全性は異なる)

Page 22: テキストと用語の間:コーパス からの用語抽出と構造化

用語抽出:現状と課題

用語のバリエーション(言換え)等がまったく考慮されていない( cf. Kageura 04 )医学の現場などではきわめて重要!

抽出された用語の用語集合としての性質がまったく考慮されていない「男」があって「女」が無い辞書は普通

のいみではちょっと困る

Page 23: テキストと用語の間:コーパス からの用語抽出と構造化

用語抽出:現状と課題

包括的に病名を取り出すとすると・・・・・・まず、基本的な病名のセットを一貫して取

り出す(集合としての一貫性!)次に、基本病名のバリエーション(言換え

表現)や、基本病名と同様のパターンで作られたものを取り出す規則を考える

現状の用語抽出は、こうした現実的適用にまだ対処し切れていない

Page 24: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 25: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化

緩やかなもの:似た意味の単語を集める犬・猫・動物・インコ/家・ビル・屋根

もっと体系的なもの:関係を明示同義関係:「病気」と「病」上下関係:「犬」と「柴犬」反義関係:「昼」と「夜」(ちょっと

嘘)全体部分関係:「体」と「手」

Page 26: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 27: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化:文脈ベクタ

仮説:意味の近い用語は、その用語が現れる文脈も近い

したがって、用語の文脈に使われている単語の分布の近さを量れば、似た単語を集めることができる

用語抽出における「代表性」の尺度と同様の考えに基づいている

Page 28: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化:文脈ベクタ

例:注目する語  その語の文脈に出現する語「犬」      毛、餌、骨、獣医、事故「車」      石油、渋滞、通勤、事故「猫」      毛、三味線、餌、ペットボトル「自転車」   渋滞、泥棒、通勤、ソクハイ→文脈語を使ってクラスタリング・・・

Page 29: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化:文脈ベクタ

様々なクラスタリング手法が使われている技術的問題:

言語は、文脈に出現する語の種類が多いため、クラスタリングの計算量が多い

言語は、文脈に出現する語の頻度が低い、または、スカスカのため、うまくまとまらない

細かい意味関係は取れない(例:反義関係にある語の文脈は実は似ている)

Page 30: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 31: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化:内部構造

前提:多くの専門語は複合語である前提:専門語は体系的に作られる目論見:したがって、内部構造を分析

すれば関係が取れるだろう・・・「検索」は「情報検索」の上位語「情報検索」と「文献検索」は兄弟語「言語生成」と「言語解析」は対立語

Page 32: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化:内部構造

そこそこの範囲でしか通用しない構造が対応してても意味は対応しない

例:ヒメオオクワガタはオオクワガタの下位  語ではない。例:日本語と自立語は兄弟ではない。前者は「言語」、後者は「単語」。

Page 33: テキストと用語の間:コーパス からの用語抽出と構造化

発表概要コーパスからの用語抽出

頻度を用いる手法教師あり学習を用いる手法現状の限界と課題

用語の構造化文脈ベクトルを用いるクラスタリング語の内部構造を用いる手法現状の限界と課題

Page 34: テキストと用語の間:コーパス からの用語抽出と構造化

用語の構造化

文脈ベクタ、内部構造を使う手法それぞれの欠点はすでに述べた

両者はどう補い合うか?という研究はほとんどない

現実のニーズに対して、要求仕様が明確になされないまま、閉塞した研究が行なわれている

Page 35: テキストと用語の間:コーパス からの用語抽出と構造化

終わりにかえて:状況整理

本当にまじめに「用語抽出と構造化」が必要とされるところでは、用語集合の集合としての性質が問題とな

る例えば、辞書。 50万語の辞書と 8 万語の辞書と 3 万語の辞書とは異なるポリシーをもって見出し語集合が集められる( 50万語の辞書の任意の 6パーセントを取れば小辞典ができるのではない)

Page 36: テキストと用語の間:コーパス からの用語抽出と構造化

終わりにかえて:状況整理

本当にまじめに「用語抽出と構造化」が必要とされるところでは、安直に「用語は変化しない」と言えない

例えば、「構文解析」は「構文を解析する」のように言換えられる(指す概念は同等)。カルテ上の病名表記などでは、もっとバリエーションと一定のパターンでの生産性が高いだろう

Page 37: テキストと用語の間:コーパス からの用語抽出と構造化

終わりにかえて:状況整理

本当にまじめに「用語抽出と構造化」が必要とされるところでは、用語間の関係は、目的に応じてしっかり決められることが多い。多少似たような語のクラスターというだけでは不足

Page 38: テキストと用語の間:コーパス からの用語抽出と構造化

終わりにかえて:状況整理

専門用語の自動抽出手法も、専門用語の自動構造化手法も、対処できていない

暫定的課題:最終的に、人間の手は必要どこまで、機械が自動処理で支援できるか?そのときに、優先的に求められる仕様は何

か? (例:網羅性対精度)

Page 39: テキストと用語の間:コーパス からの用語抽出と構造化

最後・・・・・・

ありがとうございました