IBM i...IBM ライセンス・プログラムの2 次言語のイン ストール.....144 非IBM ライセンス・プログラムの2 次言語の インストール .....147 IBM
知識を紡ぐための言語処理と、そのための言語資源
-
Upload
koji-matsuda -
Category
Engineering
-
view
2.981 -
download
8
Transcript of 知識を紡ぐための言語処理と、そのための言語資源
知識を紡ぐための言語処理と、
そのための言語資源NEologd Casual Talks | #neologd
2016/04/26 @ LINE corp.
東北大学 情報科学研究科松田耕史 (@conditional)
1
2
東北大学 自然言語処理研究室研究スタッフ
学部
修士
博士
研究生
スタッフ
乾健太郎教授
岡崎直観准教授
松林優一郎特任助教
田 然特任助教
折田奈甫特任助教
水本智哉特任助教
井之上直也助教
松田耕史研究員
2010 2011 2012 2013 2014 2015 20160
10
20
30
40
50 山口健史 菅原真由美
高橋容市 福原裕一 乾岡崎井之上
自然言語の解析から応用へ
3
言語構造解析による一般・専門知識の自動獲得
ディープラーニングによる意味の分散表現の学習
論理仮説推論による「行間を読む」言語理解
世界最高速の仮説推論エンジン(判断の根拠を説明できる機械)
意味解析グラウンディング
高度に構造化された一般・専門知識ベース
質問応答
情報分析知
識推論
シーン理解
世界最大規模の知識獲得基盤
東北大 NLP の戦略
「行間を読む」 言語解析判断の根拠を説明できる
達成事項
達成事項
達成事項
達成事項画像との統合理解へ多様な同義・反義関係を計算
4
言語理解には「知識」が不可欠
田端酒造の『羅生門』は何賞を受賞したか?
モンドセレクション金賞
ヴェネツィア国際映画祭金獅子賞
受賞
受賞監督
知識製造
5
知識を紡ぐ言語処理
自動処理された言語データ世界を記述する知識ベース
自動処理された言語データ
自動処理された言語データ世界を記述する知識ベース
世界を記述する知識ベース 言語データから知識を獲得
知識を用いた意味解析6
新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…
① 場所参照表現のグラウンディング
言語情報のグラウンディング(知識を用いた意味付け )
地名 / 施設名辞書約 550 万エントリ
② 一般固有表現のグラウンディング
Wikipedia
グラウンディング / 意味付け処理(データベースレコードにリンク)
・コーパス開発・グラウンディング エンジン・コーパス開発・グラウンディング エンジンの研究開発
(Wikification)
新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…
新湘南バイパス タンクローリー
新湘南バイパスでタンクローリーが横転してて大渋滞発生。電車で帰った方が良さそう…意味付けのなされていないソーシャルストリーム
地図にマップ応用
知識に基づく推論マルチリソース統合
( ジオパーズ )
7
エンティティ・リンキング(Wikification)
テキスト中の固有表現に、適切な実体を付与メンション エンティティ
8
日本語 Wikification コーパス[Jargalsaikhan et al., 2016]
日本語新聞記事 340 記事に Wikipedia のエンティティ情報を付与9合計 2 万 5 千メンション:世界的に見ても大規模なコーパス
http://www.cl.ecei.tohoku.ac.jp/jawikify/
場所参照表現タグ付きコーパス[ 松田ら , 2015], [Matsuda et al., 2015]
宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.
白石沢端バス停北緯 38.00 東経140.62
地名辞書 施設名辞書
人手で対応を付与
Web 上のデータから辞書を構築
宮城県北緯 38.26 東経140.87
宮城県白石市北緯 38.00 東経140.62
武家屋敷北緯 38.00 東経140.62
宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.宮城県 白石市,武家屋敷近くのバス停で事故発生.通行時は気をつけてください.SNS からサンプリング 10
11
場所参照表現の自動解析場所参照表現データセット ( 公開済 )タグ付きコーパス
地名辞書約 10 万エントリ 施設名辞書約 500 万エントリ
Step 2. Entity Resolution表現が指すエンティティの曖昧性解消Wikipedia から自動獲得した知識に基づいた曖昧性解消
Step 1. Mention Detection場所に対する言及を抽出する確率モデルに基づく系列ラベリング
藤沢バイパス ROAD 、辻堂 LOCATION から茅ヶ崎 LOCATION まで渋滞だよ
藤沢バイパス、辻堂 から茅ヶ崎まで渋滞だよ
ここからは、辞書の話をします
12
拡張固有表現 +Wikipedia データ[ 関根ら , 2016], [ 鈴木ら , 2016]( ランゲージクラフト/ニューヨーク大学 関根聡先生との共同研究 )
製品 > 主義方式 > 競技世界のありとあらゆるものを 200 クラスに階層化した辞書イベント > 催し物 > 競技会 組織 > 競技組織
地名 > GPE > 市区町村 施設 > GOE > 競技施設 13
http://www.languagecraft.com/enew/
名前 名前 _ その他
人名
組織名 組織名 _ その他国際組織名公園組織名家系名民族名 民族名 _ その他
競技組織名 競技組織名 _ その他
法人名 法人名 _ その他
政治的組織名 政治的組織名 _ その他
国籍名
プロ競技組織名競技リーグ名
企業名 / 企業グループ名
政府組織名 / 政党名 / 内閣名 / 軍隊名
地名 地名 _ その他
温泉名GPE GPE_ その他
地域名 地域名 _ その他
地形名 地形名 _ その他
天体名 天体名 _ その他
アドレス アドレス _ その他
市区町村名 / 郡名都道府県州名 / 国名
大陸地域名国内地域名
山地名 / 島名 / 河川名湖沼名 / 海洋名 / 湾名
恒星 / 惑星 / 星座
郵便住所 / 電話番号電子メイル / URL
施設名 施設名 _ その他
施設部分名遺跡名 遺跡名 _ その他
GOE GOE_ その他
路線名 路線名 _ その他
古墳名
公共機関名 / 学校名 / 研究機関名 / 取引所名 / 公園名 / 競技施設名 / 美術博物館名 / 動植物園名 / 遊園施設名 / 劇場名 / 神社寺名 / 停車場名 / 電車駅名 / 空港名 / 港名
電車路線名 / 道路名 / 運河名航路名 / トンネル名 / 橋名
製品名 製品名 _ その他材料名 / 衣類名 / 貨幣名 / 医薬品名 / 武器名 / 株名 / 賞名 / 勲章名 / 罪名 / 便名 等級名 / キャラクター名 / 識別番号 乗り物名 乗り物名 _ その他
食べ物名 食べ物名 _ その他
芸術作品名 芸術作品名 _ その他
出版物名 出版物名 _ その他
主義方式名 主義方式名 _ その他
規則名 規則名 _ その他
称号名 称号名 _ その他
言語名 言語名 _ その他
単位名 単位名 _ その他
車名 / 列車名 / 飛行機名宇宙船名 / 船名
料理名
絵画名 / 番組名 / 映画名 /公演名 / 音楽名 / 文学名
新聞名 / 雑誌名
文化名 / 宗教名 / 学問名 / 競技名 / 流派名 / 運動名 理論名 / 政策計画名
条約名 / 法令名
地位職業名
国語名
通貨名
イベント名催し物名 催し物名 _ その他
事件事故名 事件事故名 _ その他
自然現象名 自然災害名 _ その他
例祭名 / 競技会名会議名
戦争名
自然災害名地震名
自然物名 自然物名 _ その他
元素名化合物名鉱物名生物名 生物名 _ その他
真菌類名 / 軟体動物 _節足動物名 / 昆虫類名 / 魚類名 両生類名 / 爬虫類名 / 爬虫類名 / 鳥類名 / 哺乳類名 / 植物名 生物部位名 生物部位名 _ その他
病気名 病気名 _ その他動物病気名
神名
色名 色名 _ その他自然色名
数値表現 数値表現 _ その他
金額表現 / 株指標 / ポイント / 割合表現 / 倍数表現 / 頻度表現 / 年齢 / 学齢 / 序数 / 順位表現 / 緯度経度寸法表現 寸法表現 _ その他
個数 個数 _ その他
長さ / 面積 / 体積 / 重量 / 速度 / 密度 / 温度 / カロリー / 震度 / マグニチュード
人数 / 組織数 / 場所数 _その他 / 国数 / 施設数 / 製品数 / イベント数 / 自然物数 _ その他 / 動物数 / 植物数
時間表現時刻表現 / 日付表現 / 曜日表現 / 時代表現 / 期間 _ その他 / 時刻期間 / 日数期間 / 週数期間 / 月数期間 / 年数期間
動物部位名 / 植物部位名
14
拡張固有表現 +Wikipedia データ[ 関根ら , 2016], [ 鈴木ら , 2016]
{ "SID": 161224,"wikipedia_ID": "259974","entry": " 東京都立新宿高等学校 ","clean_entry": " 東京都立新宿高等学校 ","page_property": "Normal","redirect_to": "",“redirect_from”: [“ 新宿高校” , “ 新宿高等学校” , “ 都立新宿高等学校” , “ 東京都立新宿高校 ", " 東京府立第六中学校 "],"link_from_N": 276,“link_anchor”: [{“count”: 1, “anchor”: “ 新宿高等学校 "}, {"count": 1, "anchor": " 東京都立新宿高校 "}],“category_info”: [“ 東京都区部の公立高等学校 | しんしゆく” , “ 新宿区の学校 | しんしゆくこう” , “学校記事” ],“first_sentence”: “ 東京都立新宿高等学校 ( とうきょうとりつ しんじゅくこうとうがっこう ) は、東京都新宿区内藤町に所在する都立高等学校。 ",“listed_in”: [“旧制中等学校・新制高校のナンバースクール一覧” , “ 東京都立新宿高等学校の人物一覧 ", " 東京都高等学校一覧 ", "旧制中等教育学校の一覧 ( 東京都 )"],"ENE": ["学校名” ],"annotation_flag": "HAND.LC_annotator_201511”}
拡張固有表現クラス
リダイレクト元リンク元カテゴリ情報
自動付与?手動付与?扱いやすい JSON 形式:他の分析にも是非!!
15
Wikipedia 日本語記事 200万記事に対して ディープラーニング で自動でラベル付与した結果を公開 (精度 : 90% くらい )
日本語 Wikipedia Entity ベクトル
[ 鈴木ら , 2016]
16
Wikipedia 記事間のリンク構造と、リンク元の文脈を利用一般の「単語」と Wikipedia 記事を同じベクトル空間に
学習は SGNS(word2vec と同じ )
http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/Word2vec は「単語」をベクトルに変換「Wikipedia の記事」に対しても同じアイディアが適用できないだろうか?
日本語 Wikipedia Entity ベクトルエンティティ同士の演算ができます
に類似したエンティティは?ヤマハ
に類似したエンティティは?ヤマハ発動機
17
北海道 札幌市 沖縄における は でいうと?
NEologd ファミリー への期待
• 現状:継続的にメンテナンスされる言語資源は殆ど無い!– 毎月更新されてる!すごい!
• 現状:研究者/エンジニアは「手法」に関心が行きがち– 「リソース」も同程度に重要!
• 現状:「言語リソースは客観性が重要」「リソース作成過程も再現性が無くては」– 関根先生 ( 関根の拡張固有表現階層 ) 、佐藤さん
(Neologd) :「個人の主観が入ったっていいじゃない!」← 超同感
18
まとめ : 「知識」を扱う言語処理
• エンティティ・リンキング (Wikification)–テキスト中の固有表現に、適切な実体を付与
• 拡張固有表現 + Wikipedia データ–Wikipedia の記事に対して、「それが何であ
るか」を自動付与• 日本語 Wikipedia Entity ベクトル–Wikipedia 記事一つ一つをベクトル化
19
「知識」を存分に使ったアプリを是非考えてみてください!
投げっぱなしはなんなので…
• 「知識」を使うとこんなことができそう–ツイートを地図にマップする–賢い対話ボットを作る–ユーザーの意図や好みを認識したレコメンド–新しい料理を提案する–災害から起こる危険を予測する
20
リソースの配布元
• 日本語 Wikification コーパス– http://www.cl.ecei.tohoku.ac.jp/jawikify/
• 場所参照表現タグ付きコーパス– http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
• 日本語 Wikipedia Entity ベクトル– http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
• 拡張固有表現 + Wikipedia データ– http://www.languagecraft.com/enew/– ランゲージクラフト研究所の担当者にお問い合わせ下さい
21
Reference• [Jargalsaikhan et al., 2016] Davaajav Jargalsaikhan, 岡崎直観 , 松田耕
史 , 乾健太郎 . 日本語Wikificationコーパスの構築に向けて . pp.793-796, 言語処理学会第22回年次大会 , March 2016.
• [松田ら , 2015] 松田耕史 , 佐々木 彬 , 岡崎直観 , 乾健太郎 . 場所参照表現タグ付きコーパスの構築と評価 . 情報処理学会研究報告 自然言語処理(NL) , 2015-NL-220(12), pp.1-10, January 2015.
• [Matsuda et al., 2015] Koji Matsuda, Akira Sasaki, Naoaki Okazaki and Kentaro Inui. Annotating Geographical Entities on Microblog Text. In Proceedings of the 9th Linguistic Annotation Workshop (LAW IX 2015), pp.85–94, June 2015.
• [鈴木ら , 2016] 鈴木正敏 , 松田耕史 , 関根聡 , 岡崎直観 , 乾健太郎 . Wikipedia記事に対する拡張固有表現ラベルの多重付与 . pp.797-800, 言語処理学会第22回年次大会 , March 2016.
• [関根ら , 2016] 関根聡 , 安藤まや , 松田耕史 , 鈴木正敏 , 乾健太郎 . 「拡張固有表表現+Wikipedia」データ . pp.41-44, 言語処理学会第22回年次大会 , March 2016.
22