レストラン・レビューにおける...

18
レストラン・レビューにおける 食べ物・飲み物表現の抽出 2018/09/07 新堂 (DG), 友利 (京大), 富田 (カカク), 兼村 (DG), 森 (京大)

Transcript of レストラン・レビューにおける...

Page 1: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

レストラン・レビューにおける 食べ物・飲み物表現の抽出 2018/09/07

新堂 (DG), 友利 (京大), 富田 (カカク), 兼村 (DG), 森 (京大)

Page 2: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 2

ü はじめに ü コーパス構築 ü 実験設計 ü 実験 ü まとめ・今後

目次

Page 3: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 3

はじめに: レビュー・データ分析の需要と必要性

Mobile Internetが 広く普及。

ローカル・ビジネスに関する レビュー・サービスが定着。

レビュー・サービス内に 大量の消費者の声が蓄積。

マーケティングで 利用したい!

口コミの累計投稿数が 2014年には500万件に。 (参考: Yelpは現時点で1.6億件)

実は課題だらけ

Page 4: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 4

はじめに: レビュー・データ分析の難しさとタスク設定

レビュー・テキストはユーザーの自由記述: ü  既存の形態素解析辞書に含まれない表現が多い。 ü  記号・絵文字・顔文字などを含む砕けた表現が多い。 ü  従来通り行や句点を処理単位にできない表現が多い。

⇒既存のNLP技術がどれくらい通用する?

食べログのレビュー・データを使って 食べ物・飲み物表現を抽出させることで、 既存のNER技術がどの程度通用するか把握する。

Page 5: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 5

コーパス構築: 食べ物・飲み物の認定ルール (1)

料理のトレンドを把握するタスクを仮定: ü  1つの食べ物や飲み物を示す表現を中心に、隣接する性質の情

報をまとめてNEとしてタグ付け。

ü  性質: 味、香り、形状、温度、調理法、産地、価格、ブランドなど。

Page 6: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 6

コーパス構築: 食べ物・飲み物の認定ルール (2)

ü  香り高くのど越し抜群のおいしい十割そばだ。 ü  さすがに鹿児島県産天然ヒラマサはうまい。 ü  お通し 筍のグリルの山椒ソース添え

ü  美瑛産ジャガイモの冷た~いスープが前菜。 ü  お店で人気のGABAN製の高価なスパイス。 ü  ファミマのあんぱんみたいなパン。

太字がNE部分。

Page 7: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 7

コーパス構築: コーパスの内訳

Ca1はCr1と、Ca2はCr1+Ca2と、表現の重複を避けるよう調整。 同時により長いNEを含むようにしている。(see 予稿)

コーパス 容量 (MB) 形態素数 (万) NE数 NE異なり数 NE平均長

Cr1 1.2 25.9 11633 4435 1.89

Cr2 1.1 21.4 9924 3926 1.89

Ca1 0.6 11.5 4884 2796 2.54

Ca2 0.5 11.0 5195 2739 2.25

Cr1 + Cr2 2.3 47.3 21557 7380 1.89

Cr1+Ca1+Ca2 2.3 48.4 21712 8583 2.12

Page 8: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 8

実験設計: 概要

2種類のNERのモデル ü  CRF ü  BiLSTM+CNNs+CRF

× 1種類の学習コーパス

× 2組の開発・試験コーパス ①  未知語とNEの長さに特別な片寄りがない。 ②  未知語が多くNEが長い傾向がある。

開発コーパスは パラメータ推定などに利用

学習コーパス内に ない表現

Page 9: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 9

実験設計: 固有表現抽出器

広く使われている・いたNERのモデルと、 現時点のSoTAのNERのモデルを試したい。

本研究で用いるNERのモデル: ü  CRF w/形態素基準の素性 (see 予稿) ü  BiLSTM+CNNs+CRF (Ma+2016)

Page 10: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 10

実験設計: コーパスの内訳

使用内容 実コーパス

学習コーパス Cr1

開発コーパス1 Cr2の半分

試験コーパス1 Cr2の半分

開発コーパス2 Ca1

試験コーパス2 Ca2

Page 11: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 11

実験設計: コーパスの詳細 (1)

NEの長さ 学習コーパス 開発コーパス1 開発コーパス2

1 6594 2894 2195

2 2907 1300 1101

3 945 395 545

4 469 233 316

5 279 144 239

6 169 76 168

7 95 36 114

8 61 21 78

9 39 20 34

9超 75 34 94

合計 11633 5153 4884

Page 12: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 12

実験設計: コーパスの詳細 (2)

NEの長さ 試験コーパス1 (既) 試験コーパス1 (未) 試験コーパス2 (既) 試験コーパス2 (未)

1 2353 363 1983 496

2 585 618 537 790

3 42 341 19 524

4 4 200 1 304

5 0 106 0 189

6 0 59 0 127

7 0 31 0 79

8 0 21 0 63

9 0 12 0 27

9超 0 36 0 56

合計 2984 1787 2540 2655

学習コーパス 内にある表現

学習コーパス 内にない表現

Page 13: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 13

実験: 全体の結果

モデル 評価尺度 開発・試験1 開発・試験2

CRF

精度 0.807 0.752

再現率 0.630 0.526

F値 0.708 0.619

BiLSTM +CNNs +CRF

精度 0.791 0.751

再現率 0.797 0.737

F値 0.794 0.744

Page 14: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 14

実験: CRF (結果概要)

NEの長さ 精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)

1 0.887 0.609 0.806 0.470

2 0.819 0.721 0.808 0.624

3 0.734 0.606 0.713 0.534

4 0.612 0.564 0.711 0.531

5 0.548 0.538 0.615 0.582

6 0.493 0.610 0.636 0.606

7 0.429 0.677 0.593 0.646

8 0.458 0.524 0.500 0.333

9 0.214 0.250 0.314 0.407

9超 0.286 0.270 0.250 0.286

全体 0.807 0.630 0.752 0.526

Page 15: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 15

実験: CRF (ミスの分析)

1行に短いNEが複数ある場合にラベルを付与しなかったケース: ü  see 予稿

未知の短いNEにラベルを付与しなかったケース: ü  see 予稿

太字は正解を、 緑字は推定結果を示す。

Page 16: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 16

実験: BiLSTM+CNNs+CRF (結果概要)

NEの長さ 精度 (開・試1) 再現率 (開・試1) 精度 (開・試2) 再現率 (開・試2)

1 0.852 0.827 0.817 0.764

2 0.788 0.835 0.760 0.790

3 0.673 0.731 0.704 0.725

4 0.649 0.652 0.650 0.671

5 0.492 0.570 0.602 0.634

6 0.508 0.561 0.583 0.597

7 0.526 0.625 0.583 → 0.564 0.597 → 0.543

8 0.522 0.600 0.541 0.333

9 0.600 0.250 0.417 0.370

9超 0.458 0.297 0.327 0.321

全体 0.791 0.797 0.751 0.737

Page 17: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 17

実験: BiLSTM+CNNs+CRF (ミスの分析)

本来より長くラベルを付与したケース: ü  see 予稿

本来より短くラベルを付与したケース: ü  see 予稿

Page 18: レストラン・レビューにおける 食べ物・飲み物表現の抽出quruli.ivory.ne.jp/download/20180907_13th_TAS_shindoh.pdf · コーパス 容量 (MB) 形態素数 (万)

Copyright©2018DigitalGarage,Inc.Allrightsreserved. 18

まとめ

ü  レビュー・テキストにNLP技術を適用するタスクとして、食べログデータにNER技術を適用して食べ物・飲み物表現の抽出を試みた。

ü  従来から使われているCRFベースのNERのモデルでは、再現率が低くなる傾向が見られた。短いNEを複数含む行や未知の短いNEの処理において失敗が目立った。

ü  SoTAであるBiLSTM+CNNs+CRFベースのNERのモデルでは、(短い) NEで本来より長く・短くラベルを付与する失敗が目立った。

精度・再現率の両方でまだ改善が必要。