Zipf? (ジップ則のひみつ?) #DSIRNLP

13
Zipf? 2015/4/29 DSIRNLP #7 @shuyo

Transcript of Zipf? (ジップ則のひみつ?) #DSIRNLP

Zipf?

2015/4/29 DSIRNLP #7

@shuyo

ジップ則(べき乗則)

• 単語の頻度がよく従う分布

• 𝑟番目に多い単語の頻度 𝑓𝑟 について※

𝑓𝑟 ∝1

𝑟

• 両対数グラフが直線になる

• 80-20の法則+ロングテール

– 大部分をごく一部が占めるが、

すそも異様に長い

※より一般には、ある 𝑠があって 𝑓𝑟 ∝1

𝑟𝑠(べき乗則)

ジップ則、謎い

• 言語によらない

– 英語、イタリア語、日本語(単語、漢字)、……

• 言語に限らない

– 都市の人口、遺伝子、アクセス数、株価、……

• スケールフリーネットワークのモデルで説明がつく場合もある

– 最小努力原理での説明を試みている人もいる

[Zipf 1949][Cancho+ 2003]

– けどまだ説明しきれてはいない(よね?)

ランダムテキストがZipf則に従う

[Li 1992]

• a~z と空白の 27文字を一様分布させてラ

ンダムテキストを生成

• 空白で区切られた「単語」の頻度がなん

と! Zipf則に従うんだ! すげー!

–ほんまに?

実験しよう!

実験その1

• a~z と空白の 27文字を一様分布

• 1千万単語の頻度ランキングを両対数で

Zipf 則だ!?

ちゃうやろ~

一様分布アカン

実験その2

• Reuters コーパスの文字割合を生成確率に

使ってランダムコーパスを作る

_ 0.2186 i 0.0568 r 0.0560a 0.0646 j 0.0016 s 0.0591b 0.0119 k 0.0054 t 0.0694c 0.0292 l 0.0360 u 0.0213d 0.0331 m 0.0205 v 0.0090e 0.0885 n 0.0575 w 0.0101f 0.0176 o 0.0566 x 0.0025g 0.0139 p 0.0198 y 0.0116h 0.0270 q 0.0016 z 0.0007

それっぽい!

単語の分布に

• 文字の分布が関係してそう?

– 実は文字もジップ分布だとぴったり直線に

• でも(表音)文字の分布≒音素の分布

– 英語は読みと綴りの対応ひどいけどね!

• 音素は言語の発展に反比例して減少傾向

– 経済性の原理?

• 音素の分布とジップ則に関連ある? ない?

– そこらへんに言語の秘密が……???

References

• Manning and Schuetze (1999). "Foundations of

Statistical Natural Language Processing"

• Zipf (1949). "Human Behavior and the Principle

of Least Effort"

• Wentian Li (1992). "Random Texts Exhibit Zipf's-

Law-Like Word Frequency Distribution"

• Cancho and Sole (2003). "Least effort and the

origins of scaling in human language"