Collocation Extraction

16
1 Автоматическое выделение коллокаций М.В. Хохлова Кафедра математической лингвистики Факультет филологии и искусств Санкт-Петербургский государственный университет Институт лингвистических исследований РАН [email protected]

description

 

Transcript of Collocation Extraction

Page 1: Collocation Extraction

1

Автоматическое выделение коллокацийМ.В. Хохлова

Кафедра математической лингвистикиФакультет филологии и искусствСанкт-Петербургский государственный университет

Институт лингвистических исследований РАН

[email protected]

Page 2: Collocation Extraction

2

парадигматические vs. синтагматические отношения;

совместная встречаемость; устойчивость; «Устойчивость сочетания относительно

данного элемента измеряется вероятностью, с которой данный элемент предсказывает совместное появление остальных элементов сочетания (в определенном порядке относительно предсказывающего элемента» [Мельчук 1960: 73]

Page 3: Collocation Extraction

3

Информация об устойчивых сочетаниях не всегда последовательно отражается в толковых словарях.

Граница между устойчивыми и свободными сочетаниями слов определяется достаточно субъективно.

Порог устойчивости.

Page 4: Collocation Extraction

4

Коллокация (1)• Коллокация – 1) отношение между отдельными

лексическими элементами в пределах синтаксической единицы (The concise Oxford dictionary of linguistics ); 2) отношение, при котором слова обычно (традиционно) употребляются вместе

Ex.: My computer hates me; blond hair, as drunk as a lord.

• Коллокация – это встречаемость двух или более слов в тексте на небольшом расстоянии друг относительно друга (Sinclair 1991: 170);

• Коллокации данного слова – это указания того, где оно обычно, или традиционно, встречается (Firth 1968: 181). Коллокация – склонность слова к некоему окружению.

Page 5: Collocation Extraction

5

Коллокация (2)

Коллокация – это несвободное, нефразеологическое, а привычное, традиционное сочетание слов в речи, звучащее правильно, естественно для носителей языка.

Одним из ключевых свойств коллокаций является «невозможность предсказания таких сочетаний на основе значений входящих в них компонентов» [Борисова 1995а: 13].

Page 6: Collocation Extraction

6

Коллокация (3)

частотные списки;диапазон;node – ключевое словоcollocate – слово, встречающееся слева

или справа от ключевого, коллокат

Page 7: Collocation Extraction

7

Мера MI (mutual information, взаимной информации)

где MI = mutual information;

n – ключевое слово;

c – коллокат;

f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с;

f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте);

N – общее число словоформ в корпусе (тексте).

)()(

),(log2 cfnf

NcnfMI

Page 8: Collocation Extraction

8

Мера t-score

гдеn – ключевое слово;c – коллокат;f(n,c) – частота встречаемости ключевого слова n в

паре с коллокатом с;f(n), f(c) – абсолютные (независимые) частоты

ключевого слова n и слова c в корпусе (тексте);N – общее число словоформ в корпусе (тексте).

),(

)()(),(

cnfN

cfnfcnf

scoret

Page 9: Collocation Extraction

9

Log-likelihood

)()(

),(log),(2log 2 cfnf

Ncnfcnflikelihood

гдеn – ключевое слово;c – коллокат;f(n,c) – частота встречаемости ключевого слова n в паре с коллокатом с;f(n), f(c) – абсолютные (независимые) частоты ключевого слова n и слова c в корпусе (тексте);N – общее число словоформ в корпусе (тексте).

Page 10: Collocation Extraction

10

Пример результата для слова spring (упорядочены по значению t-score)

Пример результата для слова spring (упорядочены по значению MI)

Collocate Corpus Freq Joint Freq Significance

1.in 765730 1230 21.579153

2.early 13074 223 14.392161

3.the 2313407 2063 13.945517

4.summer 7201 186 13.311897

5.autumn 3160 156 12.333651

6.winter 4190 151 12.077496

7.late 8377 130 10.947733

8.next 23175 132 10.242625

9.flowers 2952 88 9.186370

10.onions 421 80 8.915185

11.last 45548 125 8.662813

12.until 16813 80 7.782663

13.[p] 753638 643 6.991340

14.and 1129483 907 6.940583

15.flowering 539 45 6.658551

16.spring 3573 46 6.456783

17.mind 11052 52 6.263996

18.during 17418 58 6.202442

19.loaded 606 37 6.021198

20.water 13608 50 5.881829

Collocate Corpus Freq Joint Freq Significance

1.acutronics 3 3 10.661263

2.warsash 7 49.853828

3.calistoga 9 49.491222

4.pulteney 7 39.438749

5.repot 8 39.246085

6.kabuki 18 69.076143

7.autojumble 26 88.960654

8.equinox 45 138.869671

9.harbingers 23 68.722471

10.pulmonaria 13 38.545575

11.appalachian 22 58.523547

12.prune 146 288.278556

13.onions 421 808.265276

14.radish 20 37.924025

15.snowflake 23 3 7.722371

16.cabbage 248 30 7.613654

17.h5 25 3 7.602065

18.rite 88 10 7.523447

19.cabbages 62 7 7.514108

20.frosts 99 11 7.491022

Page 11: Collocation Extraction

11

Корпусы текстов для поиска коллокаций

http://www.collins.co.uk/Corpus/CorpusSearch.aspx

Page 12: Collocation Extraction

12

Корпусы текстов для поиска коллокаций

http://corpus1.leeds.ac.uk/ruscorpora.html

Page 13: Collocation Extraction

13

Корпусы текстов для поиска коллокаций

http://aot.ru/demo/bigrams.html

Page 14: Collocation Extraction

14

Корпусы текстов для поиска коллокаций (Sketch Engine)

Page 15: Collocation Extraction

15

Корпусы текстов для поиска коллокаций (Sketch Engine)

Page 16: Collocation Extraction

16

Спасибо за внимание!