Лингвистический ресурс как процесс. Создание...

30
Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус» Бочаров Виктор opencorpora.org 22 ноября 2012

Transcript of Лингвистический ресурс как процесс. Создание...

Page 1: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Лингвистический ресурс как процесс.

Создание морфологической разметки в проекте «Открытый

корпус»

Бочаров Викторopencorpora.org

22 ноября 2012

Page 2: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 3: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Лингвистические ресурсы не являются сокровищами, которое нужно охранять.

Их следует рассматривать как фабрики по производству данных или предприятия,

добывающие полезные ископаемые.

Page 4: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 5: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 6: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 7: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 8: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 9: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Ближайшая цель OpenCorpora

● 1 миллион слов● качественная морфологическая разметка

со снятой неоднозначностью● в свободном доступе

Page 10: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Авторское право

BY

SA

Public domain

No rights reserved

Public domainPublic domain

Page 11: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Лицензия CC BY-SA● Можно

● копировать, распространять и передавать другим лицам

● изменять (создавать производные произведения) — чтобы приспособить к своим задачам

● использовать в коммерческих целях

● При соблюдении условий● (BY) указывать автора и источник● (SA) распространять производные продукты на тех

же условиях

Page 12: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Состав корпусаИсточник План Факт %

Часкор — статьи (242) 250 000 264 017 106%

Часкор — новости (682) 125 000 120 471 96%

Викиновости (440) 125 000 98 221 79%

Википедия (18) 100 000 93 266 93%

Блоги: livejournal + автономные (288) 50 000 35 537 71%

Худ. литература (Викитека) 100 000 23 631 24%

Юридические тексты (Викитека) 50 000 53 910 108%

Научные тексты (А.Долгин) 100 000 26 968 27%

Письма, чаты, статусы, микроблоги 100 000 0 0%

Всего 716 021 72%

Другое 59 021

Всего 1 000 000 775 042 78%

Page 13: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Открытый корпус

● Тексты, доступные на условиях Creative Commons (BY, BY-SA) или в общественном достоянии

+ Корпус доступен на условиях CC-BY-SA

● Разметка силами волонтёров● Нашёл ошибку — исправь!

+ История правок

● Автоматизация контроля качества

Page 14: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Где мы сейчас?

Page 15: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Морфологическая разметка

Page 16: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Морфологическая разметка

● Разметка по словарю (aot.ru)● Снятие омонимии

– Задания по типам омонимии

– Жизненный цикл задания

– Интерфейс

● Скорость работы● Оценки качества

Page 17: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 18: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 19: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 20: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 21: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Жизненный цикл задания

● Поиск заданий по условию– (NOUN&sing @ NOUN&plur)

– (NOUN @ VERB)

● Выполнение задания (245 пулов)● Модерация ответов

– 646 пулов ждут модерации

– 16 пулов на модерации

● Разметка корпуса– 70 пулов в архиве

Page 22: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»
Page 23: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

191955

109163

217271

325379

433487

541595

649703

757811

865 9731027

10811135

1189

0

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

Page 24: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

191955

109163

217271

325379

433487

541595

649703

757811

865 9731027

10811135

1189

1

8

80

800

8,000

80,000

Page 25: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

УчастникиУчастник Всего В завершённых пулах В проверенных 

пулахПоследняяактивность

Размечено % расхождений

Размечено % ошибок

Lvova 72 254 51 318 4.2% 5 332 0.9% сегодня в 02:21

Nofenigma 29 021 23 319 5.5% 1 671 1.1% 18.11.12

quorax 23 235 21 289 4.3% 804 0.0% вчера в 22:22

4th-otaku 21 629 21 471 4.0% 591 0.0% сегодня в 02:09

vasilevskayaaa

20 131 20 131 9.3% 3 259 2.0% 19.06.12

Page 26: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

id  Текст + варианты разбора 1 2 3 Модератор

7349

... в свете первой удачной [картины] – закономерность .

картина, NOUN, inan, femn, sing, gentкартина, NOUN, inan, femn, plur, nomnкартина, NOUN, inan, femn, plur, accs

NOUN & sing

NOUN & sing

NOUN & sing

NOUN & sing

7350

... Питера FM » от [Оксаны] Бычковой хотели истории в ...

оксана, NOUN, anim, femn, Name, sing, gentоксана, NOUN, anim, femn, Name, plur, nomn

NOUN & sing

NOUN & sing

NOUN & sing

NOUN & sing

7351

... от Оксаны Бычковой хотели [истории] в этом же ключе ...

история, NOUN, inan, femn, sing, gentистория, NOUN, inan, femn, sing, datvистория, NOUN, inan, femn, sing, loctистория, NOUN, inan, femn, plur, nomnистория, NOUN, inan, femn, plur, accs

NOUN & sing

NOUN & sing

NOUN & plur

NOUN & sing

Page 27: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00%0.00%

5.00%

10.00%

15.00%

20.00%

25.00%

Расхождение

Ош

ибки

Page 28: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

100 1,000 10,000 100,0000.00%

5.00%

10.00%

15.00%

20.00%

25.00%

30.00%

35.00%

40.00%

Количество примеров

Рас

хож

ден

ие

Page 29: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Данные

● Дамп корпуса с частично снятой омонимией● Дамп подкорпуса с полностью снятой

омонимией● Ответы на задания● Хронология разметки● Словарь

Page 30: Лингвистический ресурс как процесс. Создание морфологической разметки в проекте «Открытый корпус»

Как вы можете помочь

● Принять участие в разметке и рассказать о такой возможности коллегам и студентам

● Сообщить нам об источнике свободных текстов (Creative Commons, public domain)

● Написать об Открытом корпусе в Twitter, Вконтакте и т. д.

● Использовать Открытый корпус в своей работе