Лингвистический ресурс как процесс. Создание...
-
Upload
bocharov -
Category
Technology
-
view
307 -
download
1
Transcript of Лингвистический ресурс как процесс. Создание...
Лингвистический ресурс как процесс.
Создание морфологической разметки в проекте «Открытый
корпус»
Бочаров Викторopencorpora.org
22 ноября 2012
Лингвистические ресурсы не являются сокровищами, которое нужно охранять.
Их следует рассматривать как фабрики по производству данных или предприятия,
добывающие полезные ископаемые.
Ближайшая цель OpenCorpora
● 1 миллион слов● качественная морфологическая разметка
со снятой неоднозначностью● в свободном доступе
Авторское право
BY
SA
Public domain
No rights reserved
Public domainPublic domain
Лицензия CC BY-SA● Можно
● копировать, распространять и передавать другим лицам
● изменять (создавать производные произведения) — чтобы приспособить к своим задачам
● использовать в коммерческих целях
● При соблюдении условий● (BY) указывать автора и источник● (SA) распространять производные продукты на тех
же условиях
Состав корпусаИсточник План Факт %
Часкор — статьи (242) 250 000 264 017 106%
Часкор — новости (682) 125 000 120 471 96%
Викиновости (440) 125 000 98 221 79%
Википедия (18) 100 000 93 266 93%
Блоги: livejournal + автономные (288) 50 000 35 537 71%
Худ. литература (Викитека) 100 000 23 631 24%
Юридические тексты (Викитека) 50 000 53 910 108%
Научные тексты (А.Долгин) 100 000 26 968 27%
Письма, чаты, статусы, микроблоги 100 000 0 0%
Всего 716 021 72%
Другое 59 021
Всего 1 000 000 775 042 78%
Открытый корпус
● Тексты, доступные на условиях Creative Commons (BY, BY-SA) или в общественном достоянии
+ Корпус доступен на условиях CC-BY-SA
● Разметка силами волонтёров● Нашёл ошибку — исправь!
+ История правок
● Автоматизация контроля качества
Где мы сейчас?
Морфологическая разметка
Морфологическая разметка
● Разметка по словарю (aot.ru)● Снятие омонимии
– Задания по типам омонимии
– Жизненный цикл задания
– Интерфейс
● Скорость работы● Оценки качества
Жизненный цикл задания
● Поиск заданий по условию– (NOUN&sing @ NOUN&plur)
– (NOUN @ VERB)
● Выполнение задания (245 пулов)● Модерация ответов
– 646 пулов ждут модерации
– 16 пулов на модерации
● Разметка корпуса– 70 пулов в архиве
191955
109163
217271
325379
433487
541595
649703
757811
865 9731027
10811135
1189
0
10,000
20,000
30,000
40,000
50,000
60,000
70,000
80,000
191955
109163
217271
325379
433487
541595
649703
757811
865 9731027
10811135
1189
1
8
80
800
8,000
80,000
УчастникиУчастник Всего В завершённых пулах В проверенных
пулахПоследняяактивность
Размечено % расхождений
Размечено % ошибок
Lvova 72 254 51 318 4.2% 5 332 0.9% сегодня в 02:21
Nofenigma 29 021 23 319 5.5% 1 671 1.1% 18.11.12
quorax 23 235 21 289 4.3% 804 0.0% вчера в 22:22
4th-otaku 21 629 21 471 4.0% 591 0.0% сегодня в 02:09
vasilevskayaaa
20 131 20 131 9.3% 3 259 2.0% 19.06.12
id Текст + варианты разбора 1 2 3 Модератор
7349
... в свете первой удачной [картины] – закономерность .
картина, NOUN, inan, femn, sing, gentкартина, NOUN, inan, femn, plur, nomnкартина, NOUN, inan, femn, plur, accs
NOUN & sing
NOUN & sing
NOUN & sing
NOUN & sing
7350
... Питера FM » от [Оксаны] Бычковой хотели истории в ...
оксана, NOUN, anim, femn, Name, sing, gentоксана, NOUN, anim, femn, Name, plur, nomn
NOUN & sing
NOUN & sing
NOUN & sing
NOUN & sing
7351
... от Оксаны Бычковой хотели [истории] в этом же ключе ...
история, NOUN, inan, femn, sing, gentистория, NOUN, inan, femn, sing, datvистория, NOUN, inan, femn, sing, loctистория, NOUN, inan, femn, plur, nomnистория, NOUN, inan, femn, plur, accs
NOUN & sing
NOUN & sing
NOUN & plur
NOUN & sing
0.00% 5.00% 10.00% 15.00% 20.00% 25.00% 30.00%0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
Расхождение
Ош
ибки
100 1,000 10,000 100,0000.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
40.00%
Количество примеров
Рас
хож
ден
ие
Данные
● Дамп корпуса с частично снятой омонимией● Дамп подкорпуса с полностью снятой
омонимией● Ответы на задания● Хронология разметки● Словарь
Как вы можете помочь
● Принять участие в разметке и рассказать о такой возможности коллегам и студентам
● Сообщить нам об источнике свободных текстов (Creative Commons, public domain)
● Написать об Открытом корпусе в Twitter, Вконтакте и т. д.
● Использовать Открытый корпус в своей работе