2010 ims slides
-
Upload
lidia-pivovarova -
Category
Documents
-
view
227 -
download
2
Transcript of 2010 ims slides
![Page 1: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/1.jpg)
Открытый корпус: принципы работы и перспективы
Открытый корпус: принципы работы иперспективы
Д. В. Грановский В. В. Бочаров С. В. БичинёваMathlingvo, СПбГУ
21 октября 2010 г.
![Page 2: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/2.jpg)
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языке
полностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом
![Page 3: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/3.jpg)
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензией
размечаемый сообществом пользователейс открытым исходным кодом
![Page 4: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/4.jpg)
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователей
с открытым исходным кодом
![Page 5: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/5.jpg)
Открытый корпус: принципы работы и перспективы
OpenCorpora — это
корпус текстов на русском языкеполностью доступный под свободной лицензиейразмечаемый сообществом пользователейс открытым исходным кодом
![Page 6: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/6.jpg)
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступны
разметка недоступнаразметка не единообразна
![Page 7: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/7.jpg)
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступныразметка недоступна
разметка не единообразна
![Page 8: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/8.jpg)
Открытый корпус: принципы работы и перспективы
Проблемы других корпусов
полные тексты недоступныразметка недоступнаразметка не единообразна
![Page 9: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/9.jpg)
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . стать причиной появления вирусов, неотличимых по своимсвойствам от диких вирусов, вызывающих заболевания.вызывающий, A, pl, gen ,plen. . . одной из главных причин, вызывающих насторожённое идаже негативное отношение педагогов к компьютерномутестированию. . .вызывать, V, tran, ipf, partcp, act, . . .
![Page 10: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/10.jpg)
Открытый корпус: принципы работы и перспективы
Пример неединообразия
. . . В результате стирки <. . . > стали цвета хаки.хаки, S, inan, n, sg, gen, 0Один нёс в руке деревянный ящичек цвета хаки, другой был внаушниках и с антенной.хаки, A, sg, gen, plen, 0
![Page 11: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/11.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать
. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 12: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/12.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!
корпус размечается сообществомединообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 13: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/13.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 14: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/14.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяется
удобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 15: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/15.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузере
устойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 16: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/16.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 17: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/17.jpg)
Открытый корпус: принципы работы и перспективы
А у нас?
весь корпус можно скачать. . . и это легально!корпус размечается сообществом
единообразно — потому что по одинаковой инструкции ипроверяетсяудобно — потому что в браузереустойчиво — потому что сохраняется история изменений, аправку можно «откатить»
существуют уровни качества разметки
![Page 18: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/18.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данных
Интерфейс:для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 19: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/19.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 20: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/20.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поиск
для редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 21: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/21.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование
; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 22: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/22.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 23: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/23.jpg)
Открытый корпус: принципы работы и перспективы
Компоненты системы
Хранилище — добавление, хранение и выдача данныхИнтерфейс:
для просмотра — навигация и поискдля редактирования — понятное представление разметки,удобное редактирование; очевидно, веб-интерфейс
Система экспорта — выгрузка данных с той или инойстепенью фильтрации
![Page 24: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/24.jpg)
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),
2 доступ к добавлению новых текстов в корпус иредактированию имеющихся,
3 автоматический морфологический разбор новых текстовпри помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
![Page 25: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/25.jpg)
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,
3 автоматический морфологический разбор новых текстовпри помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
![Page 26: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/26.jpg)
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,3 автоматический морфологический разбор новых текстов
при помощи словаря,
4 поддержка интерфейса для ручного снятияграмматической неоднозначности.
![Page 27: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/27.jpg)
Открытый корпус: принципы работы и перспективы
Задачи 1-го этапа
1 доступ к словарю (чтение, редактирование, экспорт),2 доступ к добавлению новых текстов в корпус и
редактированию имеющихся,3 автоматический морфологический разбор новых текстов
при помощи словаря,4 поддержка интерфейса для ручного снятия
грамматической неоднозначности.
![Page 28: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/28.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 29: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/29.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище
+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 30: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/30.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок
+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 31: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/31.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки
– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 32: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/32.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации
– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 33: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/33.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс
– внесение изменений очень трудоемко
![Page 34: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/34.jpg)
Открытый корпус: принципы работы и перспективы
Инструменты
MediaWiki
+ есть хранилище+ есть история правок+ есть язык разметки– можно хранить только тексты в вики-разметке,связанные между собой ссылками или путемкатегоризации– все равно требуется разрабатывать пользовательскийинтерфейс– внесение изменений очень трудоемко
![Page 35: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/35.jpg)
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.
Единица грамматической разметки — токен.Внутри токена не бывает пробелов.
![Page 36: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/36.jpg)
Открытый корпус: принципы работы и перспективы
Структура корпуса
1 Единица верхнего уровня — «книга».2 Книга делится на абзацы.3 Абзац делится на предложения.4 Предложение делится на токены.
Единица грамматической разметки — токен.Внутри токена не бывает пробелов.
![Page 37: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/37.jpg)
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.
Токены бывают1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
![Page 38: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/38.jpg)
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.Токены бывают
1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
![Page 39: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/39.jpg)
Открытый корпус: принципы работы и перспективы
Ещё о токенах
Разметка токена состоит из нескольких интерпретаций.Токены бывают
1 словарные2 несловарные
Для словарных:1 идентификатор леммы из словаря,2 часть речи,3 набор значений обязательных для данной части речи
грамматических категорий,4 набор меток, обозначающих особенности конкретного
употребления словоформы в тексте.
![Page 40: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/40.jpg)
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
![Page 41: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/41.jpg)
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
![Page 42: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/42.jpg)
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
![Page 43: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/43.jpg)
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями
5 Разметка доступна для просмотра и скачивания
![Page 44: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/44.jpg)
Открытый корпус: принципы работы и перспективы
Жизненный цикл текста
1 Исходный текстпод лицензией, совместимой с CC-BY-SAпроходит вычиткуделится на абзацы, предложения и токены
2 Морфологические интерпретациисловарь на базе словаря проекта АОТно морфологический стандарт — свойгенерируются все возможные гипотезы
3 Полуавтоматика (сейчас её нет)привязка к словарю на основе эвристикснятие простой неоднозначности
4 Ручное снятие неоднозначности пользователями5 Разметка доступна для просмотра и скачивания
![Page 45: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/45.jpg)
Открытый корпус: принципы работы и перспективы
Заключение
Мы считаем, что открытость лингвистических базданных является существенным стимулом дляразвития науки о языке и для создания прикладныхсистем обработки текста. Вместе с тем, созданиетаких баз требует больших трудозатрат, чтосущественным образом влияет на рентабельностьразработки ПО и на трудоемкость исследований. Вобъединении усилий сообщества для созданияоткрытого размеченного корпуса мы и видим решениевышеозначенной проблемы.
![Page 46: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/46.jpg)
Открытый корпус: принципы работы и перспективы
Спасибо
Спасибо за внимание!
![Page 47: 2010 ims slides](https://reader033.fdocuments.net/reader033/viewer/2022052505/554e8653b4c90573338b4748/html5/thumbnails/47.jpg)
Открытый корпус: принципы работы и перспективы
Contacts
http://opencorpora.org
[email protected]@opencorpora.org