ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ...

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение высшего профессионального образования «Уральский государственный университет им. А.М. Горького»

ИОНЦ «Русский язык»

филологический факультет

кафедра современного русского языка

Компьютерные технологии в филологии Методические указания к изучению дисциплины

Подпись руководителя ИОНЦ Дата

Екатеринбург 2007

2

Утверждено учебно-методической комиссией филологического факульте-

та

Методические указания состоят из следующих частей:

1. Введение

2. Программа учебного курса «Компьютерные технологии в филологии»,

включающая содержание лекционного курса и материалы для самостоятельной

работы студента по основным темам, сформулированные в тезисном виде.

3. Списки рекомендуемой учебной и научной литературы (основной и до-

понительной).

4. Темы лабораторных, семинарских занятий и коллоквиумов.

5. Вопросы и задания для самоконтроля.

6. Перечень вопросов к зачету.

ВВЕДЕНИЕ

Цель данной дисциплины — сформировать у студентов и магистрантов

системное представление о приложимости и развитии компьютерных техноло-

гий в филологических исследованиях. Филология объединяет разные по мето-

дологии направления: лингвистику, литературоведение и фольклористику. В то

же время их объединяет общий объект, которым является текст. Формализация

текстовых данных и возможность быстрой обработки больших текстов создают

новые стимулы для развития филологии. Данный курс в целом способствует

интеграции гуманитарного и естественнонаучного знания, расширению фило-

логического кругозора, развитию более серьезного отношения к применению

статистических методов в студенческих научных работах и практической цен-

ности гуманитарных исследований.

Задачи дисциплины: определить наиболее существенные филологические

направления, в которых активно задействуются компьютерные технологии; вы-

явить значимые аспекты автоматической обработки текста в программах ин-

3

формационного поиска, машинного перевода, атрибуции текста, в лингвистиче-

ских базах данных и т.п.; дать студентам представление о работе с компьютер-

ными программами, задействующими филологическую информацию.

Данный курс, с одной стороны, базируется на филологической информа-

ции, которую студенты получают в рамках лингвистических и историко-

литературных курсов. С другой стороны, синтетический характер курса пред-

полагает привлечение информации естественно-научных дисциплин: информа-

тики, математики, статистики.

Изучение курса предполагает общую ориентацию в привлечении совре-

менных компьютерных технологий в филологических исследованиях, знание

принципов устроуства лингвистических баз данных, существующих корпусов

русских текстов и умение ими пользоваться. Желательно умение грамотно

пользоваться поисковыми системами (в том числе грамотно построить запрос к

ИПС), системами машинного перевода и современными электронными слова-

рями. Студенты должны быть компетентны в плане применения своих знаний в

любой сфере, в которой может быть востребована филологическая информация.

ПРОГРАММА УЧЕБНОГО КУРСА

«КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ФИЛОЛОГИИ»

Содержание лекционного курса

и материалы для самостоятельной работы студента

I. Введение

Содержани е л екций

Филологические направления, в которых активно задействуются компью-

терные технологии. Экскурс в проблемы автоматической обработки текста, не-

обходимой для работы программ, анализирующих и преобразующих текстовые

данные.

4

II. Компьютерная лексикография


1. Общие сведения. Формализация структуры словаря. Устройство базы

данных словаря. Типы информации в словаре и базе данных (БД).

2. Объекты БД: таблицы и формы, фильтры, запросы, отчеты, макропро-

граммы. Пользовательская работа с объектами базы в лексикографической

практике.

3. Идеографическая лексикография. Словарь-тезаурус. Устройство идео-

графической базы данных, системное представление семантической иерархии.

Руские идеографические словари. Проект WordNet и его развитие в разных

странах.

Материалы для работы студента

Лексикография — практика, а теперь и большая теория разработки слова-

рей разного типа. Заведомо прикладная дисциплина.

Словари и энциклопедии on-line и в полнотекстовом формате можно най-

ти по следующим адресам:

● gramota.ru

● slovari.ru

● cfrl.ru

● lsw.ru

● rusgram.narod.ru (Грамматика-80)

● speakrus.narod.ru/dict-mirror

● ru.wikipedia.org (сайт «Википедии»)

… …

Словари на дисках

Сегодня большой выбор лексикографических источников, но некоторые

важные словари пока не существуют в электронном формате.

Формализация структуры словаря:

5

● макроструктура — словник и его организация (словник — совокуп-

ность описываемых единиц, не только слов),

● микроструктура – повторяющаяся модель словарной статьи.

Микроструктура обычного толкового словаря:

● заголовочная единица («лексический вход», вокабула, лемма),

● № значения,

●грамматическая информация,

● стилистическая информация,

● толкование,

● иллюстрации,

● производные единицы,

● фразеология,

● этимологическая информация.

Графическая разметка статьи (пример из БТС):

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-

пломатическое письменное обращение правительства одного государства к

другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Микроструктура конкретной статьи может быть неполной.

Словарь – заведомо формализованный источник, однако он делается для

людей, способных элементарно разделить словарные статьи на зоны.

Это приводит к неполной формализации данных.

Этапы создания современного словаря:

● корпус текстов (на его основе формируется словник и иллюстрации),

● словарные статьи,

● ввод информации в базу данных,

● редактирование информации в базе данных,

● компиляция словаря в текст,

● редактирование в тексте и базе данных,

● верстка и оригинал-макет,

● печать.

6

Пример словаря:

Русские глагольные предложения: экспериментальный синтаксический

словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.

Схема обеспечения словаря:

● структура толкового словаря глаголов,

● иллюстрации из художественных текстов (конкорданс),

● речения авторов,

● массив структурных схем предложений,

● набор компонентов пропозиции,

● СЛОВАРНАЯ СТАТЬЯ,

● макет,

● печать,

Необходимость быстрой индексации, поиска, сплошного редактирования

информации и т.п.

Среды (системы) управления базами данных (СУБД).

MS Access – наиболее доступная рядовому пользователю СУБД, интегри-

рованная в пакет MS Office.

Содержит средства создания объектов базы данных для неопытных поль-

зователей.

Мастер (Wizard) – процедура создания объекта в полуавтоматическом

(диалоговом) режиме.

Архитектура СУБД:

● средства создания таблиц и поддержания связи между ними,

● средства ввода, поиска, редактирования, вывода данных,

● средства программирования.

Элементы СУБД:

● таблицы,

● формы,

● фильтры — запросы — отчеты,

7

● программные модули.

Элементы таблицы:

● строка = запись (record) БД,

● столбец = поле (field) БД.

Строки содержат одинаковое число столбцов, но столбцы могут содер-

жать разные виды данных.

Типы полей таблицы — типы информации в базе данных и словаре

● счетчик (Autonumber)

● числовой (number)

● текстовый (text)

● догический (boolean)

● мемо, примечание (memory)

● general, OLE (Object Linking and Embedding)

● дата, время (date, time)

● гиперссылка (hyperlink)

● денежный (currency)

Пример словарной статьи (из БТС) — разбить на типы информации:

НÓТА –ы, ж. [от лат. nota – знак, замечание]. Дипл. Официальное ди-

пломатическое письменное обращение правительства одного государства к

другому. Н. протеста. Обмен нотами. < Нóтный, -ая, -ое.

Объект «форма» как словарная карточка.

Основные признаки объектов:

● макет (внешний вид),

● данные,

● события.

Создание объектов СУБД:

● в режиме конструктора (обычно),

● в режиме мастера (для начинающих)

Идеографическая лексикография. Словари для изучения:

8

● Большой толковый словарь русских существительных: Идеографиче-

ское описание. Синонимы. Антонимы. Сер. «Фундаментальные словари». Под

ред. проф. Л. Г. Бабенко. М., 2005. 864 с.

● Большой толковый словарь русских глаголов: Идеографическое описа-

ние. Синонимы. Антонимы. Английские эквиваленты. Сер. «Фундаментальные

словари». Под ред. проф. Л. Г. Бабенко. М., 2007. 576 с.

● Русские глагольные предложения: экспериментальный синтаксический

словарь / Под ред. Л. Г. Бабенко. Москва, Флинта-Наука, 2000.

● Русский семантический словарь. Толковый словарь, систематизирован-

ный по классам слов и значений / Под общей ред. Н. Ю. Шведовой. М.: "Азбу-

ковник". Издание продолжается.

И другие издания.

WordNet как идеографическая система

Из аннотации: «WordNet was developed by the Cognitive Science Laboratory

at Princeton University (1985) under the direction of Professor George A. Miller».

http://wordnet.princeton.edu/

Визуализация семантических сетей: http://www.visualthesaurus.com/

Проекты EuroWordNet, BalcaNet

http://www.illc.uva.nl/EuroWordNet/

Русский WordNet: RussNet и др. проекты

Идея автоматического поиска семантических связей (Google):

www.labs.google.com/sets)

III. Корпусная лингвистика


Введение в корпусную лингвистику (КЛ). Общие соображения. Понятия

КЛ. Требования к корпусу. Специфика разметки языковых данных. Проблемы

снятия неоднозначностей в корпусах текстов. Достижения КЛ. Современные

9

проекты. Корпуса текстов on-line. Проблемы современной корпусной лингвис-

тики.


Корпус — это сформированная по определенным правилам выборка язы-

ковых данных. По сути это лингвистическая база данных.

Чаще всего под корпусом понимают корпус текстов. Корпус не просто

хранилище в электроном. формате (библиотека), он содержит метатекстовую

разметку, т.е. единицам корпуса приписана содержательная лингвистическая

информация.

Плунгян Владимир Александрович, доктор филол. наук, координатор

проекта «Национальный корпус русского языка»: «Теперь ограничений на объ-

ем анализируемого материала и скорость поиска информации в нем по суще-

ству нет, а это означает, что в распоряжении исследователя оказываются

колоссальные массивы текстов самого разного типа. Это не замедлило ска-

заться на развитии наших знаний о языке <…> подлинно научные описания

грамматического строя языков, а также авторитетные академические сло-

вари — практически все без исключений — должны составляться на основе

корпусов этих языков» .

Появление корпусов изменило философию лингвистического исследова-

ния:

● возможность работы с огромными объемами информации,

● наличие корпусов не только подтверждение научных гипотез, но и по-

становка оригинальных проблем перед теоретической лингвистикой.

В итоге не дихотомия, а триада: Язык — Речь — Корпус

Построение словарей на основе корпуса.

Конкорданс — массив употреблений одной единицы.

Все смешалось в доме Облонских.

Дети бегали по дому как потерянные.

Подъехав к дому, Облонский высадил сестру.

… … … и еще множество контекстов.

10

Залог качественной, «неумозрительной» выборки материала ⇒ качест-

венная дефиниция в словаре.

Раньше конкорданс можно было представить на карточках словарной

коллекции. Он не был репрезентативен. На него уходило большое количество

времени и усилий.

Понятия корпусной лингвистики:

● корпус данных (чаще текстов),

● проблемная область,

● единица хранения и уровень разметки,

● порог отображения данных: пропорциональное сужение.

Вопрос объема корпуса:

● проблема недостаточности данных

● проблема чрезмерности данных.

Вопрос решается опытным путем.

Типология корпусов:

● статические — динамические,

● исследовательские — иллюстративные,

● параллельные (полиязыковые) – моноязыковые,

● структурированные – неструктурированные (последние нормальными

корпусами не являются).

Требования к корпусу:

● репрезентативность,

● полнота,

● разноуровневая разметка (желательно со снятой омонимией),

● прозрачность и логичность разметки,

● легкость ввода, редактирования и вывода данных в нужном формате,

● программное обеспечение.

Достижения корпусной лингвистики.

11

● Брауновский корпус американского английского (создан в 1962-1963

гг.) — около 1 млн словоупотреблений.

http://www.hd.uib.no/icame/bcm.html

● Британский национальный корпус (создан в 1990 г., published in 1994) –

около 1 млн словоупотреблений.

http://www.natcorp.ox.ac.uk

● Чешский национальный корпус Карлова университета (Прага).

Основан в 1994 г., 20 млн словоупотреблений для пользователей Интер-

нета, 100 млн словоупотреблений в целом.

http://www.ucnk.ff.cuni.cz

● Проект «Персей» (Perseus). Изначально размеченный массив античных

текстов, а теперь — расширенное хранилище:

Renaissance Materials.

Англоязычные тексты – около 10 млн словоупотреблений.

Латинские тексты — около 1 млн словоупотреблений. И прочее.

http://www.perseus.tufts.edu

Русские проекты

Уппсальский корпус (создан в Швеции в 1987 г.)

Единица хранения – текст.

Основа русского корпуса Тюбингенского университета (ФРГ)

http://www.sfb441.uni-tuebingen.de/b1/en/korpora.html


Машинный (компьютерный) фонд Института русского языка РАН.

The Computer Fund of Russian Language (CFRL) is a research and develop-

ment department within the V.V.Vinogradov Institute for Russian Language of the

Russian Academy of Sciences. It was started in 1985.

(www.cfrl.ru )

12


● Корпус газетных текстов, созданный под руководством Анатолия Яно-

вича Шайкевича (Машинный фонд Института русского языка РАН).

Около 7,5 млн словоупотреблений в 29,5 тысячах текстовых фрагментов.

Материал взят из публицистики 2-й половины 1990-х гг.

Выставлен на сайте Машинного фонда Русского языка

Пример разметки в корпусе Шайкевича:

[%iso88591; ]> CFRL Parole encoding Computer Fund of Russian Language

http:// On-line 99-01-27 &parole.tax; 99-01-27 Russian

izi02edu

Жизнь в России все же не темна. Есть 1 сентября — праздник, который

всегда с тобой…]

Кроме газетного корпуса, за время существования Машинного фонда соз-

дано несколько менее объемных собраний:

● корпус языка Ф. М. Достоевского,

● корпус рекламных слоганов,

● корпус метафор,

● корпус дискурсивных слов и ряд других.

● Национальный корпус русского языка (www.ruscorpora.ru). Руководи-

тель работ проф. В. А. Плунгян.

Около 100 млн словоупотреблений.

Метатекстовая, акцентная, морфологическая, синтаксическая и семанти-

ческая разметка.

Зона со снятой грамматической омонимией (около 5 млн словоформ)

Подразделы корпуса:

1) основной корпус (письменные и устные тексты),

2) диалектный корпус,

3) поэтический корпус,

4) параллельный корпус.

13

Принципы поиска в корпусе (на примере Национального корпуса русско-

го языка):

● создание подкорпуса,

● поиск по метатекстовым признакам,

● поиск по морфологическим, синтаксическим, семантическим призна-

кам,

● возможность задать расстояние между словами

Неровность проекта на сегодняшний день. Несистемные лакуны в зоне со

снятой омонимией. Тем не менее этот проект сегодня стал самым мощным и

перспективным.

● Хельсинкский аннотированный корпус (ХАНКО). Основан на материа-

лах журнала «Итоги».

100.000 словоупотреблений. Морфологическая разметка.

Руководитель проекта — проф. Арто Мустайоки, координатор — Михаил

Копотев.

Корпус небольшой, зато качественно подобранный и размеченный.

(http://www.slav.helsinki.fi/hanco/)

● Корпус газетных текстов, созданный под руководством А. А. Поликар-

пова (МГУ, филологический факультет, лаборатория общей и компьютерной

лексикографии).

Около 205.000 словоупотреблений. Выставлен на сайте лаборатории.

Кроме того, новый проект лаборатории (© МГУ, 2006):

Корпус «Поэзия и драматургия А. С. Пушкина» и «Путеводитель по Пуш-

кину»

Текстовые единицы размечены информацией 15 типов:

● «Дата»,

● «Адресаты»,

14

● «Варианты слов»,

● «Персонажи и лица»,

● «Цвето- и светообозначения» и т.д.

● Электронные библиотеки

Самое известное русское собрание – библиотека Максима Мошкова.

(www.lib.ru)

Там же можно найти множество ссылок на др. библиотеки.

В первое время самая большая часть русскоязычных собраний — русская

фантастика.

● www.aot.ru: поиск по библиотеке Мошкова: поиск без снятой омони-

мии, но объем корпуса таков, что он может быть полезен для пользователя.

Проблемы КЛ

● плохое качество электронных текстов,

● затратность в плане времени и ресурсов,

● создание корпуса под конкретный проект; проблема универсальности

корпуса.

IV. Статистический анализ текста

1. Проблема атрибуции текста


Введение в проблему. Этапы и методы атрибуции художественного тек-

ста. Примеры квантитативных методов атрибуции текстов.

Литературоведческие и лингвистические методики. Методы буквенного

(А.А.Поликарпов, Д.В.Хмелев), грамматического, лексического, синтаксиче-

ского анализа. Вопросы, методы, решения. Примеры атрибуции текстов Ф.

Достоевского, М. Шолохова, М. Агеева.

Известные случаи атрибуции анонимных и псевдонимных текстов. Атри-

буция текста в криминалистике. Общие проблемы атрибуции текстов.

15


Термины-синонимы:

атрибуция = авторизация = установление авторства анонимного текста

(или текста с мистифицированным авторством)

В шир. смысле — приписывание тексту атрибутов (не только авторства,

но и времени и места создания, жанра и проч.).

Формулировки — результаты атрибуции:

● текст принадлежит автору Х,

● текст не принадлежит автору Х,

● текст, вероятней всего, принадлежит автору Х,

● текст может принадлежать автору Х.

→ Проблема оценки вероятности

Аспекты проблемы:

● текстологический,

● криминалистический.

Проблемы авторства:

● древнерусские литературные памятники

● литература XIX в. (например, стихотворения, приписываемые Пушки-

ну, «Гавриилиада»),

● проблемы авторства: ХХ в. («Тихий Дон», «Роман с кокаином» и т.д.).

ХХ в.. Развитие проблемы:

● Н. А Морозов, «формальная» школа (Б. Томашевский, Ю. Тынянов, Б.

Эйхенбаум),

● «объективно-исторический» подход (В. Виноградов, Д. Лихачев),

● современные направления (широкое использование квантитативных

методов).

Приемы атрибуции

● извлечение смысловой информации из содержания текста, словаря ав-

тора, референциальной среды (1),

● извлечение смысловой информации из «формы» текста (2).

16

(1):

● документально-фактологический материал,

● сравнение проблематики, сюжета и тематики с текстами-образцами,

● совпадение/несовпадение семантики и формы мелких сегментов (изби-

рательно-стилистический подход).

(2):

● палеографический и графологический анализ,

● квантитативный метод — собственно математико-лингвистический

Примеры квантитативных методик:

● Н. А. Морозов (1915 г.): идея «лингвистических спектров».

Изучение частотности служебных слов в классических текстах.

Частные наблюдения Морозова:

частица “было” (например, чуть было) — только у Пушкина; “близ” —

только у Тургенева (у других “около”); “ведь” — отсутствует у Карамзина и За-

госкина; “вдруг” и “даже” редки у Толстого; “еле” — только у Гоголя; “заме-

сто”— только у Тургенева; “ибо”— еще употребляется часто Карамзиным и Го-

голем, изредка Пушкиным, но уже совсем отсутствует у Толстого, Тургенева и

Загоскина и т.п.

Поиск характеристик текста, которые вряд ли мог учитывать автор.

● А. Л. Гришунин: анализ дублетных языковых средств (Иванович – Ива-

ныч, дверь – двери, много лет (тому) назад, может быть – быть может и

проч.).

● Г. В. Ермоленко (Анонимные произведения и их авторы. Минск, 1988).

4 приема:

анализ высокочастотной лексики,

анализ низкочастотной лексики,

выявление речевых параллелей (дублетов),

анализ покрытия текста нейтральными словами.

17

● Милов Л. В. и др. ( От Нестора до Фонвизина: Новые методы определе-

ния авторства. М., 1994): атрибуция древнерусских литературных памятников и

анонимных произведений XVII-XVIII вв.

Проведен морфологический и синтаксический анализ, выявлено порядка

150 признаков.

● Методика Дмитрия Хмелева (лингвоанализатор)

Самый любопытный ввиду абсолютной «формальности» метод:

● буквы текста как реализация марковских цепей,

● матрица буквосочетаний,

● оценка вероятности авторства.

Атрибуция «Тихого Дона»

Хьетсо Г. и др. Кто написал «Тихий Дон»? М., 1989.

Использованы традиционные способы; кроме того, проанализированы:

● словарный профиль,

● словарный запас,

● дистрибуция классов слов,

● частотность частей речи в разных позициях в предложении,

● самые частотные сочетания слов.

Атрибуция в криминалистике. Объекты:

● плагиат и авторские права

● дискредитация конкурентов

● разные тексты, связанные с составом преступления (угрозы, шантаж,

взятки, договоренности о сбыте наркотиков и т.п.)

→ Работа как с письменными, так и устными источниками

Методы:

● идентификационные,

● неидентификационные.

Выводы

● количественные методы атрибуции самые надежные;

18

● слабость методов — в их зависимости от длины анализируемых тек-

стов;

● поиск стилистических характеристик, не подверженных авторской во-

ле;

● важность временн'ых характеристик текстов.

2. Лингвистические принципы автоматического выделения инфор-

мации из текста


Выделение терминов из корпуса текстов: графический уровень, словооб-

разовательный уровень, лексический уровень, синтаксический уровень, тексто-

вый уровень. Проблемы автоматического реферирования документов.


Основные задачи:

● выделение ключевых слов («терминов»)

● установление семантических связей между ними

● автоматическое реферирование документа (если необходимо)

Приложимость в научно-технической сфере. Экономия времени и денег.

Уровни языка и печатного текста:

● графический,

● словообразовательный,

● лексический,

● морфологический,

● синтаксический,

● текстовый.

Проблемы:

● идиоматичность семантики,

● размытость понятий «словосочетание» и «термин»,

● многофункциональность текстов,

19

● существование различных форматов (doc, pdf, txt, html и т.п.),

● «незавершенность» интернет-текстов.

Графический уровень: распознавание шрифтовых средств. Разметка в

html-документах.

Словообразовательный уровень: сложные термины (маркер — дефис),

аббревиатуры.

Лексический уровень:

● ключевые термины, keywords (они могут быть указаны — «плюсы» и

«минусы» анализа),

● статистическая идея, удаление «стоп-слов»; проблема ложной стати-

стики, тематическая и стилистическая специфика документа,

● поиск (квази)синонимии,

Лексическая частотность и закон Ципфа:

● закономерность распределения частоты слов естественного языка: если

все слова языка (или просто достаточно длинного текста) упорядочить по убы-

ванию частоты их использования, то частота n-го слова в таком списке окажет-

ся приблизительно обратно пропорциональной его порядковому номеру n (так

называемому рангу этого слова. Закон носит имя своего первооткрывателя —

американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из

Гарвардского университета.

Морфология и синтаксис

● формы слов (использование форм род. п. в терминологии и др. шабло-

ны)

● частотность словосочетаний типа:

Adj + N

Adj + Adj + N

● статистика по типам предложений

«Дефиниционные конструкции». Фактор длины предложения

Текстовый уровень

20

● Роль тематической рубрикации.

● Авторские аннотации

● Источник информации (например, портал gramota.ru)

● Любые внешние сведения о документе

● Ранжирование слов по встречаемости в разных позициях:

заголовок,

1 абзац,

последний абзац,

2-4 абзацы,

подзаголовки, рубрикации, шрифтовые выделения,

первое и последнее предложение в каждом абзаце.

Задачи автоматического реферирования:

● список ключевых слов (иногда этого вполне достаточно),

● синтез текста из существующих предложений (sentence extraction),

● синтез принципиально нового текста (уровень с опорой на понимание),

● оценка исходного текста (?) – аналитический уровень.

Требования к реферату:

● информативность,

● соответствие содержанию исходного текста,

● хороший процент попадания ключевых слов,

● отсутствие «мусора»,

● небольшой объем,

● соответствие нормам естественного языка (лексические, морфологиче-

ские, синтаксические связи).

Ранжирование предложений: «вес» предложения, вероятно, связан с его

позицией в тексте.

Конечная обработка реферата:

● нормализация длины,

● построение связей между предложениями, вставка анафорических эле-

ментов,

21

● добавление ссылок на исходные источники и т.д.

3. Формализация филологических моделей художественного текста


Лексическая статистика и идиостиль автора. Количественные методы в

применении к структуре сюжета. Статистические исследования стихотворного

ритма.

V. Автоматическая проверка орфографии и грамматики


Общие проблемы проверки орфографии и грамматики. Спеллеры. Задей-

ствование разных уровней автоматической обработки текста для решения ор-

фографических проблем. Повышение скорости набора при помощи словарей.

Использование систем орфоконтроля в современных сотовых телефонах.

VI. Информационно-поисковые системы


Поиск информации как лингвистическая проблема. Современные ИПС

(Google, Яндекс, Rambler и др.). Возможности расширенного поиска в ИПС.

Синтаксис запросов. Общие принципы индексации и ранжирования докумен-

тов.


Исходные положения:

● неконтролируемость, быстрота пополнения ресурсов и объем Интерне-

та,

● огромное количество дубликатов,

● представление информации в разных форматах,

● тематическое разнообразие текстов,

● специфика программирования WEB-страниц; спам,

22

● «коварство» гипертекста, гиперссылки.

Информационный поиск (Information retrieval, IR) — поиск неструктури-

рованной информации, единицей которой является документ произвольных

форматов. Предмет поиска – информационная потребность пользователя, вы-

раженная в поисковом запросе (query).

Синонимы:

● информационно-поисковая система (ИПС),

● поисковая система (ПС),

● поисковая машина (ПМ), машина поиска (МП),

● searching engine (SE),

● поисковик.

Направления передачи информации:

● запрос к ПМ,

● отклик ПМ.

Методология поиска:

● прямой поиск (подстроки в документе без дополнительной обработки),

● индексирование документов (создание «поискового образа» докумен-

та).

Предварительная обработка документа:

● извлечение,

● определение формата, кодировки и языка,

● сегментация (выделение слов и предложений) = «токенизация» (про-

блема многословных токенов и границ предложений),

● удаление стоп-слов,

● морфоанализ (при необходимости).

Предварительная обработка запроса: преобразование языковых выраже-

ний.

Инвертированный файл индекса:

23

в индексе поисковой системы значатся слова коллекции документов, а

для каждого слова перечислены все места, в которых оно встретилось:

подберезовик: 1→3→7→10→15

подосиновик: 2→3→5→11→15 →23

опенок: 10→15→27→114

Вопросы к индексу

● Сколько единиц должен содержать индекс?

● Какова вероятность отсутствия нужных ссылок в индексе?

● Как должен изменяться индекс в соответствии с изменением источни-

ков информации?

Пополнение баз поисковых систем:

● прямая индексация: разработчик сайта сам посылает информацию в ПС,

● программы-роботы, которые находят ссылки на новые страницы; за-

пускаются разработчиками (основной способ).

«География» поиска:

● в «открытом пространстве» Интернета,

● в закрытой коллекции.

Принцип человеко-машинного взаимодействия. Возможное участие экс-

пертов в индексировании: деньги VS. качество

Базовые установки поисковой системы:

● формат представления данных в ПС,

● формат запросов,

● оценка релевантности документов (степени близости запроса и доку-

мента).

Модели ИП:

● Булевская (булевая, boolean model, двоичная модель): опирается на опе-

рации пересечения, объединения и вычитания множеств.

● Векторная: документы и запросы рассматриваются как векторы в про-

странстве слов, а релевантность как расстояние между ними.

24

Булевская модель ИП. Работа с логическими операторами (And, Or,

(And)Not)

● Киркоров And Пугачева [++]

● Киркоров Or Пугачева [+/+]

● Киркоров Not Пугачева [+/–]

Простота и удобство для тех, кто умеет пользоваться логическими опера-

торами, но излишняя строгость, отсутствие механизмов оценки релевантности

слова для документа (и, соответственно, запроса), требование вроде простых,

но все же специальных знаний.

Векторная модель ИП

● Оценка значимости термина в документе и запросе.

● Мера близости.

Вес термина: отношение между частотой в тексте и частотой в коллекции

насколько часто встречается в документе?

Частота термина (term frequency, TF) – частота употреблений слова в до-

кументе.

Частота (слова) в документах (document frequency, DF) – число докумен-

тов в коллекции, содержащих данное слово.

Чем чаще термин встречается в коллекции, тем он менее интересен для

ИП.

Сравним термины звук и фонема в лингвистическом тексте.

Какой более значим для автоматической оценки содержания текста и оп-

ределения его тематики?

При использовании векторной модели оценивается важность термина

(есть механизм ранжирования), но модель плохо работает при анализе текстов

небольшого объема.

Общая идея страницы поисковой системы:

● поле для ввода запроса с необязательной кнопкой типа «Найти», «По-

иск», «Find», «Search» и т.п.

25

● отклик — вывод контекстов в ответ на запрос и ссылки на первоисточ-

ники.

Длительность ожидания зависит от сложности запроса, скорости работы

ПС, качества связи. Последнее обычно наиболее актуально.

Дополнительные возможности ПС:

● возможность указать группу WEB-сайтов (новости, магазины, картин-

ки, блоги и т.п.),

● возможность задать регион(ы) поиска,

● поиск по уже найденным страницам,

● расширенные запросы,

● сортировка результатов по релевантности, дате и др. показателям.

Новые пути развития ПС

В настоящее время порталы современных ПС функционально существен-

но расширяются не только за счет собственно поиска:

● словари,

● новости (автоматически обновляющиеся),

● погода,

● телепрограммы,

● гороскопы.

ПС как большой бизнес:

● реклама (разнообразные формы),

● системы перевода денег,

● интернет-магазины,

● программные продукты (не только поисковые: браузеры, плейеры, иг-

ры, антиспам, лингвистические модули etc.).

Статистика только Яndex’а: 3-5,5 млн посещений в день!

Использование конкретной ПС – это часто дело привычки и вкуса, а так-

же вопрос ареала поиска.

Как оценить работу ПС? Критерии точности (precision, P) и полноты (re-

call, R):

26

Проекты оценки ИП:

● РОМИП — Российский семинар по оценке методов

информационного поиска (www.romip.ru)

● TREC – Text Retrieval Evaluation Conference (www.trec.nist.gov)

Соревнования по ИП:

В России – кубок Яndex’а (www.kubok.yandex.ru).

Проблема грамотного составления запроса. Средний запрос колеблется

вокруг двух слов. В итоге пользователь расплачивается сотнями (тысячами)

лишних ссылок.

Синтаксис запросов в ПС (Яndex): полезные операторы и язык запросов:

www.yandex.ru/advanced.html

www.help.yandex.ru/search/

VII. Проблемы машинного перевода


Перевод как прикладная лингвистическая дисциплина. Комбинирование

различных методов уровневого лингвистического анализа при переводе. Идея

универсализации перевода: утопия и реальность. Современные проекты (UNL).


Неоднозначность термина «перевод»:

● деятельность,

● результат деятельности,

● теория осуществления этой деятельности.

Перевод как прикладная лингвистическая дисциплина:

● теория перевода,

● анализ перевода,

● методика обучения переводу.

27

Междисциплинарность перевода. Перевод как сложный когнитивный фе-

номен

Классификации перевода:

● по типу речи: устный (синхронный / последовательный) / письменный,

● по направлению: односторонний / двусторонний,

● по задачам: пословный → подстрочник / буквальный / филологический

/ адаптивный (реферативный).

Машинный перевод (МП) — интенсивно развивающаяся область иссле-

дований, экспериментальных разработок и работающих систем, в которых к

процессу перевода с одного естественного языка на другой привлекаются ком-

пьютеры.

Междисциплинарность МП.

Привлекательность МП:

● АОТ на всех уровнях языка,

● отработка лингвистических теорий,

● лексико-синтаксическая основа,

● «интеллектуальность».

→ МП называют центральным направлением искусственного интеллекта.

Лингвистические проблемы:

● разрешение неоднозначностей,

● текстовый уровень их появления (ситуативная обусловленность текста,

экстралингвистические знания),

● возможность построения альтернативных структур текста,

● несовершенство формальных методов анализа текста, необходимость

их уточнения,

● обучаемость системы МП.

Альтернативы МП:

● изучение иностранных языков,

● выработка универсального языка,

● распространение одного из языков.

28

Но рынок перевода увеличивается ≈ на 15 % в год!

Наиболее актуальные сферы МП:

● научно-технический,

● коммерческий / деловой,

● рекламный,

● юридический,

● политический.

Сфера художественного перевода не является самой актуальной.

Отраслевые предпосылки:

● большой поток иноязычной информации в отрасли,

● политематический массив документов в международных организациях,

● техническая документация к экспортируемой продукции,

● поток однотипных сообщений.

Хронология МП

● к. 1940-х. – 1950-е гг. Постановка проблемы, разработка первичных ко-

дов, презентации первых систем;

● 1960-е – время разочарования: МП нерентабелен;

● 1970-е – новые возможности вычислительных систем, подъем работ;

● 1980-е – удешевление ПК, появление экономически оправданных раз-

работок;

● 1990-е – развитие Интернет, новый взгляд на МП как инструмент ком-

муникации;

2 основных направления МП:

● прямой перевод (нет различий между анализом и синтезом естественно-

го языка),

● системы с трансфером (построение промежуточного семантического

представления).

→ стратегия языка-посредника, создание «knowledge-based systems»

29

Стратегия «универсального семантического языка»

Проект UNL (www.unl.ru). Многоязыковой лингвистический конвертер,

основанный на семантических примитивах.

Разумные решения в практике МП:

● сужение проблемной области,

● тематические сферы текстов,

● следование прагматике перевода.

● стратегия ограниченного МП (пред- и постредактирование, полуавто-

матическое снятие омонимии.

Классификация систем МП (Л. Чайлдс, 1990):

● FAMT – полностью автоматизированный МП

● HAMT – МП при участии человека

● MAHT – перевод, осуществляемый человеком при помощи компьютера

Существующие системы МП и словари.

Выводы:

● МП как технологическая реальность,

● четкая постановка задачи,

● тематическое сужение,

● работа в новых форматах (UNL),

● обучаемость программ,

● отсутствие косности в плане «человеческого» перевода,

● избавление от утопических взглядов.

VIII. Заключение


Перспективы развития компьютерных технологий в филологии. Взаимо-

влияние различных филологических направлений и методов. Вопрос о новом

месте филологии в современном мире.

30

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ОСНОВНАЯ)

1. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л. и др. Лингвистиче-

ское обеспечение системы ЭТАП-2. М., 1989.

2. Баевский В. С. Лингвистические, математические, семиотические и

компьютерные модели в истории и теории литературы. М., 2001.

3. Богданов В. В. Статистические концепции языка и речи // Статистика

речи и автоматический анализ текста. М., 1973. С. 9–19.

4. Виноградов В.В. Проблема авторства и теория стилей. М., 1961.

5. Ермоленко Г. В. Анонимные произведения и их авторы. Минск, 1988.

[Атрибуция текста: филологические и количественные методы.]

6. Интернет-сайты, связаные с направлениями прикладной филологии:

dialog-21.ru, aot.ru, ruscorpora.ru и др.

7. Караулов Ю.Н. Лингвистическое конструирование и тезаурус литера-

турного языка. М., 1981.

8. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение автор-

ства текста с использованием буквенной и грамматической информа-

ции // Проблемы передачи информации. Т. 37, № 2. М., 2001; http://

lexigraph.nm.ru/library.htm (сайт Лаборатории общей и компьютерной

лексикографии МГУ).

9. Лингвистический энциклопедический словарь. М., 1990. Ст.: "Автома-

тическая обработка текстов", "Количественные методы" и др..

10. Марчук Ю. Н. Методы моделирования перевода. М., 1985.

11. Марчук Ю.Н. Проблема машинного перевода. М., 1983.

12. Машинный перевод и прикладная лингвистика. М., 1986.

13. Машинный фонд русского языка: идеи и суждения. М., 1986.

14. Мельников Г.П. Системология и языковые аспекты кибернетики. М.,

1978.

31

15. Мельчук И. А. Опыт теории лингвистических моделей «Смысл —

Текст»: семантика, синтаксис. М., 1999. (Или: Мельчук И. А. Опыт тео-

рии лингвистических моделей «Смысл — Текст». М., 1974.)

16. Моделирование языковой деятельности в интеллектуальных системах.

М., 1987.

17. От Нестора до Фонвизина: Новые методы определения авторства / Ми-

лов Л.В. и др. М., 1994.

18. Хьетсо Г., Густавссон С. и др. Кто написал “Тихий Дон”? М., 1989.

19. Эндрю А. Искусственный интеллект. М., 1985.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА (ДОПОЛНИТЕЛЬНАЯ)

1. Андреев Д. Н. Статистико-комбинаторные методы в теоретическом и

прикладном языковедении. Л., 1967.

2. Богданов В. В. Статистические концепции языка и речи // Статистика

речи и автоматический анализ текста. М., 1973. С. 9–19.

3. Виноград Т. Программа, понимающая естественный язык. М., 1976.

4. Виноград Т. Работа с естественными языками // Современный компью-

тер. М., 1986.

5. Искусственный интеллект. В 3-х кн. М., 1990. — Кн. 1. Системы обще-

ния и экспертные системы. Кн. 2. Модели и методы.

6. Кулагина О.С., Мельчук И.А. Автоматический перевод: краткая исто-

рия, современное состояние, возможные перспективы // Автоматиче-

ский перевод. М., 1971.

7. Лавошникова К. Э. Спеллер, ты не прав! О подводных камнях в систе-

мах проверки правописания // http:// infolex.ru/elword4.html.

8. Лингвистические проблемы автоматизации редакционно-издательских

процессов. Киев, 1986.

9. Лукьянова Е. М. Информационная база автоматических словарей //

Статистика речи и автоматический анализ текста. М., 1980.С. 106–144.

32

10. Перцова Н. Н. Автоматические системы типа «вопрос — ответ», рабо-

тающие с естественным языком: история, современное состояние, пер-

спективы // Прикладная лингвистика. М., 1976. С. 135–161.

11. Попов Э.В. Общение с ЭВМ на естественном языке. М., 1982.

12. Попов Э.В. Экспертные системы. М., 1987.

13. Поспелов Д.А. Логико-лингвистические модели в системах управления.

М., 1981.

14. Прикладная лингвистика и автоматический анализ текста. Тарту, 1988.

15. Прикладные аспекты лингвистики. М., 1989.

16. Промышленные системы машинного перевода. Вып. 20. М., 1991.

17. Реферирование в общественных науках. Теория и методика. М., 1982.

18. Рождественский, Ю.В., Марчук, Ю.Н., Волков, А.А. Введение в при-

кладную филологию. М., 1998. (Рождественский Ю. В. и др. Введение в

прикладную филологию. М., 1987.)

19. Севбо И. П. Сквозной анализ как шаг к структурированию текстовых

знаний // НТИ. Сер. 2. 1989. № 2.

20. Скороходько Э. Ф. Лингвистические проблемы обработки текстов в ав-

томатизированных ИПС // Вопросы информационной теории и практи-

ки. N 25. М., 1974.

21. Струве Н. Роман-загадка // Агеев М. Роман с кокаином. М., 1990. С.200-

221.

22. Шенк Р. Обработка концептуальной информации. М., 1980.

ТЕМЫ ЛАБОРАТОРНЫХ, СЕМИНАРСКИХ ЗАНЯТИЙ

И КОЛЛОКВИУМОВ

1. Системы русского морфологического анализа (Mystem, Диалинг).

2. Автоматический синтаксический и семантический анализ (Диалинг).

3. Корпусная лингвистика. Русские проекты. Синтакис запросов.

33

4. Знакомство с работой словарной базы данных.

5. Разработка объектов словарной базы данных.

6. Поисковые системы. Синтакисис запросов.

7. Автоматизация поиска и замены в текстовом процессоре Word.

8. Макропрограммирование в текстовом процессоре Word.

ВОПРОСЫ И ЗАДАНИЯ ДЛЯ САМОКОНТРОЛЯ

I. Контрольные задания для самостоятельной работы:

1) формализация структуры словаря (на выбор). Выделение типов ин-

формации,

2) создание простейшей лексикографической базы данных,

3) проблемы атрибуции художественного текста (реферирование ли-

тературы),

4) атрибуция текста в криминалистике (по материалам Интернета),

5) сопоставление современных ИПС, изучение критериев оценки по-

исковых систем,

6) современные многоязычные словари и программы перевода: общая

характеристика,

7) тестирование системы проверки орфографии MS Office,

Принципы выделения значимой информации из текста:

8) словообразовательный уровень,

9) морфологический уровень,

10) лексический уровень,

11) композиционно-текстовый уровень.

34

II. Вопросы для самостоятельной подготовки к семинарским и практиче-

ским занятиям

12) системы русского морфологического анализа (Mystem, Диалинг),

13) автоматический синтаксический и семантический анализ (Диа-

линг),

14) корпусная лингвистика (русские проекты, синтаксис запросов в

корпусе),

15) знакомство с работой словарной базы данных,

16) разработка объектов словарной базы данных.

17) поисковые системы, синтаксис запросов,

18) автоматизация поиска и замены в текстовом процессоре Word,

19) макропрограммирование в текстовом процессоре Word.

III. Задания для самостоятельного реферирования источников:

20) современные методы атрибуции текста: постановка проблемы,

21) атрибуция текста: «шведское решение» проблемы «Тихого Дона»,

22) атрибуция текста: графический метод (Д. Хмелев),

23) количественные методы в применении к структуре сюжета,

24) лексикографические базы данных,

25) принципы автоматического выделения терминологии из корпуса

текстов,

26) общие проблемы создания вопросно-ответных систем,

27) общие проблемы статистических подходов к языку,

28) лингвистические модели текстообразования,

29) основы дистрибутивно-статистического метода анализа лексики,

30) проблемы машинного перевода,

31) статистические исследования стихотворного ритма,

32) структура и задачи машинного фонда русского языка,

33) формализация семантики: опыт распознавания смысла текста,

35

34) формализация семантики: опыт составления толково-комбина-

торного словаря.

ПЕРЕЧЕНЬ ВОПРОСОВ К ЗАЧЕТУ

1. Применимость компьютерных технологий в филологических исследо-

ваниях. Использование прикладных филологических разработок в дру-

гих сферах деятельности.

2. Возможности автоматической обработки печатного текста при верстке

в современных текстовых процессорах и издательских системах.

3. Компьютерная лексикография как современный этап словарного дела.

Компьютерные словари.

4. Формализация структуры словаря. Лингвистическое и компьютерное

обеспечение словарей.

5. Типы информации в словаре и компьютерной базе данных.

6. Элементы систем управления базами данных. Таблицы, формы, фильт-

ры, запросы, отчеты.

7. Идеографическая лексикография. Устройство тематических словарей и

проблемы организации иерархических баз данных.

8. Проблемы и задачи корпусной лингвистики.

9. Понятия корпусной лингвистики: проблемная область, единица хране-

ния, порог отображения данных и др.

10. Основные требования к лингвистическому корпусу данных.

11. Достижения и перспективы развития корпусной лингвистики. Сущест-

вующие национальные корпуса текстов.

12. Проблемы "нормализации" и разметки текста для корпуса. Специфика

текстовых библиотек в Интернете.

13. Атрибуция текста: история разработки и сферы применения.

14. Современные приемы и методы атрибуции художественного текста.

15. Атрибуция текста как элемент судебно-психологической экспертизы.

36

16. Квантитативный анализ художественного текста: изучение идиостиля

автора.

17. Количественные методы в применении к структуре сюжета.

18. Статистические исследования стихотворного ритма.

19. Проблемы автоматической проверки орфографии и грамматики

20. Повышение скорости набора при помощи словарей. Современные сис-

темы орфоконтроля.

21. Информационно-поисковые системы. История разработки и современ-

ное состояние. Семинары оценки методов ИП.

22. Принципы поиска в ИПС.

23. Принципы ранжирования документов в ИПС.

24. Машинный перевод как проблема искусственного интеллекта. История

систем МП.

25. Лингвистические проблемы современного машинного перевода.

26. Перспективы развития компьютерных технологий в филологии. Меж-

дисциплинарный характер исследований.

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ...

Documents

Transcript of ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ...