Syntax Mark-Up (Russian Language)

58
Интенсивный курс повышения квалификации по полевой лингвистике Синтаксическая разметка материала. Коммуникативный сценарий

Transcript of Syntax Mark-Up (Russian Language)

Page 1: Syntax Mark-Up (Russian Language)

Интенсивный курс повышения квалификации

по полевой лингвистике

Синтаксическая разметка материала. Коммуникативный

сценарий

Page 2: Syntax Mark-Up (Russian Language)

Филиппова Нина

[email protected]

Page 3: Syntax Mark-Up (Russian Language)

ОСНОВНЫЕ ПРИНЦИПЫкорпусная разметка:

Page 4: Syntax Mark-Up (Russian Language)

Разметка (или аннотация)

• является инструментом и этапом анализа текста

• представляет собой систему комментариев, сопровождающих текст и содержащих информацию о тексте, его единицах, строении.

Page 5: Syntax Mark-Up (Russian Language)

Разметка позволяет

• выделить единицы анализа,• обозначить их расположение

относительно друг друга во времени,• классифицировать,• охарактеризовать их по отношению друг к

другу,• автоматически получить статистику• выполнить поиск элементов по тегам.

Page 6: Syntax Mark-Up (Russian Language)

Теги

• оформляются отлично от текста

• ставятся до или/и после элемента с указанием.

• в имени и атрибутах тега могут быть указаны принадлежность к классу единиц и ссылки на элементы.

Page 7: Syntax Mark-Up (Russian Language)

СИНТАКСИСкорпусная разметка:

Page 8: Syntax Mark-Up (Russian Language)

Пунктирование: в поисках предложения

• методика, позволяющая объективно определять границы предложений в речи

• разметка текстов и основа дальнейшего анализа

Page 9: Syntax Mark-Up (Russian Language)

Процедура пунктирования

• 20 экспертов расставляют точки в тексте расшифровки

• совпадение в одном месте 12 и более 12 точек признаётся границей предложения

Page 10: Syntax Mark-Up (Russian Language)

Пример размеченного текста

Существует много примет (19) // бывают приметы простые и сложные (9) // но когда человек живет в городе / приметами как правило он не пользуется (8) // так как (1) рябина заменяет табличка на у…/ на а-а / э-э (3) / на доме (7) / часы (7) / мы можем узнать время (4) мы можем узнать по радио (10) // прогноз погоды (1) также нам сообщат а-а по радио (14)

Page 11: Syntax Mark-Up (Russian Language)

Структурная разметка

• результат анализа синтаксического

уровня спонтанной речи

• без опоры на предложение

• на базе выделяемых предикативных

основ

Page 12: Syntax Mark-Up (Russian Language)

Существуетмногоприметбываютприметы

простые исложные нокогда человекживетв

городеп риметами какправило

оннепользуется так

как рябиназаменяеттабличкана ...у на -аа на

-ээ надомечасымыможемузнатьвремямы

можемузнатьпорадиопрогнозпогоды также нам

сообщат -ээ порадио

Page 13: Syntax Mark-Up (Russian Language)

Классификация элементов

• неречевые элементы – смех, кашель и подобные

<nsu> (смех) </nsu>

• условно-речевые элементы – сопровождающие собственно речевые

<su type="ph"> эээ </su>

• речевые элементы – все остальные

Page 14: Syntax Mark-Up (Russian Language)

Речевые элементы

• структурные• неструктурные

Page 15: Syntax Mark-Up (Russian Language)

Структурные элементы

<X> бывают </X>

<X> приметы </X>

<X to="2"> простые </X>

<op to="3,4”> и </op>

<X to="2"> сложные </X>

Page 16: Syntax Mark-Up (Russian Language)

Структурно-синтаксическое единство

<bd> <X> бывают </X> <X> приметы </X>

<X to="2"> простые </X> <op to="3,4”> и

</op> <X to="2"> сложные </X> <bd>

Page 17: Syntax Mark-Up (Russian Language)

Теги структурных элементов

Название тегаРасшифровка

тега (англ.)Значение тега

Условное обозначение на семантическом

дереве

<bd> </bd> Basic discourseНачало и

окончание CCЕ. Bd = CCE

<X> </X> X – любой элемент в

составе ССЕ, кроме оператора

Рамки независимых

элементов внутри CCE.

A – уровень главных членов в CCE

<X to="1"> </X>Рамки зависимых

элементов.B, C или D – уровни зависимых членов в

CCE

<op to="1,2"> </op> operator

Включает союзы, связывающие

члены внутри CCE и разные ССЕ

op

Page 18: Syntax Mark-Up (Russian Language)

Глубина зависимости

bd: мы можем узнать время

X: мы X: можем Depth = A Depth = A

X: узнать @to = 2

Depth = B

X: время @to = 3

Depth = C

Page 19: Syntax Mark-Up (Russian Language)

Неструктурные элементы

• не являются членами предложения

• не связаны синтаксическими связями с другими элементами

• могут по смыслу относиться к ССЕ/ к части ССЕ

Page 20: Syntax Mark-Up (Russian Language)

Неструктурные элементы

1. Неформообразующие частицы

<bd> <X> я</X>

<ad type="np">только</ad>

<X> посоветовал </X> <X to="2"> ему </X> <X

to="2"> уехать </X> </bd>

Page 21: Syntax Mark-Up (Russian Language)

Неструктурные элементы

1. Обращения

<ad type="aw"> мам </ad>

<bd> <X> скажи </X> </bd>

Page 22: Syntax Mark-Up (Russian Language)

Неструктурные элементы

1. Вводные слова

<ad type="pw"> наверное </ad>

<bd> <X> люди </X> <X to="3"> иногда</X>

<X> заходят </X> <X to="3"> туда </X>

</bd>

Page 23: Syntax Mark-Up (Russian Language)

Неструктурные элементы

1. Междометия

<ad type="i"> ой </ad>

<bd> <X to="3"> как </X> <X> это </X> <X>

получилось</X> </bd>

Page 24: Syntax Mark-Up (Russian Language)

Неструктурные элементы

1. Непредложенческие высказывания

<ad type="slu"> Ага </ad>

<bd> <X to="2"> меня </X> <X> зовут </X>

<X to="2"> Стас </X> </bd>

Page 25: Syntax Mark-Up (Russian Language)

Теги неструктурных элементов

Название тегаРасшифровка тега

(англ.)Значение тега

<ad type="slu"> </ad> Sentence-like utteranceНепредложенческие

высказывания

<ad type="np"> </ad> Non-structural partsНеформообразующие

частицы

<ad type="i"> </ad> Interjections Междометия

<ad type="aw"> </ad> Addressing words Обращения

<ad type="pw"> </ad> Parenthetic words Вводные слова

Page 26: Syntax Mark-Up (Russian Language)

Метки неинформативности элемента

Название тегаРасшифровка

тега (англ.)Значение тега

<su type="el"> </su> Empty lexemes Слова-паразиты

<su type="ph"> </su> Pauses of hesitationПаузы хезитации

(звуковые)

<su type="udce"> </su>Undecipherable

elementsНеразборчивоепроизнесение

Page 27: Syntax Mark-Up (Russian Language)

Примеры

<su type="udce"> неразб. </su> <bd>

<X> можно </X> <X to="1"> кратко </X>

</bd> <bd> <X>мы </X> <X> решили </X>

</bd>

<su type="ph"> э-э </su>

<su type="el"> значит </su>

Page 28: Syntax Mark-Up (Russian Language)

ПРОБЛЕМЫ ОПИСАНИЯспонтанная речь:

Page 29: Syntax Mark-Up (Russian Language)

Специфика СР

• одновременное формирование речи и мысли

• самокоррекции, самоперебивы, обрывы, перестройки «на ходу»

• неоднозначность членения• множественность интерпретаций

Page 30: Syntax Mark-Up (Russian Language)

Речевой сбой: тип I

• продолжение речи без исправлений

Тогда решили прибегнуть к помощи деревенского мальчишки который сновал у них самым таким ну шустрым умным изобретательным

Page 31: Syntax Mark-Up (Russian Language)

Речевой сбой: тип II

• появление комментария о сбое

… вижу на картине три дуба значит свет падает со стороны от меня в смысле нет наоборот от меня падает свет вот освещает через крону дуба...

Page 32: Syntax Mark-Up (Russian Language)

Речевой сбой: операции отмены

• часть текста до точки сбоя переговаривается со значительными или незначительными изменениями

...накормили кота а накормили не пр... ни больше ни меньше как жареной свининой

Page 33: Syntax Mark-Up (Russian Language)

Типы операций отмены• нулевая

…(он пытается (.) пытается подманить кота рыбой)…

• частичная…что (кошку можно попытаться заставить

спрыгнув (.) заставить спрыгнуть показав ей рыбу)…

• полная.…(это не могут быть одуванчики) потому что (они

растут летом э (.) весной)…

Page 34: Syntax Mark-Up (Russian Language)

Отражение операции отмены в разметке

<bd> <X to="2"> под деревьями </X> <X>

растут </X> <fixed> <X to="6">

разные </X> </fixed> <X to="5">

разного </X> <X to="6"> вида </X> <X>

растения</X> </bd>

Page 35: Syntax Mark-Up (Russian Language)

ОСНОВНЫЕ ПРЕДСТАВЛЕНИЯкорпусная разметка:

Page 36: Syntax Mark-Up (Russian Language)

Среда работы с разметкой xml

Page 37: Syntax Mark-Up (Russian Language)

Линейное представление

[[на картине]X1 [Шишкина]X2 ["Старые липы"]X3

[изображен]X4 [пейзаж]X5]bd1 [[действие]X1

[происходит]X2 [по-видимому]ad1 [летом]X4 [в [яркий]X2 [солнечный]X3 день]X5 [под кронами]X6

[огромных]X7 [развесистых]X8 [старых ]X9 [лип ]X10]bd2

Page 38: Syntax Mark-Up (Russian Language)

Графическое представление текста

Page 39: Syntax Mark-Up (Russian Language)
Page 40: Syntax Mark-Up (Russian Language)

Операции отмены

Page 41: Syntax Mark-Up (Russian Language)

Программная среда

• подсвечивание тегов• визуализация• поиск по тексту, по тегам• статистика• конвертер данных

Page 42: Syntax Mark-Up (Russian Language)

КОММУНИКАТИВНЫЙ (РЕЧЕВОЙ) СЦЕНАРИЙ

перспективы дальнейшего анализа:

Page 43: Syntax Mark-Up (Russian Language)

Сценарий в теории информации

типовая структура для некоторого действия, понятия, события, включающая характерные элементы этого действия, понятия, события.

(М.Мински. Фреймы для представления знаний).

Page 44: Syntax Mark-Up (Russian Language)

Оплата проезда в троллейбусе

Page 45: Syntax Mark-Up (Russian Language)
Page 46: Syntax Mark-Up (Russian Language)

Речевой сценарий

• сложился в процессе речевой деятельности

• наиболее общая модель развития речевого события

• коммуникативно-смысловая единица

Page 47: Syntax Mark-Up (Russian Language)

Коммуникативные сценарии корпуса

• пересказ прочитанного текста:– сюжетного – фрагмент из рассказа К.

Паустовского «Кот-ворюга»– несюжетного – фрагмент из повести того

же автора «Мещёрская сторона»- «Несколько слов о приметах»

Page 48: Syntax Mark-Up (Russian Language)

Коммуникативные сценарии корпуса

• описание изображения:

– сюжетного – рассказ в картинках

– несюжетного – репродукция картины

Page 49: Syntax Mark-Up (Russian Language)

Х.Бидструп «Здоровый отдых»

Page 50: Syntax Mark-Up (Russian Language)

И.Шишкин «Старые липы»

Page 51: Syntax Mark-Up (Russian Language)

Коммуникативные сценарии корпуса

• свободный рассказ на заданную тему:– Как Вы проводите свободное время?

Page 52: Syntax Mark-Up (Russian Language)

Описание изображения: общая структура сценария

• может присутствовать введение (например, сценарий представления, сценарий пересказа задания или маркеры начала: так, значит, поехали)

<intr> Ну значит тут это самое значит </intr> …

<intr> Так ну вот э-э </intr> …

<intr> Так </intr> заброшенный какой-то тут то ли сарайчик …

Page 53: Syntax Mark-Up (Russian Language)

Описание изображения: общая структура сценария

• может присутствовать заключение (используется метакоммуникация или другой сценарий, маркеры конца текста: вот, всё)

<concl>это я тоже знаю так даже а больше наверно ничего и не скажу </concl>

<concl> не знаю чего ещё </concl>

<concl> всё наверно </concl>

<concl> всё больше ничего не могу сказать <concl>

Page 54: Syntax Mark-Up (Russian Language)

Описание изображения: общая структура сценария

• основная часть – выполнение задачи описания, предложенной исследователем.

Человек очень устает на работе и ему хочется отвлечься отдохнуть. (18) В данном случае конечно человек хочет на природу на лыжи. (19) Увидел что здесь горный спуск наверно какой-то есть на лыжах покататься. (16) Но конечно надо с умом отдыхать чтобы все было в порядке чтобы не было травм после отдыха и потом к врачу. (18) Ну конечно я бы лучше конечно поехала на природу так уже давно хочется отдохнуть.

Page 55: Syntax Mark-Up (Russian Language)

Описание: основная часть

• собственно описание изображения• Метакоммуникация

…<mc>я много не умею говорить могу красиво

молчать </mc> …

… <mc> что бы еще вам такого описать </mc> …

• комментирование

…<nar>у каждого должны быть свои уголки </nar> …

… <nar> но он у нас пейзажист был (о Шишкине) так что в общем что с него взять </nar> …

Page 56: Syntax Mark-Up (Russian Language)

Собственно описание включает

• A. называние, перечисления объектов/событий

…<A>старая такая то ли ну то ли сторожка то ли м-м ну типа может быть этот самый колодец

бывший </A>…

…<A> красивые осенние деревья ручей течет мостик через ручей </A>…

Page 57: Syntax Mark-Up (Russian Language)

Собственно описание включает

• B. установление отношений объектов/событий с внетекстовой реальностью; суждения,

домыслы, догадки…

…<B>по всей вероятности здесь изображена весна так как зелень еще свежая ярко-зеленая </B>…

… <B> вся эта картина навевает такое спокойствие какие-то такие размышления о природе и о жизни

</B> …

Page 58: Syntax Mark-Up (Russian Language)

Структура коммуникативного сценария «описание изображения»