Речевые технологии

122
Речевые технологии Речевые технологии 3/2010 Главный редактор Харламов А.А., доктор технических наук Состав редколлегии: Потапова Р.К., доктор филологических наук, профессор, заместитель главного редактора Ронжин А.Л., доктор технических наук, доцент Женило В.Р., доктор технических наук, профессор Жигулёвцев Ю.Н., кандидат технических наук, доцент Кривнова О.Ф., доктор филологических наук, профессор Кушнир А.М., кандидат психологических наук Лобанов Б.М., доктор технических наук (Беларусь) Максимов Е.М., доктор технических наук Голенков В.В., доктор технических наук, профессор (Беларусь) Петровский А.А., доктор технических наук, профессор (Беларусь) Хитров М.В., кандидат технических наук Чучупал В.Я., кандидат физико-математических наук Шелепов В.Ю., доктор физико-математических наук (Украина) Кушнир Д.А., кандидат технических наук, ответственный секретарь Содержание Материалы XXII сессии Российского акустического общества, сессии Научного совета по акустике РАН — Акустика речи Абрамов Ю.В., Потапова Р.К., Хитина М.В. Анализ результатов прослушивания фонограмм в шумах с учётом степени информативности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Потапова Р.К., Потапов В.В., Хитина М.В. Исследование перцептивно-слухового восприятия звучащих текстов в затруднённых условиях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Батальщиков А.А., Зулкарнеев М.Ю., Шамраев Н.Г. Оценка гипотез с использованием синтаксического анализа . . . . . . . . . . . . . . . . . . . . 14 Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х. Метод повышения скорости работы декодера в задаче распознавания речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Галяшина Е.И. Идентификация дикторов по цифровым фонограммам . . . . . . . . . . . . . . . . . . . . . . . . 23 Голубинский А.Н., Булгаков О.М. Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Григорян Р.Л., Коршунов С.С., Репалов С.А., Хрящев М.Ю. Сравнение различных способов оценки схожести распределений частоты основного тона в задаче идентификации диктора по его речи . . . . . . . . . . 35 Костюченко Е.Ю., Коцубинский В.П., Авдеев А.А., Людвиг К.В., Тюменцев И.В. Оценка информативности параметров речевого сигнала при обработке с использованием нейронных сетей . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю. Параметрическое описание ударных гласных звуков . . . . . . . . . . . . . . . . . . . . . . . . 45

description

 

Transcript of Речевые технологии

Page 1: Речевые технологии

Главный редактор Александр Харламов

Состав редколлегии:

Потапова Р.К., доктор филологических наук, профессор, заместитель главного редактораАграновский А.В., доктор технических наук, профессорЖенило В.Р., доктор технических наукЖигулёвцев Ю.Н., кандидат технических наукКривнова О.Ф., доктор филологических наукКушнир А.М., кандидат психологических наукЛобанов Б.М., доктор технических наук (Беларусь)Максимов Е.М., доктор технических наукМалеев О.Г., кандидат технических наукНариньяни А.С., кандидат физик наукПетровский А.А., доктор технических наук (Беларусь)Хитров М.В., кандидат технических наукЧучупал В.Я., кандидат физик наукШелепов В.Ю., доктор физик наук (Украина)Кушнир Д.А., ответственный секретарь, кандидат технических наук

Речевыетехнологии

Речевыетехнологии

Содержание

3/2010Главный редактор Харламов А.А., доктор технических наук

Состав редколлегии:Потапова Р.К., доктор филологических наук, профессор,заместитель главного редактораРонжин А.Л., доктор технических наук, доцентЖенило В.Р., доктор технических наук, профессорЖигулёвцев Ю.Н., кандидат технических наук, доцентКривнова О.Ф., доктор филологических наук, профессорКушнир А.М., кандидат психологических наукЛобанов Б.М., доктор технических наук (Беларусь)Максимов Е.М., доктор технических наукГоленков В.В., доктор технических наук, профессор (Беларусь)Петровский А.А., доктор технических наук, профессор (Беларусь)Хитров М.В., кандидат технических наукЧучупал В.Я., кандидат физико-математических наукШелепов В.Ю., доктор физико-математических наук (Украина)Кушнир Д.А., кандидат технических наук, ответственный секретарь

СодержаниеМатериалы XXII сессии Российского акустического общества,сессии Научного совета по акустике РАН — Акустика речи

Абрамов Ю.В., Потапова Р.К., Хитина М.В.Анализ результатов прослушивания фонограммв шумах с учётом степени информативности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3Потапова Р.К., Потапов В.В., Хитина М.В.Исследование перцептивно-слухового восприятиязвучащих текстов в затруднённых условиях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8Батальщиков А.А., Зулкарнеев М.Ю., Шамраев Н.Г.Оценка гипотез с использованием синтаксического анализа . . . . . . . . . . . . . . . . . . . . 14Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х.Метод повышения скорости работы декодерав задаче распознавания речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18Галяшина Е.И.Идентификация дикторов по цифровым фонограммам . . . . . . . . . . . . . . . . . . . . . . . . 23Голубинский А.Н., Булгаков О.М.Метод оценки формантных частот, основанный на полигармоническойматематической модели речевого сигнала . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Григорян Р.Л., Коршунов С.С., Репалов С.А., Хрящев М.Ю.Сравнение различных способов оценки схожести распределенийчастоты основного тона в задаче идентификации диктора по его речи . . . . . . . . . . 35Костюченко Е.Ю., Коцубинский В.П., Авдеев А.А., Людвиг К.В., Тюменцев И.В.Оценка информативности параметров речевого сигналапри обработке с использованием нейронных сетей . . . . . . . . . . . . . . . . . . . . . . . . . . 39Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю.Параметрическое описание ударных гласных звуков . . . . . . . . . . . . . . . . . . . . . . . . 45

Page 2: Речевые технологии

2

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Конев А.А., Мещеряков Р.В., Жевуров С.В., Хлебников В.С.Об одном алгоритме оценки формантных частотна интервале сомкнутых голосовых складок . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50Собакин А.Н.Выделение импульсов основного тона по речевому сигналу . . . . . . . . . . . . . . . . . . . 54Собакин А.Н.Исследования голосового источника речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60Златоустова Л.В., Крейчи С.А.Изучение остаточных иноязычных явлений в речи неносителейрусского языка как один из параметров, необходимыхв лингвокриминалистической деятельности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66Кривнова О.Ф.Дыхательные паузы в слитной речи: локализацияи акустико-физиологические характеристики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71Пономарь М.О.Требования к алгоритмам скрытого встраиванияинформации в просодические параметры речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77Бобров Н.В.Преобразование речевого сигнала методом амплитуднойфильтрации: возможности и перспективы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82Орлова А.А., Кузнецов В.Б.Перцептивная роль амплитудной модуляциидля идентификации дрожащего в русской речи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87Бондарос Ю.Г., Костюк А.И.Анализ вариантов грамматики команд речевогоинтерфейса пилота ВС гражданской авиации . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92Ронжин А.Л., Будков В.Ю.Система протоколирования дикторов на базе алгоритма определенияречевой активности в многоканальном аудиопотоке . . . . . . . . . . . . . . . . . . . . . . . . . 98Ляксо Е.Е., Столярова Э.И., Яровой А.С., Фролова О.В., Куражова А.В.,Бедная Е.Д., Остроухов А.В., Балякова А.А., Огородникова Е.А.Анализ звукопродукции детей после операции кохлеарного имплантирования . . . . 103Фролова О.В., Ляксо Е.Е., Куражова А.В., Бедная Е.Д., Гайкова Ю.С., Григорьев А.С., Соловьёв А.Н., Остроухов А.В., Ким Х.С., Смирнов А.Г., Полякова Е.А.Формирование речи и навыков чтения у русскоязычныхдетей: лонгитюдное исследование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108Уплисова К.О.Акустические признаки гласных звуков с негармонической структурой . . . . . . . . . . 114Абрамов Ю.В., Потапова Р.К., Хитина М.В., Маслов А.В., Бобров Н.В.Создание устно-речевой базы данных (УРБД) спонтанныхречевых сообщений (на материале русского языка) . . . . . . . . . . . . . . . . . . . . . . . . . 119

Материалы изданы без дополнительного редактированияпо оригиналам, представленным авторами

Редакция:Корректор — Татьяна ДенисьеваДизайн — Анна ЛаданюкВёрстка — Александр Перевозов

Адрес редакции: 109341, Москва, ул. Люблинская, д. 157, корп. 2Тел.: 8 (495) 979-54-27

Подписано в печать 20.06.2011. Формат 60х90/8. Бумага офсетная. Печать офсетнаяПеч. л. 16,0. Заказ № 1308. Издательский дом «Народное образование»Отпечатано в ООО «Чебоксарская типография № 1». 428019, г. Чебоксары, пр. Яковлева, 15

© «Народное образование»© Общественная организация «Российское акустическое общество»

Содержание

Page 3: Речевые технологии

3

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Анализ результатов прослушивания фонограмм в шумах с учётом степени информативности

Абрамов Ю.В.Потапова Р.К.Хитина М.В.Московский государственный лингвистический университет.Россия, 119034, Москва, ул. Остоженка, д. 38.E-mail: [email protected]

Работа посвящена решению двух вопросов: анализу результатов эксперимента по вос-приятию в шумах звучащих осмысленных текстов и статистическому анализу получен-ных данных, а также формированию базы данных на основе результатов проведённо-го эксперимента.

При передаче, а также приёме текста конечной целью являются соответственно сообщение и получение некоторой информации, смысла текста. Однако зачастую в процессе ком-муникации имеют место различные искажения информации или пропуски, причинами которых являются разного рода помехи. Поэтому насущной становится задача опреде-ления, оценки того, насколько точно сохранена информация переданного текста в при-нятом [Мурзин, Штерн 1991].

Проведённое исследование позволило сравнить и оценить восприятие слов текста при трёх уровнях шума (при отношении сигнал/шум, равном 0 дБ, 10 дБ, 20 дБ), а также дать предварительную оценку того, какие части речи лучше всего воспринимаются аудитора-ми и насколько воспринятые слова отличаются от слов исходных монологов, в частности по таким грамматическим признакам, как род, число, падеж.

В качестве такого способа представления полученных данных выступила БД. Анализ лите-ратуры позволил выявить базовые принципы организации БД, необходимые для целей исследования.

На первом этапе исследований по восприятию текстов в большей степени исследовалась читательская деятельность: мотивы, цели чтения, выбор литературы и т.д. (Ширинкина 2004). Данный этап связан с библиопсихологической теорией Н.А.Рубакина.

На втором этапе начали изучение, исходя из различий объекта чтения (основной упор дела-ли на жанр литературы). При этом значительное внимание стали уделять восприятию художественной литературы. Исследователи текста интересовались проблемами зави-симости восприятия, понятности и результатов сохранения различных информационных и научных текстов.

В исследованиях была выявлена зависимость восприятия текста от его структуры: предыду-щие предложения создают контекст для последующих, что облегчает его восприятие. Идея внутреннего строения текста Н.И. Жинкина (1982) также повлияла на исследования текста. Согласно его мнению, в каждом тексте существует главный предмет описания, воспринятый из действительности. Его описание в тексте принципиально отличается от непосредственного восприятия, потому что в восприятии разнообразные признаки предмета даны слитно, а при описании должны быть выделены и объединены с учётом грамматических правил связи слов в предложениях (там же). Все это должно быть про-

Page 4: Речевые технологии

4

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

изведено таким образом, чтобы воспринимающий человек мог восстано-вить то содержание, которое предполагал автор.

По мнению исследователей, при обработке текста важную роль играют экстра-лингвистические знания. В соответствии с общими закономерностями пси-хической деятельности индивид видит в тексте в первую очередь то, что он ожидает или хочет видеть (исходя из его мотивов, ситуации, личностных ори-ентиров). Особую роль здесь играет способность опираться на схемы знаний о мире (фреймы, сценарии, схемы, когнитивные карты, концепты), позво-ляющие достраивать ситуацию [Ширинкина 2004]. В рассмотрении пробле-мы активности восприятия отечественными психологами выделяется идея предвосхищения или вероятностного прогнозирования. Ожидания, возника-ющие у читателя, влияют на процесс восприятия, особенно научного.

Второй этап исследования восприятия текста характеризуется широким спектром исследований. Были получены знания об особенностях функционирования текстов разных жанров и функциональных стилей, доказана важная роль активности читателя при восприятии текста, а также зависимость восприя-тия текста от его структуры.

На третьем этапе главными задачами в исследованиях восприятия текста явля-ются: изучение основных закономерностей механизма восприятия, разра-ботка модели восприятия текста, описание результата восприятия текста.

Началом данного периода в изучении восприятия текста считается момент по-становки проблемы восприятия «как проблемы построения в сознании ин-дивида многомерного образа мира, образа реальности» (Леонтьев 1979: 6). Исследования в это время носят комплексный характер: учитываются не только особенности структуры изучаемого текста, но и особенности лично-сти, её отношение к данному воспринимаемому объекту, установки, потреб-ности, желания, прошлый опыт, а также знания о предмете.

В качестве экспериментального материала в данном исследовании использова-лись естественные монологи трёх дикторов — мужчин (темы: реклама, бы-товое потребление энергии в Европе, спорт). Монологи состояли из 431, 177 и 221 слов соответственно. На каждую запись был наложен белый шум при трёх соотношениях «сигнал/шум»: 0 дБ, 10 дБ, 20 дБ.

В качестве испытуемых выступили студенты МГЛУ — 22 студента женского пола и 2 студента мужского пола. Возраст испытуемых составлял от 20 до 22 лет. Родной язык всех испытуемых — русский. На момент проведения экспери-мента они изучали несколько иностранных языков. Испытуемым не были заранее известны темы монологов, материал прослушивался без предва-рительной подготовки.

Методика проведения эксперимента. Испытуемым предлагалось прослушать три текста при трёх различных уровнях шума, начиная с наихудших усло-вий прослушивания, через динамики компьютера. Каждый текст прослуши-вался испытуемыми целиком один раз. Аудиторам предлагалось записать слова, которые им удалось разобрать и запомнить в ходе прослушивания. Далее, используя записанные слова, испытуемые должны были построить текст. Время для построения текста не ограничивалось.

Методика обработки полученных данных. Полученные данные были обработа-ны по специальной программе. Результаты эксперимента занесены в базу данных реляционного типа, созданную с помощью Microsoft Excel. Подсчи-тано количество слов в каждом из монологов; количество слов, опознанных каждым аудитором в каждой фонограмме; количество слов, добавленных аудиторами в каждую фонограмму (они отсутствовали в исходных моноло-

Page 5: Речевые технологии

5

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Абрамов Ю.В., Потапова Р.К., Хитина М.В.

Анализ результатов прослушивания фонограмм в шумах с учётом степени информативности

гах); среднее количество распознанных слов для каждой фонограммы; среднее коли-чество внесённых слов для каждой фонограммы; определено процентное отношение (количество воспринятых слов к количеству внесённых слов для каждой записи); для всех аудиторов (n=12) было подсчитано общее количество распознанных частей речи; подсчитано среднее количество распознанных частей речи (по четырём аудиторам) для каждого монолога. Все расчёты представлены как в табличном виде, так и в виде диаграмм.

Результаты проведённой статистической обработки данных показали, что для записи, где со-отношение «сигнал/шум» составляло 0 дБ (высокий уровень шума), испытуемые рас-познавали незначительное количество слов (для всех монологов).

При этом у некоторых испытуемых большая часть распознанных слов не относилась к исход-ным монологам (эти слова обозначены как «внесённые слова»). Наряду с этим имеются испытуемые, в чьих списках были представлены только правильно распознанные слова. В среднем распознано примерно одинаковое количество следующих частей речи: имя существительное, наречие, местоимение, союз, предлог. Существительные в роли пре-дикатива и числительные не были распознаны ни в одном из монологов. Глагол также не отличается высокой степенью распознаваемости.

Рис. 1. Среднее количество распознанных слов при соотношении «сигнал/шум» 0 дБ

Рис. 2. Части речи, распознанные при соотношении «сигнал/шум» 0 дБ (для четырёх аудиторов)

Рис. 3. Среднее количество распознанных слов для трёх дикторов

450

400

350

300

250

200

150

100

50

0

431

177221

7 8 41 1 2

Соотношение «сигнал/шум» 0 дБ

Ко

ли

че

ств

о с

ло

в

Диктор 1 Диктор 2 Диктор 3

Количество исходных слов

Ср. количество воспринятых слов

Ср. количество внесённых слов

2,5

2

1,5

1

0,5

0

0,25

Соотношение «сигнал/шум» 0 дБ

Ср

. зн

ачен

ие

рас

по

знан

ны

х ед

ин

иц

Диктор 1 Диктор 2 Диктор 3

Имя существительное

0,25

2

0

1

2

1

0 0 0 0 0

2

0,25

1

2 2

0 0

1 1

0

2

0,25

Имя прилагательноеГлаголНаречиеМестоимениеСоюзЧастицаВводное словоПредикативПредлогЧислительноеДеепричастие

0,25 0,25

0 0 0 0 0 0 0

1 1

2

500

450

400

350

300

250

200

150

100

50

0

Соотношение «сигнал/шум» 0 дБ

Ко

ли

че

ств

о с

ло

в

Диктор / соотношение «сигнал/шум»

Количество исходных слов

Ср. количество воспринятых слов

Ср. количество внесённых слов

431 431 431

177 177 177

221 221 221

427 1 2 7

76

4328 1 8 4 2

6237

67

3 8

0 10 20 20 2010100 0

Диктор 1 Диктор 2 Диктор 3

Page 6: Речевые технологии

6

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 4. Части речи, распознанные при соотношении «сигнал/шум» 10 дБ(для четырёх аудиторов)

Рис. 5. Части речи, распознанные при соотношении «сигнал/шум» 10 дБ(для четырёх аудиторов)

Большинство слов, распознанных аудиторами при соотношении «сигнал/шум» 10 дБ, принадлежит исходным монологам. Число внесённых слов является незначительным. Лишь у четырёх испытуемых количество внесённых слов приближается к 10. В списках ряда испытуемых отсутствуют слова, относя-щиеся к категории внесённых: у пяти испытуемых — при прослушивании первого монолога, у шести — при прослушивании второго и у пяти — при прослушивании третьего.

Что касается частей речи, то здесь чаще всего распознавались: имя существи-тельное, глагол, а также местоимение и предлог. Хуже всего распознава-лись слова следующих частей речи: частица, вводное слово, деепричастие. Существительное в роли предикатива и числительное не были распознаны ни в одном монологе.

При соотношении «сигнал/шум» 20 дБ распознанные слова в основном принад-лежали к исходным монологам. Однако и здесь у некоторых испытуемых примерно четверть распознанных слов можно отнести к категории добав-ленных (они не встречались в исходных монологах). У трёх испытуемых треть идентифицированных слов может быть отнесена к этой группе. В спи-сках некоторых испытуемых внесённые слова отсутствуют. Из частей речи чаще всего распознавались имя существительное и глагол. Средние зна-чения словесной разборчивости характерны для таких частей речи, как имя прилагательное, наречие, местоимение и предлог.

Предварительный анализ воспринятых единиц показал, что часть воспринятых слов отличалась от исходных слов по ряду грамматических признаков, та-ких как род, число, падеж. Так, множественное число заменялось единст-венным, а косвенные падежи заменялись именительным (в редких случаях было наоборот). В основном это было характерно для записей, где отноше-ние сигнал/шум составляло 0 или 10 дБ.

201816141210

86420

Соотношение «сигнал/шум» 0 дБС

р. к

оли

чес

тво

рас

по

знан

ны

х ед

ин

иц

Диктор 1 Диктор 2 Диктор 3

Имя существительное18

2

6

3

6

0

8

43

2

01

0

4

Имя прилагательноеГлаголНаречиеМестоимениеСоюзЧастицаВводное словоПредикативПредлогЧислительноеДеепричастие

4

0 0 0

32

6

1 1 10 0,25

4

13

0,251

13

5 5

1

7

0,25

35

30

25

20

15

10

5

0

Соотношение «сигнал/шум» 20 дБ

Ср

. кол

ич

еств

о р

асп

озн

анн

ых

еди

ни

ц

Диктор 1 Диктор 2 Диктор 3

Имя существительное

29

6

9

5

8

3

0 01

76

9

4

01

0

9

Имя прилагательноеГлаголНаречиеМестоимениеСоюзЧастицаВводное словоПредикативПредлогЧислительноеДеепричастие

8

10

64

9

19

4

0,5

23

13

0,5 1

28

10

0,5 0,25

9

0,25

Page 7: Речевые технологии

7

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Абрамов Ю.В., Потапова Р.К., Хитина М.В.

Анализ результатов прослушивания фонограмм в шумах с учётом степени информативности

Выводы

1. В результате обработки экспериментальных данных выявлено количественное соотноше-ние исходных и воспринятых единиц: для каждого аудитора — в рамках одного режима (уровня шума); для одного диктора — в рамках трех режимов; для трёх дикторов — в рамках одного режима.

2. Проведён предварительный анализ частей речи воспринятых слов. Согласно полученным результатам можно сделать вывод, что при соотношениях «сигнал/шум» 10-20 дБ испы-туемыми опознавались в большей степени имя существительное и глагол. При соотно-шении «сигнал/шум» 0 дБ ни одна из частей речи не характеризуется высокой распоз-наваемостью.

3. Проведённый предварительный анализ воспринятых единиц с целью определения грамма-тических изменений в опознанных словах по сравнению с исходными словами показал, что могли изменяться род, число, падеж.

ЛИТЕРАТУРА

1. Жинкин Н.И. Речь как проводник информации. М.: Наука, 1982. 159 с.

2. Леонтьев А.А. Восприятие текста как психологический процесс // Психолингвистиче-ская и лингвистическая природа текста и особенности его восприятия. Киев: КГУ, 1979. С. 18–30.

3. Мурзин Л.Н., Штерн А.С. Текст и его восприятие. Свердловск: Изд-во Урал. ун-та, 1991. 172 с.

4. Ширинкина Л.В. Восприятие текста как психологический феномен: Автореф. дис. … кандидата псих. наук. Пермь, 2004. 23 с.

Page 8: Речевые технологии

8

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Исследование перцептивно-слухового восприятия звучащих текстов в затруднённых условиях

Потапова Р.К.Потапов В.В.Хитина М.В.

Московский государственный лингвистический университет.Россия, 119034, Москва, ул. Остоженка, д. 38.E-mail: [email protected]

Для проведения сравнительного анализа было проведено специальное эк-спериментальное исследование, предполагающее восприятие аудиторами зашумленного речевого сообщения (для разных видов речевой деятель-ности — чтения и говорения) на материале русского языка.

Перцептивная оценка предполагала определение вида предъявляемого для слу-хового анализа материала, предполагающего наилучшее распознавание вербального компонента текста. Для оценки уровня восприятия была ис-пользована условная трёхуровневая градация, в которой отмечалось число принятых слов (словоформ), словосочетаний (в данном случае последова-тельностей из 2 словоформ) и предложений (под ними подразумевались фрагменты текстов, которые могли претендовать на статус фразы (выска-зывания) в звучащем тексте (устно-речевом дискурсе). Реально это могли быть слова-предложения, варианты усечённых вопросов, части сложных пред-ложений и т.д. Выделение вышеперечисленных единиц в ряде случаев осу-ществлялось скорее по смысловым, чем по формальным признакам. Кроме указанных групп единиц было определено общее количество выделенных при прослушивании каждого материала фрагментов.

Данные о восприятии аудиторами первой группы (n=4) материала и различия по числу воспринятых вербальных единиц представлены в табл. 1.

Таблица 1Данные перцептивно-слухового распознавания различных

вербальных единиц (минимальные и максимальные значения)

По количеству воспринятых вербальных единиц наибольшие значения наблю-даются для диалогов и полилогов. Вместе с тем, следует отметить, что ма-териал чтения и монологов возможно не демонстрирует высоких показа-

АудиторВидматериала

1 2 3 4 Интервал распределения min-max

Чтение 3–16 2–17 3–25 2–22 2–25Монолог 8–28 6–19 6–28 4–29 4–29Диалог 9–35 3–43 5–33 7–50 3–50Полилог 27–45 15–21 27–45 20–32 15–45

Page 9: Речевые технологии

9

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Потапова Р.К., Потапов В.В., Хитина М.В.

Исследование перцептивно-слухового восприятия звучащих текстов в затруднённых условиях

телей из-за меньшего общего объёма. Разница в значениях при восприятии диалогов и полилогов весьма существенна (3–50 и 15–45). При этом более стабильны результаты по восприятию полилога (наименьшее число вербальных единиц — 15, у ряда аудито-ров — 20–27).

Особую роль играет тема сообщения и качество читаемого текста. Так, если тема представ-ляет для читателя интерес, чтение более осмысленно и эмоционально. То же касается и восприятия материала, где аудиторы в полном объёме используют свои способности прогнозирования и фоновые знания о мире. При оценке восприятия помимо интере-са к теме следует отметить и общий эмоциональный настрой коммуникантов. Если их речь (особенно это касается диалогов и полилогов) эмоциональна, то её восприятие улучшается (имеется больше смысловых фрагментов и в целом больше воспринятых вербальных единиц).

Для монологов отмечается больший разброс значений. По материалам восприятия диалогов также были получены разнообразные результаты. Оценка восприятия вербальных еди-ниц варьировала в зависимости от темы, диктора и аудитора. Восприятие вербальных единиц в полилогах более стабильно. Ни один из аудиторов не выделил при их воспри-ятии менее 15 вербальных единиц. Среди полилогов, где число воспринятых единиц составляло 20 и более единиц, следует отметить все полилоги для всех аудиторов по темам «литература», «музыка», «отдых», причём для тем «литература», «отдых» число выделенных вербальных единиц достигало 38 и 45.

Таким образом, предварительный эксперимент позволяет сделать предположение, что лучше воспринимаются (при тех же дикторах и условиях записи и восприятия), причём сущест-венно лучше, диалоги и полилоги (как по числу воспринятых единиц, так и по их каче-ству — большему количеству осмысленных фрагментов — условных «предложений»).

Вторую экспериментальную группу дикторов составили трое мужчин среднего и старшего возраста. Все — преподаватели, обучающие гуманитарным, математическим и эконо-мическим дисциплинам. В качестве аудиторов выступили студенты (n=4). Применитель-но к обсуждаемым темам дикторы из предложенного им списка выбрали следующие: «отдых», «спорт», «учёба».

Анализ результатов прослушивания чтения текстов различного вида показывает, что число воспринятых в них вербальных единиц варьирует. Аудиторов можно разбить на две груп-пы по числу воспринятых единиц. Особый интерес представляет анализ числа более крупных единиц (условных «предложений»). Применительно к материалу восприятия монологов можно сказать, что их число обычно меньше количества условно выделен-ных «слов» и «сочетаний слов».

Анализ результатов прослушивания позволяет говорить о том, что, во-первых, увеличивает-ся число воспринятых единиц и, во-вторых, становится больше единиц значительного объёма (осмысленных фрагментов). Так, для темы «отдых» оно достигает 17, для темы «учёба» — 14. Общее число воспринятых единиц в данных полилогах составляет от 21 до 40. Подчеркнём, что в монологах эта цифра редко превышает значение 25.

Анализ полученных результатов позволяет проследить тенденцию, согласно которой общее число воспринятых вербальных единиц незначительно превышает количество этих еди-ниц, выделенных при восприятии монологов.

Полученные данные также оказываются близкими к результатам восприятия монологов. Воз-можно, это связано с тем, что некоторые из 4-х аудиторов начали прослушивание имен-но с диалогов и не успели хорошо адаптироваться к уровню шума.

Анализ максимальных (для 4 аудиторов) соотношений показывает, что лучше воспринимаются, в основном, диалоги или полилоги. Однако при восприятии необходимо учитывать как особенности аудиторов, так и качество предъявляемого для прослушивания материала.

Page 10: Речевые технологии

10

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Сравнение с результатами прослушивания первой группы аудиторов (и дикторов) показывает, что максимальные соотношения также отмечаются при воспри-ятии диалогов (или полилогов):

Таблица 2Максимальные величины данных по восприятию

вербальных единиц

Учитывая вышесказанное, целесообразно для дальнейшего анализа привлекать материал диалогов (полилогов), поскольку применительно к этому матери-алу можно при восприятии в затруднённых условиях получить наилучшие результаты (следует отметить, что это может наблюдаться не для всех ау-диторов). Во-первых, определяется большее число воспринимаемых вер-бальных единиц (вместе с тем, это может быть связано с объёмом предло-женного текста). Во-вторых, среди опознанных единиц наблюдается прео-бладание связных фрагментов (вербальных единиц, условно называемых «предложениями», похожих на смысловые блоки диалогической речи).

Проведённый эксперимент показал работоспособность трёхчастной системы, выбранной для оценки уровня восприятия (число воспринятых словоформ, словосочетаний и предложений, выделяемых условно, на основе, в первую очередь, смысловых, а затем — формальных критериев).

Для дальнейшего исследования целесообразно использовать материал диало-гов (полилогов) с темой, представляющей интерес для коммуникантов и ау-диторов; эмоционально окрашенные тексты, подготовленные (возможно, предварительно подготовленные) дикторами. Имеет смысл также в каче-стве исходного материала для прослушивания использовать фонограммы дикторов-женщин.

На следующем этапе анализировались звучащие тексты (чтение) с учётом рас-пределения воспринятых единиц и их соотношения с данными исследова-ния экспериментального материала по непосредственным составляющим.

В ходе исследования все предложения читаемых текстов на русском языке, вос-принимаемых аудиторами в условиях шумов (соотношение сигнал/шум — 10 и — 12 дБ), были также проанализированы по непосредственным со-ставляющим.

Анализ по непосредственно составляющим (НС) относится к так называемой конструкционной грамматике и сориентирован на слушающего речевое вы-сказывание. Данный вид анализа предусматривает символическое изобра-жение для четырёх различных видов элементов: слов; классов слов, к кото-рым слова относятся; иерархической организации или структуры НС; типов конструкций. Конструкция — это соотношение составных частей высказы-вания с учётом синтаксических связей. Основным исходным постулатом при этом является утверждение, что число конструкций в языке конечно.

Для описания анализируемых классов использовалась специальная система обо-значений и маркировки. На полученной схеме НС были промаркированы

Видматериала

АудиторЧтение

(min-max)Монолог(min-max)

Диалог(min-max)

Полилог(min-max)

5 9/18 19/34 43/50 10/326 7/18 11/21 37/42 17/38 (20/45)7 10/17 14/19 26/43 6/218 9/16 17/28 30/35 40/45

Page 11: Речевые технологии

11

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Потапова Р.К., Потапов В.В., Хитина М.В.

Исследование перцептивно-слухового восприятия звучащих текстов в затруднённых условиях

составляющие, распознанные аудиторами. Зелёным цветом маркированы элементы, точно распознанные аудиторами (совпадение «один к одному»), жёлтым — элементы, которые были распознаны, но с меньшей степенью точности, то есть происходила за-мена по фонетическому признаку. Лиловым цветом были выделены элементы, которые аудиторы заменяли, основываясь на схожести в значении, то есть происходила лекси-ческая замена. Маркировка двумя цветами означает, что у разных аудиторов эти слова и словосочетания были указаны с разной степенью точности. К примеру, если слово маркировано одновременно зелёным и жёлтым цветом, то некоторые из аудиторов рас-познавали его точно, тогда как другие осуществляли на его основе фонетическую заме-ну. Кроме того, следует отметить, что можно выделить слова, которые распознавались наиболее часто большим числом аудиторов.

Исходные тексты и записи аудиторов были проанализированы для выявления совпадений в ответах аудиторов с материалом исходного текста, который они прослушивали. Была составлена таблица совпадений, которая отражает, какие слова и словосочетания ис-ходного текста были распознаны аудиторами. Слова, распознанные аудиторами, можно разделить на 3 группы: полное совпадение; частичное совпадение (по звуковому соста-ву); замена по смыслу.

Также для каждого текста была просчитана частотность различных частей речи и процентное соотношение распознанных слов в соответствии с указанными выше классами.

Например, при восприятии текста № 1 аудиторами распознано 160 единиц (слов и словосо-четаний). Из них в 43% случаев наблюдается полное совпадение единиц и в 37% слу-чаев наблюдается совпадение по звуковому составу. Смысловое совпадение происхо-дит лишь в 3% случаев. Также были выявлены смешанные случаи, когда в записанном словосочетании часть слов совпадает полностью, а другая часть только по звуковому составу (9 %). В 7 % случаев невозможно было определить исходное слово или словосо-четание и выявить основу замены.

Типы распознавания единиц аудиторами (текст 1)

Рис. 1. Типы распознавания слов и словосочетаний (текст 1)

50%

45%

40%

35%

30%

25%

20%

15%

10%

5%

0%Полное

совпадениеСходство позвуковому

составу

Смысловоесовпадение

Совпадениесмешанной

природы

Невозможноопределить

исходное словои основузамены

43%

37%

3%9% 7%

Page 12: Речевые технологии

12

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

При полном совпадении чаще всего встречаются наречия (22%), прилагательные (20%) и существительные (22%), глаголы составляют 11%, из служебных ча-стей речи наиболее точно распознаны союзы — 14% (среди них основную часть составляют союзы «что» и «и»).

В случае совпадения по фонетическому признаку, чаще встречаются знамена-тельные части речи, там практически нет союзов и предлогов.

Звуковой основой замены являются наиболее часто шипящие согласные (30% случаев), звуки [н] и [м] (25% случаев); также часто встречаются замены по частям слова (17% случаев)

При восприятии текста № 2 аудиторами распознаны 93 единицы (за единицу при-нимались слова и словосочетания). Полное совпадение наблюдается в 48% случаев. Совпадение по звуковому составу — 36% случаев. Смысловое совпадение — в 3% случаев. Также были выявлены смешанные случаи, когда в записанном словосочетании часть слов совпадает полностью, тогда как другая часть только по звуковому составу, такие случаи составили 5%. В 8% случаев невозможно определить исходное слово или словосочетание и выявить основу замены.

Типы распознавания единиц аудиторами (текст 1)

Рис. 2. Типы распознавания слов и словосочетаний (текст 2)

Так, при полном совпадении наречия составляли 35%; глаголы — 24%; местои-мения — 22%; прилагательные — 13% и существительные — 7%. Из слу-жебных частей речи наиболее точно распознаны союзы — 14% (среди них основную часть составляют союзы «что» и «и» «если»).

В случае совпадения по фонетическому признаку чаще встречаются знамена-тельные части речи; союзы и предлоги практически отсутствуют.

Звуковой основой замены являются наиболее часто шипящие согласные, звуки [н] и [м]. Также часто встречаются замены по частям слова.

60%

50%

40%

30%

20%

10%

0%Полное

совпадениеСходство позвуковому

составу

Смысловоесовпадение

Совпадениесмешанной

природы

Невозможноопределить

исходное словои основузамены

36%

3% 5% 8%

48%

Page 13: Речевые технологии

13

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Потапова Р.К., Потапов В.В., Хитина М.В.

Исследование перцептивно-слухового восприятия звучащих текстов в затруднённых условиях

По результатам проведённого анализа можно сделать вывод, что большинство аудиторов различали наличие речи при шуме —10 и — 12 дБ, но при шуме —12 дБ невозможно найти соответствие тому, что услышали аудиторы, в исходном тексте. Это означает, что они смогли определить лишь наличие речи, а смысл услышанного ими распознан не был.

При шуме — 10 дБ аудиторы слышали отдельные слова, некоторые — достаточно точно, дру-гие — приблизительно, опираясь на фонетическое сходство. Но и в данном случае по распознанным ими словам невозможно определить общую тематическую доминанту текста, так как слова слишком разрозненны и чаще лишь фонетически схожи с исход-ным словом.

По результатам анализа двух текстов можно сказать, что количество распознанных слов зависит также и от аудитора. Некоторые из аудиторов лучше, чем другие, распозна-вали слова с полным совпадением в обоих текстах, тогда как другие слышали толь-ко фрагменты слов, причём совпадение происходило, в основном, по фонетическому признаку.

Page 14: Речевые технологии

14

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Оценка гипотезс использованием синтаксического анализа

Батальщиков А.А.Зулкарнеев М.Ю.Шамраев Н.Г.ФГНУ НИИ «Спецвузавтоматика»Россия, г. Ростов-на-Дону, Газетный пер., 51, тел. (863) 297-50-84, факс (863) 297-50-84,[email protected], [email protected], [email protected]

В настоящее время в распознавании речи широко распространены декоде-ры, использующие скрытые марковские модели и алгоритмы Баум-Уолша и Витерби. В процессе распознавания производится оценка акустических и языковых вероятностей для различных возможных вариантов произ-несённой фразы, и результатом работы декодера является набор из N на-илучших гипотез. В случае использования биграммной или трёхграммной языковой модели учитываются вероятности сочетания пар и троек слов соответственно. Тем не менее, полученные на выходе гипотезы — фразы или предложения не обязательно соответствуют правильному построению предложения. В докладе предлагается улучшить качество распознавания речи, используя дополнительно синтаксический анализ речи. Для каждой из N лучших гипотез дополнительно выполняется анализ соответствия содержимого фразы синтаксическим правилам. При анализе каждой ги-потезы выставляется оценка соответствия синтаксическим правилам, для полностью правильного предложения она полагается равной 1. В докладе рассматриваются различные способы и методы оценки синтаксического соответствия для предложений русской и английской речи, основанные на фрагментации синтаксических групп и алгоритме Коке-Янгера-Касами.

ВВЕДЕНИЕ

В настоящее время в распознавании речи широко распространены декодеры, использующие скрытые марковские модели, основанные на алгоритмах Баум-Уолша и Витерби. На вход декодеру поступает последовательность векторов признаков, которая затем восстанавливается как последова-тельность слов. Более подробно процесс декодирования описан в [1]. Кон-кретная восстановленная последовательность слов в дальнейшем будет называться гипотезой, поскольку она отражает одну из возможных после-довательностей слов, произнесённых в анализируемом речевом сигнале. В процессе распознавания производится оценка акустических и языковых вероятностей для различных возможных вариантов произнесённой фразы, причём это происходит не поэтапно, а в совокупности по результатам вы-числений алгоритма Витерби. Использование других типов языковой моде-ли (например, использование вероятностных контекстно-свободных грам-матик) может позволить улучшить качество распознавания. Кроме этого, возможно улучшение за счет модификации весов акустической и языковой

Page 15: Речевые технологии

15

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Батальщиков А.А., Зулкарнеев М.,., Шамраев Н.Г.

Оценка гипотез с использованием синтаксического анализа

вероятностей, а также задания параметров глубины поиска и штрафующей функции на количество слов.

В случае использования биграммной или трёхграммной языковой модели учитываются веро-ятности сочетания пар и троёк слов соответственно. Тем не менее, полученные на вы-ходе гипотезы — фразы или предложения не обязательно соответствуют правильному построению предложения. На основании этого факта в работе разрабатывается метод модификации вероятностей гипотез для того, чтобы повысить вероятность грамматиче-ски более правильных гипотез.

Далее даётся описание используемого метода и приводятся результаты экспериментов.

ОПИСАНИЕ МЕТОДА

Метод модификации вероятностей гипотез основывается на оценке синтаксической целост-ности предложения. Анализ правильности построения предложения проводится с ис-пользованием формальных грамматик Хомского [2,3].

В работе исследуется система распознавания речи для английского языка. Контекстно-сво-бодная грамматика английского языка в упрощённой форме может быть задана с помо-щью приблизительно 40 правил, описанных в [4]. Правила имеют вид:

[S]->[NP-VP][PP],[S]->[PP-NP][VP],[S]->[NP-VP][PP-PP], ...,

где S — начальное правило, [NP-VP], [PP], [VP], [PP-NP] — правила, отвечающие грамматиче-ским категориям (соответственно комбинированной группы существительного-глагола, предложной, глагольной группы, комбинированной группы предложной и существитель-ного и др.)

Для проверки правильности гипотез каждое слово переводится в соответствующую грам-матическую категорию. В случае омонимов или неоднозначного соответствия грамма-тическим категориям, создаются альтернативные гипотезы. Затем проводится анализ получившейся структуры данных, основанный на алгоритме Коке-Янгера-Касами [4]. В результате анализа получается дерево синтаксического разбора. Кроме этого на ос-новании синтаксического анализа делается вывод, описывается ли предложение дан-ной формальной грамматикой, и строится последовательность использованных правил.

В методе используется набор гипотез, сгенерированный декодером. При анализе каждой ги-потезы выставляется коэффициент соответствия синтаксическим правилам, для пол-ностью правильного предложения он полагается равным 1. Для предложений, которые не соответствуют правильному грамматическому построению, коэффициент варьирует-ся от минимального до близкого к 1 в зависимости от величины охвата слов предложе-ния деревом правил с наибольшей глубиной.

Если предложение полностью не удовлетворяет грамматическим правилам, оно разбивается на фрагменты (фрагмент получается как последовательность слов-элементов поддере-ва, генерируемым некоторым правилом, не обязательно начальным S), и для каждого фрагмента вводится величина — оценка правильности грамматической структуры. Оценка правильности грамматической структуры предложения вычисляется как

,

где — общее количество слов в предложении, — количество слов в -ом фрагменте, суммирование ведётся по фрагментам с глубиной дерева не менее 2.

Правильная гипотеза выбирается на основе скорректированной на величины правдоподо-бия гипотезы, полученной от декодера.

Page 16: Речевые технологии

16

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

ОПИСАНИЕ ЭКСПЕРИМЕНТОВ

Для проверки предложенного метода была проведена серия экспериментов по распознаванию слитной речи. Для экспериментов использовалась речевая база английского языка, полученная из новостных каналов. Для тестирова-ния были использованы речевые сообщения общей длительностью 1 час. Для распознавания использовались контекстно-зависимые акустические трифонные модели (СММ), с 4500 различных состояний. В качестве языко-вой модели использовалась трёхграммная модель. При тестировании все слова из тестирующей выборки содержались в словаре.

Таблица Конкурирующие предложения — гипотезы на английском языке

Рис. Дерево правил, полученное в результате работы алгоритмаКоке-Янгера-Касами

В качестве примера в таблице приводится набор конкурирующих гипотез для од-ного предложения тестирующей выборки. В первой строке приводится пра-вильная гипотеза. По результатам синтаксического анализа при помощи ал-горитма Коке-Янгера-Касами эта гипотеза получила оценку правильности, равную 1. Остальные гипотезы получили оценку правильности меньше 1. На рисунке показано дерево правил для первой из гипотез.

По результатам проведённых экспериментов точность распознавания повыси-лась на 1,2%. Улучшение было достигнуто для относительно коротких пред-ложений длительностью от 6 до 10 слов.

№ гипотезы Слова гипотезы и их величины правдоподобия1 WAGNER CAME FROM YOU AS AID OF INDIANA

740.1657 449.9958 134.9487 580.8 518.4 349.6 335.8 1190.7481

2 WAGNER CAME FROM YOU AS A OF INDIANA

740.1657 449.9958 134.9487 580.8 518.4 359.09 325.5 1190.7489

3 WAGNER CAME FROM YOU AS THEY OF INDIANA

740.1657 449.9958 134.9487 580.8 467.6 416.1 316.5 1190.7489

4 WAGNER CAME FROM YOU AS EIGHT OF INDIANA

740.1657 449.9958 134.9487 580.8 518.4 339.0 342.7 1190.7489

[S] -> [NP-VP][PP]

[NP-VP] - [NP][VP] [PP] - [PREP][PP]

[PP] -> [NP-PP][PP]

[PP] -> [PREP][NP][NP-PP] -> [NP][PP]*NP -> {VAGNER} *VP -> {CAME}

*PREP -> {FROM} [PP] -> [PREP][NP]

*NP -> {YOU} *PREP -> {AS} *NP -> {HELP} *PREP -> {OF} *NP -> {INDIANA}

Page 17: Речевые технологии

17

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Батальщиков А.А., Зулкарнеев М.,., Шамраев Н.Г.

Оценка гипотез с использованием синтаксического анализа

ЗАКЛЮЧЕНИЕ

Эксперименты показали, что синтаксический анализ позволяет повысить точность распозна-вания для речевых сообщений на английском языке, полученных из новостных каналов. Повышение точности объясняется тем, что метод повышает приоритет грамматически корректных гипотез, которые характерны для новостных сообщений. Планируется про-вести эксперименты по распознаванию речевых сообщений на русском языке. Грамма-тика Хомского для русского языка устроена гораздо сложнее, однако уже сейчас постро-ены основные правила, позволяющие проверять правильность предложения. Используя правила, разработанные в проекте AOT факультета лингвистики РГГУ [5], можно до-биться достаточно компактного представления языковых правил в форме грамматики Хомского. Кроме того можно модифицировать метод для вероятностных контекстно-свободных грамматик. В этом случае синтаксическая модель будет выступать в качестве модели языка.

ЛИТЕРАТУРА

1. L.R. Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs, NJ, 1994.

2. Н. Хомский, Аспекты теории синтаксиса. МГУ, 1972.

3. Н. Хомский, Дж. Миллер. Введение в формальный анализ естественных языков. Ки-бернетический сборник. Вып. 1. Мир, 1965. С. 229–292.

4. S. E. Levinson, Mathematical models for speech technology, Chippenham, John Wiley and Sons, 2005.

5. Ссылка в сети Internet: http://www.aot.ru.

Page 18: Речевые технологии

18

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Метод повышения скорости работы декодера в задаче распознавания речи

Бинеев О.Р.Зулкарнеев М.Ю.Салман С.Х.

ФГНУ НИИ «Спецвузавтоматика»Россия, г. Ростов-на-Дону, Газетный пер., 51.Тел. (863) 297-50-84, факс (863) 297-50-84, [email protected]

Современные системы автоматического распознавания речи, основанные на скрытых марковских моделях, представляют собой сложные многопа-раметрические программные комплексы (особенно системы с большим словарём, где количество слов превышает 105), которые требуют тонкой многоэтапной настройки (обучения) и предъявляют высокие требования к используемой компьютерной технике как с точки зрения быстродействия, так и с точки зрения используемой памяти. Несмотря на то, что в настоя-щее время разработаны эффективные алгоритмы декодирования, добить-ся работы декодера в реальном масштабе времени с сохранением высокого уровня точности по-прежнему сложно. В этой работе предлагается подход к ускорению работы динамического однопроходного Витерби-подобного декодера с древовидной структурой сети распознавания, который исполь-зуется при распознавании речи с большим словарём. Основная вычисли-тельная нагрузка при работе декодера приходится на вычисление отклика гауссовых смесей, моделирующих состояния контекстнозависимых фонем. В работе при вычислении откликов предлагается использовать алгоритм «дорожная карта», который позволяет находить l лучших гауссоид (дающих наибольший отклик) для данного наблюдения без вычисления откликов всех гауссоид. Перед выполнением декодирования для каждой гауссоиды находится список наиболее близких гауссоид с использованием в качест-ве расстояния перекрытия данных гауссоид в пространстве признаков. При декодировании выполняется поиск гауссоид, дающих наилучший отклик для данного наблюдения. Процедура поиска является итерационной и на-поминает прокладывание маршрута по карте (отсюда название алгоритма).

ВВЕДЕНИЕ

Технология автоматического распознавания речи, основанная на скрытых мар-ковских моделях (СММ) и n-граммных моделях языка [1], в настоящее вре-мя является наиболее популярной при создании систем распознавания речи. С развитием компьютерной техники повышается сложность систем, основанных на этой технологии. Так, если в 70–80-х годах XX века такие системы были способны распознавать раздельные слова со словарём раз-мером 100–1000 слов, то в 90-х годах появились системы распознавания непрерывной речи с размером словаря в десятки тысяч слов.

Сейчас на повестке дня стоит задача создания системы распознавания речи с размером словаря, превышающем 106. Ограничения на увеличение раз-

Page 19: Речевые технологии

19

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х.

Метод повышения скорости работы декодера в задаче распознавания речи

мера словаря слов устанавливает главным образом декодер. Существуют различные типы декодеров, используемых в системах распознавания речи [2]. В этой работе ис-пользуется декодер, основанный на алгоритме перемещающегося маркера [3], который является практической реализацией алгоритма Витерби [2]. В нём в качестве оптималь-ного частичного пути используется объект, который называется «маркер», при этом пе-реходы между состояниями заданы явно посредством сети распознавания (рис. 1).

АВГУСТtsUgva

АВТОР@tf a rENTER EXIT

АВТОРИТЕТtet'ir'@ t f@

Рис. 1. Пример сети распознавания

Эксперименты показывают [4], чт о декодер, использующий такую сеть распознавания, со словарем размером больше несколько тысяч. А использование трёхграммной моде-ли языка для такого декодера и вовсе невозможно. В работе [4] используется моди-фицированная сеть распознвания. В ней одинаковые начальные части фонетических транскрипций различных слов объединены. Пример сжатой сети приведён на рисунке 2. В ней начальная фонема «а» слов «АВГУСТ» и «АВТОР» представлена одним и тем же узлом сети.

Использование сжатой сети распознавания позволяет значительно увеличить скорость деко-дирования по двум причинам. Во-первых, с уменьшением количества узлов уменьша-ется количество маркеров. Во-вторых, количество маркеров зависит от номера фонемы в слове. Поскольку для такой сети количество узлов, соответствующих начальным фо-немам, гораздо меньше количества узлов конечных фонем, количество маркеров сни-жается ещё.

В данной работе для ускорения работы декодера предлагается использовать алгоритм «До-рожная карта» [5]. Он позволяет находить наиболее вероятные компоненты гауссовых смесей, без необходимости рассчитывать их все. В следующем разделе даётся более подробное описание метода, а далее приводятся результаты его экспериментальной проверки.

АВГУСТtsUgv

aАВТОР@tf r

ENTER EXIT

АВТОРИТЕТtet'ir'@ t f@

Рис. 2. Сжатая сеть распознавания

ОПИСАНИЕ МЕТОДА

В работе предлагае тся метод ускорения работы декодера за счёт уменьшения количества вычислений. Далее описание алгоритма «Дорожная карта» ведётся в соответствии с ра-ботой [5].

На каждом шаге декодирования требуется вычисление выходной вероятности для всех состояний, в которые есть переходы из состояний, содержащих маркеры. Вычисление

Page 20: Речевые технологии

20

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

является наиболее ресурсоёмкой частью процедуры декодирова-

ния, поскольку для вычисления смеси

требуется вычисление всех её компонент. В работе предлагается не рас-

считывать все компоненты всех смесей, имеющихся в системе, а найти

наиболее вероятных компонент, а при вычислении использовать

аппроксимацию , если l-я компонента попала

в найденный список, и , если ни одна из компонент смеси, опи-

сывающей , в список не попала. Для нахождения наиболее веро-ятных компонент предлагается использовать алгоритм «дорожная карта»,

который позволяет находить лучших компонент (дающих наибольший отклик) для данного наблюдения без вычисления откликов всех компо-

нент. Пусть — множество всех компонент и для каждой компоненты

известен список ближайших к ней компонент . Дорожная карта — это граф связей компонент друг с другом, которые задаются спи-

сками .

Алгоритм «Дорожная карта» является итерационным и состоит из следующих шагов:

1. Инициализация результирующего списка .

2. Выбор наиболее вероятных компонент из множества в качест-

ве нового списка .

3. Eсли , выбор наиболее вероятных компонент из множества

в качестве нового списка , иначе возвращение к шагу 2.

4. Выход, если , иначе возвращение к шагу 2.

Начальный список может быть задан случайно или в качестве начально-го списка может быть взят список с предыдущего шага декодирования.

— случайным образом выбранное подмножество множества .

Инициализация списков наиболее близких к компоненту компонент выполняется похожим образом, только в этом случае в качестве наблюде-

ния выступает компонента :

1. Инициализация списков для всех .

2. Выбор в качестве нового списка наиболее близких к компоненте

компонент из множества для всех .

3. Eсли , выбор наиболее близких к компоненте компо-

нент из множества n (m) в качестве нового списка , иначе возвращение к шагу 2.

4. Выход, если , иначе возвращение к шагу 2.

В качестве расстояния между двумя компонентами и используется

их перекрытие в пространстве признаков , для вычисле-ния которого используются выражения:

Page 21: Речевые технологии

21

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бинеев О.Р., Зулкарнеев М.Ю., Салман С.Х.

Метод повышения скорости работы декодера в задаче распознавания речи

(1),

где — перекрытие двух одномерных нормальных распределений

и (см. рисунок 3), — компоненты век-

торов средних и ковариационных матриц многомерных нормальных распределений

и , соответствующих компонентам смесей и со-

ответственно.

Рис. 3. Перекрытие д вух одномерных нормальных распределений

Для вычисления логарифма интеграла (1) используется аппроксимация

где , . Здесь предполагается, что , в противном случае компо-

ненты меняются местами.

ОПИСАНИЕ ЭКСПЕРИМЕНТОВ

Для проверки предлагаемого метода были проведены эксперименты по полнотекстовому

распознаванию с использованием микрофонной речевой базы русского языка. Речевая база была разбита на две части. Первая часть длительностью 20 часов была использована для обучения трифонных моделей фонем. В результате обучения было получено 16 тыс. связанных трифонных моделей с общим количеством различных компонент смесей око-ло 4000 тыс. В качестве языковой модели использовалась трёхграммная модель язы-ка. Для декодирования использовался декодер с сетью распознавания, пример которой приведен на рисунке 1. Вторая часть речевой базы длительностью 1 час использовалась для тестирования. Все слова из тестирующей выборки содержались в словаре распоз-навания.

Было проведено два эксперимента: 1) эксперимент, использующий стандартный декодер; 2) эксперимент использующий алгоритм «Дорожная карта».

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0-5 -4 -3 -2 -1 0 1 2 3 4 5

Page 22: Речевые технологии

22

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Результаты экспериментов приведены в таблице. В первом столбце приводит-

ся точность распознавания слов , где — количество правильно рас-

познанных слов, – общее количество слов в тестирующей выборке. Во втором столбце приводится время распознавания, нормированное на дли-тельность тестирующей выборки.

Таблица. Результаты эксперимен тов

ЗАКЛЮЧЕНИЕ

Результаты экспериментов показали, что использование алгоритма «Дорожная карта» позволяет увеличить быстродействие в 1,5 раза. Кроме этого, сни-жение количества откликов, которые надо рассчитать, позволяет надеять-ся на дальнейшее увеличение скорости обработки. Для этого в дальней-шем планируется выполнить дополнительную оптимизацию алгоритма.

ЛИТЕРАТУРА

1. Рабинер Л. Скрытые Марковские модели и их применение в избранных приложениях при распознавании речи: Обзор 2, февраль 1989 r., ТИИЭР, Т. 77, стр. 86-120.

2. Xuedong Huang, Alex Acero and Hsiao-Wuen Hon Spoken Language Processing, A Guide to Theory, Algorithm and System Development. New Jersey : Prentice Hall Inc., 2001.

3. Young S. J. Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems. 1989 : s.n., CUED Technical Report F INFENG/TR38 Cambridge University.

4. Odell, J. J. et al. A One Pass Decoder Design for Large Vocabulary Recognition. 1994. Proceedings ARPA Workshop on Human Language Technology. pp. 405-410. Merrill Lynch Conference Centre.

5. Povey D. and Woodland P.C. Frame discrimination training of HMMs for large vocabulary speech recognition. Cambridge university engineering department. Cambridge : s.n., 2000. Technical report.

Эксперимент Точность распознавания слов, , % Время распознавания, RT

Стандартный декодер 74,1 4,7

«Дорожная карта» 73,6 3,2

Page 23: Речевые технологии

23

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Идентификация дикторовпо цифровым фонограммам

Галяшина Е.И.

Московская государственная юридическая академия имени О.Е. Кутафина.Россия, 123995 Москва, Садовая-Кудринская, дом 9.Тел. (499)244-85-24. Факс: (499) 244-87-76. E-mail: [email protected]

Рассмотрены проблемы, возникающие в практике судебно-экспертной идентифика-ции диктора по цифровым фонограммам. Автор рассматривает особенности циф-ровых записей речевых сигналов, которые фигурируют по различным категориям уголовных дел в качестве доказательств. Основное внимание уделено влиянию иска-жений оцифрованного речевого сигнала на достоверность идентификации, а также проблеме сопоставимости фонограмм, записанных на различных цифровых устрой-ствах. Делается вывод о необходимости разработки новых экспертных методик, учи-тывающих специфику цифровой аудиозаписи.

Техническая революция привела к тому, что аналоговая аудио- и видеозапись повсеместно уступает место цифровой записи, для ведения переговоров используются цифровые каналы связи, мобильные телефоны, интернет-телефония, спутниковая связь. Право-охранительные органы постепенно переходят на цифровую звуко- и видеозапись для фиксации следственных действий и при проведении оперативно-розыскных меропри-ятий. Цифровые фонограммы записываются при помощи цифровых диктофонов, со-товых телефонов, многоканальных цифровых регистраторов, цифровых видеокамер, записывающих устройств на DVD и мини-дисках. На разнообразных носителях цифро-вые фонограммы приобщаются к уголовным и гражданским делам в качестве вещест-венных доказательств. Удобство устройств цифровой звукозаписи очевидно — малые размеры устройств, возможность записи длительных переговоров, приемлемое (по мнению потребителей) качество получаемых звукозаписей, низкие требования к поль-зователю таких устройств.

Казалось бы, преимущества цифровой звукозаписи неоспоримы. Однако экспертная практи-ка показывает, что кроме организационно-технических и процессуальных сложностей приобщения носителей цифровых записей к материалам дела, проблемы возникают и при проведении экспертных исследований аудиофайлов речевых сигналов. Уголов-ное и гражданское судопроизводство требует проверки подлинности и достоверности фонограмм, выступающих в качестве вещественных доказательств. Основным процес-суальным способом такой проверки является судебная фоноскопическая (или фоногра-фическая) экспертиза. Уже более 40 лет фоноскопические экспертизы проводятся во всех экспертных учреждениях правоохранительных органов и в ряде негосударствен-ных экспертных учреждений. При проведении таких экспертиз следствие и суд интере-суют вопросы установления подлинности фонограммы и идентификации конкретного диктора по фонограммам устной речи [1].

Анализ экспертных заключений последних лет показывает, что наибольшие трудности воз-никают при идентификации дикторов по цифровым фонограммам. При этом эксперты не учитывают специфики цифровых фонограмм, цифровой связи, самого процесса

Page 24: Речевые технологии

24

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

цифровой звукозаписи, особенностей цифровых устройств звукозаписи и её носителей.

В настоящее время в правоохранительных органах для идентификации дикторов используются две автоматизированные системы идентификации дикто-ров — «Диалект» и «Фонэкси». Федеральным межведомственным коорди-национно-методическим советом по проблемам экспертных исследований паспортизована только одна методика идентификация лиц по фонограм-мам русской речи на автоматизированной системе «Диалект», 1996 г. [2]. При проведении экспертного исследования идентификация диктора про-изводится на основе измерения таких параметров, как частота основного тона, частоты формант, длительность сигналов и вычисления их производ-ных. Всего на основе результатов акустических измерений вычисляется около 600 акустических признаков голоса и речи. Полученные результаты на спорных фонограммах сравниваются с образцами голоса и речи подо-зреваемого лица.

Важно подчеркнуть, что названная методика разрабатывалась применительно к исследованию аналоговых фонограмм, записанных в основном по те-лефонному тракту, или непосредственно на магнитную ленту при помо-щи аналоговых магнитофонов. Сейчас на экспертное исследование всё больше поступает фонограмм, полученных на цифровых диктофонах, за-писей телефонных переговоров по сотовой мобильной связи и цифровых регистраторах. В качестве образцов сравнения при таких исследованиях выступают аналоговые фонограммы допросов подозреваемых, цифровые записи с диктофонов, DVD-дисков и видеомагнитофонов. При этом новая редакция методики [3], обозначив наличие проблемы искажения речевых сигналов при их цифровой обработке [4], трудности исследования цифро-вых фонограмм не разрешила.

Цифровые фонограммы сегодня вызывают у судебных экспертов существен-ные затруднения не только в выборе оптимальных методов и методик их исследования, но и криминалистической оценке полученных результатов, их квалификации в соответствии с установленными терминологическими стандартами и экспертными методиками. Это связано с тем, что достиже-ния в цифровой обработке и машинном синтезе речи в принципе позволя-ют осуществить фальсификацию не только содержания, но и всех других компонентов речевого сигнала, поступающего на вход различных систем принятия решений или контроля доступа и фиксируемого на цифровой но-ситель в целях доказывания. Проблема усугубляется тем, что современные системы цифровой регистрации, обработки звуковых сигналов, специали-зированные процессоры линейного, нелинейного монтажа, в том числе компьютерного, позволяют осуществлять многообразные манипуляции с речевым сигналом, привнося в его форму и содержание существенные изменения. Учитывая тот факт, что за фальсификацию доказательств уста-новлена уголовная ответственность, вопрос о выявлении таких признаков далеко не праздный. С юридической точки зрения фальсификация — это искусственное создание доказательств, свидетельствующих в пользу обви-няемого или потерпевшего, истца или ответчика. Применительно к зада-чам исследования цифровых фонограмм, это искусственно составленная фонограмма, содержащая искаженную информацию о документируемом звуковом событии, включая искажение речевого сигнала, приводящее к сходству до степени смешения идентификационных признаков разных

Page 25: Речевые технологии

25

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Галяшина Е.И.

Идентификация дикторов по цифровым фонограммам

дикторов, либо смешения индивидуализирующих свойств естественной и синтезиро-ванной речи.

Современные цифровые звукозаписывающие и передающие устройства конструктивно по-строены так, что при оцифровке речи они убирают из акустического сигнала значитель-ное количество криминалистически значимой информации об индивидуальных свой-ствах голоса и речи диктора, условиях формирования акустического сигнала. В неко-торых сотовых телефонах вместо речи человека передаётся набор кодовых сигналов, являющихся не нативной (native) речью, а ее математической моделью. При этом от типа используемого алгоритма кодирования речи и его реализации в конкретной моде-ли устройства зависит «похожесть» оригинальной речи говорящего и того, что получает абонент на приёмном устройстве. Таким образом, на выходе создается искусственным образом синтезированный сигнал по некой математической модели, что затрудняет опознаваемость голоса на слух в условиях помех. Похожие голоса, одной группы, не имеющие ярких различительных особенностей, могут кодироваться примерно одина-ково, а потому окажутся сходными до степени смешения при их слуховой перцепции экспертом. Лингвистические признаки, выявляемые на слух, зависят от многих фак-торов, включая индивидуальные качества эксперта, чувствительность его слухового аппарата и опыт. Совершенно очевидно, что когда при цифровой обработке речи появ-ляются дополнительные шумы квантования и иные специфические искажения, досто-верность выделения на слух тонких фонетических особенностей оказывается весьма сомнительной.

Именно в такой особенности передачи речи по сотовой связи и лежат предпосылки совер-шения так называемого «телефонного мошенничества», когда при общении по сотовой связи вероятность ошибочного опознания «чужого» голоса как «своего» достаточна высока.

Дополнительные сложности возникают при экспертном исследовании аналоговых фоног-рамм, полученных путем перезаписи с исходных цифровых фонограмм, в том числе с привнесенными изменениями. В итоге получается аналоговая фонограмма с циф-ровым монтажом, микшированным, синтезированным или компилированным рече-вым сигналом. При оцифровке и обработке такой фонограммы появляются дополни-тельные искажения, влекущие ошибку результатов сравнения идентификационных признаков.

При использовании для звукозаписи бытовых цифровых диктофонов часто в расчет прини-маются только их малые размеры и вес. Не учитывается, что при такой звукозаписи цифровые диктофоны конструктивно устроены так, что все низкочастотные сигналы ниже 300–500 Гц просто отсекаются. На практике можно встретить экспертные заклю-чения, где эксперт «измерял» для таких фонограмм частоту основного тона голоса и низкочастотную составляющую 50 Гц. О надёжности идентификации диктора в этом случае говорить не приходится.

Другая проблема. Портативные цифровые диктофоны и сотовые телефоны для записи длительных телефонных переговоров, как правило, используют различные алгорит-мы сжатия (кодирования) сигналов. Чаще всего это так называемое сжатие с потерей качества. На основе психоакустической модели из оцифрованного сигнала удаляется большое количество важнейшей криминалистически значимой информации об объек-те исследования (например, кодирование МР3). Аналогичная ситуация с цифровой ви-деозаписью. Там идет кодирование по различным алгоритмам MPEG.

Ещё более серьёзная ситуация с мобильной связью. В цифровой фонограмме, полученной по мобильной связи идентификационному исследованию, по сути, подлежит не на-тивный, то есть исходный, естественный сигнал, естественная человеческая речь, со

Page 26: Речевые технологии

26

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

всеми индивидуальными свойствами присущими конкретному диктору, а искусственно синтезированный сигнал, из которого алгоритмами кодиро-вания (или сжатия, цифровой обработкой, например, ACELP) физически исключены идентифицирующие диктора особенности. При данном способе кодирования по сотовой связи передаётся не сам сигнал, а его математи-ческая модель — страница в кодовой книге, и эксперты, очевидно, не обла-дая знаниями специфики сотовой связи, часто механически сравнивают синтезированную (машинную) речь с речью живого человека. Говорить о качестве такого сравнения также не приходится.

Сравнение несопоставимых по своим параметрам речевых сигналов на спор-ной фонограмме и сравнительных образцах нарушает основной методо-логический принцип криминалистической и экспертной идентификации — принципа сопоставимости исследуемых объектов в системе признаков, по которым осуществляется сравнение и идентификация диктора.

Другая особенность сотовой связи. Обработка речи в стандарте GSM [5] осу-ществляется в рамках принятой системы прерывистой передачи речи DTX (Discontinuous Transmission), которая обеспечивает включение передатчи-ка только тогда, когда пользователь начинает говорить и отключает его в паузах и в конце разговора. Система DTX управляет детектором актив-ности речи VAD (Voice Activity Detector), который обеспечивает обнаруже-ние и выделение интервалов речи с шумом и без шума речи даже в тех случаях, когда уровень шума соизмерим с уровнем речи. В состав систе-мы прерывистой передачи речи входит также устройство формирования комфортного шума, который включается в паузах речи, когда передатчик отключён. Экспериментально показано, что отключение фонового шума на выходе приёмника в паузах при отключении передатчика раздражает абонента и снижает разборчивость речи, поэтому применение комфор-тного шума в паузах считается необходимым. Процесс DTX в приёмнике включает также интерполяцию фрагментов речи, потерянных из-за оши-бок в канале.

Все имеющиеся на сегодня детекторы тона имеют выраженный дефект — лож-ное детектирование тона в интенсивных шумовых сигналах. Вследствие этого шипящие звуки устной речи и многие акустические сигналы шумо-вого характера делаются более звонкими. В алгоритме также использу-ется так называемая «постфильтрация» — заглаживание специальным фильтром всех дефектов восстановленного (синтезируемого) речевого сигнал на выходном конце. Как видно из вышесказанного, идентификация диктора по физическим признакам речи, диагностика акустического окру-жения и лингвистический анализ фонетических признаков речи в таком сигнале значительно затруднены. Проблема имеет принципиальный мето-дологический характер и заключается в том, что исследованию подлежит синтезированный речевой сигнал, из которого алгоритмом кодирования исключены существенные идентифицирующие диктора, обстановку и ка-нал связи особенности. Без решения вопросов достоверности воспроиз-водимого сигнала и границ допустимости его искажений специально для сигнала переговоров в GSM канале экспертное исследование не может быть полным.

Кроме того, каждая фонограмма в GSM канале по своей сути является «смонти-рованной» из цифровых реплик абонентов, между которыми производится вставка искусственного сигнала «комфортного шума». По ГОСТ 13699-91

Page 27: Речевые технологии

27

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Галяшина Е.И.

Идентификация дикторов по цифровым фонограммам

это подпадает под понятие монтажа фонограммы. Смонтированный таким способом сигнал, включая места стыков — монтажных переходов между передаваемым рече-вым сигналом и синтезируемым шумом, сглаживается специальным постфильтром. И самое главное — по каналу связи передаётся не сама речь, а некий набор кодов и символов, по которым на оконечном аппарате восстанавливается (синтезируется) сигнал, похожий на исходный, но который не является исходным сигналом, будучи его приближенной моделью. В цифровых регистраторах сигнал подвергается дополни-тельному сжатию по определённому алгоритму. Результирующий сигнал, подвергший-ся кодированию, многократному сжатию и обработке, переписывается на съёмный но-ситель и поступает на экспертное исследование. При этом эксперту, как правило, не предоставляется ни оригинал фонограммы, ни устройство звукозаписи, ни информа-ция об условиях передачи сигнала по каналам связи, ни сведения о технологической цепочки записи — перезаписи аудиофайлов.

Следовательно, традиционные экспертные методики исследования фонограмм на пред-мет идентификации диктора малоприменимы к современной цифровой звукозапи-сывающей технике и средствам мобильной связи. Экспертное решение о принад-лежности голоса и речи, записанного на фонограмме конкретному проверяемому (подозреваемому) лицу, должно основываться на положениях, дающих возможность проверить в условиях судопроизводства обоснованность и достоверность сделанных выводов на базе общепринятых научных и практических данных. Соблюдение на-званного требования возможно, когда в экспертном заключении с достаточной для воспроизведения подробностью и научной полнотой описан ход исследования и по-следовательность действий эксперта, дана ссылка на примененную экспертную ме-тодику. При этом под методикой следует понимать систему предписаний (категори-ческих или альтернативных) по выбору и применению в определённой последова-тельности и в определённых или создаваемых условиях методов и средств решения экспертной задачи.

В данной ситуации необходимо проведение комплекса научных исследований в данном на-правлении и разработка соответствующих экспертных методик, учитывающих особен-ности цифровых каналов связи и цифровых фонограмм как объектов экспертного ис-следования. При этом необходимо задействовать как научный потенциал экспертных учреждений, так и академическую науку, как это было в 60–80-е годы при разработке методики «Диалект».

В заключение необходимо отметить, что проблема идентификации дикторов по цифровым фонограммам существует, она пока не решается, но и замалчивать её контрпродук-тивно — без надёжной и общепринятой методологии исследования цифровых фо-нограмм можно вообще потерять цифровые фонограммы как вещественное доказа-тельство. Поэтому необходимо в кратчайшие сроки разработать и внедрить комплекс научно-методических исследований и организационных мероприятий для всесторон-него исследования цифровых фонограмм, полученных в разных условиях на разных технических средствах. К такой работе в обязательном порядке кроме ведомственных учёных и экспертов необходимо привлечь академическую науку, учёных-речевиков, юристов и законодателей.

ЛИТЕРАТУРА

1. Галяшина Е.И. Актуальные проблемы экспертизы цифровых фонограмм. /Теорiя та практика судовой експертизи i кримiЗборник научных трудов. Выпуск 8. Харкiв: «право», 2008. С. 248–257.

Page 28: Речевые технологии

28

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

2. Попов Н.Ф., Линьков А.Н., Кураченкова Н.Б., Байчаров Н.В. Идентифи-кация лиц по фонограммам русской речи на автоматизированной системе «Диалект». М.: Войсковая часть 34435, 1996.

3. Кураченкова Н.Б., Байчаров Н.В., Ермакова М.А. /Под ред. В.М. Богда-нова. Идентификация лиц по устной речи на русском языке. Методика «Ди-алект». Пособие для экспертов. Издание 2-е, переработанное и дополнен-ное. М., 2007.

4. Голощапова Т.И., Захаров А.Г., Богданов И.Е. О влиянии методов цифро-вого кодирования на идентификацию диктора по голосу//Криминалистика ХХI век: Материалы научно-практической конференции. М.: ГУ ЭКЦ МВД России, 2001.

5. Галяшина Е.И., Галяшин В.Н. Цифровые фонограммы как судебное до-казательство, Воронежские криминалистические чтения. Воронеж: Изд-во Воронежского гос. университета. Вып. 8. 2007. С. 71–99.

Page 29: Речевые технологии

29

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Метод оценки формантных частот, основанный на полигармонической математической моделиречевого сигнала

Голубинский А.Н.Булгаков О.М.

Московская государственная юридическая академия имени О.Е. Кутафина.Россия, 123995 Москва, Садовая-Кудринская, дом 9.Тел. (499)244-85-24. Факс (499) 244-87-76. E-mail: [email protected]

Предложен метод оценки формантных частот для вокализованных участков речи. Вычислены точностные характеристики оценки формантных частот по методу, основанному на полигар-монической модели речевого сигнала. Приведены результаты экспериментального расчёта оценок первых четырёх формантных частот предложенным методом.

Речевая наука и речевые технологии на сегодняшний день занимают уже достаточно ощу-тимое место в нашей жизни [1]. Для аутентификации (верификации и идентификации) личности по голосу необходимо осуществить параметризацию речевого сигнала. В ка-честве существенных параметров, отражающих индивидуальные особенности, уникаль-ность голоса, часто используют формантные частоты (ФЧ). Под формантами понимают области глобальных спектральных максимумов речевого сигнала, характеризующие резонансные свойства речевого тракта как акустической системы [2,3]. Оценка ФЧ мо-жет проводиться с помощью кепстральных коэффициентов, на основе коэффициентов линейного предсказания, с использованием метода моментов спектра и другими спо-собами. Все вышеперечисленные методы имеют определённые преимущества и не-достатки, при этом для оценки ФЧ наиболее широкое распространение получил метод моментов и различные его модификации. К основным недостаткам метода моментов относят: несостоятельность оценок спектральных компонент (в этой связи выделяется целое направление обработки с помощью временных и спектральных окон), ошибки, связанные с эмпирическим подбором интервалов усреднения спектральных составля-ющих и эмпирическим определением компонентов вектора нормализующей функции. При этом, несмотря на некоторые успехи [4,5] в разработке алгоритмов расчета ФЧ, всё же остаётся ряд проблемных вопросов, связанных с неустойчивостью оценок ФЧ, которая появляется в зависимости от эмпирически подобранных интервалов усреднения спектральных составляющих и при различных априори заданных полосах частот для поиска глобального максимума среди множества локальных.

Заметим, что участки речи с большой степенью вокализации наиболее значимы для ау-тентификации личности по голосу. При этом импульсная модуляционная полигармони-ческая математическая модель речевого сигнала адекватно описывает вокализован-ные участки речи, в существенной мере определяющие индивидуальные особенности

Page 30: Речевые технологии

30

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

голоса человека, и хорошо согласуется с физическими принципами аку-стической теории речеобразования [2]. Запишем модель речевого сигна-ла при отсутствии шумов в виде импульса АМ-колебания с несколькими несущими частотами для случая модуляции суммой гармоник, из практи-ческих соображений ограничившись конечным количеством гармоник ряда [6]:

, . (1)

Здесь Mk и F0мод — соответственно глубина амплитудной модуляции k-й гармо-

ники и наименьшая частота модулирующего колебания; Ul — амплитуда l-й гармоники несущего колебания; f0 — частота основного тона (ЧОТ); (K+1) и L — соответственно количество модулирующих и несущих гармоник. При этом математическая модель, записанная в виде (1) может применяться для параметрического описания как в рамках детерминированного (Фk и φl — некоторые константы), так и стохастического подходов (Фk и φl — случайные величины).

Суть метода оценки ФЧ, основанного на полигармонической модели (ПГМ) рече-вого сигнала состоит в следующем. Положим, что известны значения оце-нок 0f

) и lU

), при этом количество амплитуд гармоник принимают равным:

⎣ ⎦0âmax / ffL)

= , где ⎣ ⎦ — целая часть числа; 2/â dff = — верхняя ча-стота; fd — частота дискретизации. По известным значениям Ul определяют

их глобальный максимум 1maxlU , при этом за оценку ФЧ принимают аргу-мент, соответствующий найденному глобальному максимуму: 01max1 flF

))⋅= ,

т.е. оценка соответствует резонансно усиленной 1maxl -й гармонике основ-ного тона, или же )1( 1max −l -му обертону. Далее находят первый минимум

1minlU , после значения аргумента которого 1minl , определяют следующий

первый максимум 2maxlU ; оценка второй ФЧ: 02max2 flF))

⋅= . Заметим, что при необходимости можно сузить интервал поиска максимумов, используя диапазоны наиболее вероятного нахождения соответствующих ФЧ [2,3]. Далее находят следующий первый минимум 2minlU , после значения аргу-мента которого 2minl , ищут первый максимум 3maxlU ; оценка третьей ФЧ:

03max3 flF))

⋅= , и т.д.

Таким образом, вычисление оценки ФЧ и оценок амплитуд несущих гармоник на базе метода наименьших квадратов [6], должно опираться на достаточно точную оценку ЧОТ. Оценку ЧОТ предлагается получать на основе опти-мальной обработки при использовании метода максимального правдоподо-бия (МП), который обладает высокой потенциальной и реальной точностью. Пусть детерминированный сигнал ),( 0ftu принимается на фоне шума

)(tn , при этом требуется оценить значение существенного параметра 0f , заключённого в сигнале ),( 0ftu , обрабатывая принятую реализацию слу-чайного сигнала ),( 0ftξ :

)(),(),( 00 tnftuft +=ξ , (2)

где ),( 0ftu — детерминированная компонента (1); )(tn — шумовая компонента в виде модели гауссовского δ-коррелированного случай-ного процесса с нулевым средним значением и функцией корреляции:

2/)(),( 21021 ttNttR −= δ ; 0N — односторонняя спектральная плотность мощности шума.

При наблюдении сигнала (2) на фоне гауссовского шума )(tn полученный лога-рифм функционала отношения правдоподобия (ЛФОП) )( fM позволяет

[ ]è;0 τ∈t∑ ∑= =

+Φ+=K

k

L

lllkk tflUtFkMtu

0 10

ìîä0 )2cos()2cos()( ϕππ МОД

Page 31: Речевые технологии

31

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Голубинский А.Н., Булгаков О.М.

Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала

синтезировать приемник МП, а оценка МП параметра f определяется как значение аргу-мента, при котором наблюдается глобальный максимум ЛФОП [7]:

)(suparg0 fMf =)

. (3)

В ходе исследований было выявлено, что полигармоническое модулирующее колебание, вхо-дящее в ),( 0ftu , практически не оказывает влияния на точность оценки ЧОТ. Таким образом, для оценки ЧОТ будем использовать ПГМ без учёта модуляции:

, (4)

где )cos( lll Ux θ= ; )sin( lll Uy θ= ; ll ϕθ −= . Однако, при оценке ЧОТ, как правило, трудно получить априорную информацию о распределении амплитуд Ul и начальных фаз φl гармоник, образующих сложный полигармонический сигнал (4). В этой связи для оценки ЧОТ рассмотрим модель речевого сигнала, где неизвестны Ul и φl всех гармо-ник, т.е. неизвестны xl и yl в модели (4). Осуществляя максимизацию ЛФОП М(f) по не-известным несущественным параметрам xl и yl можно показать [8], что в итоге ЛФОП трансформируется, принимая для разрешаемых источников следующий вид:

( )⎥⎥

⎢⎢

⎟⎟⎠

⎞⎜⎜⎝

⎛+⎟

⎟⎠

⎞⎜⎜⎝

⎛= ∑ ∑

= =∫∫

L

l

L

l

TT

ttflftN

ttflftNT

NfM

1 1

2

0

00

2

0

00

0 d)2sin(),(2

d)2cos(),(2

2πξπξ

. (5)

Как видно из (5) оптимальная обработка полигармонического сигнала (4), с целью оценки его ЧОТ, сводится к формированию билинейной формы из квадратурных компонент кор-реляционного интеграла. При этом для разрешаемых источников должно выполняться соотношение [8]:

Ljijiffji ,1,;;1),( 00 =≠<<Ψ , (6)где модуль нормированной взаимной функции неопределенности каждой пары источ-ников сигнала (гармоник, образующих полигармонический сигнал) рассчитывается для модели вида (4) как:

])([sinc)(

])(sin[),( 12

12

1221 Tfifj

Tfifj

Tfifjffji −=

−−=Ψ π

ππ

, (7)а в точке истинного значения принимает вид:

])([sinc),( 000 Tfijffji −=Ψ π . (8)

Так как период основного тона наиболее вероятно находится в диапазоне: 0 ∈T [3;14;3]мс [3], то, выбирая интервал наблюдения Т>38,5мс всегда можно обеспечить выполнение условия разрешения гармоник (6) для сигнала ),( 0ftu вида (4).

Заметим, что при наблюдении дискретного сигнала ),()( 00 fiufui Δ≡ интегралы в компонен-тах ЛФОП (5) заменяются на соответствующие суммы, а в опорных сигналах непрерыв-

ное время t заменяется на дискретное Δ= iti , где df/1=Δ — интервал дискретизации.

Выражение для условной дисперсии при неизвестном априорном распределении f0 и Ul, при условии разрешения гармоник в случае высокой апостериорной точности [8], с учетом (7) имеет вид:

1

1

22

1

2222

1

1 21

2121

1

20

20200

3),(1)|(

021

==

= ==

=⎥⎦

⎤⎢⎣

⎡=

⎥⎥

⎢⎢

∂∂Ψ∂

⎟⎟⎠

⎞⎜⎜⎝

⎛= ∑∑∑ ∑

L

ll

L

ll

L

i fff

iiL

iii lUU

Tzff

ffUU

zffD

π)

, (9)

где U0i — истинные значения амплитуд; Z2 — отношение сигнал-шум по мощности.

Теперь вычислим оценки амплитуд гармоник математической модели (1). Пусть задано J существенных отсчетов автокорреляционной функции (АКФ) Kj, вычисленных по эк-

{ }∑∑==

+=+=L

lll

L

lll tflytflxtflUftu

100

100 )2sin()2cos()2cos(),( ππϕπ

Page 32: Речевые технологии

32

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

спериментальным данным речевого сигнала. Также известна АКФ Ka(τ) математической модели речевого сигнала, которая задана в следующем виде:

Ka(τ) )(1

2 τl

L

ll SU∑

== , (10)

где Ul — амплитуды несущих гармоник в математической модели; Sl (τ) — функция, которая зависит от номера несущей гармоники l, интервала вре-мени τ, а также от параметров математической модели (таких как f0, F0

мод, τи и др. [6]). Выражение (10) в матричной форме:

Ka = S V, (11)

где Ka — матрица-столбец размером J x 1 с элементами Kaj= Ka )( Δj ;

S — прямоугольная матрица J x L с элементами Kaj= Ka )( Δj ; S — матрица-

столбец размером J x L с элементами Sjl= Sl )( Δj . Ошибку модели (1) отно-сительно экспериментальных данных в матричной форме определим как:ε(V) = (Ka – K)T (Ka – K) = (K – SV)T (K – SV), (12)где K — матрица-столбец размером J x 1 с элементами Kj; T — знак тран-

спонирования. Необходимое условие обращения (12) в минимум:дε(V)/д V = 0. (13)

Положим, что для аутентификации личности по голосу Ka0 = const, при данном допущении систему нелинейных уравнений (13), состоящую из полиномов четвертой степени, можно свести к линейной, а её решение в виде вектора параметров Vl имеет вид:V = (STS)–1STK. (14)

Таким образом, решение системы (13) относительно оценок параметров матема-

тической модели lU)

:

ll VU =)

, Ll ,1= . (15)

Определим характеристики оценок ФЧ, полученных по методу, основанному на ПГМ. Заметим, что грубый потенциальный промах для оценки первой ФЧ

1F)

на практике весьма маловероятен (ввиду относительно большого раз-личия между соседними Ul в этой области), поэтому относительная ошибка оценки частоты первой форманты:

оц ||| 01max01max flfl ⋅−⋅=)

/ ||3100)/( 000

01max ffl δ⋅≈⋅⋅ , (16)

где 00

00 100/||0

⋅= ff f

)σδ — относительная ошибка оценки ЧОТ;

)|( 000ffDf

)=σ — среднеквадратическое отклонение; границы довери-

тельного интервала (для доверительной вероятности P = 99,7%) соответ-ствуют величине

03 fσ± . В качестве характеристики оценки второй ФЧ и

выше будем использовать усреднённую относительную ошибку, соответ-ствующую грубым потенциальным промахам при принятии за оценку ФЧ

0max flF qq

))⋅= соседнего правого или левого обертона, которая в итоге име-

ет вид:

| ïðqFδ)

np0max ||)|31(|| ⋅±= q fl δ / 0

02max 100)1/( ⋅−ql , q = 2,3,... (17)

В таблице 1 приведены значения ФЧ для гласных звуков, полученные методом,

основанным на ПГМ 1F)ПГМ и методом моментов 1F

)ММ, также здесь указа-

ны относительные рассогласования оценок между этими методами: | ïðqFδ)

| =

| 1F îδ)

ПГМ3

Page 33: Речевые технологии

33

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Голубинский А.Н., Булгаков О.М.

Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала

= (| 00100)/| ⋅− ÌÌ

qÌÌ

qÏÃÌ

q FFF)))

. Экспериментальный расчёт оценок ФЧ на основе ма-

тематической модели (1) проводился при параметрах: fd= 8кГц; J = 300; количество от-счётов звука N = 3500 (τи = NΔ); K = 1; F0

МОД = 10 Гц; М0 = = 1; Ф0 = 0; М1 = 1; Ф0 = π; Lmax = 26÷27, при этом для оценки ЧОТ: L = 3; T = τИ; Z

2 = 10.

Как видно из таблицы 1, оценки ФЧ, полученные двумя методами, характеризуются близ-кими значениями — относительные рассогласования | ïð

qFδ)

|, за исключением 1F)

зву-ка /о/ (рассогласование 11,564% обусловлено примерным равенством амплитуд со-седних обертонов в окрестности 3F ) не превышали 5,3%. Это даёт основание по-лагать, что метод оценки ФЧ при использовании ПГМ имеет удовлетворительные точностные характеристики. При этом разработанный метод даёт конструктивный подход к вычислению оценок ФЧ в рамках математической модели, записанной в яв-ном виде, а также лишён ряда недостатков, которые присущи методу моментов и его модификациям.

Таблица 1

Полученные оценки ФЧ могут быть использованы в качестве параметров для аутентифика-ции личности по голосу [5,9].

ЛИТЕРАТУРА

1. Сорокин В.Н. Фундаментальные исследования речи и прикладные задачи речевых технологий // Речевые технологии. 2008. № 1. С. 18–48.

2. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.

3. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1963. 452 с.

4. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. 496 с.

ПГМ ММ ММ

Гласные 0f)

,ГцÏÃÌF1

),Гц

ÌÌF1

),Гц

|| 1F)

δ,%

|| 1îöF)

δ,%

ÏÃÌF2

),Гц

ÌÌF2

),Гц

|| 2F)

δ,%

|| 2ïðF)

δ,%

о 152,3 456,9 458,1 0,24 0,363 913,8 912,2 0,197 17,163

у 149,8 149,8 149,2 0,537 0,369 449,4 450,9 0,355 37,510

а 144,6 723,0 725,4 0,276 0,383 1156,8 1160,8 0,362 12,704

э 144,3 577,2 581,9 0,825 0,384 1731,6 1732,8 0,081 8,404

и 153,6 153,6 154,9 0,903 0,360 2304,0 2189,4 5,254 6,707

ы 152,6 305,2 307,8 1,548 0,363 1526,0 1550,7 1,612 10,155

ПГМ ММ оц ПГМ ММ пр

Гласные ÏÃÌF3

),Гц

ÌÌF3

),Гц

|| 3F)

δ,%

|| 3ïðF)

δ,%

ÏÃÌF4

),Гц

ÌÌF4

),Гц

|| 2F)

δ,%

|| 2ïðF)

δ,%

о 2132,2 2410,8 11,564 7,188 3198,3 3173,4 0,797 4,778

у 2546,6 2588,7 1,638 5,904 3295,6 3224,2 2,221 4,556

а 2458,2 2468,1 0,397 5,905 3325,8 3323,0 0,084 4,358

э 2164,5 2169,1 0,207 6,706 3030,3 3040,1 0,319 4,780

и 3072,0 2971,2 3,400 5,020 3532,8 3594,7 1,730 4,363

ы 2289,0 2304,9 0,694 6,706 3509,8 3391,5 3,503 4,362

ПГМ ММ пр ПГМ ММ пр

Page 34: Речевые технологии

34

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

5. Лабутин П.В., Раев А.Н., Коваль С.Л. Патент на изобретение № 2230375 РФ: МПК 7 G10L15/00, G10L17/00. Метод распознавания диктора и устрой-ство для его осуществления. № 2002123509/09; заявл. 03.09.02; опубл. 10.06.04.

6. Голубинский А.Н. Обработка речевого сигнала на основе модели в виде импульса АМ-колебания с несколькими несущими частотами // Телекомму-никации. 2008. № 12. С. 13–17.

7. Куликов Е.И., Трифонов А.П. Оценка параметров сигналов на фоне по-мех. М.: Сов. радио, 1978. 296 с.

8. Лукин А.Н. Радиофизические методы измерения параметров сложных источников излучения: дис. докт. физ.-мат. наук: 01.04.03. Воронеж, 1998. 415 с.

9. Голубинский А.Н., Булгаков О.М. Аутентификация личности по вокали-зованным участкам речи на основе частоты основного тона и амплитуд кратных гармоник в области первых двух формант // Системы управления и информационные технологии. 2009. № 4.1. С. 134–139.

Page 35: Речевые технологии

35

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Сравнение различных способов оценки схожести распределений частоты основного тона в задаче идентификации диктора по его речи

Григорян Р.Л.Коршунов С.С.Репалов С.А.Хрящев М.Ю.

ФГНУ НИИ «Спецвузавтоматика»344007 Ростов-на-Дону, Газетный пер., д. 51.Тел. (863) 201-28-17. E-mail: [email protected]

В настоящей работе рассматриваются результаты исследования по сравнению различ-ных способов оценки удалённости распределений частоты основного тона в задаче идентификации диктора. Как правило, при идентификации дикторов по распределению основного тона решающее правило строится на основе некоторой элементарной оценки схожести. В работе проводится сравнение как элементарных методов оценки схожести гистограмм распределения частоты основного тона, таких как Евклидово расстояние, так и таких методов, как расстояние Кульбака-Лейблера и хи-квадрат. Показывается преи-мущество методов оценки схожести при использовании расстояний Кульбака-Лейблера и хи-квадрат перед используемыми в настоящее время способами.

Задача автоматической текстонезависимой идентификации дикторов по голосу имеет множество применений. Например, доступ к информации о банковском счёте или идентификация и (или) верификация оператора при голосовом управлении.

Одной из основных характеристик голоса диктора является основной тон — F0. Эта ха-рактеристика считается наиболее изученной, и на данный момент существует мно-жество методик получения значения основного тона на участке речи. В работе [1] описан один из способов, который и был использован в данной работе. Для иденти-фикации диктора используются различные статистические характеристик частоты основного тона. Например, среднее значение частоты основного тона, минималь-ные и максимальные значение. Одной из наиболее часто используемых характери-стик является распределение частоты. При использовании этого метода построение модели диктора состоит в оценке закона распределения. Идентификация состоит в оценке степени близости между двумя распределениями, одно из которых получе-но на этапе обучения, а второе построено по анализируемой записи голоса [2]. Ис-следованию различных методов оценки схожести распределений, представленных в виде гистограмм и посвящено дальнейшее изложение.

Page 36: Речевые технологии

36

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Пусть {F0} — набор значений частоты основного тона в сигнале, вычислен-ных с шагом Δt. Выше отмечалось, что для выделения частоты основно-го тона использовался метод, описанный в работе [1]. Его результатом для каждого сегмента анализа, кроме частоты основного тона, являлась степень вокализованности участка речи — vi. Участки сигнала, имею-щие степень вокализованности меньше некоторого порога, автоматиче-ски отмечались как невокализованные и исключались из дальнейшей обработки. Участки сигнала с частотой основного тона xi, отмеченные как вокализованные, использовались для построения распределения в виде гистограммы значений с весом vi. Итоговое распределение, яв-ляющееся моделью диктора на этапе обучения, представляло собой ги-стограмму с {hi}i

N= 0

, где hi — вероятность нахождения частот основного тона заданных пределах фиксированного частотного диапазона.

В качестве способов принятия решения рассматривались следующие мето-ды оценки схожести распределений:

1. Вероятностная модель. Данный метод широко используется при идентифи-кации дикторов и состоит в следующем. Пусть {xi}i

T= 0

— набор значений

частоты основного тона в исследуемом сигнале, тогда вероятность при-надлежности сигнала диктору описывается выражением:

F = ПiT= 0hi . (1)

2. Евклидово расстояние. Пусть {h1,i}iN

= 0 — модель известного диктора,

а {h2,i}iN

= 0 — модель исследуемой записи, в таком случае степень бли-

зости исследуемой записи диктору описывается выражением:

F = ΣiN

= 0 (h1,i – h1,i)2. (2)

3. Расстояние Кульбака-Лейблера. Пусть {h1,i}iN

= 0 — модель известного дик-

тора, а {h2,i}iN

= 0 — модель исследуемой записи, в таком случае степень

близости исследуемой записи диктору описывается выражением:

F = ∑ =

N

ii

ii h

hlhh

0,2

,1,1 l

i

i

h

hlh

,2

,1. (3)

4. Расстояние Хи-квадрат (первый вариант) [3]. Пусть {h1,i}iN

= 0 — модель из-

вестного диктора, а {h2,i}iN

= 0 — модель исследуемой записи, в таком слу-

чае степень близости исследуемой записи диктору описывается выра-жением:

i

iiNi h

hhF

,1

2,2,1

0

)( −=∑ = . (4)

5. Расстояние Хи-квадрат (второй вариант) согласно [3]. Пусть {h1,i}iN

= 0 — мо-

дель известного диктора, а {h2,i}iN

= 0 — модель исследуемой записи, в та-

ком случае степень близости исследуемой записи диктору описывается выражением:

)(

)(

,2,1

2,2,1

0ii

iiNi hh

hhF

+−

=∑ = .

(5)

Так как размер выборки, используемой для построения гистограммы, для различных записей отличался, то дополнительно для каждого метода исследовались три различных метода нормировки. Использовалось

Page 37: Речевые технологии

37

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Григорян Р.Л., Коршунов С.С., Репалов С.А., Хрящев М.Ю.

Сравнение различных способов оценки схожести распределений частоты основного тона в задаче идентификации диктора по его речи

деление полученного значения функции близости на количество частотных диапа-зонов в модели диктора в модели анализируемой записи или на размер выборки частоты основного тона в идентифицируемой записи.

При получении практических результатов по измерению точности идентификации был проведён ряд экспериментов по вычислению значения эквивалентной ошибки от-крытой идентификации для различных функций оценки расстояний и нормировки. Используемая для проведения тестирования база содержала записи речи 21 дик-тора. Для обучения использовался образец речи диктора средней длительностью 145 секунды, для тестирования использовался отличный от обучающего образец речи средней длительностью 127 секунд. Речевые сигналы были записаны из те-лефонного канала и содержались в аудиофайлах в формате ИКМ с частотой оциф-ровки 8 кГц. Соотношение сигнал/шум в большей части сигнала составляло не хуже, чем 20 дБ.

Входной сигнал подвергался предобработке, которая удаляла из него участки шума и ти-шины. Результирующий сигнал сегментировался на блоки в 512 отсчётов с шагом в 256 отсчётов. Для каждого сегмента принималось решение о степени вокализо-ванности, и для вокализованных сегментов вычислялось значение частоты основ-ного тона.

Помимо вычисления эквивалентной ошибки идентификации для анализа результатов использовался метод вычисления ошибки идентификации, отражающей интеграль-ную стоимость решения с субоптимальным порогом выбираемым потребителем — Cllr [4].

На рисунке представлены результаты для комбинаций и методов с эквивалентной ошиб-кой идентификации меньше 25%.

Рис. Соот ношение Cllr и EER для различных методов идентификации

Соответствие обозначений исследуемым методам: D — евклидово расстояние, KL — расстояние Кульбака-Лейблера, KL_T — расстояние Кульбака-Лейблера с норми-ровкой по размеру выборки для идентификации, Xi — расстояние хи-квадрат (пер-вый вариант), Xi2 — расстояние хи-квадрат (второй вариант), pr — вероятностный метод, pr_T — вероятностный метод с нормировкой по размеру выборки для иден-тификации.

Из полученных данных можно заключить, что вероятностный метод вычисления веро-ятности принадлежности исследуемой записи к выбранному диктору на основании распределения значений частоты основного тона является приемлемым. Однако

Page 38: Речевые технологии

38

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

метод хи-квадрат даёт лучшие результаты по обоим способам оценки ошибки идентификации. Нормирование полученных результатов на ко-личество частотных диапазонов в распределении не оказывает улучше-ния на идентификацию в целом.

В дальнейшем предполагается расширить исследование путём исследова-ния методов сравнения других методов описания распределения плот-ности вероятности частоты основного тона, а также расширить данный метод за счёт включения в него методов учёта динамических характе-ристик, связанных с основным тоном.

ЛИТЕРАТУРА

1. Аграновский А.В., Леднов Д.А., Потапенко А.Н., Репалов С.А., Сулима П.М. Способ выделения основного тона из речевого сигнала // Патент РФ на изобретение № 2184399 от 22.09.2000, МПК 7 J 10 L 15/00.

2. Carey M. J., Parris E. S., Lloyd-Thomas H., Bennett S. Robust Prosodic Features for Speaker Identification // Proc. of ICSLP, 1996, pp.1800–1803.

3. Боровков А.А. Математическая статистика: Учебник. 3-е изд. испр. М.: Изд-во физико-математичской литературы, 2007. 704 с. ISBN 9875-94052-141-X.

4. Niko Brummer, Johan du Preez « Aplication-Independent Evaluation of Speaker Detection» Computer Speech and Language, 2006. Рp. 230–275.

Page 39: Речевые технологии

39

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Оценка информативности параметров речевого сигнала при обработкес использованием нейронных сетей

Костюченко Е.Ю.Коцубинский В.П.Авдеев А.А.Людвиг К.В.Тюменцев И.В.

Томский государственный университет систем управления и радиоэлектроники634050 г. Томск, пр. Ленина, 40.Тел. (факс) (3822) 413-426; E-mail: [email protected]

В работе представлены результаты оценки коэффициента корреляции между параметрами и его влияния на совместную информативность применяемых параметров для исследования речевого сигнала. При исследовании критерия, основанного на результатах обработки тесто-вой выборки обученной нейронной сетью, сформулированы и показаны подходы к выбору и применению конкретных параметров наблюдаемой выборки значений критерия информа-тивности в зависимости от количества планируемых экспериментов. Экспериментально по-казана независимость ранжирования параметров по информативности от используемых ха-рактеристик выборки. Экспериментально показана зависимость ранжирования параметров по информативности от класса решаемой задачи относительно приоритета ошибки первого или второго рода и конкретных значений коэффициентов при вычислении значения инфор-мативности

При использовании в качестве анализируемого речевого сигнала исходный сигнал подаёт-ся на систему фильтров с целью выделения параметров для дальнейшего анализа. В данной работе в качестве системы фильтров применялась система нерекурсивных фильтров, учитывающих особенности слуховой системы человека, с целью выделить параметры речевого сигнала в соотношении, описывающем восприятие сигнала после обработки его слуховой системой [1]. После обработки речевого сигнала на выходе си-стемы фильтров получается спектр, разбитый по каналам, соответствующим критиче-ским полосам слуховой системы человека, представленный в виде матрицы размером Nch*LenSign, где Nch — количество каналов анализа, LenSign — длина исследуемого сигнала в отсчетах. Далее производится формирование собственно параметров для обучения нейронной сети. В качестве параметров для исследования выбраны различ-ные статистические характеристики вектора интенсивностей по всем каналам в рас-сматриваемый момент времени.

Исходя из требований к речевому сигналу и его параметрам, предназначенным для анализа с применением искусственных нейронных сетей прямого распространения, были выбра-

Page 40: Речевые технологии

40

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

ны следующие условия для проведения экспериментальной части работы по оценке информативности параметров:

1) частота дискретизации сигнала 12 кГц, теоретический максимум анали-за составляет в этом случае 6 кГц, на практике получается строить спек-тральную картину до 4 кГц, что позволяет в случае необходимости полу-чать формантную структуру сигнала до третьей форманты [2], что является достаточным при решении задач идентификации диктора [3]);

2) обучение проводилось применительно к решению задачи разбиения сиг-нала на вокализованные и невокализованные участки;

3) 256 каналов анализа;

4) размер окна выбран исходя из минимальной продолжительности вока-лизованного участка для речевого сигнала 360 отсчётов, что соответствует 30 мс;

5) количество входов нейронной сети определяется размерностью параме-тров, при этом количество параметров в условиях данного эксперимента не должно превышать 3, поскольку обучение на 4 параметрах, что соответству-ет 1440 входам, не представляется возможным ввиду чрезмерно большой ошибки уже на этапе обучения (итоговая ошибка не менее 0,25);

6) исследуемые параметры:

— mosp — среднее значение интенсивности на отсчёте;— dispr — дисперсия интенсивности на отсчёте;— asim — коэффициент асимметрии интенсивности на отсчёте;— asim1 — отношение медианы интенсивности к среднему значению на отсчёте;— cvar — вариация интенсивности на отсчёте;— lmosp — логарифм среднего значения интенсивности на отсчёте;— maxch — номер канала с максимальной интенсивностью на отсчёте;— medi — медиана интенсивности на отсчёте;— prand — случайная величина, равномерно распределенная в диапа-зоне [-0,5; 0,5];— disprcorr — параметр, представляющий собой линейную комбинацию параметров dispr и prand.

Для исследования выбраны параметры:

— множество возможных параметров является открытым. Всегда можно синтезировать новый параметр, не используемый ранее;— процедура выделения данных параметров имеет линейную сложность относительно количества каналов и размера окна анализа после операции получения спектра сигнала. Данное соображение является актуальным, поскольку получение сигнала после фильтрации имеет высокую вычисли-тельную сложность и добавление дополнительных вычислительно ёмких процедур приведёт к существенному общему росту общего времени вы-числений;— первоначальный выбор параметров не влияет на алгоритм определения оптимальных параметров интерпретатора и на алгоритм их ранжирования по информативности.

После составления обучающий выборки на основе наблюдаемого диапазона из-менения параметров диапазон приводился к [-1; 1] (нормировка). Данный этап необходим для корректного обучения нейронной сети и обеспечения

Page 41: Речевые технологии

41

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Костюченко Е.Ю., Коцубинский В.П., Авдеев А.А., Людвиг К.В., Тюменцев И.В.

Оценка информативности параметров речевого сигнала при обработке с использованием нейронных сетей

влияния параметров, не зависящего от разницы их абсолютных значений, кроме того нормализация позволяет увеличить скорость обучения нейронной сети в случае значи-тельного разброса значений входных параметров.

Эталонная обучающая выборка получена после выполнения последовательности следую-щих действий, представляющей собой алгоритм формирования наборов для нейрон-ной сети:— для получения обучающей выборки записаны 25 сигналов, представляющих собой запись произнесённых диктором фраз, выбранных на основе [4];— проведена ручная сегментация данных сигналов по признаку наличия или отсутствия вокализации на сегменте;— проведена фильтрация полученных речевых сигналов системой фильтров, учитыва-ющих особенности речевой системы человека [5];— из результата фильтрации рассчитаны значения параметров для обучения нейронной сети для всего речевого сигнала;— из значений параметров сформирована обучающая выборка путём вырезки из по-лученных параметров речевого сигнала окон длиной 360 отсчетов, что соответствует 30 мс. Нарезка таких окон осуществлялась с шагом 180 отсчётов (15 мс), за исключени-ем «буферной зоны», составляющей участки сигнала, удалённые от границы сегмента менее чем на 180 отсчётов (15 мс). Это сделано с целью, чтобы на протяжении окна эталонной выборки не происходили переходные процессы, происходящие при смене атрибутов между сегментами;— каждому из полученных таким образом примеров сопоставлено значение атрибута, соответствующее значению этого атрибута на сегменте, которому принадлежит это окно.

После выполнения данной последовательности действий получена обучающая выборка объ-ёмом NОб = 2038 примеров.

Для получения тестовой выборки осуществлена сегментация дополнительно 25 сигналов, представляющих собой запись произнесённых диктором фраз, выбранных на основе [4], и не участвовавших при формировании тестовой выборки. После этого к данным сигналам был применён алгоритм формирования наборов для нейронной сети с тем отличием, что шаг при нарезке составил 60 отсчётов (5 мс) и нарезка наборов произво-дилась, в том числе, и с «буферных зон». Объём тестовой выборки составил NT = 7608 примеров.

В таблице 1 приведено значение достигнутых уровней ошибки для различного количества нейронов в промежуточном слое и количество циклов обучения, за которое достигается ошибка, равная 110% от конечного значения. Шаг при оценка был равен 25 циклам обучения. Обучение проводилось на примере параметра maxch — номер канала с мак-симальной интенсивностью.

Таблица 1Зависимость обучаемости нейронной сети от количества нейронов

в промежуточном слое для параметра maxch

50 Циклы 90 Циклы 100 Циклы 110 Циклы 150 Циклы

1 0,009201 1150 0,009174 1125 0,008838 725 0,007926 1025 0,008023 825

2 0,009834 1550 0,006487 1350 0,006869 925 0,006385 925 0,00666 825

3 0,00884 1375 0,007231 1125 0,006379 750 0,006474 875 0,007192 1150

4 0,007135 1400 0,00825 925 0,006484 1125 0,007846 950 0,005629 775

5 0,008138 975 0,009114 975 0,005419 1000 0,005783 975 0,006237 950

Ср. 0,00863 1290 0,008051 1100 0,006798 905 0,006883 950 0,006748 905

Page 42: Речевые технологии

42

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

При проведении экспериментов было замечено значительное ухудшение обуча-емости при снижении количества нейронов с 100 до 50. Это было выявлено на основании снижения частоты достижения обученности нейронной сети до минимального приемлемого уровня до значения 0,5. Даже без учёта данных грубых обучений итоговая ошибка для нейронной сети со 100 ней-ронами в скрытом слое всё равно более чем на 20% выше, чем в случае нейронной сети с 50 нейронами в скрытом слое. При увеличении количест-ва нейронов существенных изменений уровня обученности сети не наблю-дается, однако существенно возрастает время обучения нейронной сети за счёт увеличения времени, затрачиваемого на 1 цикл обучения. Кроме того, за время эксперимента не наблюдалось останова процесса обуче-ния за счёт достижения предельного количества обучений в 5000 циклов и было принято решение оставить это значение в качестве порогового кри-терия останова в случае неустойчивого обучения нейронной сети, посколь-ку оказывается быстрее сгенерировать и обучить новую нейронную сеть. На основании проведённого эксперимента была выбрана нейронная сеть с количеством нейронов в промежуточном слое равным 100 и предельным количеством циклов обучения равным 5000.

На основе разработанной методики по минимизации критерия, зависящего от результатов обработки тестовой выборки, проведена серия из 20 экспери-ментов для каждого из параметров, в рамках каждого из которых проводи-лось создание и обучение новой нейронной сети, с целью получения выбор-ки оценок информативности на основе анализируемого критерия с целью последующей статистической обработки. Результаты экспериментов для сегментации сигнала на вокализованные и невокализованные участки для 10 экспериментов представлены в таблице 2.

Та блица 2

Значения критерия информативности для выбранных параметров

Общее число обучений нейронной сети для каждого из параметров составило 20 раз. На основе этих данных определены такие параметры значений кри-терия, как среднее значений mean, дисперсия disp, медиана median и ми-нимальное наблюдаемое значение min.

Для исследования влияния линейной зависимости параметров была рассчитана матрица коэффициентов корреляции. Примеры значений каждого из ана-лизируемых параметров на окне размеров в 360 отсчётов представлены для параметров на рисунке.

№ Эксп. 1 2 3 4 5 6 7 8 9 10

maxch 0,4149 0,4122 0,4074 0,4063 0,3971 0,4111 0,4096 0,3894 0,3978 0,4082

medi 0,5743 0,5627 0,5446 0,5716 0,5634 0,5534 0,5509 0,5754 0,5501 0,5431

mosp 0,5981 0,5944 0,6155 0,6055 0,5965 0,5989 0,5982 0,6094 0,6054 0,617

1mosp 0,7912 0,827 0,6437 0,6682 0,6797 0,6997 0,7328 0,6585 0,74 0,6841

asim 0,7276 0,7711 0,708 0,7127 0,6602 0,7136 0,6682 0,718 0,6999 0,7161

asim1 0,4868 0,4928 0,5207 0,4557 0,5 0,5319 0,5018 0,4876 0,5087 0,4839

dispr 0,5054 0,5559 0,5478 0,5534 0,5342 0,5276 0,5131 0,5308 0,5111 0,5488

cvar 0,7105 0,6446 0,7955 0,6605 0,6087 0,8221 0,6328 0,8043 0,8602 0,6536

Page 43: Речевые технологии

43

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Костюченко Е.Ю., Коцубинский В.П., Авдеев А.А., Людвиг К.В., Тюменцев И.В.

Оценка информативности параметров речевого сигнала при обработке с использованием нейронных сетей

Рис . Значения выделяемых параметров речевого сигнала на примере одногоокна анализа (360 отсчётов)

Идея эксперимента заключалась в выявлении более важного влияния на нейронную сеть при совместном использовании нескольких (трёх) параметров. Выбор осуществлялся меж-ду информацией, содержащейся в параметрах и коэффициенте корреляции. Значения коэффициентов корреляции между каждой парой параметров, полученные на 50 сигна-лах, представлены в таблице 3.

Таблица 3

Значения коэффициентов корреляции между параметрами

После ранжировки на основе коэффициента корреляции был произведён выбор трёх пара-метров для обучения нейронной сети на основании критерия минимального значения максимального модуля коэффициента корреляции среди параметров выбранной груп-пы. На основании этого были выбраны параметры asim1, maxch и medi. Кроме того была сформирована контрольная группа параметров на основании обратного крите-рия (максимальное значение минимального модуля) из параметров mosp, dispr и medi. На основании сформированной выборки было проведено обучение нейронной сети

mosp dispr asim asim1 cvar 1mosp maxch medi

mosp 1 0,9303 -0,1383 -0,0672 -0,0537 0,4423 -0,1942 0,795

dispr 0,9303 1 -0,0327 -0,1624 0,0894 0,4543 -0,1924 0,5774

asim -0,1383 -0,0327 1 -0,2307 0,7464 -0,1357 0,2234 -0,1706

asim1 -0,0672 -0,1624 -0,2307 1 -0,6792 -0,5296 0,1099 0,1558

cvar -0,0537 0,0894 0,7464 -0,6792 1 0,1749 0,0351 -0,1778

1mosp 0,4423 0,4543 -0,1357 -0,5296 0,1749 1 -0,2757 0,2635

maxch -0,1942 -0,1924 0,2234 0,1099 0,0351 -0,2757 1 -0,1157

medi 0,795 0,5774 -0,1706 0,1558 -0,1778 0,2635 -0,1157 1

Page 44: Речевые технологии

44

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

и оценка критерия информативности при равной значимости ошибок пер-вого и второго родов и значении коэффициента нелинейности s равным 1 (сумма частот встречаемости ошибок первого и второго рода). На основа-нии этого по результатам 20 обучений были получены значения критерия M=0,3591 для параметров, выбранных с учётом корреляции и M=0,4201 для значений без учёта данного коэффициента. Уменьшение значения критерия информативности за счёт использования коэффициента корре-ляции составило 17%, что показывает необходимость учёта взаимной кор-реляции между параметрами при выборе входных параметров нейронной сети.

ЛИТЕРАТУРА

1. Bondarenko V. P., Moor V. R., Chabanets A. N. The analysis of speech perception me-chanisms on the models of auditory system // Proceedings XIth ICPhS. Tallinn, 1987. V. 2. P. 77–80.

2. Михайлов В. Г., Златоустова Л. В. Измерение параметров речи / Под ред. М.А. Сапожкова. М.: Радио и связь, 1987. 168 с.

3. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Государствен-ное издательство литературы по вопросам связи и радио, 1963. 450 с.

4. ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки каче-ства, разборчивости и узнаваемости.

5. Конев А. А. Мещеряков Р. В. Алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки // Сборник трудов XIX сессии Российского акустического общества. Т. III. М.: ГЕОС, 2007. С. 56–60.

Page 45: Речевые технологии

45

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Параметрическое описаниеударных гласных звуков

Конев А.А.Мещеряков Р.В.Тиунов С.Д.Черных Д.В.Чижевская С.Ю.

Томский государственный университет систем управления и радиоэлектроники.634050 г. Томск, пр. Ленина, 40.Тел. (факс) (3822) 413-426. E-mail: [email protected]

В настоящее время основными параметрами гласных звуков принимаются частота основного тона и форманты. В настоящей работе предлагается определение значения частоты и интен-сивности двух максимальных по интенсивности гармоник, выделяемых в областях до 800 Гц и от 800 до 2400 Гц. Кроме того, показывается структура фонем/аллофонов для звукового строя языка. Сформированы критерии структурированного описания гласных звуков. Таким образом, показывается возможность параметрического описания гласных звуков с учётом звукового строя языка.

Наиболее распространённым подходом к построению параметрического описания речевого сигнала является применение одного и того же алгоритма для всех классов звуков. Это упрощает предварительную обработку сигнала, исключает использование предвари-тельной сегментации. С другой стороны, подобный подход не учитывает особенностей системы речеобразования и генерации различных классов звуков.

Предлагаемый подход основан на применении различных алгоритмов получения параметров речевого сигнала для разных классов звуков. Это связано с тем, что вокализованные участки обладают квазипериодической структурой из-за участия голосового источника в генерации речевого сигнала [1]. Квазипериодическая структура позволяет в качестве основы параметрического описания вокализованных звуков использовать параметры гармонических составляющих сигнала. Таким образом, алгоритмы получения параме-тров сегментов сигнала будут отличаться в зависимости от типа источника (голосовой или шумовой).

Звуки могут быть образованы как при помощи только голосового (гласные, сонанты) или шу-мового (глухие согласные) источника, так и с использованием обоих типов источников (звонкие согласные). Поэтому для проверки алгоритмов, предназначенных для квазипе-риодических сигналов, целесообразно проводить анализ звуков, генерируемых только голосовым источником. Из выбранных классов звуков наиболее изученными являются ударные гласные звуки. Чаще всего алгоритмы получения их параметрического описа-ния основаны на анализе формантной структуры [2].

Основываясь на формантной структуре ударных гласных, можно предположить, что в обла-сти формантных частот должны находиться максимальные по интенсивности гармоники сигнала. Тогда в параметрическое описание должны быть включены максимальные по

Page 46: Речевые технологии

46

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

интенсивности гармоники. При этом их поиск должен проводиться в облас-тях первой и второй формант. Граница разбиения всей анализируемой ча-стотной области на области первой и второй формант расположена около 850 Гц [3]. В данном исследовании граница была выбрана равной 800 Гц. В каждой из полученных частотных областей были выбраны по две гармо-ники с максимальной интенсивностью.

Для получения параметров речевого сигнала, необходимых для описания удар-ных гласных звуков, использовался программный комплекс, реализующий модель периферической части слуховой системы человека. Этапы обработ-ки сигнала с использованием программного комплекса:

— предварительная фильтрация, позволяющая получить параметры рече-вого сигнала с высокой точностью (погрешность вычисления частоты основ-ного тона менее 1%) [4];

— одновременная маскировка, позволяющая выделить значимые для слу-ховой системы компоненты речевого сигнала [5];

— сегментация речевого сигнала на вокализованные и невокализованные участки (надёжность сегментации — более 90%) [6];

— определение каналов фильтрации, соответствующих гармоникам вока-лизованных участков речевого сигнала и определение значений частоты и интенсивности этих гармоник на каждом дискретном отсчете времени.

Для обработки использовались вручную отсегментированные речевые сигналы дикторов обоего пола. Сигналы содержали слитную речь, например, фразу: «Быть может, от этого именно удара погиб материк, лежавший на запад от Африки в Атлантическом океане».

Для параметрического описания ударных гласных использовались следующие параметры:

— признак вокализованности сегмента;

— частота максимальной по интенсивности гармоники, лежащей в области частот до 800 Гц;

— частота второй по интенсивности гармоники, лежащей в области частот до 800 Гц;

— частота максимальной по интенсивности гармоники, лежащей в области частот от 800 до 2300 Гц;

— частота второй по интенсивности гармоники, лежащей в области частот от 800 до 2400 Гц.

На рис. 1–6 изображена динамика изменения частоты (ось ординат) гармоник, выбранных для параметрического описания ударных гласных, во времени (ось абсцисс, частота дискретизации 12 кГц). При этом чёрным цветом ука-заны максимальные по интенсивности гармоники в каждой из рассматри-ваемых областей, а серым вторые по интенсивности гармоники. В нижней части рисунков изображена динамика изменения частоты основного тона на анализируемом участке.

Из рис. 1–2 следует, что на стационарном участке гласной [А] максимальная гар-моника в первой области равна 550–700 Гц, т.е. соответствует известным данным по частоте первой форманты. Несмотря на более высокое значение частоты максимальной гармоники во второй области по сравнению со сред-нестатистической частотой второй форманты, звук [А] можно однозначно определить по значению, соответствующему первой форманте.

Page 47: Речевые технологии

47

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю.

Параметрическое описание ударных гласных звуков

Параметры звука [О] диктора-мужчины соответствуют известным значениям частоты первой (400–500 Гц) и второй (800–1100 Гц) формант. Только на переходном к звуку [ж] участ-ке происходит превышение значения частоты второй форманты. У диктора-женщины первая форманта находится между двумя гармониками, что приводит к изменению на протяжении звука [О] номера максимальной гармоники.

Рис. 1. Звук [А] из слова «жАлованье» (диктор — мужчина)

Рис. 2. Звук [А] из слова «жАлованье» (диктор — женщина)

Параметры звука [И] обоих дикторов в целом соответствуют известным значениям частоты первой (200–350 Гц) и второй (1800–2200 Гц) формант. Превышение значения частоты второй форманты (до 2400 Гц) связано с мягкостью следующего звука [м'].

2 5002 4002 3002 2002 1002 0001 9001 8001 7001 6001 5001 4001 3001 2001 1001 000

900800700600500400300200100

26639 26733 26834 26935 27036 27137 27238 27340 27441 27542 27643 27744 27846 27947 28048 28149 28250 28352 28453 28554

140

120

100

80

Ж ЛА

2 5002 4002 3002 2002 1002 0001 9001 8001 7001 6001 5001 4001 3001 2001 1001 000

900800700600500400300200100

26879 26937 27001 27084 27127 27190 27254 27317 27380 27443 27507 27570 27633 27696 27759 27823 27888 27949 28012 28076260

240

220

200

180

Page 48: Речевые технологии

48

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 3. Звук [О] из слова «мОжет» (диктор — мужчина)

Рис. 4. Звук [О] из слова «мОжет» (диктор — женщина)

Рис. 5. Звук [И] из слова «именно» (диктор — мужчина)

1 8001 7001 6001 5001 4001 3001 2001 1001 000

900800700600500400300200100

7725 7769 7817 7865 7913 7961 8010 9791 8106 8154 8203 8251 8299 8347 8395 8444 8492 8540 8588 8637 8685 8733 8781 8829260

240

220

2 3002 2002 1002 0001 9001 8001 7001 6001 5001 4001 3001 2001 1001 000

900800700600500400300200100

18959 19006 19056 19107 19157 19208 19259 19309 19360 19410 19461 19512 19562 19613 19663 19714 19764 19815 19866 19916260

240

220

1 5001 4001 3001 2001 1001 000

900800700600500400300200100

9359 9416 9478 9541 9603 9666 9728 9791 9853 9916 9978 10047 10123 10199 10275 10351 10427 10503 10579 10655 10730

260

240

220

Page 49: Речевые технологии

49

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю.

Параметрическое описание ударных гласных звуков

При анализе данных, полученных по ударным гласным звукам, был выявлен ряд недостатков. В некоторых позициях в слоге сближаются параметры [О] и [У], [А] и [О], [Э] и [Ы], т.е. необходим анализ параметров гласного с учётом окружающих звуков. При пересечении гармоникой частотной границы между областями (800 Гц) возможно резкое изменение номера второй по интенсивности гармоники в области. Более высокий уровень интен-сивности у низкочастотных гармоник может приводить к некорректному определению максимальных гармоник на некоторых участках (например, на рис. 6 во второй области на некоторое время максимальной становится гармоника с частотой 1150 Гц).

Рис. 6. Звук [И] из слова «именно» (диктор — женщина).

Адекватность предложенного подхода подтверждается совпадением используемых параме-тров с известными частотами формант гласных звуков. Основное направление дальней-шей работы — набор статистики по ударным гласным звукам, включающей предлага-емые параметры. На основе предложенного подхода планируется создание алгоритма, позволяющего классифицировать ударные гласные, составление параметрического описания безударных гласных и сонант. Кроме того, планируется изучение перехода максимума интенсивности с одной гармоники на другую в качестве дополнительного параметра сегментации вокализованных участков речевого сигнала.

ЛИТЕРАТУРА

1. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Государственное издатель-ство литературы по вопросам связи и радио, 1963. 450 с.2. Huang Xuedong. Spoken language processing: a guide to theory, algorithm and system development. New Jersey: Prentice Hall PTR, 2001. 980 с.3. Михайлов В. Г., Златоустова Л. В. Измерение параметров речи / Под ред. М.А. Сапож-кова. М.: Радио и связь, 1987. 168 с.4. Бондаренко В. П., Конев А. А. Оценка точности определения значения частоты основ-ного тона речевого сигнала // Сборник трудов XIX сессии Российского акустического общества. Т. III М.: ГЕОС, 2007. С. 33–36.5. Бондаренко В.П., Пономарев А.А., Рогозинская Е.А. Модель одновременной маски-ровки // Интеллектуальные системы в управлении, конструировании и образовании Томск: STT, 2004. 216 С. 167–174.6. Конев А. А. Мещеряков Р. В. Алгоритм сегментации речевого сигнала на вокализован-ные и невокализованные участки // Сборник трудов XIX сессии Российского акустическо-го общества. Т. III М.: ГЕОС, 2007. С. 56–60.

2 4002 3002 2002 1002 0001 9001 8001 7001 6001 5001 4001 3001 2001 1001 000

900800700600500400300200

20842 20889 20898 20927 20958 20985 21014 21043 21072 21101 21130 21159 21188 21217 21246 21275 21304 21333 21382 21391260

240

220

200

Page 50: Речевые технологии

50

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок

Конев А.А.Мещеряков Р.В.Жевуров С.В.Хлебников В.С.

Омский государственный университет систем управления и радиоэлектроники634050 г. Томск, пр. Ленина, 40.Тел. (факс) (3822) 413-426. E-mail: [email protected]

В статье рассматривается подход к сегментации вокализованных участков ре-чевого сигнала на два класса звуков. В первый класс звуков входят звонкие со-гласные, во второй класс — сонорные. Подход к сегментации основан на анали-зе сигнала после одновременной маскировки, т.е. на особенностях восприятия различных классов звуков слуховой системой человека. Представлена структура сегментов сигнала после одновременной маскировки, соответствующих различ-ным классам звуков, и обозначены основные отличия. Рассмотренные отличия могут быть использованы при создании алгоритма автоматической сегментации вокализованных участков сигнала на предложенные классы.

В теории речеобразования рассматриваются два типа источников речевого сиг-нала — голосовой и шумовой [1]. Голосовой источник генерирует квазипе-риодический сигнал, характеризующийся наличием гармонической структу-ры. В сигнале, генерируемом шумовым источником, гармоническая структу-ра отсутствует либо является слабовыраженной.

Кроме сигналов, генерируемых исключительно голосовым или только шумовым источником, речеобразующая система человека способна генерировать сигналы, в образовании которых могут участвовать одновременно оба типа источника.

С другой стороны, в фонетике существует классификация звуков речи, учитыва-ющая тип источника, сгенерировавшего звук [2]. В соответствии с этой клас-сификацией к звукам, образованным с использованием только голосового источника, относятся сонорные, с использованием только шумового — глу-хие согласные, с использованием обоих источников — звонкие согласные.

Таким образом, подобная классификация существует как со стороны речеобра-зования, так и со стороны речевосприятия. Значит, слуховая система долж-на воспринимать параметры речевого сигнала, позволяющие различить соответствующие классы звуков.

Page 51: Речевые технологии

51

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю.

Параметрическое описание ударных гласных звуков

Слуховая система человека обладает эффектом одновременной маскировки частот [3]. Он возникает в том случае, когда рядом расположенные нейроны воспринимают две или более компоненты, частоты которых находятся недалеко друг от друга. При этом частота с более высокой амплитудой подавляет частоту с более низкой амплитудой, вплоть до того, что вторая частота может вообще не восприниматься.

Используемая в исследованиях система фильтров основана на модели периферической ча-сти слуховой системы человека [4]. В данной модели учитывается эффект одновремен-ной маскировки. После одновременной маскировки сигнал имеет структуру, представ-ленную на рис.1.

Рис. 1. Структура речевого сигнала после одновременной маскировки

Изображённая структура представляет собой набор бинарных данных. По оси абсцисс — вре-мя в дискретных отсчётах (частота дискретизации — 8 кГц), по оси ординат — номера частотных каналов фильтрации (0 канал — 2500 Гц, 255–50 Гц). Чёрным цветом вы-делены компоненты, которые представлены значением на частотном канале равном единице. Эти компоненты воспринимаются слуховой системой человека. Белым цветом выделены компоненты, невоспринимаемые слуховой системой и которые представлены значением на частотном канале, равном нулю. На сегменте, соответствующем звуку «и», чётко просматривается «полосатая» гармоническая структура сигнала. В «полосу» входят сама гармоника и прилегающие к ней незамаскированные частотные компонен-ты. Таким образом, «полоса» — непрерывный интервал единиц на одном временном от-счете. На сегменте, соответствующем звуку «п», гармоническая структура отсутствует.

На основе полученной структуры был создан алгоритм сегментации сигнала на вокализован-ные и невокализованные участки, описанный в [5]. Разработанный алгоритм в автома-тическом режиме сегментирует речевой сигнал на вокализованные и невокализован-ные сегменты с надёжностью более 90%. При этом вокализованные участки включают в себя звонкие согласные и сонорные звуки, а невокализованные — глухие согласные и «тишину».

Алгоритм основан на анализе в каждый дискретный момент времени частотной области, включающей две гармоники речевого сигнала (два непрерывных интервала единиц определённой длины, разделённых интервалом нолей). Для работы алгоритма созда-ётся набор шаблонов, с которыми сравнивается структура сигнала в текущий момент времени. Каждый шаблон состоит из эталонной последовательности нолей и единиц, характеризующих вокализованный сигнал с определённой частотой основного тона. Пример шаблона приведён в правой части рис. 1.

5152636465767788899

109119130140151161172182192203213224234245255

2387 2569 2752 2934 3116 3298 3481 3663 3845 4027 4210 4392 4574 4757 4939 5121 5303 5486 5668 5850 60322

равно 1

равно 0

П Р И

Page 52: Речевые технологии

52

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

В данном исследовании был проведён анализ возможности применения анало-гичного подхода для сегментации вокализованных сегментов на участки, соответствующие сонорным и звонким согласным звукам. Исследование заключалось в визуальном анализе структуры сигнала после одновремен-ной маскировки на участках, соответствующих различным классам вокали-зованных звуков. При визуальном анализе оценивалось наличие/отсутствие гармонической структуры сигнала на каждом участке.

Структура речевого сигнала после одновременной маскировки приведена для женского (рис. 2) и мужского (рис. 3) голосов. В качестве примера представ-лен участок слова «предложил».

Рис. 2. Структура сонорных и звонких согласных звуков (диктор-женщина)

После проведения визуального анализа было установлено, что гармоническая структура у звонких согласных чаще всего отсутствует на частотах выше 2–4 гармоники. По предварительным исследованиям гармоническая струк-тура у более 80% звонких согласных отсутствует на частотах выше 800–900 Гц. Примерно в половине случаев гармоническая структура отсутствует на частотах выше 500 Гц.

Гармоническая структура у сонорных прослеживается до 7–8 гармоники. Часто промежуточные «полосы» 3–5-й гармоник отсутствуют частично или пол-ностью (например, 6-я гармоника у звука [а] на рис. 2). При этом гармо-ники, расположенные на частотах выше частоты отсутствующей гармони-ки, хорошо прослеживаются. По предварительным исследованиям у 90% сонорных существует гармоническая структура на частотах выше 800 Гц. Основная часть ошибок у сонорных приходится на безударные гласные и сонанты [р] и [й].

Различие в структуре участков сигнала, соответствующих звонким согласным, сонорным и глухим звукам, является подтверждением адекватности ис-пользуемой модели периферической части слуховой системы человека. Проведённые исследования показывают связь между артикуляционными

5

15

26

36

46

57

67

78

88

99

109

119

130

140

151

161

172

182

192

203

213

224

234

245

2555162 5294 5427 5559 5692 5824 5956 6089 6221 6353 6486 6618 6751 6883 7015 7148 7280 7413 7545 76772

А Ж Ы

Page 53: Речевые технологии

53

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Конев А.А., Мещеряков Р.В., Тиунов С.Д., Черных Д.В., Чижевская С.Ю.

Параметрическое описание ударных гласных звуков

принципами формирования речевого сигнала и особенностями его восприятия. Однов-ременная маскировка позволяет слуховой системе получить параметры, необходимые для первичной сегментации и классификации речевого сигнала. Что, в свою очередь, даёт возможность использования различных алгоритмов анализа сигнала для различ-ных классов звуков. Например, анализ частоты и интенсивности гармоник можно ис-пользовать для анализа звонких согласных (на нижних частотах) и сонорных звуков.

Рис. 3. Структура сонорных и звонких согласных звуков (диктор-мужчина)

Дальнейшие исследования будут направлены на формирование статистики по структуре ре-чевого сигнала на участках звуков различных классов. Данная статистика необходима для выработки требований к алгоритму сегментации вокализованных участков сигнала на сонорные и звонкие согласные.

ЛИТЕРАТУРА

1. Сапожков М.А. Речевой сигнал в кибернетике и связи. М.: Государственное издатель-ство литературы по вопросам связи и радио, 1963. 450 с.

2. Буланин Л. Л. Фонетика современного русского языка. М.: Высшая школа, 1970. 206 с.

3. Слуховая система / Под ред. Я. А. Альтмана. Л.: Наука, 1990. 620 с.

4. Bondarenko V. P., Moor V. R., Chabanets A. N. The analysis of speech perception mechanisms on the models of auditory system // Proceedings XIth ICPhS. Tallinn, 1987. V. 2. P. 77–80.

5. Конев А. А. Мещеряков Р. В. Алгоритм сегментации речевого сигнала на вокализо-ванные и невокализованные участки // Сборник трудов XIX сессии Российского акусти-ческого общества. Т. III. М.: ГЕОС, 2007. С. 56–60.

5

15

26

36

46

57

67

78

88

99

109

119

130

140

151

161

172

182

192

203

213

224

234

245

2554399 4430 4581 4672 4764 4855 4945 5037 5128 5219 5310 5402 5493 5584 5675 5766 5857 5948 6040 61312

А Ж Ы

Page 54: Речевые технологии

54

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Выделение импульсов основного тона по речевому сигналу

Собакин А.Н.

ГОУ ВПО «Московский государственный лингвистический университет»Россия, 119034, Москва, ул. Остоженка, 38.Тел. 8 (495) 637-56-97. E-mail: [email protected]

Речевые колебания преобразуются в импульсную последовательность (импуль-сное преобразование речи ИПС), синхронную с периодом колебаний голосового источника. По полученной последовательности определяются интервалы, соот-ветствующие сомкнутым голосовым связкам. На этих интервалах определяются несмещённые характеристики речевого тракта и методом обратной фильтрации речевых колебаний вычисляются импульсы основного тона.

Фонационные характеристики речи составляют основу описания источника зву-ковых колебаний, возникающих в речевом тракте. Выделяют четыре основ-ных типа источника речевого сигнала: голосовое (тональное) возбуждение, шумовое (турбулентное) возбуждение, смешанное возбуждение и взрыв (импульсное возбуждение).

Различие между звуками, определяемое типом источника, есть признак способа образования. Основные трудности определения типа источника и его пара-метров по речевому сигналу заключаются в следующем:

1. Некорректность задачи определения типа источника и его параметров из-за того, что речевой сигнал есть свёртка сигнала источника и передаточной функции речевого тракта.

2. Большой диапазон и статистическая природа параметров источника.

3. Наличие нелинейных эффектов взаимодействия между источником и ре-чеобразующим трактом.

4. Возможность генерации звуков при одновременном участии нескольких типов возбуждения.

Шумовой источник возбуждения речевого тракта достаточно полно имитирует-ся случайным сигналом в виде «белого шума», каждое значение которого имеет равномерное распределение по амплитуде и не зависит от предыду-щих значений.

Напротив, импульсное возбуждение изучено слабо: нет надёжных моделей и его характеристик.

При исследовании смешанного источника возбуждения голосовой источник зна-чительно превосходит энергетически шумовой источник. Поэтому исследо-

Page 55: Речевые технологии

55

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Выделение импульсов основного тона по речевому сигналу

вание этого типа возбуждения можно осуществлять алгоритмами и методами, примени-мыми при изучении голосового источника.

Голосовой источник может быть представлен в виде пульсирующего воздушного потока. Фор-ма импульсов воздушного потока имеет приблизительно треугольный вид или усечён-ную снизу синусоиду. Скорость воздушного потока примерно пропорциональна площади раскрытия голосовой щели. Площадь раскрытия голосовой щели монотонно увеличи-вается вплоть до максимального значения (10...20 мм2) на фазе открывания голосовых связок (рис. 1).

t1

n2 n

T0

0

n1

t

Рис. 1. Модельные импульсы основного тона

Наибольшей информационной ёмкостью из всех указанных источников обладает голосовой источник и ему в дальнейшем уделено основное внимание.

Можно выделить два основных параметра голосового источника:

1. Длительность периода колебаний голосовых связок То, которая получила название пе-риода основного тона. Величина, обратная периоду основного тона, Fo=l/To, называется частотой основного тона. Период основного тона состоит из двух интервалов: То=Тс+Тр, где Тс = То– t1 — длительность интервала сомкнутых, и Тр = t1 — длительность интервала разомкнутых голосовых связок.

2. Форма импульса воздушного потока глотки.

Диапазон изменения частоты основного тона очень широк и составляет примерно 60...400 Гц в разговорной речи. Частота основного тона может достигать 2300 Гц при пении. Интер-вал смыкания голосовых связок занимает 30…70% времени от периода основного тона и с ростом частоты отношение Тс/Тр остаётся примерно постоянным.

В научной литературе в модельных представлениях форму импульсов основного тона приня-то описывать положением максимума импульса, величиной (амплитудой) максимума, наклоном начального и конечного участков импульса. Однако следует отметить, что вы-деление импульсов основного тона по речевым колебаниям представляет собой весьма сложную задачу

В рамках линейной модели речеобразования задача определения возбуждающей функции сводится к задаче синтеза линейной системы, обратной воздействию речевого тракта. Сложность расчёта параметров обратной линейной системы усугубляется недостаточ-ностью информации о сигнале возбуждения речевого тракта: известен и доступен для измерения только речевой сигнал (реакция прямой линейной системы). Многочислен-ные прогнозирующие методы расчёта обратной линейной системы по речевому сигналу не дают устойчивых и надёжных результатов. Одна из причин неудовлетворительности получаемых результатов заключается в том, что параметры обратного фильтра являют-ся смещёнными оценками относительно истинных значений. Это приводит к искажению импульсов основного тона и усложнению формы звуковых колебаний. Характеристики голосового источника маскируются сложными колебательными процессами.

Одно из преобразований речевого сигнала [1] позволяет перейти к импульсной последова-тельности, синхронной с периодом (0,T0)колебаний голосовых связок.

Page 56: Речевые технологии

56

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Сложная форма речевых колебаний существенно упрощается предлагаемым нелинейным преобразованием. Получающаяся в результате функция име-ет ярко выраженный импульсный характер. При этом импульсы соответ-ствуют моментам размыкания голосовых связок, а моменты их смыкания соответствуют малым амплитудам, практически равным нулевым значе-ниям.

Предлагаемое нелинейное преобразование речевого сигнала обладает следу-ющими свойствами:− на интервалах смыкания (t0, T0) голосовых связок речевой сигнал полно-стью компенсируется и становится близким к нулю;− на интервалах размыкания (0,t0) речевые колебания преобразуются в по-ложительный импульсs;− форма получающегося импульса отражает форму импульса основного тона;− параметры речевого тракта при этом не оцениваются и в вычислительном процессе не используются.

Все расчёты в предлагаемом методе основываются только на речевом сигнале и его основных свойствах:− на интервалах смыкания голосовых связок функция возбуждения близка к нулю, и линейная система речевого тракта находится в режиме свободных колебаний;− на интервалах размыкания, напротив, имеем вынужденные колебания линейной системы.

Предлагаемое нелинейное преобразование является компенсатором свободных колебаний линейной системы конечного порядка и позволяет производить микросегментацию речи на интервалы смыкания и размыкания голосовых связок.

Метод основан на уравнениях авторегрессии, моделирующих процесс речеобра-зования:xn+ a1xn-1+ …+xn-p= hn. (1)

На интервалах смыкания возбуждающая функция hn равна нулю, и неоднород-ное уравнение (1) преобразуется в однородное векторное следующего вида:

1 1 ...o p px a x a x o+ ⋅ + + ⋅ = , (2)

где { }1, ,..., , 0,1,...,k k k k Nx x x x k p+ += = — векторы длины (N+1), обра-

зованные из отсчётов {xl} речевого сигнала на интервале смыкания (t1, T0)голосовых связок.

Уравнение (2) соответствует режиму свободных колебаний в речевом тракте, и указывает на линейную зависимость системы векторов, образующих ле-вую часть равенства (2) на интервале (t1,T0).

На интервалах размыкания голосовых связок уравнение линейной зависимости не выполняется, и однородное векторное уравнение преобразуется в неод-нородное.

Появляется возможность сегментации периода основного тона на интервалы со-мкнутых и разомкнутых голосовых связок по признаку линейной зависимо-сти или линейной независимости системы векторов.

В теории линейных векторных пространств [2] это разграничение может осу-ществляться вычислением определителя Грамма автокорреляционной ма-трицы Rp+1(n):

Page 57: Речевые технологии

57

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Выделение импульсов основного тона по речевому сигналу

1( ) ( )pM n R n+= , (3)

где р+1 — порядок определителя; n — текущее дискретное время.

Тот факт, что указанный определитель является мерой зависимости или независимости си-стемы векторов, легко обосновывается соответствующим преобразованием равенства (2) в однородную систему линейных уравнений, имеющую нетривиальное решение.

Для получения указанной системы векторное равенство (2) скалярно умножить на векторы

{ }1, ,..., , 0,1,...,k k k k Nx x x x k p+ += = соответственно. Как известно [2] однородная си-

стема уравнений имеет ненулевое решение только в том случае, когда определитель при неизвестных будет равен нулю. На интервалах, соответствующих разомкнутым го-лосовым связкам, система линейных уравнений будет неоднородной, имеющей единст-венное решение. В этом случае главный определитель системы будет отличен от нуля. Определителем при неизвестных в рассмотренных случаях будет определитель Грамма (3), и, следовательно, этот определитель может служить мерой линейной зависимости и независимости системы векторов.

Значение определителя М(n)вычисляется последовательно с шагом дискретизации рече-вого сигнала, при этом на каждом шаге n происходит обновление координат векторов

{ }1, ,..., , 0,1,...,k k k k Nx x x x k p+ += = .

Определитель автокорреляционной матрицы позволяет определять интервалы смыкания го-лосовых связок, на которых функцию возбуждения речевого тракта можно считать из-вестной и равной нулю. На этом интервале формируется система линейных уравнений на основе уравнения (1) следующего вида:

( ) ,p pR n a b× = (4)

где ...?... автокорреляционная матрица порядка p х p, а координаты bk вектора ...?... рав-

ны отрицательным значениям скалярных произведений — ( , )o kx x векторов ox и kx , k = 1,2,… p соответственно.

Система уравнений (4) получается последовательным умножением равенства (1) на векторы

kx , k = 1,2,… p и переносом первых членов в правую часть.

Решение { }1 2, ,..., pa a a a= системы (4) определяет коэффициенты линейного предсказа-

ния, которые являются несмещёнными оценками резонансных характеристик речевого тракта. Они вместе с единичным первым коэффициентом составляют параметры обрат-ного фильтра. Подставляя полученные значения в уравнение (1), вычислим функцию возбуждения hn речевого тракта, образованную работой голосовых связок.

Полученная импульсная последовательность позволяет исследовать характеристики импуль-сов основного тона по речевому сигналу и определять несмещённые параметры рече-вого тракта.

Для повышения надёжности предложенного метода можно производить усреднение оценок параметров обратного фильтра, полученных на нескольких смежных интервалах со-мкнутых голосовых связок, и выделять импульсы основного тона по речевому сигналу на базе усредненных оценок.

Эксперименты по определению интервалов Tc, соответствующих сомкнутым голосовым связ-кам, проводились для стационарных гласных «а», «о», «у», «и», «э», «ы» диктора I (муж., частота основного тона порядка Fo = 150 Гц).

В процессе проведенного эксперимента результаты представлялись в графическом окне, каждое из которых состояло из двух частей: верхней и нижней. В нижней части вы-

Page 58: Речевые технологии

58

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

водилась осциллограмма (т.е. значения x(n) отсчетов речевого сигнала), а в верхней части — график изменения значений функции М(n) порядка p=9 (рис. 2).

Как видно из приводимых графиков, интервалы смыкания голосовых связок (отмечены подчёркиванием на оси абсцисс) определялись достаточно стабильно для всех шести гласных.

Рис. 2. Определение интервалов смыкания для гласных звуков речи

Далее в соответствии с приведённым алгоритмом на этих интервалах вычисля-лись несмещённые оценки обратного фильтра и методом обратной филь-трации (1) определялась функция hn возбуждения речевого тракта.

Приведём эксперименты для стационарных гласных «и», «э» для диктора I (муж., Fo = 130 Гц) и диктора II (жен., Fo = 300 Гц). Полученные импульсы основного тона изображены на рисунке 3.

Рис. 3. Импульсы основного тона для гласных «и», «э» дикторов I и II

Звук «а» Звук «о» Звук «у»

Звук «ы»Звук «э»Звук «ы»

масштаб 10 мс

Диктор I Диктор IIЗвук «и»

Звук «э»

Page 59: Речевые технологии

59

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Выделение импульсов основного тона по речевому сигналу

Как видно из приведённых графиков форма импульсов основного тона существенно сложнее формы модельного импульса и зависит от произносимого звука речи и диктора.

Метод позволяет, таким образом, исследовать импульсы основного тона и их форму по рече-вым колебаниям, и ответить на ряд вопросов речеобразования:

— какова зависимость колебаний голосового источника от произносимого звука речи;— какова доля индивидуальных характеристик диктора в форме импульсов основно- го тона?

ЛИТЕРАТУРА

1. Собакин А.Н. Артикуляционные параметры речи и математические методы их ис-следования // Монография. Вестник МГЛУ. Серия «Лингвистика». Вып. 517. М., 2005. 220 с.

2. Гантмахер Ф.Р. Теория матриц. М.: «Наука», 1967. 575 с.

Page 60: Речевые технологии

60

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Исследование голосового источника речи

Собакин А.Н.

ГОУ ВПО «Московский государственный лингвистический университет».Россия, 119034, Москва, ул. Остоженка, 38.Тел. 8 (495) 637-56-97. E-mail: [email protected]

Преобразование речи в импульсную последовательность, синхронную с коле-баниями голосовых связок, позволяет исследовать форму полученных импуль-сов методами математической статистики. Для этого предлагается производить нормировку полученных импульсов по их центрам и осуществлять сложение нормированных импульсов. Эти процедуры позволяют получить статистически значимый «образ» полученной последовательности импульсов в виде нечёткого множества.

Слуховое восприятие речи в процессе эволюции достаточно хорошо согласовано по своим характеристикам со структурой речевого сигнала и, в частности, с восприятием источника звуковых колебаний. Слуховая система человека определяет тип источника (голосовой, шумовой, смешанный и импульсный) и осуществляет, в частности, регистрацию микроколебаний воздушного по-тока голосового источника. Это обстоятельство указывает на значительную информационную ёмкость голосового источника [1] и на важность изучения формы импульсов основного тона, а также на важность выделения из рече-вого сигнала характерных особенностей функционирования гортани в про-цессе речеобразования.

Проблема информационной ёмкости колебательного процесса голосовых свя-зок с точки зрения речеведения может быть сформулирована следующим образом: зависит ли характер этих вибраций гортани, пересекающих пра-ктически постоянный (медленно меняющийся) воздушный поток от диктора и от произносимого звука речи? Утвердительный ответы на поставленный вопрос повлечёт за собой целый ряд новых задач в исследовании речи в области моделирования процессов образования речи, а также идентифи-кации и верификации диктора по речи, медицинской диагностики и распоз-навании речи. Классическая линейная модель речепроизводства, сосре-дотачивающая информацию о произносимой фонеме лишь в резонансных параметрах артикуляционного аппарата, при этом должна быть скорректи-рована и видоизменена [2,3,4].

Один из возможных алгоритмов выделения импульсов основного тона описан в настоящем сборнике [5]. Он также применим к изучению характерных особенностей функционирования голосового источника и основан на изу-чении формы импульсов, полученных в процессе нелинейного преобра-зования речевых колебаний. Как отмечалось в статье [5], метод «речевые

Page 61: Речевые технологии

61

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Исследование голосового источника речи

колебания» преобразует в импульсную последовательность на основе вычисления определителя автокорреляционной матрицы (определителя Грамма).

Сравнительный анализ импульсов для различных стационарных гласных одного диктора приведён в работе [6]. Он указывает на существовании зависимости формы колеба-ний голосовых связок от произносимого звука речи. Полученные импульсы для одного и того же диктора имели значительные отличия при исследовании различных гласных звуков речи. В настоящей работе приводятся результаты сравнения одного и того же гласного звука в слове, произнесённого разными дикторами.

Предложенный метод исследования фонационных характеристик речи имеет компенсаци-онный и дифференцирующий характер по отношению к речевым колебаниям [6], что накладывает свой отпечаток на поведение получающейся импульсной функции. Этот метод анализа по своей конструктивной сути убирает из речевого сигнала и из функции возбуждения все затухающие гармоники, соответствующие свободным колебаниям ли-нейной системы конечного порядка. При этом с увеличением порядка матрицы возра-стают компенсационные возможности метода, и возрастает количество убираемых гар-монических компонент. Так, например, для звука речи, содержащего четыре форманты, для их компенсации достаточно рассмотреть определитель девятого порядка (удвоенная величина количества формант, плюс единица). Но поскольку предложенное преобразо-вание действует на весь речевой сигнал в целом, то помимо компенсации формантных колебаний, порожденных артикуляционным аппаратом, аннулируются такие составляю-щие из функции возбуждения. Если теперь представить ситуацию, в которой отклик ли-нейной системы (имитация речевого сигнала) образован функцией возбуждения в виде затухающих колебаний (плохое «подражание» функционированию голосовых связок»), то предложенный метод анализа (при соответствующем выборе порядка) производит почти полную компенсацию колебательного процесса.

В результате сохраняются только выбросы амплитуд в местах «склейки» двух «плавных» (дифференцируемых) функций, образующих сигнал возбуждения линейной системы. Места нарушения аналитичности функции возбуждения будут в этом случае подчёркну-ты в виде кратковременных всплесков амплитуды, что с математической точки зрения напоминает операцию дифференцирования сигнала на входе линейной системы. Метод исследования фонации подчёркивает «разрывы» производных в аналоговом или выде-ляет разности в дискретном варианте представления функции возбуждения речевого тракта.

Теоретически высказанное предположение можно подтвердить. Наиболее просто это сделать для дискретного варианта представления речевого сигнала, когда порядок матрицы сов-падает размерностью векторов, на которых образуется автокорреляционная матрица. Последнее условие соответствует локальному методу анализа резонансных свойств ре-чевого тракта [6].

В этом случае матрица R может быть представлена в виде матрицы X, умноженной на со-пряжённую матрицу X1:

R = X X1, (1)

где элементы — xij матрицы X образуются по дискретным значениям x речевого сигнала следующим образом:

xij = xi+j1 для i,j = 1,2,…, m.

Определитель матрицы R будет равен произведению определителей матрицы X и транспони-рованной матрицы X1, которые будут (ввиду их симметричности) равны [7]:

2( )M n R X= = (2)

Легко показать, что определитель матрицы X зависит от разностей различного порядка, образованных по дискретным отсчетам xn речевого сигнала:

Page 62: Речевые технологии

62

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

1 21 2

2 3 1 1 1 11 21 1 1

1 21 2

, ,...,, ,...

, ,...,, ,..., ,

, ,..., ,...,

mm

mm

m m mm

m m m

x x xx x x

x x xX

x x x

+

− − −

+

= = Δ Δ Δ− − − − − − −

Δ Δ Δ (3)

где разности 1 11

q q qp p p

− −+Δ = Δ − Δ q —го порядка, выраженные рекуррентным

образом через разности (q - 1) — го порядка (p,q = 0,1,…, m-1), при этом

1, 0,1,..., 1op px p m+Δ = = − .

Равенство (3) получается рекуррентным вычитанием к-ой строки исходного опре-делителя из всех последующих строк к+1, к+2,…, m. Эта процедура начи-нается с к равного единице, и продолжается до к равного (m-1). Как извест-но [7], подобное преобразование строк не изменяет значения исходного определителя, и он будет равен вновь образованному определителю, зави-сящему от разностей разного порядка. Функция М(n), равная определителю матрицы R, вычисляется по указанным разностям и содержит подчёркнутые моменты нарушения гладкости функции возбуждения.

Нетрудно распространить этот результат на общий случай, при котором выбор порядка автокорреляционной матрицы и величины усреднения на связаны столь жёстким условием равенства друг другу. Матрицу X, вообще говоря, прямоугольную, можно предварительно представить в виде соответствую-щих разностных компонент так же, как это сделано выше. Далее осуще-ствить умножение её на сопряжённую матрицу (1) и лишь после этого вы-числять определитель полученной матрицы R. Равенство (2) в рассматри-ваемом обобщённом варианте, естественно, нарушается. Тем не менее, общий вывод остаётся верным.

Применимость предложенного метода к исследованию фонационной картины речи проверялась для значений параметров преобразования в достаточ-но широких пределах. Предварительно речевой сигнал пропускался через фильтр (с конечной импульсной характеристикой) с полосой пропускания 300–3400 Гц, имитирующий телефонный канал связи. Запись производи-лась через звуковую карту персонального компьютера в среде Windows 98. Частота дискретизации — 12 кГц, количество бит на отсчёт — 16.

Размер матрицы R варьировался от трёх до девяти, а величина усреднения (про-должительность окна анализа, определяемая размерностью вектора) — от 2 до 30 мс. Во всех случаях импульсный характер преобразования сохра-нялся, а сами импульсы имели достаточно ярко выраженный характер по отношению к интервалам смыкании голосовых связок. В этих пределах зна-чений параметров преобразования метод сохранял работоспособность [6].

Реализация данного метода была выполнена в среде MATLAB 5.2.

Для каждого дискретного момента времени j из выбранного участка формирует-ся одномерный массив (вектор), состоящий из значений речевого сигнала {x(j),…, x(j+N+p-1)}, где N — размерность векторов, p — порядок авто-корреляционной матрицы. Каждый из этих массивов обрабатывается сле-дующим образом:

1) ассив преобразуется в элементы матрицы X;

2) на основе формулы (2) формируется матрица R = {rkm} размером p х p;

Page 63: Речевые технологии

63

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Исследование голосового источника речи

3) вычисляется определитель этой матрицы;

4) значение определителя запоминается в одномерном массиве.

Эта процедура повторяется в цикле для каждого дискретного момента времени выбранного диапазона. Таким образом, образуется одномерный массив, содержащий значения фун-кции Мp(n), длина которого равна длине выбранного пользователем участка.

Примером получаемых результатов может служить осциллограмма ударного звука «а» в сло-ве «баранка» (Рис. 1), произнесённого диктором I мужчиной.

На следующем этапе полученная импульсная последовательность в линейном масштабе сег-ментировалась на импульсы, при этом значения меньше порогового 0,01 полагались равными нулю. Далее определялись координаты центров импульсов и все импульсы нормировались таким образом, чтобы ординаты центров принимали общее значение равное 1. Произведённые преобразования формы импульсов были направлены на то, чтобы убрать разброс импульсов по амплитуде и получить суммированием усреднённую форму импульса для каждого диктора.

Рис.1. Осциллограмма звука «а» (верхний график), импульсная последовательностьв линейном (средний график) и логарифмическом (нижний график) масштабе.

Прежде всего, усреднялись все импульсы по амплитуде. Затем каждый импульс отображался на общем рисунке. В результате получались усредненные импульсы и доверительные интервалы, соответствующие удвоенному среднеквадратическому отклонению. Полу-ченные результаты изображены на рисунке 2.

Аналогичные результаты были получены для другого диктора II мужчины для того же слова «баранка» (рис. 3,4).

Анализ показывает явную зависимость формы полученных импульсов от диктора. Форма им-пульсов содержит некоторые компоненты, присущие, вероятно, индивидуальным осо-бенностям фонационного аппарата диктора.

Для выявления этих характеристик достаточно провести корреляционный анализ полученных импульсов и получить «обобщённый» портрет аналога импульса с указанием соответст-вующих доверительных интервалов.

Page 64: Речевые технологии

64

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 2. Выделенные импульсы (левый график) и усреднённые значения(правый график)

Рис. 3. Осциллограмма (верхний график) и импульсы (нижний график)

Рис. 4. Выделенные импульсы (левый график) и усреднённый импульс(правый график)

Полученные результаты можно использовать для сравнения обобщённых «пор-третов» импульсов между собой с целью верификации или идентификации разных дикторов.

Page 65: Речевые технологии

65

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Собакин А.Н.

Исследование голосового источника речи

ЛИТЕРАТУРА

1. Ondrachkova J. Glottographical research in sound Groups // Модели восприятия речи. Международный психологический конгресс. М.,1966. Л., 1966. P. 90–94.

2. Галунов В.И., Тампель Н.Б. Механизм работы голосового источника / Акустический журнал. М., 1981. Т. 27. Вып. 3. С. 321–334.

3. Коваль С.Л., Лапина Л.В., Сапожкова И.Ф. Синтез речи по правилам: Проблемы и перспективы // XV Всес. школа-семинар АРСО-XV: Тез. докл. и сообщ. Таллин, 1989. С. 25–31.

4. Сорокин В.Н. Теория речеобразования. М.: Радио и Связь, 1985. 312 с.

5. Собакин А.Н. Выделение импульсов основного тона по речевому сигналу. В наст. сб.

6. Собакин А.Н. Артикуляционные параметры речи и математические методы их иссле-дования. Монография// Вестник МГЛУ. Вып. 517. М.: МГЛУ, 2006. 220 с.

7. Гантмахер Ф.Р. Теория матриц. М.: Наука, 1967. 567 с.

Page 66: Речевые технологии

66

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Изучение остаточных иноязычных явлений в речиненосителей русского языка как один из параметров, необходимых в лингвокриминалистической деятельности

Златоустова Л.В.Крейчи С.А.

МГУ им. М.В. Ломоносова, филологический факультет.Россия, 119899 Москва, Воробьевы горы.1-й корпус гуманитарных факультетов.Тел. (095) 939-3256; факс (095) 939-5597. Эл. почта: [email protected]

Расширение базы данных иноязычных явлений в речи мигрантов является важ-ной частью противодействия возросшей криминальной обстановке в мегапо-лисах. В работе исследуется спонтанная речь китайцев, говорящих на русском языке, но недостаточно овладевших русской нормативной фонетикой. Целью исследования было выявление наиболее типичных средств реализации ки-тайских тонов в русской речи китайцев. Результат исследования показал, что наиболее характерным параметром остаточных явлений тона оказалось увели-чение длительности, и лишь редко увеличение длительности сопровождается соответствующим тоном. Известно, что наиболее типичный случай китайской речи связан именно с отсутствием мелодической окраски слова, то есть частот-ной модуляцией.

Значительную сложность в акустических исследованиях речи лиц, не являющих-ся носителями русского языка, но говорящих по-русски, представляют оста-точные иноязычные явления. Одни из них имеют достаточно определённый характер, легко распознаваемый на слух, как, например, неразличение со-нантов [р] и [л], мена глухих и шумных согласных (алтайские и тюркские языки), вставочные гласные в языках, не допускающих стечений согласных в начале слова (например, алтайские и тюркские языки). Другие особенно-сти более сложны. Так, акустический анализ русской речи китайцев выявил, кроме сегментных диафонов, суперсегментные систематические измене-ния, прежде всего, ритмической модели русского слова. Представляет инте-рес то обстоятельство, что это не только и не столько тональные изменения, сколько не типичная для русской фонетики временная деформация ритми-ческих моделей русских слов.

Page 67: Речевые технологии

67

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Златоустова Л.В., Крейчи С.А.Изучение остаточных иноязычных явлений в речи неносителей русского языкакак один из параметров, необходимых в лингвокриминалистической деятельности

Исследовалась спонтанная речь студентов-китайцев 3–4 курсов, у которых ещё недостаточ-но выработаны навыки звучащей речи в сфере сегментной и суперсегментной фоне-тики.

Китайский язык относится к группе тоновых языков. Его слог функционирует в качестве сло-ва или морфемы, представляющей тонированный слог, который называют силлабемой или слогофонемой; с целью подчёркивания фонологической роли тона его также от-дельные учёные называют тонемой [1, 2]. В то же время весомым признаком является длительность, типичная для реализации тонов. По данным Зяньфен [1, 2] средняя дли-тельность китайского слога составляет 250 мс; в конце слова и синтагмы она увеличи-вается. Каждый тон имеет также различия по интенсивности.

В китайском языке четыре тона. Принято описывать китайские тоны в терминах регистро-вых уровней. Первый тон является высоким и ровным, второй — относится к тонам высокого регистра, но это восходящий тон. Наиболее контрастным является третий тон. Он низкий по регистру, имеет ровное начало и восходящий конец. Четвёртый тон — нисходящий, который реализуется от высшего уровня к самому низкому. Его относят к высокому регистру.

Рис. 1. Условная регистровая схема тонов китайского языка

На рисунке 1 показано распределение тонов в рамках регистровой схемы. По вертикали арабскими цифрами дано обозначение уровней тонов, а римскими цифрами обозначе-но движение тонов в рамках схемы уровней.

Слогофонема выполняет свою фонологическую и семантическую функции благодаря сово-купности всех перечисленных параметров. В потоке речи наиболее часты случаи утраты ряда характерных тонов при сохранении типичной длительности тона и частично интен-сивности.

Китаец, говорящий по-русски, широко использует возможности русской речи по вариативности длительности, так как русский язык не обладает фонологической долготой звуков, хотя и имеет типичную временнýю структуру ритмической модели фонетического слова. Пе-рейдем к иллюстрациям сказанного. Для русского языка частотны ритмические модели: 2/1, 2/2, 3/2, 4/3, где числитель — количество слогов, а знаменатель — место ударения.

Сравним две синтагмы: одну, произнесённую носителем русской орфоэпической нормы с той же синтагмой, взятой из спонтанного текста носителя китайского языка.

Рассматривается синтагма «очень красивые». Эта синтагма состоит из двух ритмических мо-делей 2/1 и 4/3. В соответствии с русской литературной нормой синтагма характеризует-ся сильным началом и падением энергии в конце высказывания. Словоформа [оч’ьн’] характеризуется тем, что ударный гласный в три раза длительнее заударного. Следу-ющая словоформа [крас’úвъе]. Гласный [а] самый длительный по собственному звуко-вому времени, а под ударением гласный [ú] самый короткий по собственному времени. Тем самым предударный и ударный равны по длительности, что является нормативным для русской «акающей» нормы.

5

4

3

2

1

5

4

3

2

11

2

3

5

III

IV

II

Page 68: Речевые технологии

68

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 2. Осциллограмма, огибающая интенсивности и огибающая частоты основноготона синтагмы «очень красивые», произнесённой носителем русского языка

В произнесении китайцем, не овладевшим нормативной русской фонетикой, обе ритмические модели фонетических слов рассматриваемой синтагмы силь-но деформированы. Ударный слог, начинающий словоформу «очень» реа-лизован со слабым и кратким (50 мс) ударным слогом, а заударный, пред-ставленный узким гласным, который в норме редуцируется в гласный пере-днего ряда [ъ], оказался более длительным (70 мс). Первый предударный гласный словоформы «красивые» имеет значительную длительность — 350 мс, а ударный рассматриваемой словоформы — 70 мс. Последние два слога этой словоформы равны 100 мс. Огибающая частоты основного тона (ЧОТ) реализована на практически ровном тоне. Огибающая интенсивно-сти также ровная. Значение ЧОТ первого предударного слога имеет базо-вую частоту и падет до минимальной величины — 96 Гц. Общий частотный диапазон синтагмы 130–96 Гц (рис. 3).

Рис. 3. Осциллограмма, огибающая интенсивности и огибающая частоты основноготона синтагмы «очень красивые», произнесённой носителем китайского языка

Отметим, что и в русском и в китайском языках конец синтагмы увеличивается во времени, но в русской речи китайцев это увеличение превышает вре-мя как конца синтагмы в китайском, так и в русском языках. По-видимому, увеличение длительности словоформ не только в конце, но и в серединной позиции синтагмы, компенсирует отсутствие либо слабую выраженность

Очень красивые

Page 69: Речевые технологии

69

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Златоустова Л.В., Крейчи С.А.Изучение остаточных иноязычных явлений в речи неносителей русского языкакак один из параметров, необходимых в лингвокриминалистической деятельности

ЧОТ в русской речи китайцев. Примером увеличения конечных гласных могут служить рисунки 5 и 7, где равное время имеют ударные и заударные гласные [а].

Рис. 4. Осциллограмма, огибающая интенсивности и огибающая частоты основного тонасинтагмы «я убегал», произнесённой носителем русского языка

Рис. 5. Осциллограмма, огибающая интенсивности и огибающая частоты основного тонасинтагмы «я убегал», произнесённой носителем китайского языка

Рис. 6. Осциллограмма, огибающая интенсивности и огибающая частоты основного тона синтагмы «почти полгода», произнесённой носителем русского языка

Page 70: Речевые технологии

70

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 7. Осциллограмма, огибающая интенсивности и огибающая частоты основноготона синтагмы «почти полгода», произнесённой носителем китайского языка

В обоих сравниваемых случаях конечные гласные [а] синтагм равны 300 мс. В та-блице даются средние значения увеличенных во времени гласных (речь китацев).

Таблица

Следует отметить, что частотные характеристики могут сопровождать увеличен-ную длительность гласных, особенно это касается первого и четвёртого то-нов. Как уже было сказано, весь материал — запись спонтанной речи. Она имеет несколько замедленный характер, среднезвуковое время по всем дикторам составляет 112 мс.

ЛИТЕРАТУРА

1. Н.А. Спешнев // Введение в китайский язык. С.-Пб. 2006.

2. М.К. Румянцев // Тон и интонация в современном китайском языке. М., 1972.

Гласный звук Неконечная позицияв синтагме

Конечная позицияв синтагме

а 300 мс 300 мсá 300 мс 320 мси 300 мс 280 мсú 220 мс 300 мсé 300 мс 320 мсý 200 мс 250 мс

Page 71: Речевые технологии

71

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Дыхательные паузы в слитной речи: локализация и акустико-физиологические характеристики

Кривнова О.Ф.

Московский государственный университет им. М.В.Ломоносова, филологический ф-т.Россия, 119899 Москва, Воробьевы горы, I гум. корпус.Тел. (495) 939-26-01. E-mail: [email protected]

В сообщении излагаются результаты инструментального исследования речевого дыхания в слитной русской речи, предпринятого в целях расширения эмпирической базы для модели-рования интонационно смыслового паузирования при чтении и порождении звучащего текста. Современный компьютерный инструментарий делает возможным анализ взаимосвязи между фонетическими параметрами пауз, их акустико-физиологическим заполнением и текстовой локализацией. Совмещение дыхательных циклов с базовыми текстовыми единицами и более сложными текстовыми фрагментами порождает ряд просодических ключей, которые могут использоваться при автоматической обработке и смысловом анализе речевой информации. К сожалению, к настоящему времени эти аспекты речевого дыхания изучены недостаточ-но. Задача настоящего исследования заключалась в том, чтобы получить дополнительные сведения о базовых фонетических характеристиках дыхательных пауз в репродуцированной речи обычных носителей русского языка.

Речепроизводство, как известно, включает три относительно самостоятельных, но тесно вза-имодействующих процесса: инициацию (создание воздушного потока и его поддержа-ние в речевом тракте говорящего), фонацию и собственно артикуляцию. Из этих процес-сов наименее изучен первый, по разным причинам: отчасти из-за преимущественно фо-нологической и сегментной направленности речевых исследований во второй половине ХХ в., отчасти из-за технических трудностей в инструментальном исследовании речево-го дыхания и функционирования дыхательной системы в речи. Наиболее обстоятельные и надёжные результаты в этой области были получены известным американским фоне-тистом П.Ладефогедом в сотрудничестве с другими исследователями. Их эксперимен-тальные данные изложены в большом количестве статей и обобщены в монографии [1], где речевое дыхание рассматривается в разных аспектах — физиологическом, аэроди-намическом, акустическом, и во взаимодействии с другими речевыми процессами — фонацией и артикуляцией.

К сожалению, физиологическая и аэродинамическая сторона речевого дыхания по-преж-нему мало доступна для прямого анализа в естественных речевых условиях. В совре-менных методах исследования речепроизводства для получения комплексной картины используется электромагнитное излучение и компьютерная томография. С помощью этого инструментария можно получить трёхмерное изображение речевого тракта и дан-ные об изменении всех его принципиально важных параметров. Однако, это довольно дорогой инструментарий, и далеко не все исследовательские фонетические центры им располагают. Здесь стоит вспомнить, что ещё в 60-е годы ХХ в. в Институте физи-

Page 72: Речевые технологии

72

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

ологии им. И.П. Павлова АН СССР была разработана система датчиков, позволяющая регистрировать параллельно работу 11 артикуляторных органов (руководитель работ и изобретатель датчиков проф. В.А. Кожев-ников). В состав установки входил и плетизмограф, аппарат, с помощью которого можно было регистрировать общую картину речевого дыхания и расхода воздуха при произнесении речевых отрезков [2, 3]. В указанных монографиях приведён ряд интересных результатов, касающихся рабо-ты дыхательной системы, которые сих пор сохраняют свою актуальность. К сожалению, установка, разработанная в Институте физиологии, как и многие аналоговые приборы, устарела морально и в настоящее время в научных исследованиях не используется.

Возвращаясь к современности, заметим, что в изучении речевого дыхания не исчерпаны полностью даже самые доступные возможности, которые предоставляет обычная компьютерная техника, звукозаписывающая ап-паратура и программы автоматической обработки речи. Имеющиеся тех-нические средства позволяют, в частности, осуществлять многократное усиление сигнала, в том числе на локальных участках. Если запись речи производится с использованием высокочувствительного микрофона, можно в большинстве случаев оценить на слух не только наличие вдо-ха/выдоха в темпоральной интонационной паузе, но и то, через какую полость носовую/ротовую) осуществляется дыхание. Несколько труднее оценивать на слух глубину вдоха, а она бывает разной, но и такую оценку в определённой степени можно сделать. Современный компьютерный ин-струментарий, кроме того, делает возможным анализ взаимосвязи между фонетическими параметрами пауз и их акустико-физиологическим запол-нением.

Задача настоящего исследования заключалась в том, чтобы получить сведе-ния о базовых фонетических характеристиках дыхательных пауз в слит-ной репродуцированной речи обычных носителей русского языка.

Материал и методика исследования. Материалом исследования служил кор-пус прочтений связного текста — небольшого современного рассказа о посещении научного учреждения1. Текст был прочитан «с листа» де-сятью дикторами, носителями русского языка с высшим образованием, но без специальной дикторской подготовки; средняя длительность озву-ченного текста 3–3,5 минуты. Материал записывался на компьютер (SR 22050 Гц, 16-bit, Mono) в условиях тихой комнаты с использованием вы-сокочувствительного микрофона, что позволило в большинстве случаев без труда определить дыхательный тип пауз в каждом прочтении текста.

Материал был отобран из более крупного массива, включавшего 30 прочтений текста разными дикторами (суммарный объем исходного речевого мас-сива около 400 МБ). При отборе учитывались результаты аудиторского эксперимента по оценке нормативности (приемлемости) разных прочте-ний текста, который проводился с использованием специально зработан-ной методики анкетирования аудиторов, подробно описанной в [5]. Анкета для опроса аудиторов ( их было 6 человек: 4 мужчин и 2 женщины) была составлена таким образом, чтобы отобрать нейтральные, нормативные прочтения. Кроме того, анкета содержала вопросы, специально посвя-

1 Текст был взят из методической разработки по составлению текстовых массивов [4], а в качестве основы для него использовался отрывок из книги С. Иванова «Схват-ка с роботом». М., 1977.

Page 73: Речевые технологии

73

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Кривнова О.Ф.

Дыхательные паузы в слитной речи: локализация и акустико-физиологические характеристики

щённые оценке правильности паузирования текста (с точки зрения количества пауз и их локализации, но без акцента на связь с дыханием). Этим оценкам при анализе результатов аудиторской экспертизы был придан большой вес.

Для дальнейшего анализа было выбрано 10 наилучших прочтений, среди которых удачно оказалось 5 мужских и 5 женских — далее они обозначаются соответственно m1-m-i и f-i, где i меняется от 1 до 10 и обозначает место, которое занял диктор в отобранной, лучшей, десятке текстовых прочтений.

Дыхательное заполнение интонационных пауз в прочитанных вариантах текста определя-лось на слух и визуально по осциллограммам и спектрограммам с использованием звукового анализатора Speech Analyzer — SA — SIL, версия 1.5 — 2002. Далее паузы, включающие вдох, мы будем называть дыхательными (ДП).

Текстовая локализация ДП в репродуцированной речи. Проведённое исследование по-казало, что главным фактором, который влияет на организацию речевого дыхания в репродуцированной речи, является стратегия интонационного паузирования дикто-ра, для которой характерна тенденция к реализации темпоральных интонационных пауз после каждой клаузы в предложении. Однако, эта достаточно яркая тенденция взаимодействует с когнитивными характеристиками дикторов. В результате некото-рые дикторы в определённых синтаксических условиях «пропускают» конечные грани-цы произносимых клауз, в то время как другие регулярно реализуют дополнительные темпоральные паузы в определённых точках внутри произносимой клаузы.

Специфика использования интонационных пауз для речевых вдохов выражается в том, что в организации дыхания находит отражение иерархическая структура текстовых еди-ниц, основание которой образуют отдельные предикации-клаузы.

Текстовые фрагменты, завершение которых сопровождается ДП, упорядочиваются в на-правлении убывания вероятности вдоха следующим образом (в скобках дается часто-та реализации вдоха в среднем по 10 дикторам):

Абзац (100%) > самостоятельное предложение внутри абзаца (94%) > клауза внутри предложения (65%) > компонент внутри клаузы ( 34%).

Когнитивные характеристики дикторов влияют не только на интонационное паузирование, но и на способ организации речевого дыхания в озвученном тексте. Это отражается в таких общих признаках дикторского чтения, как количество дыхательных пауз, длина и синтаксический состав дыхательных групп. В целом, полученные результаты под-тверждают мнение многих исследователей о центральной роли пропозиции-клаузы в процессах порождения, понимания и озвучивания текста.

Общая картина дыхательных пауз с разной текстовой локализацией. На рис.1 пред-ставлены иллюстративные осциллограммы и спектрограммы ДП с разной текстовой локализацией в прочтениях экспериментального текста диктором-женщиной f–2 и дик-тором-мужчиной m-1. По экспертному рейтингу это наилучшие нормативные прочте-ния в соответствующих гендерных группах. Для сравнения на рисунке даны также аку-стические иллюстрации темпоральных интонационных пауз без элементов дыхания (чис-тых — ЧИП) с аналогичной текстовой локализацией.

Визуально-слуховой анализ материала, аналогичного представленному на рисунке по всем дикторам, приводит к следующему заключению:

ДП с разной текстовой локализацией имеют различное акустико-физиологическое напол-нение, которое регулярно воспроизводится в прочтениях всех дикторов. А именно: в ДП между абзацами отчетливо выделяются две фазы: сначала идет носовой вдох, которому может предшествовать краткий выдох, а затем следует достаточно резкий

Page 74: Речевые технологии

74

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

ротовой вдох, которому обычно предшествуют явления чмоканья, сгла-тывания и под. ДП между самостоятельными предложениями внутри абзаца характеризуются акустико-физиологической картиной, сходной с ДП между абзацами. Возможно, есть некоторые различия во временных характеристиках носовой и ротовой фаз ДП, что, в свою очередь, может быть связано с различиями в общей длительности ДП между и внутри аб-заца. В ДП между клаузами внутри предложения, как правило, отчетливо выражена только ротовая фаза вдоха, а явления чмоканья в ее начале менее заметны и встречаются реже, чем в ДП более высокого текстового уровня, рассмотренных выше. Кроме того, шум на ротовой фазе вдоха имеет существенно бóльшую интенсивность. ДП внутри клаузы демон-стрируют дальнейшее нарастание явлений, отмеченных для ДП после клаузы внутри предложения. Так, темпоральная интонационная пауза практически полностью заполнена ротовым вдохом, инициальных явле-ний чмоканья не наблюдается, шум вдоха очень интенсивен. Что касается гендерных различий, то при сходстве общей акустико-физиологической картины ДП с разной текстовой локализацией между дикторами наблю-даются определенные различия в выраженности и интенсивности шума вдоха, особенно в ротовой фазе. В среднем дикторы-мужчины в своих текстовых прочтениях дышат более шумно, чем дикторы-женщины, что хорошо видно на рисунке.

Заключение

Устойчивые различия в общей фонетической картине ДП разного типа (и инто-национных пауз без вдоха) и тесная связь локализации дыхательных пауз с иерархической структурой текста создают возможность детектирования ранжированных границ между смысловыми отрезками текста как в есте-ственном режиме устного дискурса, так и в задачах автоматической обра-ботки звучащей речи, по крайней мере в режиме чтения. Реализация вдо-ха в темпоральной интонационной паузе является достаточным призна-ком наличия смысловой текстовой границы, а различия в общей картине ДП с разной текстовой локализацией, которые рассматривались в настоя-щей работе, сигнализируют о степени смысловой связи между отрезками текста. Дифференцирующая функция ДП разного типа усиливается также различиями в таких характеристиках, как длительность и интенсивность шума вдоха, которые требуют самостоятельного и детального рассмотре-ния. Кроме того, взаимодействие ДП разного типа с фонационно-артику-ляционными процессами на краевых участках текстовых составляющих, разделяемых ДП, может приводить к созданию дополнительных ключей для детектирования в тексте разных смысловых границ. Этот вопрос так-же нуждается в дополнительном изучении.

Нужно, однако, иметь в виду, что в общем случае реализация ДП не является необходимым признаком текстовой границы. Так, даже в режиме чтения некоторые дикторы в определённых текстовых условиях не делают вдохов между самостоятельными предложениями внутри абзаца [6].

Page 75: Речевые технологии

75

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Кривнова О.Ф.

Дыхательные паузы в слитной речи: локализация и акустико-физиологические характеристики

Рис. 1. Акустико-физиологическая картина дыхательных пауз (ДП). Слева данные диктора f-1, справа m-1. ЧИП — чистая интонационная пауза (без элементов дыхания). В иллюстративных целях осцилограммы масштабированы по вертикали в соотношении 1 х 2

а) ДП между абзацами

б) ДП между предложениями внутриабзаца

в) ДП между клаузами внутрипредложения

г) ДП внутри клаузы

д) ЧИП между клаузами внутрипредложения

е) ЧИП внутри клаузы

Page 76: Речевые технологии

76

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

ЛИТЕРАТУРА

1. Ladefoged P. Three Areas of Experimental Phonetics, Oxford UP, 1967.

2. Кожевников В.А., Арутюнян Э.А., Бороздин Л.В. и др. Методы изучения речевого дыхания // Механизмы речеобразования и восприятия сложных звуков. М-Л., 1966.

3. Чистович Л.А., Кожевников В.А. и др. Речь. Артикуляция и восприятие. М.-Л., 1965.

4. Штерн. А.С. Артикуляционные таблицы. Методическая разработка для развития навыков аудирования и тестирования слуховой функции. Л., 1984.

5. Кривнова О.Ф., Чардин И.С. Паузирование при автоматическом синтезе речи // Теория и практика речевых исследований (АРСО-99). Материалы конференции. М., 1999.

6. Кривнова О.Ф. Фактор речевого дыхания в интонационно-паузальном членении речи // Лингвистическая полифония: Сборник статей в честь юби-лея профессора Р.К. Потаповой. М., 2007.

Page 77: Речевые технологии

77

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Требования к алгоритмам скрытого встраивания информациив просодические параметры речи

Пономарь М.О.

Московский государственный университет им. М.В. Ломоносова, филологический ф-т.Россия, 119899 Москва, Воробьевы горы, I гум. корпус.Тел. (495) 939-26-01. E-mail: [email protected]

Использование языковой просодии позволяет скрытно внедрять информацию в речь путём модификации речевого сигнала, которая не обнаруживается в канале связи и на выходе системы ни на слух, ни с помощью инструментальных средств без сравнения с эталоном речи, которым владеет только передающая сторона. В представленных материалах рас-сматривается практический аспект этого подхода, заключающийся в оценке возможности технической реализации просодических методов сокрытия информации в речи. Это даёт возможность оценить подходящие для сокрытия информации параметры просодии и сфор-мулировать требования к практическим алгоритмам для специализированных цифровых интегральных схем и вычислителей общего назначения. Обоснование этих требований по-зволяет произвести отбор существующих и разработку новых алгоритмов как для целей скрытой связи по открытым каналам, так и для целей создания аутентификационных меток для фономатериалов.

Введение

Развитие речевой стеганографии на основе вариативности просодии со временем может при-близиться к тому рубежу, который отделит область научных исследований от разработки опытных и промышленных образцов. Уже в настоящее время в интересах скрытой связи разработан метод и опробован в лабораторных условиях алгоритм встраивания инфор-мации в некоторые параметры просодии [1]. Однако имеется потребность в увеличении количества используемых параметров и использования их комбинаторных возможно-стей в интересах увеличения пропускной способности скрытого канала связи. Многоо-бразие параметров просодии и сложность их формализации являются препятствием для дальнейшего развития методов и практической реализации алгоритмов этого направле-ния защиты информации. В связи с этим необходимо обосновать требования к просоди-ческим стегоалгоритмам и их составным частям, провести отбор и оценить возможности их технической реализации.

Состав параметров просодической стегосистемы

Основой вариативности просодии является инвариант, позволяющий вносить в него такие из-менения, которые не выходят за пределы допустимого отклонения от психоакустической нормы, а потому не заметны постороннему наблюдателю. Это — вариант ресинтеза речи. Для того, чтобы использовать просодию в качестве стегоконтейнера, потребуется решить три основных задачи [2].

Page 78: Речевые технологии

78

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Во-первых, установить, какие из наблюдаемых параметров просодии являются управляемыми. То есть для каждого параметра оценить, существуют ли в настоящее время технические и/или программные средства, позволя-ющие его инструментально измерять и модифицировать. Во-вторых, раз-работать метод внедрения скрываемых данных в управляемые просоди-ческие параметры. И, наконец, установить допустимые пределы модифи-кации просодических параметров, при которых соблюдается требование скрытности. Принципиальные решения этих задач пока найдены только применительно к двум параметрам просодии — частоте основного тона и длительности сегментов речи [1,3,4].

В соответствии с основами традиционной фонетики [5,6] материальными акусти-ческими средствами языковой просодии являются параметры, приведен-ные в табл. 1 (в таблицу не включены некоторые супрасегментные речевые средства, такие как артикуляция, эмоциональная окраска речи и другие, не имеющие пока средств для инструментальной оценки). На примере образца речи (рис. 1), обработанного в системе PRAAT [7] (в верхней части — волно-вая форма, в нижней — кривые частоты основного тона и интенсивности), показан подход к акустическому измерению параметров просодии. Инстру-ментальная доступность для измерения является необходимым условием для использования параметра просодии в качестве стегоконтейнера. Таким образом, параметрами-контейнерами могут стать: уровень, контурность тона; интенсивность основного, второстепенного ударения; длительности и расположение пауз; уровень, длительность и интенсивность фразового акцента (P1-Р11).

Таблица 1

Акустические средства языковой просодии

№ Группа Параметр Изменчивость Размерность

P1

слог

овы

е то

ны

уровень тона низкий-высокий Гц

P2 контурность тона восходяще-нисходящий дб/c

P3

ритм

ичес

кие

схем

ы с

лов

а и

фра

зы

интенсивностьосновного ударения

меньше-больше дб

P4интенсивность

второстепенного ударения

меньше-больше дб

P5длительность ударных

гласныхменьше-больше мс

P6 длительность безударных гласных меньше-больше мс

P7 длительность пауз меньше-больше мсP8 расположение пауз меньше-больше мсP9

фра

зовы

е то

новы

еин

тона

ции

уровень акцента низкий-высокий Гц

P10 длительность акцента меньше-больше мс

P11 интенсивность акцента меньше-больше дб

Page 79: Речевые технологии

79

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Пономарь М.О.

Требования к алгоритмам скрытого встраивания информации в просодические параметры речи

Рис. 1. Возможности измерения параметров просодии

Обоснование требований и оценка эффективности алгоритмов

Все перечисленные выше параметры являются физическим отражением просодических свойств речевого сигнала, не связанных непосредственно с его цифровый формой при передаче, обработке и хранении. Поэтому к ним применим общий подход к встраива-нию информации и типовая последовательность алгоритмов: а) сегментации речевого потока; б) определения значения несущего параметра в каждом сегменте; в) вычисле-ния нового его значения при помощи QIM-кодирования и шифрования; г) его модифи-кации [1–4,8]. Однако сложность проектной разработки, технической реализации и об-ласть их применения (связь(С) и/или аутентификация(А)) существенно различаются. Например, для длительности паузы (Р7) все преобразования в сторону её увеличения достаточно просты и могут быть выполнены в реальном времени в сеансе связи. В то же время обработка фразовых интонаций (Р9-Р11) возможна только по завершении фразы. Возникающая при этом задержка неприемлема как с точки зрения скрытности, так и коммуникации. В разной стадии проработки находятся и методы сегментации, измерения, модификации параметров (таблица 2), различны их проектная и вычисли-тельная сложность.

Таблица 2Сегментация, измерения, кодирование, модификация, параметров просодии

В приведённой таблице знаком «+» обозначено наличие, по крайней мере, формализованно-го подхода, модели, а иногда и программной реализации (часто без доступа к исходному коду) алгоритма. Знаком «?» — или полное отсутствие такого подхода (в фонетической

парамеры/алгоритмы Р1 Р2 Р3 Р4 Р7 Р8 Р9 Р10 Р11

сегментация + + + ? + + + + +

измерение + ? + ? + + + + +

кодирование + + + ? + + + + +

модификация + ? + + + ? + + +

область исп. С,А ? С,А А С,А А А А А

Page 80: Речевые технологии

80

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

литературе обозначаемое как «очень сложно»), или возможность его реа-лизации только в условиях полного отказа от управления другими параме-трами.

Квантование речевого сигнала по времени и уровню является условием встраи-вания цифровых данных в просодические параметры. Квантование по вре-мени — это сегментация речи на некоторые однородные временные участ-ки. На них измеряемый параметр (тон, интенсивность, длительность, распо-ложение) может быть описан простой функцией или правилом (звук-тишина, тональный-шумовой, подъем-спад, постоянство), а на границах этих участ-ков происходят резкие изменения акустических характеристик. Очевидно, что для каждого параметра может быть разработано множество алгоритмов сегментации. Основное требование к ним — однозначность разбиения на сегменты до и после внедрения скрываемой информации и прохождения по каналу связи. Причём при одновременном, т.н. векторном внедрении дан-ных в несколько параметров речевой поток или фонограмма может состоять одновременно из несколько наборов сегментов. Проектная и вычислитель-ная сложность этих алгоритмов невелика. В настоящее время некоторые их них реализованы в средах С++, Matlab, аудиоредакторе Melodyne ©Celemony Software GmbH для разбиения речевого потока на синтагмы.

Измерение в метрических единицах каждого параметра в сегменте является ос-новой для его QIM-кодирования по уровню, являющегося основой внедре-ния данных [3] . Из всех параметров, перечисленных в табл. 1, только два имеют размерность Гц (Р1,Р9) — частоты основного тона (ЧОТ). Но именно определение ЧОТ является наиболее технически сложным в проектирова-нии и реализации. Как указывается в [6], на то есть объективные причины — периодичность вокальных звуков со строгой физической точки зрения до-статочно условна. Тем не менее, число разработок определителей ЧОТ пос-тоянно растёт, что связано с потребностями вокодерных технологий, рас-познавания и синтеза речи. Поэтому для этого параметра есть возможность выбора алгоритма. Главное требование — минимальное время вычислений при приемлемой точности, так как вычислительные затраты изначально до-статочно большие. Для остальных параметров проектная и вычислительная сложность алгоритмов измерений невелика.

Кодирование с квантованием просодических параметров (QIM) описывается до-статочно простым в реализации алгоритмом, основанном на использовании заранее подготовленных кодовых таблиц [3]. Для обеспечения стеганогра-фической стойкости алгоритм QIM комбинируется с поточным криптографи-ческим алгоритмом [8]. Оба алгоритма могут быть эффективно реализова-ны в специализированных цифровых интегральных схемах.

Модификация просодических параметров тесно связана с их измерениями и имеет те же проблемы применительно к ЧОТ, а также дополнительные проблемы с модификацией длительности вокализованных сегментов. В на-стоящее время установлено, что с практической точки зрения наиболее целесообразно модифицировать такие просодические характеристики, как частота основного тона, интенсивность и длительность отрезков речевого сигнала, непосредственно модифицируя акустический сигнал как таковой, не используя параметрических моделей [9].

Заключение

Использование просодических параметров речи для скрытого встраивания информации является достаточно сложной задачей не только потому, что человеческий слух довольно точно определяет признаки искусственности

Page 81: Речевые технологии

81

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Пономарь М.О.

Требования к алгоритмам скрытого встраивания информации в просодические параметры речи

речи. Эта проблема решается определением пределов психоакустической нормы мо-дификации параметров, обеспечивающей гарантированную скрытность. Необходимо оценить реализуемость алгоритмов и стегосистемы в целом. Приведённые данные по-казывают, что в настоящее время для встраивания информации в основном использу-ются исследовательские алгоритмы, разработанные для других применений, что огра-ничивает их практические возможности. Недостаточно изучены вопросы искусственного воспроизведения контурных тонов, особенностей артикуляции, ритмических схем ударе-ния, средств артикуляции, интонации и других характеристик просодии в интересах ре-синтеза речи. Это объясняется, в том числе, и тем, что разработка математических мо-делей просодии, связывающих характеристики просодии в её классическом понимании с материальными, акустическими показателями звуков речи, до настоящего времени не имела такого важного практического применения, как задача защиты информации. И не только защиты информации, но и клонирования речи.

ЛИТЕРАТУРА

1. Ponomar, Marina. Data hiding in speech signals on the basis of the modification of segment pitch and duration // 19th International Congress on Acoustics ICA2007MADRID, 2–7 Sept. 2007, Madrid, Spain, 2007, CAS-03-023. Р. 46-49.

2. Пономарь М.О. Использование вариативности речевой просодии при создании интел-лектуальных систем защиты информации // Материалы III Всероссийской конференции студентов, аспирантов и молодых ученых «Искусственный интеллект: философия, мето-дология, инновации», 11–13 ноября 2009 г. М.: МИРЭА. С. 374–377.

3. Пономарь М.О. Кодирование с квантованием несущих параметров речевых сигналов для скрытого встраивания данных // Сборник трудов XVII Международной конференции «Информатизация и информационная безопасность правоохранительных органов». М.: Академия управления МВД России, 2008, с. 394–396.

4. Ponomar M.O. On Acceptable Modification Limits of Electroacoustic Speech Signals for Data Hiding // Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIHMSP-2009, September 12-14, 2009, Kyoto, Japan), IEEE Computer Society, Los Alamitos, CA, USA, 2009. Рp. 551–554.

5. Потапова Р.К. Речь: коммуникация, информация, кибернетика: Учебное пособие. Изд. 2-е, доп. М.: Эдиториал УРСС, 2001. С. 276–285.

6. Кодзасов С.В., Кривнова О.Ф. Общая фонетика: Учебник. М.: Рос. гос. гуманит. ун-т. 2001. С. 183–194.

7. Paul Boersma & David Weenink. Praat: doing phonetics by computer (Version 5.1.05) [Computer program]. Retrieved May 1, 2009, from http://www.praat.org/.

8. Пономарь М.О. Обеспечение стеганографической стойкости при встраивании данных в несущие параметры речи // Труды Всероссийской конференции «Проведение научных исследований в области обработки, хранения, передачи и защиты информации». Улья-новск, УлГТУ, 1–5 декабря 2009 г., секция 4, т. 4. С. 65–68.

9. Бабкин А.В. Особенности применения технологии TD-PSOLA для модификации ха-рактеристик вокальных аллофонов. // Труды международного семинара «Диалог’2000 по компьютерной лингвистике и ее приложениям». М., 2000.

Page 82: Речевые технологии

82

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Преобразование речевого сигнала методом амплитудной фильтрации: возможностии перспективы

Бобров Н.В.

Московский государственный лингвистический университет.119034 Москва, ул. Остоженка, д. 38. E-mail: [email protected]

В работе изложены результаты исследования возможностей преобразования ре-чевого сигнала методом амплитудной фильтрации, намечены перспективы его применения. Данный метод отличается исключительно малой ресурсоемкостью и поэтому может использоваться в тех случаях, когда критичными оказываются не только быстродействие и объём памяти, но также размеры и энергетическая автономность устройства.

Лавинообразный рост производительности вычислительных машин во многом определил ход развития технологий анализа и преобразования речевого сигнала в последние десятилетия, создав крен в сторону ресурсоёмких методов, обеспечивающих более высокое качество результатов или требу-ющих меньших вложений на этапе разработки. Вместе с тем, проблема со-здания алгоритмов преобразования речевого сигнала, не предъявляющих высоких требований к вычислительным ресурсам, сохраняет свою актуаль-ность. Это становится очевидным при рассмотрении постановки задачи кодирования/декодирования речевого сигнала для сверхмалых устройств связи.

Метод амплитудной фильтрации (АФ), предлагаемый автором настоящей рабо-ты, предоставляет широкий диапазон возможностей для анализа и прео-бразования речевого сигнала, в том числе в режиме реального времени, при исключительно малой ресурсоёмкости.

Принцип метода АФ заключается в разложении исходной дискретизированной речевой волны в сумму более простых ломаных линий с убывающей сред-ней амплитудой (отсюда название), некоторые из которых (имеющие наи-меньшую амплитуду) могут быть отброшены без существенной потери раз-борчивости речи. Ход этого преобразования показан на рис. 1.

В результате суммирования оставшихся ломаных получается ломаная линия, по-хожая на исходную речевую волну, но имеющая более простую форму, т.е. меньшее количество вершин (рис. 2).

Одна из возможных технологических процедур, позволяющих осуществить такое преобразование, была реализована автором в виде программной библио-теки на языке FreePascal 2.0.4 и описана в работе [1].

Page 83: Речевые технологии

83

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бобров Н.В.

Преобразование речевого сигнала методом амплитудной фильтрации: возможности и перспективы

Рис 1. Преобразование речевого сигнала методом АФ. Гласный [и] (фраза «Посмотри сюда»,мужской голос). Слева вверху — исходный сигнал. Справа — упрощённые ломаные, полученные в результате преобразования. Слева под исходным сигналом — остаточные сигналы, получаемые на каждом шаге преобразования. Если обозначить все графики слева a1, a2, a3..., а все графики справа — b1, b2, b3..., то a2=b1–a1, a3=b2–a2 и т.д. На каждом последующем шаге остаточный сигнал исполняет роль исходного для получения очередной упрощённой ломаной. Последний из остаточных сигналов, средняя амплитуда которого ниже некоторого заданного порогового значения, отбрасывается

Упрощение формы речевой волны обусловливает улучшение сжимаемости описывающих ее числовых данных. Изначально метод АФ разрабатывался именно с целью создания нового нересурсоёмкого алгоритма сжатия речевой волны, в связи с чем именно этот эффект АФ был исследован первым. Эксперименты, проведённые автором в 2008 году, показали, что сжимаемость речевой волны после преобразования методом АФ улучша-ется в 1,3–1,5 раза.

Рис. 2. Исходный сигнал (вверху) и сигнал, полученный в результате сложенияупрощённых ломаных

Изучение спектральных характеристик фонограмм после АФ позволило определить, какая именно информация в частотной области оказывается отброшенной. В частности, для гласных таковой оказалась высокочастотная область (F > 4,5 кГц), а для шипящих и сви-стящих фрикативных — главным образом, низкие (F < 2,5 кГц) и очень высокие (F > 10 кГц) частоты. На спектральных срезах упомянутых звуков в указанных областях наблю-далось сглаживание огибающей вплоть до образования плато, т.е. интервалов белого шума (см. рис. 3). Следует отметить, что эта особенность работы метода АФ открывает некоторые возможности для автоматического распознавания по крайней мере классов звуков в потоке речи.

Page 84: Речевые технологии

84

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 3. Спектры гласного [и] (слева) и согласного [c] (справа) до (вверху) и после (внизу) амплитудной фильтрации. Изменения гораздо более заметны на гласном в силу изначального преобладания в его спектре гармонической составляющей по сравнению с шумовой

Помимо оптимизации формы речевой волны для сжатия, АФ открывает неко-торые возможности для контролируемого снижения разборчивости речи (например, в целях предотвращения подслушивания или перехвата специ-альной распознающей аппаратурой, в том числе в каналах связи), а также для борьбы со скрытным несанкционированным встраиванием в речевой сигнал посторонней информации.

Контролируемое уменьшение разборчивости речи достигается путем выбороч-ной обработки ломанных линий, полученных при разложении речевой вол-ны методом АФ, и последующего ресинтеза. Проведенные в ноябре 2009 г. пилотные эксперименты показали, что результирующий сигнал, напомина-ющий на слух и по виду осциллограммы сильно зашумленную шепотную речь (см. рис. 4), оказывается достаточно разборчивым для понимания смысла сказанного на небольшом расстоянии (0,5–1 м от динамиков или в наушниках) и практически неразборчивым на большем расстоянии и, тем более, за преградой. В дальнейшем планируется получить точные количе-ственные оценки описанного эффекта, позволяющие создать на его осно-ве методику защиты речевой информации.

(а)

Page 85: Речевые технологии

85

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бобров Н.В.

Преобразование речевого сигнала методом амплитудной фильтрации: возможности и перспективы

(б)

Рис. 4. Результат модификации речевого сигнала путём выборочного масштабирования ломаных линий, полученных при разложении исходной волны методом АФ: а — вся фраза («Посмотри сюда»), б — тот же участок, что был показан на предыдущих рисунках. Удивительно, но процен-тов 10 разборчивости здесь ещё осталось...

Что касается встраиваемой посторонней информации, то неустойчивыми к АФ оказывают-ся, прежде всего, данные, введённые в младшие биты точек оцифрованной речевой волны, а также данные, размещённые на малозначимых для восприятия участках ча-стотной области. В то же время данные, встроенные в существенные для восприятия медленно изменяющиеся характеристики речи (такие, как, например, частота основно-го тона вокалических звуков, длительность сегментов), АФ с большой вероятностью не затрагивает.

В 2009 году автором был проведён ряд экспериментов по получению «альтернативных», «амплитудных» спектров речевой волны путем её разложения на ломаные линии с убы-вающей амплитудой точно таким же образом, как это делалось и при преобразовании методом АФ [2]. Было установлено, что, измеряя расстояние между пиками ломаных линий, можно получить некоторые последовательности чисел, соотносящихся с макси-мумами мгновенных спектров Фурье, и даже нарисовать «альтернативную» спектрог-рамму, в своих основных чертах схожую с традиционной (см. рис. 5, 6). Вместе с тем, полученные результаты показали, что между «альтернативными» и «традиционными» спектрами существует немало различий, требующих объяснения. Определение причин этих различий и возможностей использования информации «амплитудных» спектров, является одной из первоочередных задач дальнейших исследований.

Рис. 5. Спектрограмма фразы «Два варианта» (мужской голос), построенная путем измерения расстояний между вершинами ломаных линий, полученных методом АФ

Page 86: Речевые технологии

86

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 6. «Традиционная» спектрограмма той же фразы, полученнаяпри помощи преобразования Фурье

Выводы

На текущий момент можно констатировать, что преобразование речевого сиг-нала методом АФ позволяет оптимизировать дискретизированную речевую волну для сжатия без существенной потери разборчивости и производить контролируемое уменьшение разборчивости речевого сигнала в целях защиты речевой информации от подслушивания и перехвата с использо-ванием специальной распознающей аппаратуры. АФ на данном этапе мо-жет иметь ограниченное применение в целях защиты речевого сигнала от встраивания в него посторонних данных с использованием некоторых простых распространенных методов. В ходе недавних исследований было установлено, что при помощи АФ также возможно получение информации о частотном спектре речевого сигнала, которая обычно извлекается путём использования таких ресурсоёмких методов, как преобразование Фурье, что открывает перспективы применения АФ в качестве экономной (по объ-ему вычислений) замены ныне используемых методов в ряде приложений реального времени. В задачи будущих исследований входит дальнейшее изучение вышеназванных возможностей, а также создание опытных образ-цов кодеков и многоцелевого программного инструментария для анализа речевого сигнала методом АФ.

ЛИТЕРАТУРА

1. Бобров Н.В. Уменьшение информационной избыточности речевого сиг-нала методом амплитудной фильтрации. // Тезисы IX Всероссийской конфе-ренции молодых учёных по математическому моделированию и информа-ционным технологиям. Кемерово, 2008.

2. Бобров Н.В. Возможности преобразования речевого сигнала методом амплитудной фильтрации. // Материалы Всероссийской конференции с эле-ментами научной школы для молодёжи «Проведение научных исследова-ний в области обработки, хранения, передачи и защиты информации». Уль-яновск, 2009.

Page 87: Речевые технологии

87

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Перцептивная роль амплитудной модуляции для идентификации дрожащего в русской речи

Орлова А.А.

Кузнецов В.Б.

ГОУ ВПО «Московский государственный лингвистический университет».E-mail:[email protected], [email protected]

В работе исследуется перцептивная значимость формы амплитудной огибающей для рас-познавания дрожащего в русской речи. Экспериментально проверяется гипотеза о том, что кратковременное уменьшение амплитуды речевого сигнала на закрытой фазе вибранта (так называемый удар) не является основным слуховым признаком этого звука. Было показано, что идентификация дрожащего в последовательности VCV (ударение на втором гласном), вы-резанной из различных слов четырёх дикторов, не ухудшается при сглаживании амплитудной огибающей. Оценки качества произнесения дрожащего в исходных и модифицированных стимулах на семибалльной шкале статистически достоверно не различались.

Как правило, при описании канонических артикуляторных и акустических характеристик виб-ранта в качестве основного признака указывается вибрантная смычка (закрытая фаза, удар), которая похожа на краткую (20–30 мс) звонкую смычку взрывного согласного, уве-ренно идентифицируемую как на осциллограмме, так и на спектрограмме. Однако наш опыт сегментации речевых баз данных [1, 2] показывает, что при артикуляции вибран-тной смычки глубина амплитудной модуляции сигнала может значительно варьировать, что тем не менее не сказывается на оценке качества звучания согласного. Рис. 1 иллю-стрирует это наблюдение.

Рис. 1. Осциллограмма и спектрограмма фрагмента слова "карантин", демонстрирующиевариативность амплитудной модуляции дрожащего в произнесении двух дикторовженщин (r — обозначает удар )

Fre

quen

cy (

Hz)

A

mpl

itude

0

706

3-1

6383

1

6383

0,00000 0,14290 0,00000 0,14248rr

Page 88: Речевые технологии

88

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Чтобы исследовать перцептивную значимость формы амплитудной огибающей речевого сигнала для восприятия дрожащего, был проведён эксперимент, в котором в качестве стимулов испытуемым предъявлялись естественные реализации твердого вибранта и те же самые реализации со сглаженной огибающей амплитуды на интервале вибрантной смычки. Испытуемые должны были идентифицировать дрожащий, а затем оценить качество его звучания.

МЕТОД

Речевой материал. Из записей каждого из четырёх дикторов (две женщи-ны и двое мужчин, чтение списка предложений, частота дискретизации 22025 Гц, 16-разрядное квантование по уровню) было выбрано 4 слова, содержащие дрожащий в интервокальном положении перед разными удар-ными гласными. Из этих слов были вырезаны сегменты VCV с интересую-щим нас согласным. Таким образом, исключалась возможность идентифи-кации вибранта путём распознавания слова. Из отрезков гласных звуков были удалены формантные переходы, несущие информацию о соседних согласных.

Наряду с естественными VCV стимулами применялись и их модификации, ко-торая заключалась в сглаживании амплитудной огибающей на интерва-ле удара. Пример исходного и модифицированного стимула приведён на рис. 2. Сглаживание, как правило, проводилось попериодно и не за-трагивало взрывной или фрикативный компонент закрытой фазы дрожа-щего.

В массив стимулов были включены также структуры VCV, в которых в качестве согласного выступали твердые [D] и [L], являющиеся наиболее фонетиче-ски близкими к дрожащему, о чем, в частности, свидетельствует их исполь-зование в качестве замены [R] при невозможности его произнесения. Сло-ва, из которых вырезались стимулы с [D] и [L], были идентичными для всех дикторов. Каждый диктор был представлен двумя стимулами на каждый согласный.

Уровень интенсивности всех стимулов был пронормирован.

Рис. 2. Пример сглаживания амплитудной огибающей на интервале вибрантнойсмычки. Верхняя осциллограмма — исходный сигнал, нижняя — модифици-рованный. На осциллограмму наложена амплитудная огибающая

Page 89: Речевые технологии

89

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Орлова А.А., Кузнецов В.Б.

Перцептивная роль амплитудной модуляции для идентификации дрожащего в русской речи

ПРОЦЕДУРА

Формирование тестовой последовательности стимулов, проведение эксперимента и предва-рительная обработка результатов были выполнены с помощью программного комплек-са ASPECT [6].

Эксперимент состоял из двух тестов. В первом тесте испытуемые должны были идентифици-ровать предъявленный стимул как R, D или L. Исходные и модифицированные [R]-сти-мулы, стимулы с [D] и [L] повторялись 2 раза. Таким образом, случайная последователь-ность стимулов состояла из 96 элементов (4х12х2). Стимул воспроизводился дважды с интервалом 0,7 сек.

Во втором тесте испытуемые должны были оценить качество произнесения тех же самых стимулов, что и в первом тесте, используя семибалльную шкалу. Причем им сообща-лось (текст на экране монитора) какой звук предъявляется. Исходные и модифициро-ванные [R]-стимулы повторялись 3 раза. [D] и [L] стимулы повторялись 2 раза. Длина тестовой последовательности — 128 стимулов. Предъявляемый стимул проигрывался 2 раза (межстимульный интервал 0,7 сек) и испытуемый имел возможность повторно прослушать стимул.

Эксперимент проводился с помощью персонального компьютера. Для регистрации ответов испытуемых на экране монитора для первого теста формировались соответствующие три кнопки с символами звуков, для второго теста создавалась шкала со скользящим ползунком. Эксперимент проходил в тихом помещении, прослушивание стимулов про-водилось в головных телефонах марки Sennheiser HD. 205.

В эксперименте принимали участие 11 испытуемых в возрасте 21-55 лет (из них трое муж-чин). 6 испытуемых имели лингвистическое образование.

РЕЗУЛЬТАТЫ

Анализ данных первого теста показал, что испытуемые фактически безошибочно идентифи-цировали как исходные, так и модифицированные вибранты. Четыре из 11 испытуемых допустили 13 ошибок на разных стимулах. Причем модифицированные [R]-стимулы три раза идентифицировались как [D] и один раз как[L]. Исходные [R]-стимулы 4 раза иден-тифицировались как [D] и один раз как[L].

Данные второго теста обрабатывались отдельно для двух групп испытуемых. Это объясняет-ся тем, что для оценки качества звучания дрожащего испытуемые использовали раз-ные участки семибалльной шкалы: одна группа (5 человек) использовала всю шкалу, а другая (6 человек) — ограничилась интервалом от 3 до 6 баллов. На рис. 3 приве-дены гистограммы оценок исходного и модифицированного вибранта для двух групп. Использование критерия хи-квадрат для определения статистически достоверного различия этих распределений показало, что на уровне значимости α = 0,01 распре-деления для исходных и модифицированных [R]-стимулов идентичны в обоих группах. Как можно видеть, испытуемые второй группы оценивали [R]-стимулы выше, чем испы-туемые второй группы. Средняя оценка исходных и модифицированных [R]-стимулов в первой группе равна соответственно 4,92 и 4,55 баллов, во второй группе — 6,16 и 6,10 баллов.

При сравнении качества произнесения стимулов [D, L] с модифицированными [R]-стиму-лами статистически значимых различий не установлено. Средняя оценка для стиму-лов [D, L] равна 4,81 и 4,82 баллов соответственно, для модифицированного [R] — 4,49 баллов.

Page 90: Речевые технологии

90

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 3. Гистограммы распределения оценок качества произнесения исходных и мо-дифицированных [R]-стимулов двумя группами испытуемых. Слева данные первой группы, справа — второй

ОБСУЖДЕНИЕ И ВЫВОДЫ

Данные эксперимента свидетельствуют о том, что кратковременное уменьшение амплитуды речевого сигнала на закрытой фазе вибранта не может высту-пать в качестве его основного признака. Сглаживание амплитудной огибаю-щей не привело к статистически достоверным изменениям в точности иден-тификации и оценке качества звучания вибранта. Это, однако, не отрицает артикуляторной значимости вибрантной смычки. Речь идёт лишь об одном из её акустических проявлений.

При сглаживании амплитудной огибающей изменяется и соотношение спек-тральной энергии на вибрантной смычке и граничных участках гласного или вокалического компонента вибранта. Так, в одном случае в исходном сиг-нале амплитуда первой форманты на ударе была меньше, чем на предыду-щем периоде гласного [a] на приблизительно 15 дБ, а в модифицированном сигнале эта разность составляла около 8 дБ1. Однако это не отразилось на распознавании и оценке дрожащего.

Можно предположить, что существенные перцептивные признаки дрожащего связаны с более тонкими структурными изменениями частотно-амплитуд-ных характеристик сигнала на переходных участках между гласным или от-крытой фазой вибранта и ударом [3, 4, 5, 8].

1 Как известно, энергия первой форманты определяет в основном суммарную энергию спектра [7].

0

20

40

60

80

0 1 2 3 4 5 6Шкала оценок

Число оц

енок

оригинальный сигнал модифицированный сигнал

исходного и модифицированного вибранта

0

50

100

150

200

0 1 2 3 4 5 6Шкала оценок

Число оц

енок

оригинальный сигнал модифицированный сигнал

Распределение оценок качества произнесения исходного и модифицированного вибрантаоригинальный сигнал модифицированный сигнал

Распределение оценок качества произнесения исходного и модифицированного вибрантаоригинальный сигнал модифицированный сигнал

Page 91: Речевые технологии

91

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Орлова А.А., Кузнецов В.Б.

Перцептивная роль амплитудной модуляции для идентификации дрожащего в русской речи

ЛИТЕРАТУРА

1. Кузнецов В.Б. Аллофонические реализации и акустические характеристики русского вибранта // Акустика речи. Медицинская и биологическая акустика. Сборник трудов XIII сессии Российского акустического общества.. Т 3. М.: Геос, 2003. С. 30–33.

2. Кузнецов В.Б. О вокалическом компоненте вибранта в русском языкe // Тезисы IV Международной научной конференции «Фонетика сегодня: актуальные проблемы и уни-верситетское образование». М., 2003. С. 76–77.

3. Кузнецов В.Б. Об акустико-фонетических характеристиках твердого вибранта в рус-ском языке / В.Б Кузнецов, Н.В. Бобров // Акустика речи. Медицинская и биологическая акустика. Сборник трудов XVI сессии Российского акустического общества. Т 3. М.: Геос, 2005. С. 57–61.

4. Кузнецов В.Б. Об акустико-фонетических характеристиках мягкого вибранта в рус-ском языке / В.Б Кузнецов, Н.В. Бобров // Proc. XII-th Intern. Conf. "Speech and Computer", SPECOM 2007, Moscow, v. 2, 2007. P. 619–625.

5. Кузнецов В.Б. Односмычный вибрант — это вибрант или тэп. Данные анализа русской и испанской речи / В.Б.Кузнецов, А. Б.Памиес // Акустика речи. Медицинская и биологи-ческая акустика. Сборник трудов XX сессии Российского акустического общества. Т 3. М.: Геос, 2008. С. 95–98.

6. Топровер Г.Л. Комплексная инструментальная система ASPECT для подготовки, проведения и обработки экспериментов с помощью ЭВМ в области восприятия речи / Г.Л. Топровер, В.Б. Кузнецов // Фонетика сегодня: актуальные проблемы и университет-ское преподавание. М., 1998. С. 70–72.

7. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964. 284 с.

8. Kouznetsov V. Why is Russian trill so tricky to synthesize // Proc. of Intern. Workshop “Speech and Computer”, SPECOM’2003, Moscow, 2003, P. 158–161.

Page 92: Речевые технологии

92

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Анализ вариантов грамматики команд речевого интерфейса пилота ВС гражданской авиации

Бондарос Ю.Г.Костюк А.И.

ФГУП ГосНИИ Авиационных систем.Россия, 125319, Москва, ул. Викторенко, д. 7.Тел. (495) 637-62-56. Факс (499) 157-50-97.E-mal: [email protected]

ФГУП ЛИИ им. Громова.Россия, 105082, г. Жуковский, Московской обл.Teл. (495) 556-78-93. Факс (495) 556-78-93.E-mal: [email protected]

Работа выполнена при поддержке РФФИ. Грант РФФИ 09-08-00763-а

Выполнен сравнительный анализ 2-х вариантов представления грамматики ко-манд речевого интерфейса пилота самолёта гражданской авиации.

1. Уровни команд речевого интерфейса пилота.

В зависимости от объёма возможных команд и критичности по безопасности опе-раций, выполняемых по речевым командам, речевые интерфейсы пилота самолёта ГА можно разделить на 3 класса. Эти классы распознают и вы-полняют стандартные наборы команд, которые условно можно разделить также на 3 уровня. Класс интерфейса определяется наивысшим уровнем содержащихся в нем команд. Команды первого уровня содержат ввод дан-ных в выбранное лётчиком самолетное оборудование и уже подготовленное для ввода данных. Такая система может быть встроена на существующие самолёты в процессе модернизации их авиационного оборудования. Систе-ма второго уровня должна позволить лётчику голосом выбрать самолётную систему авиационного и радиотехнического оборудования, произвести голо-совой ввод данных, реализуя возможности органов управления на пультах этих систем. Такая система значительно сложнее из-за возросшего количе-ства команд и более сложного их взаимодействия с оборудованием самолё-та. Система третьего уровня самая сложная и позволяет управлять дополни-тельно и самолётными системами в пределах, повышающих безопасность полетов. Создание сложных алгоритмов собственно СРК дополнительно требует определения границ безопасного применения этой системы.

Как будет показано ниже, основной массив слов команд управления базовыми устройствами самолёта составляют слова, обозначающие числа. Сложив-шаяся практика визуальной индикации и речевого представления пилотами

Page 93: Речевые технологии

93

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бондарос Ю.Г., Костюк А.И.

Анализ вариантов грамматики команд речевого интерфейса пилота ВС гражданской авиации

чисел — в десятичной системе счисления, без озвучивание знака разделения целой и дробной частей. Выделим два используемых на практике варианта речевого представ-ления чисел:

1. Обычное речевое представление (условное обозначение W), когда целая и дробная части числа произносятся словами. Например, цифра 115,50 произносится как «сто пят-надцать пятьдесят».

2. Поразрядное представление (условное обозначение D), когда используются только слова, обозначающие цифры из множества 0, 1, … , 8, 9. цифра 115,50 произносится как «один один пять пять ноль». В этом случае диктору легче контролировать себя, так как грамматика команд простроена так, что речевое обозначение цифр команд активной грамматики использует одинаковое число слов и заранее известно, что, например, два последних слова определяют дробную часть цифры.

2. Команды первого уровня речевого интерфейса пилота

Ниже дано описание речевых команд первого уровня для СРК применительно к существую-щему навигационному комплексу. Все команды начинаются с ключевого слова, напри-мер «авиум». Команды позволяют выполнить функции:

— ввод частоты УКВ радиостанции;

— выбор режима и настройку радиокомпаса;

— выбор режима и настройку VOR;

— выбор режима и настройку DME;

— выбор режима и настройку ILS;

— набор командной строки FMS латинскими буквами.

2.1. Ввод частот УКВ радиостанции (Радио)

Для настройки частоты с применением СРК лётчик привычными манипуляциями с комплек-сным пультом управления радиотехническими средствами связи (КПРТС) доходит до процедуры непосредственного ввода частоты, затем, вместо набора частоты рукоятка-ми, произносит значение частоты в диапазоне частот 118.0–135.0 мГц. Значения частот настойки и индикации состоят из целой части с шагом 1 мГц и дробной части c шагом 0,005 мГц. Массив команд управления радиостанцией насчитывает 240 команд, состо-ящих из 24 слов. Максимальное число слов в команде равно 7. В случае поразрядного речевого представления цифр массив команд состоит из 11 слов. Максимальное число слов в команде равно 7.

2.2. Выбор режима и настройка радиокомпаса АРК-32

Выбрав с помощью рукояток и кнопок требуемый комплект АРК, лётчик может установить режим работы компаса, используя следующий набор речевых команд.

1. Авиум вээсэс.

2. Авиум компас телефон.

3. Авиум компас телеграф

4. Авиум антенна телефон.

5. Авиум антенна телеграф.

После выполнения команд 2–5 может быть выполнена настройка частоты радиокомпаса в диапазоне частот 150–1750 кГц. Значения частот настройки состоят из целой (через 10 кГц) и дробной (через 0,5 кГц) частей. Например, для настройки частоты радиоком-паса 170,25 используется команда «авиум резерв сто семьдесят двадцать пять». Мас-

Page 94: Речевые технологии

94

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

сив команд управления АРК-32 насчитывает 3207 команд, состоящих из 30 слов. Максимальное число слов в команде равно 7. В варианте поразрядно-го речевого представления цифр массив команд состоит из 17 слов. Макси-мальное число слов в команде равно 8.

2.3. Выбор режима и настройка азимутального радиомаяка VOR

Выбрав с помощью рукояток и кнопок требуемый комплект VOR, лётчик может установить режим работы VOR, используя следующий набор речевых ко-манд:1. Авиум вээсэс.2. Авиум спаренный.3. Авиум раздельный

Частоты настройки VOR расположены в диапазоне частот 108–117 МГц. Значе-ние частоты состоит из двух частей, целая через 1 МГц, и дробная через 0,05 МГц. Для диапазона 108–111 мГц дробная часть изменяется от ,00 до ,85, для диапазона 112–117 мГц дробная часть изменяется от ,00 до 0,95. Например, для настройки на частоту 112,75 можно использовать команду «авиум резерв сто двенадцать семьдесят пять». После выполнения команд 2 и 3 установки режима работы может быть выполнена команда выбора азимута в диапазоне от 0º до 360º из набора (0, 1, …, 359, 360). Массив команд управления VOR насчитывает 506 команд, состоящих из 36 слов. Максимальное число слов в команде — 6. В случае поразрядного представ-ления цифр массив команд состоит из 16 слов. Максимальное число слов в команде — 7.

2.4. Выбор режима и настройка дальномера DME

Выбрав с помощью рукояток и кнопок требуемый комплект DME, лётчик может установить режим работы DME, используя следующий набор речевых ко-манд:1) авиум вээсэс;2) авиум спаренный;3) авиум раздельный.

DME работает в диапазоне частот 108–117 МГц. Значение частоты состоит из двух частей, целая часть через 1 МГц, дробная после запятой через 0,05 МГц, точно также, как для частот VOR. После выбора режимов 2 или 3 работы DME можно выполнить настройку частоты. команд. Массив команд управления DME насчитывает 145 команд, состоящих из 27 слов. Макси-мальное число слов в команде равно 6. В случае поразрядного представ-ления цифр массив команд состоит из 16 слов. Максимальное число слов в команде равно 7.

2.5. Выбор режима и настройка системы посадки ILS

Использование СРК при работе с ILS также может упростить задачу лётчику. Вы-брав с помощью рукояток и кнопок требуемый комплект ILS, лётчик может установить режим работы ILS, используя следующий набор речевых команд.1) авиум вээсэс;2) авиум резерв (значение частоты);3) авиум полоса (значение азимута).

ИЛС работает в диапазоне частот 108–111 мГц. Выбираемая частота состоит из двух частей, целые до запятой настраиваются через 1 мГц, после запя-той — 00, 10, 15, 30, 35, 50, 55, 70, 75, 90, 95. Настройка частоты ILS выпол-

Page 95: Речевые технологии

95

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бондарос Ю.Г., Костюк А.И.

Анализ вариантов грамматики команд речевого интерфейса пилота ВС гражданской авиации

няется командой со структурой вида «авиум резерв частота». При выполнении команды 3 настраивается значение азимута в диапазоне от 0º до 360º из набора (0, 1, …, 359, 360). Массив команд управления ILS насчитывает 397 команд, состоящих из 36 слов. Максимальное число слов в команде равно 6. В случае поразрядного представления команд массив команд состоит из 15 слов. Максимальное число слов в команде равно 7.

2.6. Набор командной строки системы самолётовождения ВСС латинскими буквами

Функция набора команд латинскими буквами упрощает неудобную для выполнения вруч-ную процедуру настройки ВСС при вводе кода аэродрома латинскими буквами (Alpha, Beta,…, Zulu). Грамматика команд для выполнения этой одинакова для вариантов пред-ставления W и D. Массив команд управления ВСС насчитывает 26 команд, состоящих из 27 слов. Максимальное и минимальное число слов в команде равно 2.

ЗАКЛЮЧЕНИЕ

Сравнительные характеристики двух вариантов представления грамматики команд управ-ления устройствами навигационного комплекса приведены в таблице 1. Как следует из данных этой таблицы, число слов, требуемых для речевого представления команд поразрядно цифрами от 0 до 9 (тип D) , примерно в 2 раз меньше, чем при обычном речевом представлении (тип W). Кроме того, в варианте D можно построить единую структуру команд (по числу слов в команде) и пилоту менее сложно себя контролировать на правильность произнесения команды.

Таблица 1Параметры двух вариантов представления (W и D) грамматики команд

Число употребления слов в полном наборе команд управления устройствами навигационного комплекса приведено в таблицах 2 и 3.

Таблица 2Число употребления слов в полном наборе команд для варианта W

N Слово\Устр. АРК-32 DME ILS Радио VOR ВСС

2 азимут 0 0 0 0 361 0

3 антенна 2 0 0 0 0

Колич.\Упр. устр. Тип АРК-32 DME ILS Радио VOR ВСС

Всех команд W, D 3207 145 397 240 506 26

Всех W 30 27 36 24 36 27

слов D 17 16 15 11 16 27

Слов в W 2–7 2-6 2-6 2-7 2-6 2-2

команде D 2–8 2-7 2-7 2-7 2-7 2-2

Ком. со сл. «азимут» W, D 0 0 0 0 361 0

Ком. со сл. «антенна» W, D 2 0 0 0 0 0

Ком. со сл. «вээсэс» W, D 1 1 1 0 1 0

Ком. со сл. «компас» W, D 2 0 0 0 0 0

Ком. со сл. «полоса» W, D 0 0 361 0 0 0

Ком. со сл. «раздельный» W, D 0 1 0 0 1 0

Ком. со сл. «резерв» W, D 3201 141 34 0 141 0

Ком. со сл. «смена» W, D 1 1 1 1 1 0

Ком. со сл. «спаренный» W, D 0 1 0 0 1 0

Ком. со сл. «телеграф» W, D 2 0 0 0 0 0

Ком. со сл. «телефон» W, D 2 0 0 0 0 0

Ком. со сл. Alfa zulu W, D 0 0 0 0 0 1

Page 96: Речевые технологии

96

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Таблица 2 (окончание)

4 восемнадцать 0 0 4 14 4 0

5 восемь 0 28 73 31 90 -

6 восемьдесят 640 18 30 17 48 0

7 восемьсот 200 0 0 0 0 0

8 вээсэс 1 1 1 0 1 0

9 два 0 0 72 185 90 0

10 двадцать 640 0 40 157 58 0

11 двенадцать 0 20 4 0 24 0

12 двести 400 0 100 0 100 0

13 девяносто 640 10 36 0 40 0

14 девятнадцать 0 9 4 14 4 0

15 девять 0 10 43 14 42 0

15 девятьсот 200 0 0 0 0 0

17 десять 480 15 18 17 19 0

18 компас 2 0 0 0 0 0

19 ноль 321 18 4 272 19 0

20 один 0 0 37 28 46 0

21 одиннадцать 0 10 5 0 14 0

22 полоса 0 0 361 0 0 0

23 пятнадцать 160 0 7 17 29 0

24 пять 2481 0 90 151 147 0

25 пятьдесят 641 25 46 34 50 0

26 пятьсот 400 0 0 0 0 0

27 раздельный 0 1 0 0 1 0

28 резерв 3201 141 34 0 141 0

29 семнадцать 0 1 8 0 9 0

30 семь 0 0 141 62 162 0

31 семьдесят 1280 28 66 34 88 0

32 семьсот 501 0 0 0 0 0

33 смена 1 1 1 1 1 0

34 сорок 640 18 40 17 58 0

35 спаренный 0 1 0 0 1 0

36 сто 940 151 170 239 281 0

37 телеграф 2 0 0 0 0 0

38 телефон 2 0 0 0 0 0

39 три 0 0 143 133 167 0

40 тридцать 640 10 46 105 50 0

41 тринадцать 0 20 4 0 24 0

42 триста 400 0 61 0 61 0

43 тысяча 1501 0 0 0 0 0

44 четыре 0 0 32 28 32 0

45 четырнадцать 0 20 4 0 24 0

46 четыреста 400 0 0 0 0 0

47 шестнадцать 0 20 4 0 24 0

48 шесть 0 0 63 48 81 0

49 шестьдесят 640 18 31 34 49 0

50 шестьсот 400 0 0 0 0 0

51..76 Alfa…zulu 0 0 0 0 0 1

Page 97: Речевые технологии

97

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Бондарос Ю.Г., Костюк А.И.

Анализ вариантов грамматики команд речевого интерфейса пилота ВС гражданской авиации

Таблица 3Число употребления слов в полном наборе команд для варианта D

N Слово\Устр. АРК-32 DME ILS Радио VOR ВСС

2 азимут 0 0 0 0 361 0

3 антенна 2 0 0 0 0

4 восемь 840 28 77 45 94 0

5 вээсэс 1 1 1 0 1 0

6 два 1040 38 176 185 214 0

7 девять 840 20 83 28 86 0

8 компас 2 0 0 0 0 0

9 ноль 7341 118 231 419 295 0

10 один 2441 282 229 329 458 0

11 полоса 0 0 361 0 0 0

12 пять 2641 100 97 168 176 0

13 раздельный 0 1 0 0 1 0

14 резерв 3201 141 34 0 141 0

15 семь 1781 39 149 76 171 0

16 смена 1 1 1 1 1 0

17 спаренный 0 1 0 0 1 0

18 телеграф 2 0 0 0 0 0

19 телефон 2 0 0 0 0 0

20 три 1040 30 143 133 167 0

21 четыре 1040 38 76 45 114 0

22 шесть 1040 38 67 48 105 0

23..48 Alfa… zulu 0 0 0 0 0 1

Очевидны преимущества поразрядного речевого представления цифр в этих командах. Сло-варь команд речевого управления базовыми устройствами самолёта в варианте пораз-рядного представления цифр содержит примерно вдвое меньше слов, чем словарь ко-манд речевого управления в варианте обычного речевого представления цифр.

Page 98: Речевые технологии

98

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке

Ронжин А.Л.Будков В.Ю.

Учреждение Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН.Россия, 199178 Санкт-Петербург, 14 линия, д. 39.Тел.: (812) 328-7081; Факс: (812) 328-7081.E-mail: {ronzhin, budkov}@iias.spb.su

Рассматривается система многоканальной записи и последующего анализа речи участников мероприятий в интеллектуальном зале. Предложен комплекс алго-ритмов для выделения границ фраз в многоканальном аудиопотоке, записанном встроенными микрофонами веб-камер, расположенных на конференц-столе пе-ред каждым участником. Выбранный в ходе экспериментов алгоритм позволяет достичь приемлемого качества выделения границ фраз и автоматически выби-рать номер камеры текущего активного диктора.

Интернет-приложения для телеконференций и дистанционного обучения, так на-зываемые системы E-meeting и E-lecture, становятся всё более популярны-ми в коммерческих, исследовательских, образовательных и других органи-зациях. Такие системы позволяют сэкономить на транспортных расходах, выбрать индивидуальный способ обучения, а также предоставляют удобные средства поиска и доступа к информации. Тем не менее, большая часть работы по протоколированию, ведению хода мероприятия, подключению отдельных удалённых участников выполняется вручную оператором или се-кретарём. Задача протоколирования дикторов (speaker diarization (SD)), так-же известная в зарубежной литературе под названием «Who Spoke When», состоит в сегментации реплик каждого диктора в аудиосигнале и последу-ющей группировке всех сегментов каждого диктора [1]. В процессе прото-колирования SD системы выполняют ряд последовательных операций [2]. Вначале определяются границы речи и участки, содержащие паузы или шумы, затем проверяется, изменился ли текущий диктор, определяется пол диктора и наконец производится классификация сегмента речи среди суще-ствующих дикторов или создается модель нового диктора.

Предварительная сегментация сигнала на участки, содержащие тишину или речь, позволяет значительно сократить уровень ошибок распознавания речи, повысить скорость обработки. К сожалению, методы определения ре-чевой активности (voice activity detection (VAD), основанные на оценке уров-

Page 99: Речевые технологии

99

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Ронжин А.Л., Будков В.Ю.

Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке

ня энергии сигнала или его спектра, хорошо зарекомендовавшие себя при обработке речи, записанной с помощью одного микрофона, не решают проблем, возникающих при обработке многоканальных аудиозаписей мероприятий с несколькими диктора-ми [3]. Для решения этой проблемы используются методы, основанные на нормализа-ции энергии многоканального сигнала [4], оценке степени корреляции между канала-ми [5], а также скрытые макровские модели, содержащие не 2 состояния (речь/тишина), как обычно в VAD методах, а 2K состояний, где K — число дикторов [6]. Их особенностью является необходимый предварительный этап обучения моделей, поэтому на данной стадии исследования для определения речи в многоканальной системе были использо-ваны более простые подходы, выполняющие классификацию без настройки моделей. Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределённых мероприятий и ис-пользования независимых устройств записи и обработки аудиосигналов более эффек-тивно применение методов на основе нормализации энергии сигналов в аудиоканалах, расчёта относительной энергии сегмента и его спектра, учёта фонетических законо-мерностей речи.

В данной работе описаны результаты исследования и разработки системы многоканальной записи и последующего анализа речи участников мероприятий в интеллектуальном зале. Для записи поведения участников и последующего выделения в аудио- и видеосиг-налах сегментов, содержащих речь, жесты или другую активность, связанную с ходом мероприятия, были использованы веб-камеры Logitech Sphere AF со встроенным микро-фоном. Более полное описание оборудования и программных средств, использованных при разработке интеллектуального зала, можно найти в [7].

Обычно участники сидят достаточно близко друг к другу за столом совещаний, поэтому сосед-ние микрофоны могут захватывать речь одного и того же диктора с примерно одинако-вой амплитудой сигнала. В итоге определение границ речи по энергии сигнала или его спектра (в каждом канале независимо) часто приводит к ошибочным результатам. Для повышения точности анализа применяют различные способы нормализации [2]. В рабо-те [4] рассчитывается относительная энергия сегмента сигнала norm

nE в каждом канале:

∑=

=M

kk

nnormn

iE

iEiE

1

)(

)()(

, где )(iEn - энергия в канале n для сегмента i , M - число кана-

лов в системе. Таким образом, нормализованная энергия сегмента для каждого канала будет рассчитана относительно всех каналов в системе, и её значение будет изменяться в диапазоне от нуля до единицы. Для компенсации различий в усилении сигнала по разным каналам в работе [3] было предложено дополнительно учитывать минимальную

энергию сегмента в каждом канале: ))(1

)((log)(1

min10 ∑

=

⋅−−=M

kknn

normn iE

MEiEiE ,

где minnE — минимальная энергия сегмента, вычисленная для каждого канала в услови-

ях тишины, вычитание которой позволяет учесть различные уровни усиления и внутрен-ние шумы микрофонов. Затем после вычитания средней энергии по каналам произво-дится логарифмирование, чтобы сократить разрядность полученного значения энергии. Для этой же цели используется расчёт коэффициентов усиления по каждому каналу:

))(1

)((log)(1

10 ∑=

⋅⋅−⋅=M

kk

kAmp

nAmpn

normn iE

MiEiE κκ , где n

Ampκ — коэффициент уси-

ления n канала, который позволяет учесть различные уровни записи микрофонов. Нор-мализованная энергия )(iE norm

n показывает относительное усиление сигнала в каждом канале и позволяет определить наличие речи в текущем сегменте. Последний алгоритм (Relative Energy Estimation (REE)) был экспериментально проверен в ходе исследований.

Page 100: Речевые технологии

100

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

В предложенном алгоритме RESW (Relative Energy estimation in Sliding Window) текущий активный диктор (и соответствующий номер веб-камеры) tω̂ в мо-мент времени t определялся путём расчёта относительной энергии канала в скользящем окне, за счёт чего подавлялись случайные всплески энергий в отдельных каналах:

}]))(1

)((1

{[logmaxargˆ1

1

0

1

010 ∑∑∑

=

=

=

+⋅⋅−+⋅⋅=M

j

N

ij

jAmp

N

in

nAmp

nt itE

MitE

Nκκω ,

где N — размер скользящего окна (число сегментов), M — число аудиока-налов каналов, )( itEn + — кратковременная энергия сегмента речи:

∑−

=++=+

1

0

2)()(

L

jjitLn xitE .

Для повышения робастности предложенного алгоритма определения речевой ак-тивности для выбранного канала tω̂ был использован дополнительный ана-лиз, в ходе которого оценивался показатель W , равный числу сегментов в скользящем окне длиной N , значение энергии

tEω̂ которых превышало

заданный порог silE : ∑−

=

=1

0

),,(N

i

itfW где ⎩⎨⎧ ≤+

=èíà÷å

EitEitf silt

,1

)(,0),( ω̂

.

Применение пороговой функции ),( itf позволяет предварительно классифици-ровать аудиосегмент как тишина ( 0),( =itf ) или речь ( 1),( =itf ). Были предложены два варианта оценивания показателя W . Решение о наличии речи в текущем скользящем окне в канале tω̂ принималось только в том случае, если показатель W : а) был больше нуля (алгоритм 1RESW ), либо б) превышал некоторое значение silW (алгоритм silRESW ). Для подавле-ния единичных ложных речевых сегментов учитывалась максимально допу-стимая пауза maxd между речевыми сегментами. Если число сегментов ти-шины между текущим речевым сегментом и ближайшим слева или справа сегментом речи в скользящем окне превышало значение maxd , то текущий

сегмент речи классифицировался как тишина: [ ]∑−

=

∧=1

0

),(),(N

i

sd ititfW φ ,

где

⎪⎩

⎪⎨⎧

>−⎥⎦

⎤⎢⎣

⎡+= ∑

+

−=

èíà÷å

iltfit

di

dil

,0

01),(,1),(

max

maxφ . В данном алгоритме ( distsilRESW + )

выполнение условия silsd WW > определяло наличие речи в скользящем

окне.

В таблице представлено краткое описание четырёх алгоритмов, которые были использованы при тестировании и выборе оптимального способа определе-ния границ речи в многоканальном аудиопотоке.

Таблица. Алгоритмы определения речевой активности в многоканальномаудиопотоке

Обозначение алгоритма Описание

REE Сравнение относительной энергии сегментов в аудиоканалах с порогом Esil.

RESW1Проверка наличия хотя бы одного сегмента в скользящем окне, значение энергии которого превышает порог Esil.

Esil

Сравнение числа сегментов в скользящем окне, значения энергий которых превышает порог Esil, с максимально допустимым для тишины порогом Wsil.

иначе

иначе

Page 101: Речевые технологии

101

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Ронжин А.Л., Будков В.Ю.

Система протоколирования дикторов на базе алгоритма определения речевой активности в многоканальном аудиопотоке

Точность сегментации аудиопотока по дикторам оценивалась по числу ложных (false alarm (FA)) и пропущенных (miss rate (MS)) сегментов речи. При анализе работы многоканаль-ной системы оценки суммируются по всем каналам M [8]:

)/(1

)(

1

)(

1

)( ∑∑∑===

+=M

k

MSk

M

k

Sk

M

k

MSk TTTMS , )/(

1

)(

1

)(

1

)( ∑∑∑===

+=M

k

FAk

M

k

Sk

M

k

FAk TTTFA , где )(S

kT — число

сегментов речи в канале k , верно определенных системой как речь; )(MSkT — число

сегментов речи, пропущенных системой; )(FAkT — число неречевых сегментов, опреде-

ленных системой как речь. При настройке параметров алгоритма определения границ речи приходится выбирать некоторый компромисс между числом пропущенных и лож-ных сегментов [1]. Для этой цели служит общепринятая функция DET (detection error trade-off), которая показывает, как зависит уровень пропущенных сегментов речи MS от уровня ложных речевых сегментов FA. С помощью данной зависимости вычисляют коэффициент равных уровней MS и FA (EER — Equal Error Rate) — точка на кривой DET, где значения MS и FA имеют наиболее близкие значения.

Для экспериментальной проверки алгоритмов определения речевой активности была под-готовлена тестовая база данных, содержащая пятиканальную аудиозапись с частотой дискретизации отсчетов 16кГц. Длина сегмента речи равнялась 1600 отсчетам. Длина скользящего окна составляла 10 сегментов. Окно сдвигалось с шагом равным одному сегменту. Общая длительность речевого сигнала в базе данных составила 28 минут. В ходе эксперимента пять участников последовательно читали предложения различной длины из одного текста. Распечатанные листы бумаги с текстом лежали на столе перед каждым участником. Таким образом, в данном эксперименте была создана несколько искусственная ситуация: участники не перебивали друг друга, а читали предложения последовательно; между микрофоном и участником не возникали помехи (руки, бумаги, другие предметы), лицо диктора было направлено преимущественно в сторону микро-фона на протяжении всей записи.

Рис. Уровень ошибок MS и FA для алгоритмов многоканальной оценки речевой активности

В ходе прослушивания всех записей вручную были выставлены границы фраз в каждом ка-нале с точностью до одного аудиосегмента. Полученная разметка использовалась в ка-честве эталонной, по которой оценивалось качество автоматической сегментации. На рисунке показано как изменялся уровень ошибок MS и FA при нескольких значениях

silE для алгоритмов REE , 1RESW , silRESW и distsilRESW + . Характер полученных зависимостей согласуется с результатами аналогичных исследований. В данном экс-

RESWsil+distСравнение числа сегментов в скользящем окне, значения энергий которых превышает порог Esil, с порогом Wsil и учет максимально допустимой паузы dmax между речевыми сегментами.

MS FAMS MS FA FA

FA

MS

/ /

Page 102: Речевые технологии

102

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

перименте с помощью алгоритма distsilRESW + границы фраз участников

были определены наиболее точно ( =+distsilRESWEER 9,16%).

Разработка многоканальной системы анализа речевой активности, использую-щейся при создании мультимедийных отчётов распределённых мероприя-тий, способствует сокращению трудозатрат при подготовке стенограмм, по-вышению качества проведения телеконференций и позволяет вести мони-торинг и расчёт статистики хода совещания, а также организовать быстрый поиск по мультимедийным архивам. Применение персональных петличных микрофонов в большинстве случаев обеспечивает высокое качество запи-си, но требует предварительной установки и ограничивает движения дикто-ра. В разработанной системе протоколирования используется набор персо-нальных веб-камер со встроенными микрофонами и алгоритм определения речевой активности в многоканальном аудиопотоке, позволяющих достичь приемлемого качества выделения фраз дикторов и автоматически выби-рать камеру участника, активного в текущий момент.

Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры ин-новационной России» (ГК №П2360) и грантов РФФИ (№ 08-08-00128-а, 08-07-90002-СТ_а).

ЛИТЕРАТУРА

1. NIST, Rich Transcription 2009 Evaluation, http://www.itl.nist.gov/iad/894.01/tests/rt/2009.

2. Tranter S., Reynolds D. An Overview of Automatic Speaker Diarization Systems. IEEE Trans. ASLP, vol.14, no. 5, 2006. P. 1557–1565.

3. Pfau T., Ellis D., Stolcke D. Multispeaker Speech Activity Detection for the ICSI Meeting Recorder. In: IEEE ASRU Workshop, 2001. P. 107–110.

4. Dines J., Vepa J., Hain T. The segmentation of multi-channel meeting recordings for automatic speech recognition, In: ICSLP-2006. P. 1213–1216.

5. Flego F., Zieger C., Omologo M. Adaptive weighting of microphone arrays for distant-talking F0 and voiced/unvoiced estimation. In: Interspeech-2007, 2007. P. 2961–2964.

6. Laskowski K., Schultz T. Simultaneous multispeaker segmentation for automatic meeting recognition. In Proc. of EUSIPCO, Poznan, Poland, September 2007. P. 1294–1298.

7. Будков В.Ю., Прищепа М.В., Ронжин А.Л., Марков К. Многоканальная си-стема анализа речевой активности участников совещания. Труды третьего междисциплинарного семинара «Анализ разговорной русской речи» (АР3 – 2009). СПб.: ГУАП, 2009. С. 57–62.

8. Laskowski K., Jin Q., Schultz T. Crosscorrelation based multispeaker speech activity detection. In: Interspeech-2004, 2004, Jeju Island, South Korea. P. 973–976.

Page 103: Речевые технологии

103

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Анализ звукопродукции детей после операции кохлеарного имплантирования

Ляксо Е.Е.Столярова Э.И.*Яровой А.С.Фролова О.В.Куражова А.В.Бедная Е.Д.Остроухов А.В.Балякова А.А.**Огородникова Е.А.***

*Санкт-Петербургский государственный университет, Биолого-почвенный факультет. 199034 Санкт-Петербург, Университетская наб.,7/9.Е-mail: [email protected]; тел. служ. (812)331-33-61; факс: (812)323-24-54

**Институт физиологии им. И.П.Павлова РАН, лаборатория психофизиологии речи. 199034 Санкт-Петербург, наб. Макарова, 6.Е-mail: [email protected]

***Научно-исследовательский институт уха, горла, носа и речи, клиника № 5 (патология речи у детей). 198013 Санкт-Петербург, ул. Бронницкая, 9.Е-mail: [email protected]

Цель работы — изучение звукопродукции детей на протяжении первого года после опе-рации кохлеарного имплантирования (КИ). Объект исследования — 5 детей 3,5–6 лет. В анамнезе четверых детей — угроза пренатального риска; у четверых — тугоухость 3–4 степени, у одного — глухота. Произведён анализ 15 часов аудио- и видеозаписей занятий детей с сурдопедагогом. Использованы методы перцептивного, фонетического, акусти-ческого спектрографического анализа речевых конструкций детей, анализ видеозаписей занятий сурдопедагога с ребёнком. У одного ребёнка — звуковая активность отсутствует. Взрослые — носители языка распознают значение единичных слов 4-х детей. В звуковых конструкциях всех детей носители языка выделяют ударные гласные /а/, /и/, спектральные характеристики которых соответствуют характеристикам гласных нормально слышащих детей 5 лет. При разнообразии согласных в звуковом репертуаре трёх детей правильное употребление согласных в словах не реализовано. Сформированность звуковой стороны речи обследованных детей не соответствует полностью уровню речевого развития нор-мально слышащих детей на этапе формирования первых слов, а имеет особенности, об-условленные возрастными изменениями речевого тракта. Полученные данные свидетель-ствуют об опережающем развитии акустической стороны речи ребёнка, определяемой созреванием речевого тракта, по сравнению с фактором слухового обучения, направлен-ного на формирование слухоречевой координации, приводящей к произнесению слова, нормативного для русского языка. Результаты исследования сопоставляются с данными наблюдений, полученными при логопедическом сопровождении детей на разных этапах послеоперационной реабилитации.

Page 104: Речевые технологии

104

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Нарушения слуха рассматриваются как значимый фактор риска для речево-го развития. По данным Всемирной организации здравоохранения (ВОЗ), в мире насчитывается 250 млн. человек со сниженным слухом, из них более 1 млн. — дети. В России на 1000 родов приходится 1–2 младенца с полной потерей слуха, 20 детей имеют нарушения слуха. (Калмыкова, 2009). При нейросенсорной форме тугоухости и глухоты восстановление слуха (вплоть до восприятия шёпотной речи и разговора по телефону) возможно путём операции кохлеарного имплантирования (КИ). Кохлеарная имплантация — хирургическая операция, в результате которой во внутреннее ухо — улит-ку глухого человека вводится система электродов. Электроды и наружная часть устройства обеспечивают восприятие звуков, в том числе и речевых, посредством электрической стимуляции слухового нерва (Королева, 2008). Оптимальным возрастом ребёнка для операции КИ является период от 6 месяцев до года жизни (Ланцов, 1996). Для детей после операции КИ хо-рошо изучено формирование слухоречевого восприятия (Королева, 2006, 2008) и на основе анализа восприятия — речевое развитие. Данные о ста-новлении звуковой стороны речи у детей после операции КИ, с использова-нием акустического спектрографического, перцептивного и фонетического анализа, на материале русского языка отсутствуют.

Цель настоящей работы — описание и анализ звукопродукции детей с наруше-нием слуха, диагностированным в довербальный период, после операции кохлеарного имплантирования.

В качестве рабочей гипотезы проверяется предположение о том, что сформи-рованность звуковой стороны речи детей с потерей слуха на первом году жизни, в первый год после операции КИ (3,5–6 лет) соответствует уровню речевого развития нормально слышащих детей на этапе формирования первых слов.

Объектом исследования явились 5 детей в возрасте 3,5–6 лет. Все дети воспи-тывались дома, в семьях. Нарушение слуха было диагностировано: у троих детей в возрасте одного месяца, у одного в пять месяцев и у одного в две-надцать месяцев. В анамнезе 4-х из этих детей стояла угроза пренаталь-ного риска, лечение двоих детей проводили с использованием гентамици-на; у четверых детей — тугоухость 3–4 степени, у одного — глухота. Вре-мя проведения операции КИ от 3 лет 3 мес. до 5 лет 6 мес. Произведён анализ 15 часов аудио- и видеоматериалов, включающих занятия ребенка с сурдопедагогом. Звуковые конструкции детей, произносимые в процессе взаимодействия со взрослым, анализировали с использованием методов перцептивного (n=100 аудиторов), фонетического (МФА) и акустического спектрографического анализа (значения частоты основного тона — F0, первой — F1, второй — F2 формант) речевых конструкций детей, анали-за видеозаписей занятий сурдопедагога с ребёнком. Для перцептивного анализа формировали тестовые последовательности, включавшие слова, произносимые одним ребёнком. Под словами понимали сочетание звуков, которые повторял ребёнок вслед за сурдопедагогом. В одной тестовой по-следовательности содержалось 20 слов (3 ребёнка), 10 слов (1 ребёнок), замешанных в случайном порядке. У одного ребёнка звуковая активность отсутствовала (в анамнезе — глухота, лечение гентамицином).

Результаты перцептивного анализа показали, что аудиторы правильно выделяют значения единичных слов четырех детей (рис.1).

Более 75% аудиторов правильно распознают слоговую структуру слова в 50–70% случаев (рис. 2. А). В звуковых конструкциях четверых детей носители язы-ка выделяют ударные гласные /а/, /и/ (рис. 2 Б).

Page 105: Речевые технологии

105

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Ляксо Е.Е., Столярова Э.И., Яровой А.С., Фролова О.В., Куражова А.В.,Бедная Е.Д., Остроухов А.В., Балякова А.А., Огородникова Е.А.Анализ звукопродукции детей после операции кохлеарного имплантирования

Рис. 1. Слова из тестового материала, значение которых распознали аудиторы.По горизонтальной оси — слова из тестового материала по порядку их следования в тестовой последовательности; по вертикальной оси — количество аудиторов, правильно определивших значение слова, в %

Рис. 2: А — правильное определение аудиторами слогового состава «слов» ребенка (по горизон-тали — процент аудиторов, по вертикали — процент слов, в которых правильно определенна сло-говая структура для каждого из детей; Б — распознавание ударных гласных аудиторами в словах тестового материала

На основе инструментального спектрографического анализа были проанализированы удар-ные гласные в словах, однозначно распознанные аудиторами. Для каждого из детей выявлено значимое различие по значениям 2-х формант между гласными [а] и [у] — F1: p<0.01; F2: p<0.01; [а] и [и] — F1: <0.001; F2: p<0.001, и по значениям второй форманты между гласными [у] и [и] — F2: p<0.001. Гласные [у] и [и] находились в более высоко-частотной области двухформантной плоскости, чем соответствующие гласные русского языка (обусловлено высокими значениями F0 в гласных детей).

Слова ребенка А

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

% ауд

итор

ов

Пример слов: 1-корова,

3-мама, 5-папа, 6-дядя

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

Слова ребенка С%

слова в тесте

Слова ребенка Л

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

%

Слова ребенка Ф

0102030405060708090

100

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

слова в тесте

%

1- лиса, 8 - мяч,

11 - мама, 17 - машина

%

А

100908070605040302010

00–25 26–50 51–75 76–100

аудиторы, %

сло

ва, %

АЛМСК

Б

ударный гласный

% с

ло

в

100

90

80

60

40

20

0

а е и у о

АЛФСК

Page 106: Речевые технологии

106

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Рис. 3. Спектральная характеристика гласных выделенных аудиторами. Данные представлены для каждого из детей. По горизонтальной оси — значения F1, по вер-тикальной — F2. Линиями указаны фонемные границы восприятия (Слепокурова, 1979)

На основе данных фонетического анализа показано, что в словах детей выяв-лены не все согласные русского языка: у ребёнка С. — 6 различных согла-сных, у А. и М. — по 15 согласных, у Л. — 17 согласных (рис. 4).

При разнообразии согласных в звуковом репертуаре троих детей правильное употребление их в словах не реализовано, что затрудняет распознавание слов носителями языка.

У 4-х детей выявлены звуковые конструкции, у одного ребёнка — звуковая актив-ность отсутствует.

Взрослые — носители русского языка распознают значение единичных слов 4-х детей в первый год после операции КИ. По данным перцептивного ана-лиза, у детей сформирована слоговая структура слова. В звуковых кон-струкциях всех детей носители языка выделяют ударные гласные/а/, /и/. Их спектральные характеристики соответствуют характеристикам этих гла-сных у нормально слышащих детей 5-летнего возраста. При разнообразии согласных в звуковом репертуаре трех детей правильное употребление со-гласных в словах не реализовано, что затрудняет их распознавание носи-телями языка. Сформированность звуковой стороны речи детей с потерей слуха на первом году жизни, в первый год после операции КИ (3,5–6 лет) полностью не соответствует уровню речевого развития нормально слы-шащих детей на этапе формирования первых слов, а имеет особенности, обусловленные возрастными изменениями речевого тракта. Таким обра-зом, выявленная у детей сформированность базовых гласных, разнообра-зие используемых согласных и слоговых конструкций при несформирован-ности структуры слова могут свидетельствовать об опережающем развитии акустической стороны речи ребёнка, определяемой созреванием речевого тракта, по сравнению с фактором слухового обучения, направленного на формирование слухоречевой координации, приводящей к произнесению слова, нормативного для русского языка.

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200 1400 1600

F1

F2

[и]

Для ребенка С

[а]

[у]0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200 1400 1600

F1

F2

для ребенка М

[a][у]

[о]

[и]

0

500

1000

1500

2000

2500

3000

3500

4000

0 200 400 600 800 1000 1200 1400

F1

F2

для ребенка А

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200 1400

F1

F2

для ребенка Л

Page 107: Речевые технологии

107

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Ляксо Е.Е., Столярова Э.И., Яровой А.С., Фролова О.В., Куражова А.В.,Бедная Е.Д., Остроухов А.В., Балякова А.А., Огородникова Е.А.Анализ звукопродукции детей после операции кохлеарного имплантирования

Рис. 4: А — количество символов Международного фонетического алфавита (МФА), используе-мых при описании согласных в словах детей; Б — характеристика произнесения: белые столби-ки — правильно произнесённые согласные, чёрные — согласные, которые были пропущены

Результаты согласуются с данными логопедического сопровождения детей с долингвальной глухотой при прохождении курса реабилитации после кохлеарной имплантации. Они сви-детельствуют, что для таких детей характерны: носовой оттенок голоса (нарушение диф-ференциации носового и ротового выдоха, отсутствие слухового контроля); проблемы с модуляцией голоса (неестественная высота) и интонированием; нарушения звуко-сло-говой структуры слова. При этом чаще наблюдаются трудности с реализацией последо-вательности (переключение, переход) артикуляторных движений при хорошем произне-сении отдельных звуков и с воспроизведением слоговой структуры слова. Правильное произнесение числа слогов (слоговая форма слова) при неправильной звуковой напол-няемости встречается значительно реже.

Работа осуществляется при финансовой поддержке гранта РФФИ (проект № 09-06-00338а).

ЛИТЕРАТУРА

1. Калмыкова И.В. Слуховые расстройства. Презентация на постоянно действующем се-минаре. СПб., 2009.

2. Королева И.В. Речевое развитие глухих детей после кохлеарной имплантации / Речь ребенка: проблемы и решения. Под ред. Т.Н.Ушаковой. 2008. С. 90–114.

3. Ланцов А.А., Пудов В.И., Королева И.В., Жукова О.С. Проблемы кохлеарной имплан-тации // Новости оториноларингологии и логопатологии. 1998. Вып. 4. 16 с.

4. Королева И.В. Диагностика и коррекция нарушений слуховой функции у детей ранне-го возраста. СПб.: КАРО, 2005. 288 с.

5. Слепокурова Н.А. О положении фонемной границы между гласными [i]-[e], [u]-[o], [ü]-[ö] В кн.: Анализ речевых сигналов человеком. Проблемы физиологической акустики. Л.: Наука. 1971. Вып 7. 138 с.

A - Количество символов МФА используемых при описании согласных в словах детей

0 2 4 6 8

10 12 14 16 18 20

А Л Ф С К имя ребенка

n

Б - Характеристика произнесения согласных

0 10 20 30 40 50 60

А Л Ф С К имя ребенка

%

правильно пропуск

Page 108: Речевые технологии

108

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Формирование речи и навыков чтения у русскоязычных детей: лонгитюдное исследованиеФролова О.В.Ляксо Е.Е.Куражова А.В.Бедная Е.Д.Гайкова Ю.С.Григорьев А.С.Соловьёв А.Н.Остроухов А.В.Ким Х.С.Смирнов А.Г.Полякова Е.А.

Санкт-Петербургский государственный университет, биолого-почвенныйфакультет. 199034 Санкт-Петербург, Университетская наб.,7\9.Е-mail: [email protected]; тел. (812)331-33-61; факс (812)323-24-54

Цель исследования: выявление связи между особенностями речевого развития ребёнка и формированием у него навыков чтения. Проанализированы различ-ные аспекты речевого развития 100 детей и стратегии вокально-речевого взаи-модействия взрослых с детьми. Оценивали навыки чтения этих детей в возрасте 4–7 лет. Результаты исследования показали, что успешное формирование на-выка чтения к 6,5–7 годам наблюдается у детей, которые на первом году жизни развивались либо в соответствии с нормой или с опережением. У них зарегистри-ровано появление лепета в 6–9 месяцев; имитация голоса матери, увеличиваю-щаяся с возрастом детей; повторение матерью вокализаций детей; появление первых слов к концу первого года жизни. На втором году жизни — появление двусоставных фраз; на 3–4 году — способность к воссозданию текста при рас-сматривании картинки; употребление в 6–7-летнем возрасте сложных речевых конструкций и разнообразных частей речи в диалогах. Для 44 детей проведено дополнительное тестирование на ведущую руку, глаз, ухо. На уровне тенденции установлено, что дети с выраженным правым профилем асимметрии лучше чита-ют; при пересказе и описании рисунка передают сюжет. Акустический инструмен-тальный анализ слов 7 летних детей из спонтанной речи и при чтении показал, что в читаемых словах отсутствует противопоставление ударного/безударного гласного, слоги разделены паузами. У некоторых детей при чтении выделяемые ими слоги не всегда соответствуют нормативному слогоделению, при прочтении слова согласные (преимущественно шипящие) отделяются паузами от окружа-ющего контекста. Данные пилотного исследования позволяют поставить вопрос о возможности прогнозирования нарушений формирования навыков чтения у де-тей на основе данных об их речевом развитии.

Исследование направлено на выявление связи между особенностями речевого развития ребёнка и стратегией овладения навыками чтения. Объектом ис-

Page 109: Речевые технологии

109

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Фролова О.В., Ляксо Е.Е., Куражова А.В., Бедная Е.Д., Гайкова Ю.С., Григорьев А.С.,Соловьёв А.Н., Остроухов А.В., Ким Х.С., Смирнов А.Г., Полякова Е.А. Анализ звукопродукции детей после операции кохлеарного имплантирования

следования явилось 5 одиночно рождённых детей (лонгитюд с 3 месяцев до 7 лет), 20 детей с 3-месячного возраста, 8 дизиготных близнецов (с 3 месяцев до 5 лет), 86 де-тей — 4–7 лет.

В работе проводили оценку вокально-речевого взаимодействия в диаде «мать—ребенок» на протяжении первых трёх лет жизни детей, речевого развития детей с 3 мес по 7-летний возраст с использованием ранее разработанных методик регистрации и анализа речи [1]: акустический инструментальный анализ детских вокализаций и слов, речи матери, обращённой ребенку; перцептивный анализ детских слов и вокализаций — группами ау-диторов различного пола, возраста, с различным опытом общения с детьми; фонетиче-ский анализ (МФА и САМПА). Разработана компьютерная программа, для определения частотного словаря ребёнка, с дополнительной функцией — подсчётом фонетических слов. Оценка уровня формирования навыка чтения у ребёнка проводилась на основа-нии блока вопросов в анкете, заполняемой родителями ребёнка; анализа аудио- и виде-озаписей процесса чтения ребёнком букв, слогов, слов, фраз и текстов из знакомой ре-бёнку книги. Использовали специально разработанную компьютерную программу, пред-назначенную для чтения символов (букв, слов и пр.) с экрана c последующей записью прочтённого ребёнком. Программа позволяет строго оценить длительность латентного периода между предъявлением стимула и ответом ребёнка. Апробирована методика [2] регистрации суммарной электрической активности (ЭЭГ) детей дошкольного воз-раста. Использовали стандартное расположение электродов по системе 10-20. Анализ ЭЭГ проводили на основе пакета программ «ЭЭГ-2000» версия 3.0. Для спектрального анализа использовали отрезки ЭЭГ средней длиной около 6сек., длительность эпохи — 2 сек., без перекрывания окна, окно сглаживания — временное окно Ханна. Для опре-деления порогов восприятия у детей использовали метод аудиометрии. Статистическая обработка проведена в программе «STATISTICA 7». Анализ речевого материала детей в ситуации «ЧТЕНИЕ» (n = 62 ребёнка) включённых в базу данных «CHILDRU» показал, что в возрасте 4 года 50% детей узнают отдельные написанные буквы в книге, в 4 г. 6 мес. читают — 25% детей, в 5 лет — читают 47% детей, в 5 л. 6 мес. — 100% , в 6 лет — 71% детей, в 6 л. 6 мес. и 7 лет — 100) детей. В 4,5 года дети читают только отдельные буквы, в 7 лет дети читают слова и фразы (рис.1).

Анализ лексикона всех детей, записанных в ситуации «чтение» по числу слов с разным коли-чеством слогов, выявил преобладание двуслоговых слов, увеличение с возрастом детей слов, состоящих из трёх слогов (0,15; 0,3 — частотность в 4 и 7 лет соответственно); появление с 4 л. 6 мес. слов из пяти и более слогов, и увеличение их частотности с воз-растом (0,02 — в 4 г. 6 мес. и 5 лет, 0,07 — в 6 лет). С возрастом детей увеличивается и количество минимальных диалогических единств (МДЕ) (от 9±7 в 4 года до 16±10 в 7 лет). Значимых отличий между читающими и не читающими детьми по числу МДЕ не выявлено. Лексикон 4-летних детей, не узнающих буквы, содержит слова из 4-х слогов (0,04), узнающих — из одного, двух и трёх слогов. Выявлены значимые различия в лек-сиконе детей 5 лет, не читающих и читающих слова, слова и фразы.

Рис.1. Количество детей, на разных этапах освоения навыка чтения

0

25

50

75

100

4г 4г6мес 5л 5л6мес 6л 6л6мес 7л

возраст

%

слова+фразысловаслогизвуки

4 года 4 года 5 лет 5 лет 6 лет 6 лет 7 лет 6 мес. 6 мес. 6 мес.

Возраст

Page 110: Речевые технологии

110

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Дети 5 лет, читающие буквы и не умеющие читать, имеют более разнообразный лексикон по числу слов с разным количеством слогов (слова из пяти и более слогов — 0,02) по сравнению с детьми, читающими слова и фразы (отсутст-вие слов из пяти и более слогов). Лексикон детей не читающих, читающих, буквы, слоги, слова и фразы, не различается в 6 и 7 лет.

В 4 г. 6 мес. не читающие дети считают лучше (14 — медианное значение), чем читающие звуки (10); в 5 лет — одинаково (до 10 — медиана); в 5 л. 6 мес. — читающие слова и фразы дети без ошибок и подсказок взрослого считают лучше (46,5), чем читающие слоги (20). Эта же закономерность сохраняется с возрастом — в 6 л. и 6 л. 6 мес. (100, 82,5 — читающие слова и фразы соот-ветственно в 6 л. и 6 л. 6 мес.; 10, 26 — читающие слоги). Простые слова дети читают слитно, более сложные или менее часто используемые — по слогам.

Акустический инструментальный анализ слов 7-летних детей из спонтанной речи и при чтении показал, что в читаемых словах отсутствуют безударные гла-сные (каждый слог в слове равноценен), поэтому дети более чётко арти-кулируют гласные звуки (рис. 2), слоги разделены паузами (рис. 3). У не-которых детей при чтении выделяемые ими слоги не всегда соответствуют

Рис. 2. Значения формантных частот гласных из слов ребёнка С. 7 летпри чтении и спонтанном произнесении

Рис. 3. Длительность пауз между слогами в читаемых детьми (С, Е) словах

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200

взрослый

уд

уд к

безуд

чтение_а

чтение_у

чтение_и

F 2,

F1, Гц

[i

[a

[u

длительность пауз между слогами при чтении

0

50

100

150

200

250

300

п_1 п_2 п_3

пауза

мс

Соня

Егор

Page 111: Речевые технологии

111

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Фролова О.В., Ляксо Е.Е., Куражова А.В., Бедная Е.Д., Гайкова Ю.С., Григорьев А.С.,Соловьёв А.Н., Остроухов А.В., Ким Х.С., Смирнов А.Г., Полякова Е.А. Анализ звукопродукции детей после операции кохлеарного имплантирования

нормативному слогоделению, при прочтении слова согласные (преимущественно шипя-щие) отделяются паузами от окружающего контекста (от 285 до 840 мс).

Осуществлен анализ данных, полученных в ходе лонгитюдного исследования с 3 мес. жизни (n=20 детей), с 3 мес. до 6 л. 6 мес. — 7 лет (n=5), включающий оценку уровня звукового и речевого развития детей; их психомоторного статуса на основе опросников; стратегии вокально-речевого взаимодействия в диадах «мать—ребёнок».

Проанализирована речь 5 детей 4-х мальчиков и 1 девочки в лонгитюде — от 3 мес. до 6,5 лет — 7 лет. Ребенок ДС (мальчик) имел диагноз «перинатальная энцефалопатия лёгкой степени», РО, ВК, С и Е— здоровы. На первом году жизни: лепет у ВК, РО, С, Е был зарегистрирован в возрасте 6 мес. Эти дети лепетали при естественном взаимо-действии с матерью и в модельных ситуациях (кроме С в 12 мес). У ребёнка ДС лепет в 6 мес. не зарегистрирован, в 9 и 12 мес. ребёнок не лепетал при взаимодействии с матерью в модельных ситуациях. Дети ВК, РО, Е и С имитировали звуки материнского голоса, частота имитации увеличивалась во втором полугодии жизни детей. У ребёнка ДС частота имитации звуков материнского голоса во втором полугодии жизни была минимальна по сравнению с другими детьми (0,17 — в 3 мес.; 0,05 в 6 мес.; 0,07 — в 9 мес.; 0,02 — в 12 мес.). Все матери повторяли звуки своих детей. Однако мать ДС повторяла за ребёнком редко. В возрасте 12 мес. все дети произносили первые слова. Максимальное количество слов (n=9) в репертуаре ВК, минимальное — у ДС (n=1). В 2 года все дети, кроме ДС, произносили фразы из 2 и более слов. В репертуаре ДС в 2 года зарегистрировано 3 слова, сочетания из 2 слов— отсутствовали. В двухлетнем возрасте дети (с 9 мес. — регистрировали ситуацию «чтение», при которой мать при-влекала внимание ребенка для рассмотрения картинок в книге) отвечают на вопросы матерей о том, что изображено на картинке. ДС в 2 года в данной ситуации практиче-ски не произносит слов (1 слово «да», лепетные конструкции). В 3–4 года дети, глядя на рисунок, вспоминают текст книги (пересказ, рассказывают стихи наизусть). ДС от-мечает детали картинок, а рассказывает, в основном, мама. В 6, 5–7 лет все дети чи-тали, понимали смысл прочитанных предложений. Ребёнок ДС «не видел» при чтении пауз между словами и знаков препинания, что позволяло ему понимать смысл только коротких фраз. В речи ДС больше однословных реплик и простых предложений. Таким образом, анализ лонгитюдных данных показал, что успешное формирование навыка чтения к 6,5–7 годам, при котором дети понимали значение прочитанного, наблюдает-ся у детей, которые на первом году жизни развивались в соответствии с нормой или с опережением. У них зарегистрировано появление лепета в 6–9 мес; имитация голо-са матери, увеличивающаяся с возрастом, и повторение матерью вокализаций детей; появление первых слов к концу первого года жизни; двусоставных фраз — на втором году. В 3–4 года при рассмотрении картинки способность к воссозданию текста, и упо-требление в 6–7-летнем возрасте сложных речевых конструкций и разнообразных ча-стей речи в репликах.

Лонгитюдный анализ раннего речевого развития близнецов (n=4 триады) выявил различие между детьми в триадах (тр. 2, 3, 4). Установлено, что дети-близнецы (тр. 1), развива-ющиеся в соответствии с нормой, имеют более высокий уровень звукового и речево-го развития в первые два года жизни, характеризуются способностью к чтению слов в 5 лет.

Проанализированы особенности реплик 10 детей, воспитывающихся в детском саду, зареги-стрированных в лонгитюде: старшей группы (5 лет); подготовительной (6,5 лет). Эти дети разделены на две группы: группа 1–4 ребёнка, которые в подготовительной группе чи-тали и понимали смысл прочитанной фразы; группа 2–6 детей на этапе формирования навыка чтения. Все дети второй группы не были способны самостоятельно прочитать и понять смысл фразы.

Page 112: Речевые технологии

112

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Показано, что дети с выраженным правым профилем асимметрии, определяе-мым при тестировании ребёнка на ведущую руку, глаз, ухо, лучше чита-ют, при пересказе и описании рисунка передают сюжет, видят главное. Во второй группе выявлено преобладание амбидекстров и один левша. Можно предположить, что различиями в асимметрии и стиле обработки информа-ции объясняется тот факт, что в 5 лет дети первой группы используют более простые конструкции и при ответе на вопрос отвечают по сути, не вдаваясь в детали (рис. 4); дети второй группы — отвечают с акцентом на детали. Другим объяснением может явиться предположение о замедлении усложне-ния спонтанной речи при освоении нового навыка — чтения.

Рис. 4. Состав реплик детей двух групп. Группа 1— дети читали и понимали смысл прочитанной фразы; группа 2— дети на этапе формирования навыка чтения

А) данные для детей в возрасте 5 лет; Б) данные для детей в возрасте 6,5 лет

С целью оценки формирования навыка чтения при разных стратегиях обуче-ния детей (n=29) проведено их тестирование посредством разработанной компьютерной программы. Полученные данные показали увеличение ла-тентного периода (ЛП) при прочтении более сложного материала (слогов по сравнению с буквами, слов по сравнению со слогами) у детей, входящих во все группы, и влияние возраста ребёнка на величину ЛП. Дети одно-го возраста (6,5–6,6л) при сходном ЛП при прочтении букв демонстрируют разное время при чтении слогов, слов и предложений.

Анализ ЭЭГ у 7 детей (4,9–6,5 лет), включённых в исследование формирова-ния навыка чтения, показал уменьшение амплитуды и увеличение частоты альфа-ритма, уменьшение амплитуды и мощности медленных ритмов, уве-личение передне-заднего градиента по альфа-ритму с возрастом детей. В распределении высокочастотной активности определённой тенденции не выявлено.

Выявлены диэнцефальные (с фокусом в передне-центральных отделах) или генерализованные пароксизмоподобные вспышки дельта или низкоча-стотного тета-ритма, что может указывать на незрелость деэнцефальных или стволовых структур головного мозга. Отмечается преимущественное усвоение низкочастотного ритма в тета- или альфа-диапазоне. Усвоение высокочастотного ритма с появлением бета-активности отмечается у од-ного ребёнка СП (близнец). Реакция на гипервентиляционную нагрузку была отмечена у всех детей. Во всех случаях наблюдалось увеличение мощности медленных ритмов, включая и альфа-ритм, а также происходило межполушарное смещение фокуса его представительства. В целом выяв-лено относительное соответствие картины ЭЭГ возрасту обследованных

0

10

20

30

40

50

60

одно слово прост предл сложн предл

1 группа

2 группа

А%

0

10

20

30

40

50

60

одно слово прост предл сложн предл

1 группа

2 группа

Б%

Page 113: Речевые технологии

113

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Фролова О.В., Ляксо Е.Е., Куражова А.В., Бедная Е.Д., Гайкова Ю.С., Григорьев А.С.,Соловьёв А.Н., Остроухов А.В., Ким Х.С., Смирнов А.Г., Полякова Е.А. Анализ звукопродукции детей после операции кохлеарного имплантирования

детей по выраженности и стабильности альфа-ритма и по представительству и мощно-сти медленных ритмов. Асимметрия выраженности альфа-ритма в ЭЭГ картине носит нестабильный характер, зависит от функционального состояния обследуемых и от их возраста.

Таким образом, проведённое пилотное исследование подтвердило предположение о том, что возраст, в котором ребёнок начинает читать, зависит от сформированности опреде-ленной совокупности речевых навыков, языковых и метаязыковых способностей (чёт-кости артикуляции слов, способности к вербальной коммуникации, связности текста, осознания звуковой стороны речи и единиц её членения). Получены дополнительные доказательства, свидетельствующие в пользу того, что чтение является определённым уровнем речевого развития.

Работа осуществляется при финансовой поддержке гранта РФФИ (проект № 09-06-00338а).

ЛИТЕРАТУРА

1. Lyakso E, Bogorad M., Ostrouxov A., Gromova A., Kurazhova A., Frolova O., Gaikova J. ”INFANTRU” and “CHILDRU”: Sounds and speech databases of Russian children // Specom 2007. Moscow. Т. 1. С. 898–908.

2. Строганова Т.А., Дегтярева М.Г., Володин Н.Н. Электроэнцефалография в неонато-логии / Под общей ред. академика РАМН Н.Н. Володина. М.: ГЭОТАР-МЕД. 2005. 280 c.

Page 114: Речевые технологии

114

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Акустические признаки гласных звуков с негармонической структурой

Уплисова К.О.

Санкт-Петербургский государственный университет.Россия, 199034, Санкт-Петербург, Университетская наб., 7/9.Тел. (812) 328-97-06. E-mail: [email protected]

Человек различает звуки речи независимо от того, произнесены ли они чело-веком или птицей, голосом или шёпотом, пропеты или синтезированы. Однако в зависимости от способа генерации, акустические характеристики фонем могут существенно отличаться. Шёпотная речь и звуки, имитируемые птицами, по боль-шей части, не являются гармоническими, а обладают широкополосной структу-рой. Исследование мощности спектральных компонентов в различных частотных полосах для гласных звуков серого попугая и шёпотной речи выявило их отно-сительное сходство. Для определения ключевых частот, необходимых для иден-тификации звуков «у», «о», «а», «и», исследована возможность идентификации синтезированных одноформантных шумоподобных звуков: фрагментов белого шума с усиленной на 35 дБ узкой полосой частот. Если полоса находилась в ди-апазоне от 200 до 500 Гц, звук идентифицировался как «у», 700-900 Гц — «о», 1000–1700 — «а», и если усиленная по амплитуде частота превышала 1900 Гц, звук идентифицировался как «и». Таким образом, на основании первого и един-ственного максимума в спектре возможно идентифицировать четыре категории гласных. При сравнении значений выраженных спектральных компонентов гла-сных звуков серого попугая и шёпотных гласных в диапазонах частот, соответ-ствующих полученным при идентификации синтезированных звуков, оказалось, что у всех звуков присутствуют выраженные спектральные компоненты в соот-ветствующих зонах. В связи с этим можно предположить, что для идентификации гласных категорий «у», «о», «а», «и» необходимо и достаточно наличия выражен-ных спектральных компонентов в определённой частотной зоне. Выраженные спектральные максимумы вне этих зон могут не оказывать влияния на иденти-фикацию категории гласного звука.

ВВЕДЕНИЕ

Человек различает звуки речи независимо от того, произнесены ли они челове-ком или птицей, голосом или шёпотом, пропеты или синтезированы. Одна-ко в зависимости от способа генерации акустические характеристики фо-нем могут существенно отличаться. Речь, генерируемая голосом взрослого человека, имеет частоту основного тона от 100 до 250 Гц и обладает выра-женной гармонической структурой. Наиболее энергетически выраженные точки огибающей спектра считаются формантами, и на основании частот первых двух формант возможно разделить все категории гласных звуков [1, 2, 3]. Получены данные [4, 5, 6, 7], свидетельствующие о том что, что при значениях частот основного тона, не превышающих 240 Гц, у боль-шинства гласных выделяется типичная формантная структура, и на двух-формантной плоскости наблюдается характерное разделение областей

Page 115: Речевые технологии

115

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Уплисова К.О.

Акустические признаки гласных звуков с негармонической структурой

их представительства. По мере возрастания частоты основного тона, как формантная характеристика звуков, так и их оценка по спектральным максимумам уже не позво-ляют разделить гласные, относящиеся к разным фонетическим категориям, поскольку энергетически выраженными оказываются три-четыре гармонических составляющих, включая и первую, соответствующую частоте основного тона. В то же время анализ от-носительной амплитуды первых четырёх гармонических составляющих показал, что эти характеристики меняются в зависимости от значений частоты основного тона по-раз-ному у разных гласных. Таким образом, оценка по признаку относительной амплитуды спектральных компонентов позволяет не только выявить различия между гласными [а], [о], [у] при высоких значениях частоты основного тона, но и разделить гласные речевого диапазона при неопределённости их формантной картины независимо от формы речи (в том числе и гласные [a] и [и], имитируемые скворцом-майной) [8]. Более того, звуки с типичной формантной структурой также могут быть описаны с использованием дан-ного признака.

С другой стороны, шёпотная речь и речь, имитируемая говорящими птицами, вообще лишена основного тона и не имеет гармонической структуры. Выраженные по амплитуде спек-тральные компоненты, которые можно принять за форманты, не всегда находятся в ди-апазонах, соответствующих значениям первых двух формант обычной голосовой речи [9]. Таким образом, возможность разделения гласных звуков на основании значений первых двух формант является лишь частным случаем. Возникает вопрос, существует ли единый, универсальный признак, на основании которого возможно разделение фо-нетических категорий звуков независимо от способа их генерации, или же для каждого типа звукогенерации существует своя собственная система различительных акустиче-ских признаков.

Для негармонических гласных говорящих птиц учёт амплитудных характеристик спектраль-ных компонентов не даёт результата. Ключевыми признаками являются частотные зна-чения формант, однако если в звуке присутствует несколько формантных областей, вклад их в идентификацию категории фонемы не одинаков. Было выявлено [10], что если в спектре звука присутствуют выраженные спектральные компоненты в диапазо-не 1300–1700 Гц, этот звук будет с высокой вероятностью идентифицирован как «а», независимо от того, присутствуют ли выраженные спектральные компоненты на низ-ких и высоких частотах. Если частоты основных энергетически выраженных компонен-тов находятся ниже 1000 Гц, то звук будет идентифицирован как «о», независимо от присутствия выраженных спектральных компонентов выше 1700 Гц, но не в случае их наличия в диапазоне 1300–1700 Гц. В случае наличия энергетически выраженных спектральных компонентов с частотой ниже 500 Гц и при отсутствии выраженных спек-тральных компонентов на более высоких частотах звук будет идентифицироваться как «у». Если выраженные спектральные компоненты будут присутствовать начиная с 1700 Гц, звук будет идентифицироваться как «и». В связи с тем, что способ звукогене-рации у птиц существенно отличается от человеческого, возникает вопрос, какими ха-рактеристиками будут обладать гласные звуки человеческой речи с негармонической структурой — шёпотные гласные, и возможно ли во всех негармонических гласных вы-явить единый различительный признак, характерный для той или иной фонетической категории звука.

МЕТОДИКА

Для исследования акустических характеристик шёпотных гласных были получены аудиоза-писи 160 юношей и девушек (18–20 лет). Перед студентами была поставлена задача шёпотом произнести звуки категорий «а», «о», «у», «и», «ы», «э» по четыре раза каж-дый, с каждым разом пытаясь увеличить высоту голоса. Из полученных записей было выделено 756 звуков, произнесённых без колебания голосовых складок. Выделение звуков осуществлялось на слух, по однородности динамической узкополосной спектрог-

Page 116: Речевые технологии

116

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

раммы (1024 фильтра). Нормализованные звуки были прослушаны тремя опытными аудиторами, и в дальнейшем анализировались те звуки, которые получили единогласную оценку. 152 звука были отнесены к категории «а», 68 — «о», 60 — «у», 147 — «и».

Из аудиозаписи имитации речи серым попугаем Кузей были таким же образом выделены гласные и подвергнуты перцептивному анализу. Звуки прослу-шивались 25–30 студентами и относились ими к одной из категорий гласных русского языка. Достоверно было идентифицировано 69 «а», 8 «о», 27 «у», 78 «и».

Анализ звуков осуществлялся с помощью программы Praat. С помощью функции фильтрации (pass Hann band) у каждого звука последовательно сохраня-лись спектральные компоненты в частотном диапазоне, соответствующим значениям частот критических полос слуха человека [11] и определялась их мощность (Pa2).

Для перцептивного эксперимента была проведена следующая модификация: у серии 500 мс фрагментов белого шума последовательно усиливалась определённая узкая частотная полоса (центральная частота усиливалась на 35 дБ, ширина подъёма и спада области составляла 100 Гц в одной серии и 200 Гц в другой — треугольный фильтр) в диапазоне от 200 Гц до 4 кГц с шагом 100 Гц. Звуки идентифицировались 25 аудиторами. Сначала им предъявлялись четыре модифицированных звука, ранее чётко идентифици-ровавшихся как «а», «о», «у», «и». После того как аудиторы определяли эти звуки как различные фонемы, перед ними ставилась задача прослушать се-рию звуков и обозначить, звуки каких категорий они слышат. Достоверность идентификации определялась по биномиальному критерию.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Для 152 звуков «а», 68 — «о», 60 — «у», 147 — «и», произнесённых шёпотом, были получены значения мощности спектральных компонентов в частотных полосах, соответствующих критическим полосам слуха человека (100–200, 200–300, 300–400, 400–510, 510–630, 630–770, 770–915, 915–1080, 1080–1260, 1260–1480, 1480–1720, 1720–1990, 1990–2310, 2690–3125, 3125–3675, 3675–4350, 4350–5250, 5250–6350, 6350–7500 Гц), и определена медиана значений в каждой критической полосе. Анализ выявил, что максимальные значения мощности спектральных компонентов (рис. 1А) для звука «у» на-ходятся в диапазоне 200-300 Гц, «о» — 770–915 Гц, «а» — 1080–1480 Гц и 3675–4350 Гц, «и» — 3125–4350 Гц.

0,00000

0,00020

0,00040

0,00060

0,00080

0,00100

0,00120

0,00140

0,00160

0,00180

0 2000 4000 6000 8000 Гц

Ра2

а

о

у

и

А

Page 117: Речевые технологии

117

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Уплисова К.О.

Акустические признаки гласных звуков с негармонической структурой

Рис. 1. Мощность спектральных компонентов для гласных различных категорий, произнесённых шёпотом (А) и говорящим попугаем (Б).

По горизонтальной оси — частота, Гц, по вертикальной — мощность, Ра2

Звуки «у» серого попугая характеризовались значительной нестабильностью значений спек-тральных компонентов (рис. 1Б) которые варьировали в диапазоне 510–1080 Гц, звуки «о» характеризовались максимальными значениями мощности в области 915–1080 Гц, «а» — 1260–1480 и 2310–2690 Гц, «и» — 2310–2690 Гц. В целом использование мощ-ности спектральных компонентов подтвердило данные полученные для амплитудных значений спектральных компонентов гласных звуков говорящих птиц [9]. У звука «а» по сравнению с «о», присутствовали выраженные спектральные компоненты в диапазоне 1260–1480 Гц, у звука «о» по сравнению со звуком «у» присутствовали выраженные компоненты в диапазоне 770–1080 Гц, а звук «и» характеризовался максимумами на частотах 1990–3125 Гц.

Значения первого максимума гласного «а» шёпотной и имитационной речи совпали и ока-зались на частотах 1260–1380 Гц. Это соответствует данными модификации звука «а» попугаев, свидетельствующим о том, что удаление спектральных компонентов на этих частотах существенно влияют на идентификацию категории «а» [10]. Звуки «о», ими-тируемые серым попугаем, отличались значениями максимумов, чуть превышающими значения шёпотного «о» (915–1080 Гц против 770–915). Наибольшие различия наблюда-лись для значений максимумов звука «у», которые составили 510 Гц для имитационного звука и 200–300 Гц для шёпотного. Однако стоит отметить, что звук «у» и у птиц и в шё-потной речи имеет нестабильные характеристики огибающей спектра и идентифициру-ется значительно хуже, чем все остальные звуки. Что касается звука «и», то максимум имитационного звука располагается существенно ниже, чем шёпотного (2310–2690 про-тив 3125–3675 Гц). При этом значения первых максимумов шёпотных гласных «о», «а», «и» сходны со значениями вторых формант голосовых звуков.

С целью выяснения вопроса о необходимости первой форманты для идентификации гласных звуков, а также уточнения ключевых частотных диапазонов для звуков различных кате-горий была проведена следующая модификация: в 500 мс фрагментах синтезирован-ного белого шума по амплитуде усиливалась узкая частотная полоса и от звука к звуку смещалась шагами по 100 Гц от 200 до 4000 Гц. Подобные звуки идентифицировались как «у» при нахождении максимума в области от 200 до 500–600 Гц (в зависимости от ширины полосы), от 700 до 800–900 Гц как «о», от 1000–1100 Гц до 1600–2000 Гц как «а», все звуковые модификации с максимумами, превышающими 1800–2100 Гц, одно-значно оценивались как фонема «и».

0,00000

0,00020

0,00040

0,00060

0,00080

0,00100

0,00120

0,00140

0,00160

0,00180

0 2000 4000 6000 8000 Гц

Ра2

аоуи

Б

Page 118: Речевые технологии

118

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Таким образом для идентификации звуков «у», «о», «а», «и» необходимо и до-статочно одного спектрального максимума, находящегося в определённом частотном диапазоне. Эти данные совпадают с результатами работы по оценке модифицированных гласных звуков попугаев [10], в которой было выявлено, что если в спектре звука присутствуют выраженные спектраль-ные компоненты в диапазоне 1300–1700 Гц, этот звук будет с высокой ве-роятностью идентифицирован как «а», независимо от того, присутствуют ли выраженные спектральные компоненты на низких и высоких частотах. Если частоты основных энергетически выраженных компонентов находят-ся ниже 1000 Гц, то звук будет идентифицирован как «о», независимо от присутствия выраженных спектральных компонентов выше 1700 Гц, но не в случае их наличия в диапазоне 1300–1700 Гц. В случае наличия энерге-тически выраженных спектральных компонентов с частотой ниже 500 Гц и при отсутствии выраженных спектральных компонентов на более высоких частотах звук будет идентифицироваться как «у». Если выраженные спек-тральные компоненты будут присутствовать начиная с 1700 Гц, звук будет идентифицироваться как «и».

ВЫВОДЫ. Акустическая структура шёпотных гласных в значительной степени сходна со структурой гласных звуков, имитируемых птицами. Максималь-ные значения мощности спектральных компонентов шёпотного звука «у» находятся в диапазоне 200-300 Гц, «о» — 770-915 Гц, «а» — 1080–1480 Гц и 3675–4350 Гц, «и» — 3125–4350 Гц. Синтезированные одноформантные шумоподобные звуки идентифицируются как «у» при нахождении максиму-ма в области от 200 до 600 Гц, от 700 до 900 Гц как «о», от 1100 Гц до 1600 Гц как «а», все звуковые модификации с максимумами, превышающими 2100 Гц, однозначно оцениваются как «и».

ЛИТЕРАТУРА

1. Фант Г. Анализ и синтез речи. Новосибирск: Наука, 1970. 166 с.2. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968. 396 с. 3. Peterson G.E., Barney H.L. Control methods used in a study of the vowels // Journal of the Acoustical Society of America. 1952. V. 24. P. 175–184.4. Куликов Г.А. и др. Характеристики гласноподобных звуков детей первого полугодия жизни // Доклады Академии Наук. 1999. Т. 368, № 6. С. 843–845.5. Андреева Н.Г., Куликов Г.А. Характеристики вокальных гласных при раз-ной частоте основного тона // Рос. Физиол. Журн. им. И.М. Сеченова. 2003. Т. 89, № 6. С. 715–724.6. Aндреева Н.Г., Куликов Г.А. Перцептивная значимость частотных и ам-плитудных характеристик гласных звуков при разной частоте основного тона // Доклады академии наук. 2009. Т. 429, № 3. С. 132–134. 7. Куликов Г.А., Андреева Н.Г. Перцептивно-значимые признаки гласных при разных формах их генерации // Сенсорные системы. 2009. Т. 23, № 3. С. 1–8. 8. Андреева Н.Г. Становление речи на ранних этапах онтогенеза // Нервная система. 2001. Вып. 35. С. 59–84. 9. Уплисова К.О. Акустический и аудиторский анализ гласноподобных зву-ков серого (Psittacus erithacus) и волнистого (Melopsittacus undulatus) попу-гаев // Сенсорные системы. 2006. Т. 20, № 3. С. 229–237. 10. Уплисова К.О. Говорящие птицы: особенности модифицированных гла-сных звуков // Сборник трудов ХХ сессии РАО. 2008. Т. 3. С. 110–113. 11. Цвикер Э., Фельдкеллер Р. Ухо как приемник информации / Пер. с нем. М.: Связь, 1965. 104 с.

Page 119: Речевые технологии

119

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества, Сессия Научного совета по акустике РАН — Акустика речи

Создание устно-речевой базы данных(УРБД) спонтанных речевых сообщений(на материале русского языка)

Абрамов Ю.В.Потапова Р.К.Хитина М.В.Маслов А.В.Бобров Н.В.

Московский государственный лингвистический университет.Россия, 119034, Москва, ул. Остоженка, д. 38.E-mail: [email protected]

Для создания УРБД спонтанных речевых сообщений на материале русского языка использо-вались различные виды речевой деятельности (чтение и говорение: монолог, диалог, полилог). Формирование УРБД многоцелевого назначения применительно к различным языкам мира является одной из приоритетных задач современного речеведения (Пота-пова, 2009). Подавляющее большинство конструируемых сегодня автоматизированных систем, работающих со звучащей речью, так или иначе используют устно-речевые базы данных.

В частности, УРБД находят применение там, где используются вероятностные и статисти-ческие методы анализа и синтеза речевого сигнала. В первую очередь здесь следует упомянуть системы автоматического распознавания и синтеза речи, идентификации и верификации говорящего по голосу и речи, идентификации психофизического и эмо-ционального состояния говорящего по речи, а также обучающие системы. Далее, УРБД составляют основу автоматизированных систем, в задачи которых входит сбор и хране-ние речевых сообщений, поиск и выдача записанных речевых сообщений по запросу (например, автоматизированные системы приёма голосовых сообщений в колл-цен-трах, комплексы для тестирования трактов связи). В ряде других случаев использование УРБД, не будучи строго необходимым технически, оказывается разумной альтернативой разработке сложных процедурных решений.

Как правило, УРБД содержат большие объёмы численной информации, трудно поддающей-ся автоматическому структурированию и сжатию. В то же время, в силу специфики си-стем, в которых применяются УРБД, в большинстве случаев эта информация должна быть доступна для обработки в режимах, близких к режиму реального времени, поэтому структура УРБД должна обеспечивать максимальное быстродействие системы при ра-зумной ресурсоёмкости. По причине большого объёма информации изменение, а сле-довательно, и оптимизация структуры действующей УРБД, обычно является технически трудновыполнимой и крайне нежелательной операцией. С учётом многообразия задач, для решения которых применяются УРБД, это означает, что её структура должна быть универсальной и, как следствие, максимально простой.

Page 120: Речевые технологии

120

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

При разработке УРБД неминуемо встаёт проблема выбора системы управления базами данных (СУБД). Здесь возможны следующие варианты: выбрать су-ществующую, хорошо зарекомендовавшую себя СУБД из числа присутству-ющих на рынке информационных технологий или разработать свою СУБД специально для этой задачи. Желательно также предусмотреть средства, облегчающие (автоматизирующие) пакетный запуск алгоритмов различных видов обработки речевых данных.

УРБД разрабатываются для решения конкретной задачи. Круг возможных при-менений велик, однако конкретная задача задаёт непосредственные харак-теристики базы.

В качестве дикторов отбирались носители русского языка с учётом факторов возраста и гендера. В эксперименте участвовали дикторы трёх возрастных групп: до 25 лет, 25-40 лет, старше 40 лет. Группы испытуемых формирова-лись как однородными по полу, так и состоящими из дикторов разного пола. К дикторам предъявлялись следующие требования: владение русским ли-тературным языком; общеценностными знаниями; уровнем общей речевой культуры не ниже среднего; положительной модальностью при проведении записи (т.е. желанием и готовностью диктора принять участие в экспери-менте).

До начала записи проводилось анкетирование дикторов, в которой учитывались антропофизиологические параметры дикторов и их социальные и личност-ные характеристики. В случае необходимости фиксировались также особые условия записи (в виде примечания). В общей сложности оценивались не менее 34 параметров. Все данные, занесённые в анкету, были затем вклю-чены в качестве компонента в БД.

Следующим этапом подготовки к записи являлась настройка аппаратуры для каждого диктора (уровень интенсивности записи). Для этого проводилась пробная запись.

Непосредственно перед записью дикторов инструктировали, разъясняя им, какие сведения они должны сообщить в начале записи. Те же данные фиксиро-вались в именах файлов, что позволило в дальнейшем находить нужную фонограмму без специального прослушивания.

В процессе проведения записи оператор должен был учитывать время говорения каждого диктора (в монологе, диалоге, полилоге); средний темп речи дик-тора (чтобы избежать необоснованного ускорения или замедления темпа); наличие небольших перерывов (2—3 мин) между звукозаписью; недопусти-мость обсуждения дикторами темы, развития диалога и полилога перед зву-козаписью и в перерывах между звукозаписями; нежелательность присутст-вия в процессе записи посторонних лиц, не участвующих в эксперименте. Особое внимание обращалось на то, чтобы речь дикторов (за исключением чтения) была неподготовленной, спонтанной.

Для звукозаписи был использован аппаратно-программный комплекс, включаю-щий аппаратное и программное обеспечение, проводился мониторинг хода звукозаписи и контролировалось их качество. Звукозапись проводилась в безэховой камере.

Проведённый предварительный лингвистический анализ позволил выявить со-вокупность признаков (n=31), относящихся к синтаксической и структурно-семантической организации спонтанной речи. Некоторые из них могли быть определены на основании экспертного прослушивания, другие требовали привлечения специальных методов анализа.

Page 121: Речевые технологии

121

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

Абрамов Ю.В., Потапова Р.К., Хитина М.В., Маслов А.В., Бобров Н.В.

Создание устно-речевой базы данных (УРБД) спонтанных речевых сообщений (на материале русского языка)

Для дальнейшего исследования было отобрано ограниченное число признаков, которые ис-пользовались для последующего аннотирования подготовленной УРБД. Среди них: — наличие дефектов речи; — характеристика голоса (мужской/женский/подростковый; высокий/средний/низкий); — супрасегментные признаки артикуляции и фонации (громкость — высокая/средняя/низкая, темп — быстрый/средний/медленный, мелодика — монотон /«изрезанная»/ком-бинированный тип); — фонетические средства выделения смыслового центра (ремы) — за счёт выделения слога (мелодическими, динамическими, средствами (громкость) / темпоральными сред-ствами); — нарушение порядка слов в предложении (инверсия, дистантное расположение связан-ных по смыслу слов и словосочетаний); — наличие синтаксического эллипсиса; — вводных синтаксических конструкций и слов-паразитов; — простых нераспространённых предложений; — простых распространённых предложений; — сложных предложений (сложносочинённых, сложноподчинённых, бессоюзных слож-ных, предложений с сочинением и подчинением); — паузация (синтактико-смысловые пауза и паузы хезитации).

Для проверки обоснованности выбора данного перечня признаков было проведено контр-ольное прослушивание отобранного для перцептивно-слухового анализа материала ве-дущими экспертами, мнение которых подтвердило состоятельность использования вы-шеперечисленных признаков. Несколько видоизменённая анкета использовалась для последующего аннотирования всего звучащего материала (за исключением чтения).

Для реализации базы данных фонограмм спонтанных речевых сообщений на материале рус-ского языка (чтение, монолог, диалог, полилог) использована СУБД MS Access, посколь-ку она позволяла достаточно быстро разработать схему данных и логику работы. База данных состоит из следующих таблиц:

T2 — таблица, содержащая анкетные данные по каждому диктору (N=72)

F2 — таблица, содержащая сведения о физиоантропологических характеристиках дик-торов (рост, вес и т.д.). Таблица F2 связана с таблицей Т2 отношением «один к одному», поэтому в случае возникновения технологической необходимости может быть присое-динена к ней.

S2 — таблица, в которую сведены данные о файлах фонограмм. Поля этой таблицы содержат следующие сведения: имя файла, уникальный код фонограммы, дату и время создания файла, а также размер файла.

L3 — таблица, содержащая подробную информацию о характеристиках речи каждого диктора, чей голос присутствует в фонограммах. Каждому диктору в каждой фонограм-ме в этой таблице соответствует отдельная запись. Таким образом, фонограммам моно-логов в таблице L3 соответствуют единичные строки, фонограммам диалогов — группы из 2 строк, фонограммам полилогов — группы из большего числа строк. Таблица L3 связана с таблицами F2 и S2 отношением «многие к одному».

Общее число единиц БД, представляющих информацию о фонограммах речи каждого из 72 дикторов, составляет 1067.

Для работы с БД можно использовать формы «Диктор», «Фонограмма» и «Речевое высказы-вание», вызываемые нажатием соответствующих кнопок из главной кнопочной формы (открывается автоматически при запуске БД). В этих формах реализованы возможности поиска информации по любому полю, просмотра списка фонограмм для каждого участ-ника, данных лингвистического паспорта фонограммы, а также прослушивания фоног-рамм.

Page 122: Речевые технологии

122

Р Е Ч Е В Ы Е Т Е Х Н О Л О Г И И / S P E E C H T E C H N O L O G Y 3 / 2 0 1 0

XXII сессия Российского акустического общества речи

Сессия Научного совета по акустике РАН — Акустика речи

Перед началом работы с БД следует указать в соответствующих полях главной кнопочной формы пути к программе-проигрывателю (например, Windows Media Player) и к каталогу размещения аудиофайлов БД в системе, на кото-рой предполагается вести работу с БД.

Для корректной работы интерфейса БД необходимо включить поддержку макро-сов (в СУБД Microsoft Access она отключена по умолчанию).

Поиск по фамилиям (именам) дикторов осуществляется путём выбора фамилии из выпадающего списка вверху формы Диктор.

Поиск по значениям других полей ведется в следующем порядке: установить кур-сор в интересующее поле; нажать сочетание клавиш Ctrl-F; ввести искомое значение параметра; нажать Enter (или клавишу OK на экране).

Воспроизведение фонограммы осуществляется путём выбора фонограммы из списка в нижней части формы Диктор (в этом списке отображаются все фо-нограммы, содержащие голос диктора, информация о котором представле-на в полях данной формы) двойным щелчком левой кнопки мыши.

В дальнейшем возможна доработка базы данных в следующих направлениях: поиск информации по различным критериям; отображение различных под-наборов данных; графический анализ данных; визуализация фонограмм и их свойств.

Помимо результатов аудитивной экспертной оценки БД содержит релевантную информацию о каждом из дикторов, включая как стандартный набор ан-кетных сведений, так и информацию обликового характера, а также само-оценку эмоционального и физического состояния дикторов перед началом записи.

Качество представленных в БД фонограмм и система паспортизации позволяют анализировать материал с учётом всех языковых уровней (фонетико-фоно-логического, лексического, синтаксического, семантического) и индивиду-альных особенностей дикторов применительно к русской звучащей спон-танной речи.

Конечный продукт реализован на высоком научно-исследовательском и научно-техническом уровне с учётом мировых достижений в области корпусной лингвистики. Разработанное приложение на базе СУБД Microsoft Access не имеет аналогов как в России, так и за рубежом и может быть успешно использовано для решения приоритетных задач специального назначения (например, автоматизированной идентификации личности на базе индиви-дуального вербально-смыслового оформления звучащей речи).

Дальнейшее развитие данного направления включает углубление и расширение информации, содержащей индивидуальные смыслонесущие признаки не только на базе вербалики, но также пара- и экстравербалики.

ЛИТЕРАТУРА

1. Потапова Р.К. Тенденции развития многоязычной корпусной лингвистики. Речевые технологии. № 3–4. М., 2009.