Sakrament. New in computer speech recognition and generation

Post on 25-Jun-2015

871 views 2 download

Tags:

Transcript of Sakrament. New in computer speech recognition and generation

Новое в синтезе и распознавании речи

Вторая международная конференция «Мобильные технологии-2. Бизнес и Перспективы»

Минск, Республика Беларусь2008 г.

Егоров Валерий Николаевич,Егоров Валерий Николаевич,директор компании директор компании ««Сакрамент Сакрамент -- ИТИТ»»

Презентация прочитана на

конференции Мобильные

технологии-2. Бизнес и технологии-2. Бизнес и

перспективыМинск. 2008

http://mobile.bynet2.org/

Опубликован список ИТ-переворотов на 10 лет вперед

Издание PC World опубликовало список из 10 "IT-переворотов", то есть событий, которые серьезно изменят жизнь пользователя в течение ближайших десяти лет.

На первом месте – развитие "облачных" вычислений.

На втором месте – бурное развитие интерфейса "человек-машина".

Компания «Компания «СакраментСакрамент ИТ»ИТ» :�� Ведет разработки программного Ведет разработки программного обеспечения в области синтеза и обеспечения в области синтеза и распознавания речи с 2000 года распознавания речи с 2000 года

Использует самые передовые Использует самые передовые �� Использует самые передовые Использует самые передовые технологии и подходытехнологии и подходы

�� Резидент Парка высоких технологий Резидент Парка высоких технологий №2№2

ТехнологииТехнологии ии разработкиразработки

Синтез речиречи Идентификация голоса

Распознавание речи

голоса

Особенности технологий и Особенности технологий и продуктовпродуктов:

�Фонетические и лингвистические модели универсальные для индоевропейской группы языков

Большая фонотека голосов� Большая фонотека голосов

� Мультиязычность

� Работа на всех типах мобильных устройств (КПК, смартфоны, коммуникаторы, микросхемы.)

Реализация продуктовРеализация продуктов

Языки:••русскийрусский

••английскийанглийский

ОСОС••WindowsWindows 98, 98, NTNT, , 2000, 2000, XPXP, 2003, , 2003, MEME, , MSMS

•• Pocket PCPocket PC, , MS MS ••английскийанглийский

••белорусскийбелорусский

••литовскийлитовский

•• Pocket PCPocket PC, , MS MS

••SmartphoneSmartphone

••SymbianSymbian SeriesSeries 6060

••UNIXUNIX

••LINUXLINUX

Программные продукты:�Программа для частного использования, для бизнес приложений, для встраивания в ПО сторонних производителейПО сторонних производителей

�Программа для самостоятельного создания голосов для синтезатора речи

� Программный код для реализации на микропроцессоре.

ОсновныеОсновные сферысферы примененияприменения1.1.ТелекоммуникацииТелекоммуникации

2.2.Мобильные устройства Мобильные устройства

3.3.Промышленные и бытовые Промышленные и бытовые электронные устройстваэлектронные устройства

4.4.Образовательные системыОбразовательные системы4.4.Образовательные системыОбразовательные системы

5.5.Компьютеризированные системы Компьютеризированные системы

6.6.InternetInternet--сервисысервисы

7.7.Системы ограничения доступа Системы ограничения доступа

8.8.Автомобильная индустрияАвтомобильная индустрия

ПокупателиПокупатели нашейнашей продукциипродукции1.1.Strom TelecomStrom Telecom (Чехия) (Чехия)

2.2.Alcatel Business SystemsAlcatel Business Systems (Франция)(Франция)

3.3.NewspaperDirectNewspaperDirect (Канада)(Канада)

4.4.Vector Consulting LtdVector Consulting Ltd(Германия)(Германия)4.4.Vector Consulting LtdVector Consulting Ltd(Германия)(Германия)

5.ООО «АВАЛОН» ТЭК» (Россия)5.ООО «АВАЛОН» ТЭК» (Россия)

6.ОАО «ТНТ6.ОАО «ТНТ––ТелесетьТелесеть» (Россия)» (Россия)

7.ОАО "7.ОАО "ТелекомПродуктТелекомПродукт» (Россия)» (Россия)

8.ЗАО «Санкт8.ЗАО «Санкт--Петербургская Петербургская информационная компания» (Россия)информационная компания» (Россия)

9. ОО 9. ОО БелТИЗБелТИЗ – Брестская областная организация общественного объединения “Белорусское товарищество инвалидов по зрению”.

10. РАРДИЗ10. РАРДИЗ – “Республиканская ассоциация родителей детей инвалидов по зрению”

11. ООО Издательско-полиграфический ТифлоинформационныйТифлоинформационный комплекс «Логос»комплекс «Логос»ТифлоинформационныйТифлоинформационный комплекс «Логос»комплекс «Логос»Всероссийского общества слепых (ООО «ИПТК «Логос» ВОС»), Москва, Россия

12.ЗАО НПП Центр «Реабилитация»Центр «Реабилитация» ( Россия)13. 13. Code FactoryCode Factory– производитель системы экранного доступа для людей с проблемами зрения для мобильных платформ (Испания).

Технология создания и использования мультимедийных

электронных электронных библиотек.

Sakrament BookAssist

«Sakrament BookAssist» – средство создания мультимедийных электронных библиотек на персональных компьютерах и пользования ими. Программа позволяет организовать два рабочих позволяет организовать два рабочих места: рабочее место создателя библиотеки / книги («Учителя») и рабочее место пользователя («Ученика») на ПК и на мобильном устройстве.

Основные свойства и возможности программы

• Возможность управления программой исключительно с клавиатуры.

• Озвучивание всех действий пользователя – в том числе навигации по списку книг библиотеки. Возможность выбора голоса для озвучивания

•Для рабочего места «Учителя» – возможность нестандартной расстановки ударений, создания дополнительных описаний графиков, рисунков, таблиц и т.п.

Возможность выбора голоса для озвучивания действий и чтения, регулировка скорости и громкости речи.

•Озвучивание голосом с текущими настройками любых документов в формате RTF.

• Запоминание настроек различных пользователей, в том числе – последней позиции работы с документом (для «Ученика» – чтения, для «Учителя» – обработки).

В последней версии реализуется возможность записи озвученных книг в аудиофайлы стандартного формата. Это является бюджетным решением для людей, не имеющих возможности пользоваться персональным пользоваться персональным компьютером: для прослушивания достаточно простейшего МР3- плеера.

Перспективный план развития

Планируется разработка клиент-серверного программного комплекса для более эффективного использования мобильных устройств использования мобильных устройств (смартфонов, КПК), позволяющий получать доступ к электронным мультимедийным библиотекам удалённо.

• Возможность получения пользователем на своё мобильное устройство готовых аудиофайлов, созданных в соответствии с заказанными им настройками озвучивания (голос, темп речи, громкость), с центрального сервера.

• Возможность получения пользователем на своё мобильное устройство с • Возможность получения пользователем на своё мобильное устройство с центрального сервера RTF-файлов, подготовленных к озвучиванию «Учителем», и озвучивание непосредственно на смартфоне / КПК в соответствие с настройками «Ученика» (бюджетный вариант с уменьшенным трафиком).

• Компания “Сакрамент ИТ” может создать синтезаторы речи для молдавского, казахского, армянского, таджикского, узбекского и других языков и выполнить их добавление в программу «Sakrament BookAssist v3.0». Срок выполнения работ: от 8 до 12 месяцев. Ориентировочная от 8 до 12 месяцев. Ориентировочная стоимость проекта для одного языка: от 100 000 до 200 000 EUR. По нашим данным стоимость аналогичных работ, выполняемых российскими компаниями выше в 8-10 раз, а западноевропейскими и американскими в 15-20 раз.

Sakrament AssistentAssistent

ПРЕАМБУЛАИнформационный взрыв:

• Объём поступающей к нам информации за последние 20-30 лет возрос в десятки раз в результате развития радио, телевидения • Резко возросла нагрузка на зрение, поскольку основной в результате развития радио, телевидения

и особенно – Интернета.

• Игнорировать эту информацию становится невозможно, поскольку она жизненно необходима человеку в его производственной и повседневной деятельности.

зрение, поскольку основной способ получения информации –работа с экраном.

ПРОБЛЕМА

Трудности ориентации в потоках информации:

• Информация плохо структурирована, разбросана по множеству источников разбросана по множеству источников

• Для получения нужной информации необходимы специальные знания – как обращаться с поисковыми системами, а также много времени.

ПРОБЛЕМАСложности пользования современными

электронными устройствами:• Для настройки и пользования электронными устройствами (ПК, коммуникаторы, смартфоны) необходимы специальные знания и время. Отсутствие специальные знания и время. Отсутствие таких знаний и времени приводит в массе к использованию только малой доли возможностей устройств.

• Малый размер экранов коммуникаторов и смартфонов –дополнительная нагрузка на зрение

ПРОБЛЕМАОптимальность настроек, соответствие их

ситуации:

• Создать оптимальные настройки электронных устройств и программного

• Все эти настройки статичны и при изменении ситуации (и потребностей

Составление плана действий:

• При необходимости выполнять различные действия пользователю необходимо не забыть их выполнить

• Такой план действий статичен, и электронных устройств и программного обеспечения для своих конкретных потребностей у пользователя чаще всего не хватает специальных знаний.

изменении ситуации (и потребностей пользователя) перестают быть оптимальными и требуют опять изменения вручную.

различные действия пользователю необходимо не забыть их выполнить вручную либо самому составить (если он это умеет) задачу для планировщика (если таковой предусмотрен в программном обеспечении).

• Такой план действий статичен, и при любых изменениях в ситуации должен быть вовремя откорректирован пользователем.

РЕШЕНИЕ

1. Создание программного комплекса АССИСТЕНТ для управления устройствами, контроля за ситуацией.

2. Использование речевых технологий

3. Учёт доступных технических возможностей и характеристик пользователя при составлении плана действий.

2. Использование речевых технологий для общения программы с пользователем позволяет снизить нагрузку на зрение.

действий.4. Учёт действий пользователя и его

реакции на ситуацию в дальнейшей работе

ВАРИАНТ РЕАЛИЗАЦИИ –ПОМОЩНИК

Назначение:

• Помогать пользователю в его ежедневной деятельности (в работе, быту, учёбе и т.п.) посредством быту, учёбе и т.п.) посредством своевременного предоставления необходимой информации, рекомендаций и напоминаний.

ПОМОЩНИК:ФУНКЦИОНАЛЬНЫЕ

ВОЗМОЖНОСТИ• Осуществление определённых действий –

в зависимости от занятий и интересов пользователя – по расписанию.

• Возможность автоматического выполнения пользователя – по расписанию.

• Возможность динамического получения данных с центрального сервера в интересующих пользователя областях

• Возможность модификации предлагаемой пользователю линии поведения на основе анализа регулярно повторяемых действий.

• Возможность автоматического выполнения запланированных действий или автоматической реакции на поступающую информацию.

ПОМОЩНИК: Особенности

• Работа программы управляется двумя профилями (наборами настраиваемых свойств): собственно ПОМОЩНИКА и пользователя.

• Профиль пользователя изначально формируется как предустановленный тип на основе базовых сведений (пол, возраст, семейное положение, образование, род

• Оценка ситуации и, соответственно, важности той или иной могущей быть

• Исходя из различной важности выполняемых действий для пользователя в различных ситуациях план выполнения (время и ПОМОЩНИКА и пользователя.

• Программный профиль может выбираться из преустановленных наборов свойств, а также в любое время избирательно меняться пользователем.

семейное положение, образование, род занятий). В дальнейшем этот профиль постоянно уточняется и модифицируется на основе реакции пользователя в конкретных ситуациях.

важности той или иной могущей быть выполненной операции определяется с учётом профиля пользователя (важность отдельных событий для пенсионера и бизнесмена может быть различной).

пользователя в различных ситуациях план выполнения (время и очерёдность) этих действий может меняться.

ПОМОЩНИК: Основные свойства

1. Программный профиль – психотип ПОМОЩНИКА – задаётся изначально выбором пользователя из предлагаемого ему списка. В любой момент пользователь может изменить

3. Интеллектуально-психологический портрет пользователя изначально формируется в виде некоего предустановленного типа на основе базовых сведений о пользователе

5. Гибкая стратегия позволяет комбинировать и использовать функциональные возможности программы в зависимости от оценки конкретной ситуации. пользователь может изменить

программный профиль, выбрав другой

2. Программный профиль может быть кастомизируемым: пользователь может сам назначать ему основные характеристики

базовых сведений о пользователе

4. В зависимости от интеллектуально-психологического портрета пользователя производится оценка конкретных ситуаций

конкретной ситуации. 6. Общение с пользователем

интерактивно – на каждое действие программы возможна его реакция, которая будет учтена для уточнения интеллектуально-психологического портрета пользователя.

ПОМОЩНИК: Основные свойства

• 7. ПОМОЩНИК осуществляет не только пассивную информационную поддержку, но и может способствовать самообразованию пользователя, оформляя подписки на необходимые темы –новости,

8. На основе анализа повторяющихся действий пользователя формируются образы событий и

9. Интерактивность позволяет не только пассивно отслеживать интеллектуально-психологический портрет пользователя, но и активно подписки на необходимые темы –новости, художественная литература, наука, образование, различная литература по интересам (хобби) – и предлагая их к прослушиванию (или просмотру/чтению)

образы событий и пользователю предоставляется удобный интерфейс к ним.

портрет пользователя, но и активно влиять на его формирование посредством предложения пользователю информации, которая может способствовать его развитию.

РЕАЛИЗАЦИЯ СЕРВЕРНОЙ ЧАСТИ

Назначение центрального сервера – служить динамическим источником информации для клиентских приложений.

Каждый полученный и выполненный запрос способствует пополнению и актуализации информационной базы сервера. Сведения, содержащиеся в информационной базе сервера, доступны всем клиентским

Сервер получает формализованные запросы от клиентских приложений, выполняет поиск необходимой информации в доступных источниках и отсылает клиентским приложениям запрошенную информацию

Информация в базе данных сервера хранится в виде типизированных и параметризованных данных, что позволяет обеспечивать поиск образов, релевантных новым запросам, в уже имеющихся записях.

базе сервера, доступны всем клиентским приложениям, что позволяет минимизировать обращения к сторонним источникам информации

ВЗАИМОДЕЙСТВИЕ КЛИЕНТСКОЙ ВЗАИМОДЕЙСТВИЕ КЛИЕНТСКОЙ ЧАСТИ С ПРОГРАММНЫМ ЧАСТИ С ПРОГРАММНЫМ ОБЕСПЕЧЕНИЕМ ДРУГИХ ОБЕСПЕЧЕНИЕМ ДРУГИХ

ПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙПРОИЗВОДИТЕЛЕЙ

Клиентская часть АССИСТЕНТа может быть реализована в виде исполняемых модулей для функционирования на различных платформах. Каждый модуль функционален только на платформе, для которой он предназначен, функционален только на платформе, для которой он предназначен, однако структура информации в базе данных АССИСТЕНТа является единой и платформно-независимой (при этом используемые СУБД могут быть различными).

Клиентская часть АССИСТЕНТа взаимодействует с установленным в операционной системе программным

обеспечением двумя основными способами:

использование т.н. «стандартных обработчиков» – программ, зарегистрированных в реестре

запуск по расписанию (на основе, например, анализа повторяющихся действий пользователя) любых других зарегистрированных в реестре операционной системы в качестве обработчиков файлов определённых типов

действий пользователя) любых других программ, установленных в операционной системе вычислительного устройства –для чего АССИСТЕНТу необходимо знаниеместорасположения такой программы.

МУЛЬТИПЛАТФОРМЕННОСТЬ И МУЛЬТИПЛАТФОРМЕННОСТЬ И ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ

ЧАСТИЧАСТИ

• При переносе (переустановке) клиентской части АССИСТЕНТа на другое вычислительное устройство –

Инсталляция соответствующего исполняемого модуля программы.Импорт информации из

При возникновении проблем (отсутствие обработчика либо инсталляции программы) у пользователя запрашивается дополнительная другое вычислительное устройство –и при этом, возможно, на другую платформу (например, с MS Windows на Linux или с Windows Mobile на Symbian) – производятся следующие действия:

Импорт информации из существующей локальной базы данных от старой версии АССИСТЕНТа.

Верификация импортированных данных на соответствие новой среде

запрашивается дополнительная информация: какую программу/утилиту использовать в качестве стандартного обработчика, где расположена инсталляция той или иной программы в новой среде

• Перенос инсталляций программ других производителей, восстановление бэкапов из

МУЛЬТИПЛАТФОРМЕННОСТЬ И МУЛЬТИПЛАТФОРМЕННОСТЬ И ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ ПЕРЕНОСИМОСТЬ КЛИЕНТСКОЙ

ЧАСТИЧАСТИ

восстановление бэкапов из предыдущих операционных систем и прочие подобные операции при переустановке клиентской части АССИСТЕНТа не предусматриваются.

ПРИМЕРЫ ИНТЕРФЕЙСОВ К СУЩЕСТВУЮЩИМ

ПРИЛОЖЕНИЯМ/СИСТЕМАМ

В программном комплексе АССИСТЕНТ предусматривается широкое применение интерфейсов с целью использования (интеграции) функционала уже (интеграции) функционала уже имеющихся систем и технологий. Применение интерфейсов позволит избежать ненужных дублирующих разработок со всеми вытекающими последствиями (экономия средств и времени).

ВОЗМОЖНЫЕ ЗАКАЗЧИКИ И ВОЗМОЖНЫЕ ЗАКАЗЧИКИ И ПОТРЕБИТЕЛИПОТРЕБИТЕЛИ

• Операторы мобильной связи, интернет-провайдеры.

• Производители вычисительной техники, в том числе мобильных устройств (OEM-версии программного обеспечения).

• Разработчики операционных систем, в том числе • Разработчики операционных систем, в том числе для мобильных устройств.

• Сфера туристического бизнеса: турагенства, туроператоры и их партнёры (сети отелей, ресторанов, магазинов и т.п.).

• Любые владельцы вычислительных – в том числе мобильных – устройств.

Клиентские приложения (потребители услуг)

Провайдер услуг

Центральный сервер

ПККПК,

коммуникаторы

Мобильные телефоны

Провайдеры информации

Центральный сервер

Локальная база информации центрального

сервера

Интернет Др

СпасибоСпасибозазазаза

вниманиевнимание