Articulo de Invest VoiceXML

15
UNIVERSIDAD PONTIFICIA DE SALAMANCA CAMPUS DE MADRID ESPAÑA WEB SEMANTICA ARTICULO: “SISTEMAS BASADOS EN VOZ UTILIZANDO VOICEXML” Autor: Ing. Carlos Alvarado Quintana Doctorando de Ingeniería Informática Programa de Ingeniería de Software Agosto, 2006 UNIVERSIDAD PONTIFICIA DE SALAMANCA 2006 [VoiceXML] Page 2 INDICE RESUMEN 3 I. INTRODUCCION 4 1.1. Enunciado del Problema 4 1.2. Delimitación del Estudio 4 1.3. Tesis 4 II. MARCO TEORICO 2.1 Definiciones del estándar VoiceXML 5 2.2 Referencias W3C respecto a VoiceXML 12 2.3 Aplicaciones 15 2.4 Otros conceptos relativos a Voice XML y Web Semantica 17 III. SISTEMAS BASADOS EN VOZ 3.1 Aportes de VoiceXML a los Sistemas Basados en Voz 18 3.2 Ejemplos de Código VoiceXML 23 CONCLUSIONES 25 BIBLIOGRAFÍA 28

Transcript of Articulo de Invest VoiceXML

  • UNIVERSIDAD PONTIFICIA DE SALAMANCA CAMPUS DE MADRID ESPAA

    WEB SEMANTICA

    ARTICULO: SISTEMAS BASADOS EN VOZ UTILIZANDO VOICEXML

    Autor: Ing. Carlos Alvarado Quintana Doctorando de Ingeniera Informtica

    Programa de Ingeniera de Software

    Agosto, 2006

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page2

    INDICE

    RESUMEN 3

    I. INTRODUCCION 4

    1.1. Enunciado del Problema 4

    1.2. Delimitacin del Estudio 4

    1.3. Tesis 4

    II. MARCO TEORICO

    2.1 Definiciones del estndar VoiceXML 5

    2.2 Referencias W3C respecto a VoiceXML 12

    2.3 Aplicaciones 15

    2.4 Otros conceptos relativos a Voice XML y Web Semantica 17

    III. SISTEMAS BASADOS EN VOZ

    3.1 Aportes de VoiceXML a los Sistemas Basados en Voz 18

    3.2 Ejemplos de Cdigo VoiceXML 23

    CONCLUSIONES 25

    BIBLIOGRAFA 28

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page3

    RESUMEN VoiceXML es una especificacin propuesta por la W3C que tiene como objetivo

    crear archivos XML, llamados documentos, que puedan reproducir sonido

    digitalizado, sonido sintetizado usando la tecnologa TTS, reconocer informacin

    ingresada por el usuario (tonos DTMF) y reconocer palabra y/o frases

    pronunciadas por una persona, todo esto usando un dispositivo telefnico

    (telfono clsico, celular o cualquier otra variante).

    VoiceXML esta basado completamente en XML, es decir necesita que el

    documento VoiceXML bien estructurado para que pueda ser reconocido como

    correcto. Esto no ocurre con HTML, pero s con XHTML.

    Actualmente esta especificacin se encuentra en la versin 2.1 la cual ha recibido

    el estado de "Recomendado" por parte de la W3C, faltndole muy poco para ser

    declarada oficialmente como estndar, aunque en estos momentos ya es un

    estndar "de facto" y crea una serie de ventajas significativas en los desarrollos

    basados en web, entrega de contenidos para las aplicaciones interactivos en

    respuesta a la voz.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page4

    I. INTRODUCCIN

    Estos estndares evolucionan a travs de un proceso de maduracin

    conducido por los principios de pragmatismo y eficacia. Entre los ejemplos

    que resultan familiares para todos se incluyen HTTP, HTML, WAP, TCP/IP,

    XML, y VoiceXML. Normalmente son realizados por ingenieros de software

    de varias compaas que colaboran bajo los auspicios de organizaciones

    como W3C, OASIS, OMA, ISO e IETF.

    Voice Extensible Markup Language (VoiceXML o VXML). Es una

    especificacin propuesta por la W3C que tiene como objetivo crear archivos

    XML, llamados documentos, que puedan reproducir sonido digitalizado,

    sonido sintetizado usando la tecnologa TTS(1), reconocer informacin

    ingresada por el usuario (tonos DTMF(2)) y reconocer palabra y/o frases

    pronunciadas por una persona, todo esto usando un dispositivo telefnico

    (telfono clsico, celular o cualquier otra variante) VoiceXML esta basado

    completamente en XML.

    1.1. Enunciado del Problema .

    El aporte de la tecnologa VoiceXML en los sistemas basados en voz

    dirigindola especficamente en el mbito de la web semntica.

    1.2. Delimitaciones del Estudio. El Estudio estar limitado al mbito de la especificacin del VoiceXML por

    W3C como estndar de XML para Aplicaciones de Web Semntica,

    actualmente en la versin 2.0. y en proceso de Aprobacin la versin 2.1.

    1.3. Tesis Anlisis de la Norma W3C de VoiceXML 3.0 como aporte a los sistemas basados en voz

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page5

    II. MARCO TEORICO 2.1 Definiciones del estndar VoiceXML

    Los orgenes de VoiceXML empezaron en 1995 como un lenguaje diseado

    de dialogo basado en XML buscando simplificar los procesos de desarrollo

    de aplicaciones de reconocimiento de voz, fue un proyecto de AT&T

    llamado Phone Markup Language (PML). Como AT&T reorganizado, los

    grupos de AT&T, Lucent y Motorola continuaron trabajando en sus propios

    lenguajes PML.

    En 1998, W3C realizo una conferencia sobre browsers de voz. Para este

    tiempo, AT&T y Lucent tenan variantes significativas de sus PML

    originales, mientras Motorola haba desarrollado VoxML e IBM estaba

    desarrollando su propio SpeechML. Muchos otros participantes de la

    conferencia estuvieron tambin haciendo desarrollos similares de lenguajes

    para el diseos de dilogos; por ejemplo, HP's TalkML and PipeBeach's

    VoiceHTML.

    Luego AT&T, IBM, Lucent, y Motorola formaron el Foro de VoiceXML para

    agrupar sus esfuerzos. La misin del Foro fue definir un estndar de diseo

    de lenguajes de dialogo para que los desarrolladores puedan usarlo para

    construir sus aplicaciones de dilogos. Ellos escogieron XML como el

    lenguaje bsico para estos esfuerzos porque es sencillo para todos, se

    adapta y va en concordancia con los cambios tecnolgicos.

    En el ao 2000, el Foro de VoiceXML libero al publico la versin 1.0 de

    VoiceXML. Shortly thereafter, VoiceXML 1.0 fue sometido por W3C como la

    base para la creacin de un Nuevo estndar internacional. VoiceXML 2.0 es

    el resultado de este trabajo a travs de la colaboracin de compaas

    miembros de W3C, otros grupos de trabajo de W3C, y el publico en general,

    en especial desarrolladores independientes. Actualmente se esta

    trabajando en la aprobacin de la versin 2.1

    (http://www.w3.org/TR/2005/CR-voicexml21-20050613/), y el desarrollo de

    VoiceXML Versin 3.0 (http://www.w3c.es/Prensa/2005/nota051206_ssml).

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page6

    VoiceXML es un lenguaje de etiquetas que sigue las reglas sintcticas de

    XML con reglas semnticas que permiten la creacin de aplicaciones de

    voz. VoiceXML se puede utilizar para crear pginas tanto estticas como

    dinmicas ya que, al igual que HTML, se puede embeber en programas

    escritos en lenguajes de programacin como Java o C#. Se trata de un

    lenguaje que permite la comunicacin entre el hombre y la mquina de

    forma hablada, es decir, es posible, por ejemplo, acceder a Internet usando

    simplemente la voz. No es necesario mencionar el gran avance que esto

    supondra para las personas invidentes; podran acceder a gran parte de la

    informacin de Internet sin que su discapacidad supusiese un impedimento

    para ello. Para poder describir como funciona podemos guiarnos del

    siguiente grfico:

    Figura 1. Arquitectura VoiceXML

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page7

    De esta figura podemos obtener los siguientes enunciados:

    APPLICATION HOSTING ENVIROMENT

    Llamado tambin "Document Server". Es un ambiente que genera

    dinmicamente documentos VoiceXML. Bsicamente esta compuesto por 3

    componentes.

    1. Web Server: Servidor Web que recibe HTTP Request y enva HTTP

    Response con un documento VoiceXML.

    2. Application Server: Servidor de aplicaciones que mantiene una lgica de negocio que sobre la base de los parmetros enviados por el Web

    Server genera documentos VoiceXML.

    3. Database: Base de Datos de la cual se obtiene informacin para generar los documentos VoiceXML

    VOICEXML INTERPRETER

    Aplicacin que recibe un documento VoiceXML y lo interpreta, es decir

    procesa las etiquetas que dicho documento contiene.

    VOICEXML INTERPRETER CONTEXT

    Modulo del VoiceXML Interpreter que monitorea las posibles actividades

    que los usuarios realizan mientras se esta interpretando un documento

    VoiceXML, por ejemplo el usuario podra presionar desconectarse (colgar el

    telfono), lo generara que cancelacin de la interpretacin del documento.

    IMPLEMENTATION PLATFORM

    Este componente viene a ser el Browser en si, pues cada empresa puede

    desarrollar su propio VoiceXML Browser el cual aparte de interpretar un

    documento VoiceXML puede implementar mecanismos de cache,

    procesamiento de llamadas telefnicas, etc.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page8

    Estos son los componentes generales de la arquitectura de VoiceXML, sin

    embargo hay empresas que desarrollan VoiceXML Browsers y le adicionan

    funcionalidades no detalladas en la especificacin, lo cual no ocurre solo

    con VoiceXML sino con casi todas las especificaciones.

    Alcances de VoiceXML El lenguaje describe la interaccin humano-maquina entregada por

    sistemas de respuesta de voz lo que incluye:

    Salida de dilogos Sintetizados(text -to-speech). Salida de archivos de audio. Reconocimiento de entradas habladas. Reconocimiento de entradas DTMF. Grabacin de entradas habladas. Control de flujo de dilogos. Los rasgos de telefona tales como llamar, transferir y desconectar. EL lenguaje provee medios para recolectar caracteres y/o entradas

    habladas, asignando al documento de entrada peticiones de

    variables definidas, y tomando decisiones que afectan la

    interpretacin de documentos escritas en el idioma. Un documento

    puede unirse a otros documentos a travs de los identificadores del

    Recurso Universales (URIs).

    Principios de Diseo sobre VoiceXML

    VoiceXML es una aplicacin de XML.

    El lenguaje entrega portabilidad de servicios a travs de la abstraccin de recursos sobre tipos de plataformas.

    El idioma acomoda la diversidad de la plataforma en los formatos del archivo audio soportados, formatos de gramtica hablada, y

    esquemas URI. Mientras los productores de plataformas pueden soportar varios

    formatos de gramticas el lenguaje requiere un formato de gramtica

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page9

    comn llamado Forma XML de W3C formato de reconocimiento de

    gramtica hablada, facilita la interoperabilidad. Similarmente,

    mientras varios formatos de audio para escuchar y grabar pueden

    ser soportados.

    El lenguaje soporta fcilmente la autora para tipos comunes de interacciones.

    EL lenguaje a sido definido bien semnticamente preservando el intento del autor por mantener el comportamiento de las

    interacciones con el usuario.

    Las heursticas del cliente no son necesarias para determinar la interpretacin de los elementos del documento.

    El lenguaje posee un mecanismo de control de flujo. El lenguaje habilita la separacin de un servicio lgico de un

    comportamiento interactivo.

    No esta pensado para un trabajo computacional extensivo, operaciones con bases de datos, o legar operaciones al sistema.

    Este asume que puede ser manejado por recursos fuera del

    interprete de documentos, es decir el servidor de documentos.

    Lgica de servicio general, administracin de estados, generacin de dilogos, y secuencias de dilogos son asumidas para residir fuera

    del interprete de documentos.

    El lenguaje entrega caminos para enlazar documentos usando URIs, y tambin enviar datos a l servidor de scripts usando URIs.

    VoiceXML entrega vas para identificar exactamente que dato enviar al servidor, y cual mtodo HTTP (get o post) usar para el envi.

    El lenguaje no requiere que los autores del documento especifiquen lo recursos de dialogo asignados o no asignados, o por concurrencia.

    La localizacin de recursos e hilos de control pueden ser manejados

    por la implementacin de plataformas.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page10

    Requisitos de la Plataforma Esta seccin perfila los requisitos en las plataformas del hardware /

    software que apoyarn a un intrprete de VoiceXML.

    Adquisicin de Documentos. Se espera que el interprete de contexto adquiera documentos para que el interprete de VOICEXML acte. EL

    protocolo URI de http debe ser soportado. En algunos casos, el

    documento requerido es generado por la interpretacin de documentos

    de VOICEXML, mientras otras peticiones son generadas por el

    interprete de contexto en respuesta a los eventos fuera del alcance del

    lenguaje, por ejemplo una llamada entrante. Cuando los emisores de

    peticin de documentos son va http, e interprete de contexto se

    identifica a si mismo como "User-Agent" variable de encabezado con el

    valor "/", por ejemplo, "acmebrowser/1.2"

    Salida de Audio. La implementacin de la plataforma debe soportar salida de audio usando archivos y text -to-speech (TTS). La plataforma

    debe ser capaz de hacer secuencias libremente TTS y salidas en

    formato audio. Los archivos de audio son referidos por una URL. El

    lenguaje especifica los requerimientos de formatos de archivos de que

    sern soportados (ver apndice A) formatos de archivos de audio

    adicionales tambin pueden ser soportados

    Entrada de Audio. La implementacin de la plataforma es requerida para detectar y reportar caracteres y/o entradas habladas

    simultneamente y el control de la deteccin de la duracin del intervalo

    de entrada con un cronmetro cuya longitud es especificada por un

    documento de VOICEXML.

    En la mayora de los reportes por caracteres (por ejemplo, DTMF)

    ingresados por el usuario. Las Plataformas deberan soportar el formato

    de gramtica descrito en Forma XML de W3C formato de

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page11

    reconocimiento de gramtica hablada. Tambin debera soportar el

    formato de gramtica descrito en Forma aumentada BNF forma XML de

    W3C formato de reconocimiento de gramtica hablada .

    Debe ser capaz de recibir dinmicamente datos de gramtica de

    reconocimiento de dilogos.

    Debe ser capaz de usar datos de gramtica de dialogo en forma XML de

    W3C formato de reconocimiento de gramtica hablada .

    Tambin debe ser capaz recibir datos de gramticas de reconocimiento

    de dilogos Forma aumentada BNF forma XML de W3C formato de

    reconocimiento de gramtica hablada, y puede soportar otros formatos

    como el formato de gramtica jspeech o formatos propietarios. Algunos

    elementos VoiceXML Contienen Datos de gramtica de dialogo; otros

    refieren a daos de gramtica de dilogos a travs de una URI. EL

    reconocimiento de dilogos debe ser capaz de acomodar

    actualizaciones dinmicas de los dilogos de entrada por el cual esta

    escuchando a travs de un mtodo especificado de datos de gramtica

    de dilogos. Tambin debe ser capaz de grabar el audio recibido desde

    el usuario. La implementacin de la plataforma debe ser capaz de crear

    la grabacin disponible a una variable request.

    Transferencia. La plataforma debe ser capaz de suportar la creacin de una conexin compartida a travs de una red de

    comunicacin, como el telfono.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page12

    2.2 Referencias W3C respecto a VoiceXML

    El W3C fue creado para guiar la Web hacia su potencial mximo mediante

    el desarrollo de protocolos comunes que promuevan su evolucin y

    garanticen la interoperabilidad. Se trata de un Consorcio de la industria

    internacional gestionado conjuntamente por el Laboratorio de Ciencias de la

    Computacin e Inteligencia Artificial del MIT (MIT CSAIL) en los Estados

    Unidos, el Consorcio Europeo para la Investigacin en Informtica y

    Matemticas (ERCIM) en Francia y la Universidad de Keio, en Japn. Los

    servicios que proporciona el Consorcio incluyen un archivo de informacin

    sobre el World Wide Web para desarrolladores y usuarios, y varios

    prototipos y aplicaciones de ejemplo para demostrar el uso de estas nuevas

    tecnologas. Hasta la fecha, ms de 400 organizaciones son Miembros del

    Consorcio.

    VoiceXML Versin 3.0 El W3C avanza en nuevas extensiones para las tecnologas de voz y la

    Web La nueva versin de SSML incluye caractersticas de

    internacionalizacin; VoiceXML 3.0 incorpora la verificacin del usuario.

    El 6 de diciembre de 2005: El Consorcio World Wide Web (W3C) anunci

    un nuevo trabajo sobre extensiones para componentes de la Infraestructura

    de Interfaz del Habla que ampliar la funcionalidad del Lenguaje de

    Etiquetado de Sntesis del Habla para lenguajes asiticos y de otros pases,

    y que incluye caractersticas de verificacin del usuario en la nueva versin

    3.0 de VoiceXML. Al cubrir ambas reas se expande tanto el alcance como

    la funcionalidad de la infraestructura planteada por W3C.

    La extensin de verificacin del usuario ser incluida en VoiceXML 3.0 Otra caracterstica que los usuarios demandan a los servicios telefnicos y

    a la Web es la verificacin del usuario.

    "Los robos, el fraude, el phishing, el terrorismo e incluso el alto coste de

    restablecer contraseas ha aumentado el inters en proporcionar seguridad

    biomtrica para todos los canales de comunicacin, incluyendo el telfono",

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page13

    dijo Ken Rehor de Vocalocity que fue elegido recientemente presidente del

    foro de VoiceXML, y es a su vez uno de los participantes del Grupo de

    Trabajo del Navegador por Voz del W3C. "La verificacin del usuario y su

    identificacin no son slo soluciones biomtricas para asegurar las

    transacciones telefnicas y las comunicaciones, puede funcionar de forma

    armnica con el reconocimiento de voz y la sntesis del habla en la

    distribucin de VoiceXML".

    Hasta ahora, la mayora de los proveedores han compensado la falta de

    esta caracterstica llevando a cabo una solucin personalizada para sus

    servicios. El resultado ha sido un conjunto de tecnologas divergentes que

    no son interoperables. Gracias a la contribucin del Comit de Biomtrica

    del Usuario del Foro de VoiceXML, el Grupo de Trabajo del Navegador por

    Voz del W3C ha sido capaz de identificar las caractersticas necesarias

    para un mdulo estandarizado de verificacin del habla. El Grupo de

    Trabajo se encuentra actualmente tratando estos requisitos.

    El Grupo de Trabajo internacionaliza SSML

    El Lenguaje de Etiquetado de Sntesis del Habla (SSML), Recomendacin

    del W3C desde el 2004, est diseado para proporcionar un lenguaje de

    etiquetado basado en XML como apoyo a la generacin de habla sinttica

    en la Web y en otras aplicaciones. El papel principal del lenguaje de

    etiquetado es proporcionar a los autores de contenido sintetizable una

    forma estndar para controlar aspectos del habla como son la

    pronunciacin, el volumen, el todo, la frecuencia, etc. a travs de diferentes

    plataformas de sntesis.

    Estos atributos son esenciales, pero existen atributos adicionales que

    pueden ser incluso ms importantes para idiomas concretos. Por ejemplo,

    el chino mandarn, el idioma actualmente ms extendido en el mundo,

    tambin tiene la singularidad de los tonos - el mismo carcter escrito puede

    tener mltiples pronunciaciones y significados en funcin del tono utilizado.

    Dada la profusin de telfonos mviles en China - aproximadamente ms

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page14

    de un billn - la extensin de SSML para el mandarn es esencial para

    poder satisfacer las necesidades del mercado. La inclusin de extensiones

    para el japons, coreano y otros idiomas asegurar una mayor participacin

    en la Web a nivel mundial.

    En la infraestructura de Interfaz del habla del W3C, VoiceXML controla

    cmo la aplicacin interacta con el usuario. Por otro lado, el Lenguaje de

    Etiquetado de Sntesis del Habla (SSML) se utiliza para comandos

    hablados, y la Especificacin de Gramtica de Reconocimiento del Habla

    (SRGS) para guiar a los reconocedores de voz a travs de gramticas que

    describen respuestas esperadas desde los usuarios.

    Otras especificaciones de este entorno incluyen el Control de Llamada del

    Navegador por voz (CCXML), que proporciona soporte para el control de

    llamadas telefnicas para VoiceXML y otros sistemas de dilogo e

    interpretacin semntica para el reconocimiento del habla (SI), que va a

    definir la forma en la que las gramticas del habla se unen a semnticas de

    aplicacin.

    Figura 2. VoiceXML como Integrador de la Interaccin mediante Voz.

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page15

    Todo esto converge en el esfuerzo que viene realizando el W3C para

    desarrolla estndares que soportan diferentes modos de interaccin: auditiva, visual y tctil. Es posible acceder a la Web a travs de la voz o el

    teclado, el ratn o el lpiz. Podr igualmente escuchar comandos hablados

    y audio, as como ver informacin representada en grficos. Ha esta

    concepcin se le conoce como la Web Multimodal.

    W3C est desarrollando la Infraestructura de interaccin Multimodal con el

    objetivo de:

    Extender la Web permitiendo de esta forma diferentes modos de interaccin

    Aumentar la interaccin de persona a ordenador y de persona a persona

    Mejorar la usabilidad Web en los dispositivos mviles.

    2.3 Aplicaciones de VoiceXML

    Actualmente no todo el mundo posee un ordenador, por lo que carecen de

    la posibilidad de acceder a Internet. Pero lo que s tiene casi todo el mundo

    es un telfono, y con VoiceXML es posible el acceso a Internet desde el

    telfono simplemente usando la voz. para ello el usuario realizar una

    llamada al nmero que se ha asignado a la pgina, cuando se reciba esta

    llamada, el navegador vocal buscar la URL en donde reside dicha pgina.

    Adems el uso del telfono mvil est cada ms extendido y sus

    caractersticas (son pequeos, ligeros, baratos y tienen bateras de larga

    duracin) les hacen mucho ms porttiles que los ordenadores. Con el

    telfono mvil se puede acceder a la informacin desde cualquier lugar y en

    cualquier momento, adems puede utilizarse para aplicaciones que no es

    posible llevar a cabo sobre un ordenador (como los servicios basados en

    localizacin) y cada vez son ms utilizados para acceder a Internet. Por otra

    parte, si tenemos en cuenta sus limitadas posibilidades ( pantallas

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page16

    pequeas, reducida memoria... ) a la hora de acceder a la informacin de

    Internet en modo texto, VoiceXML parece la solucin perfecta.

    El acceso a Internet va voz se realiza mediante los Portales de Voz en los

    que se permite interactuar automticamente con los clientes por medio de

    conversin texto a voz, reconocimiento de voz y DTMF (pulsacin de

    tonos). El acceso al servicio del Portal de Voz se realiza mediante una

    llamada de telfono. La plataforma funciona como elemento intermediario,

    estableciendo la conexin entre el usuario que realiza la llamada y el

    servicio.

    Pero el acceso a Internet va voz no es la nica posibilidad que ofrece el

    uso de esta tecnologa, puede ser aplicada en numerosos y diversos

    sectores:

    Recuperacin de informacin Comercio electrnico: tiene sentido slo si el usuario ya conoce el

    producto o dispone de un catlogo

    Atencin al cliente Aplicaciones financieras: cotizacin de acciones, banca... Servicios telefnicos como marcacin por voz. Acceso a informacin de los conductores Acceso al correo electrnico Aplicaciones Intranet para control de inventario, realizacin de pedidos...

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page17

    2.4 Otros conceptos relativos a Voice XML y Web Semantica

    VoiceXML Gateway

    Figura 3. Escenario de Aplicacin VoiceXML

    El Gateway VoiceXML hace las funciones de navegador, aportando un nivel

    de presentacin basado en la reproduccin y reconocimiento de la voz

    (Voice Browser). Puede residir en un Router o RAS

    Si los equipos utilizados no cuentan con capacidades de Voice Browser, o

    estas son limitadas, tiene otra alternativa que es la de usar MRCP y puede

    usar los servicios de sistemas ASR y TTS.

    El VoiceXML GW puede interoperar con buzones de correo, servicios SIP,

    H.323, etc.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page18

    Figura 4. Portabilidad de las Aplicaciones con VoiceXML Gateway

    III. SISTEMAS BASADOS EN VOZ

    3.1 Aportes de VoiceXML a los Sistemas Basados en Voz Caso de Telefnica Mviles de Espaa:

    Telefnica I+D ha venido desarrollando, a lo largo de los ltimos aos, un

    amplio abanico de servicios de voz para redes mviles que ofrecen a los

    clientes nuevas prestaciones, que facilitan el acceso a informacin

    relacionada con los clientes que estos desean conocer o que ofrecen

    nuevas posibilidades de acceso a contenidos de informacin sin necesidad

    de utilizar otro aparato que el telfono.

    Con las plataformas y los servicios que han sido desarrollados por

    Telefnica I+D es posible acceder a funciones que antes quedaban fuera

    del alcance de los clientes, como acceder al buzn de voz personal cuando

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page19

    se encuentra en el extranjero o poder recibir la notificacin de las llamadas

    recibidas cuando se encuentre sin posibilidad de atenderla. Tambin es

    posible conocer de forma cmoda y rpida informacin valiosa para el

    cliente, como es el consumo que se ha realizado en su telfono hasta el

    momento, el saldo de su tarjeta prepago, los correos electrnicos de su

    cuenta personal o sus citas. Otra posibilidad que ofrecen los servicios

    desarrollados es la de poder acceder desde el telfono a la informacin de

    las ltimas noticias, las cotizaciones de bolsa o la cartelera de cines de una

    ciudad y recibir los contenidos tanto de forma hablada como en forma de

    mensaje corto.

    Adems se anticipa la utilizacin del telfono en un entorno muy apropiado

    para su uso, como es el automvil, con funciones de utilidad como es el

    guiado hacia un destino requerido o la consulta de informacin basada en

    localizacin. Ms an, se facilita la comunicacin de los clientes,

    ofrecindoles servicios que permiten hacer una llamada a una persona de

    su agenda vocal o comunicar con un grupo de personas. Asimismo se

    anticipan servicios que integran voz y datos por medio de una tecnologa

    avanzada para, por ejemplo, enviar por voz un mensaje corto. En el mbito

    de la personalizacin de servicios se ha creado un servicio con el que se

    permite seleccionar el saludo que un cliente coloca en su buzn de voz.

    Adems, se extiende al mbito de los servicios de voz a las nuevas

    terminales (como las PDAs), que abren la opcin a nuevos tipos de

    servicios. Por ltimo, se proporcionan sistemas que sirven para mejorar el

    nivel de servicio ofrecido por los operadores, al facilitar las pruebas y la

    supervisin de sus servicios.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page20

    El desarrollo de estos servicios se ha realizado con las tecnologas y

    plataformas desarrolladas por Telefnica I+D para el desarrollo de servicios:

    Tecnologa del Habla. Tanto para reconocimiento de habla como para Sntesis de Voz la tecnologa de Telefnica I+D es lder para castellano,

    lenguas cooficiales de Espaa y portugus de Brasil. Los servicios vocales

    avanzados y los portales de voz utilizan estas tecnologas de manera

    intensiva.

    Plataforma Multiservicio. Se trata de una plataforma de altas prestaciones, alta disponibilidad y escalable sobre la que se despliegan los

    servicios desarrollados. Esta plataforma integra la tecnologa del habla de

    Telefnica I+D, adems de la de suministradores comerciales que la

    complementan con otros idiomas, como ingls, francs, alemn, italiano,

    etc.

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page21

    Se puede llevara a cabo una clasificacin de los servicios en las siguientes

    categoras:

    Servicios Corporativos. Son servicios en los cuales se ofrece el servicio a

    los usuarios que pertenecen a una corporacin.

    Dentro de esta categora est disponible el servicio de Consulta de

    Consumo para Clientes Corporativos.

    Servicios de Mensajera. En estos servicios se ayuda a los clientes a

    entablar comunicacin por medios alternativos al de la voz. Como ejemplo

    podemos citar el servicio de Mensajera Mvil Avanzado que permite el

    acceso al correo electrnico mediante la voz en diferentes idiomas.

    Portales de Voz. Los contenidos, disponibles en Internet son accedidos por

    voz. Dentro de los portales de voz se puede hacer una clasificacin

    atendiendo al tipo de contenidos a los que se est accediendo, de acuerdo

    con la presentada en la siguiente figura:

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page22

    Otro aporte importante Hoy en da a los sistemas basados en voz es lo

    referente a la Web Multimodal, El W3C est desarrollando la Infraestructura

    de Interaccin Multimodal con el objetivo de que sirva como base para crear

    aplicaciones multimodales mediante lenguajes de etiquetado, scripting,

    estilos y otros recursos.

    Interaccin mediante voz La interaccin a travs de la voz permite evitar las limitaciones fsicas, en lo

    que se refiere a teclado y representacin grfica, que presentan los cada

    vez ms pequeos dispositivos mviles. La voz proporciona una alternativa

    accesible para utilizar el teclado o la pantalla. Esto adquiere gran

    importancia en los coches y en otras situaciones donde es necesario que

    tanto nuestras manos como nuestra vista queden libres.

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page23

    3.2 Ejemplos de Cdigo de VoiceXML

    Para poder entender ejemplos de cdigo primero describiremos el aspecto

    de una aplicacin VoiceXML:

    Una sesin VoiceXML se inicia cuando el telfono del cliente alcanza al

    Gateway, en este instante se inicia la aplicacin.

    Una aplicacin est constituida por un conjunto de dialog states. Por lo que

    el usuario siempre se encuentra dentro de un dialog. Desde un dialog se

    puede saltar a travs de un URL a otro dialog.

    Hay dos tipos de dialog: forms y menus; Un form presenta y recoge informacin (voz o DTMF) y un menu presenta al usuario diferentes opciones y permite la transicin a otros dialog

    Speech Synthesis Markup Language (SSML) define los aspectos relativos a

    reproduccin de audio y sntesis de voz: pronunciacin, gnero, edad,

    volumen, tono y nfasis.

    Para el reconocimiento de voz, cada dialog emplea una Grammar. En una

    Grammar se establecen las palabras y declaraciones que vlidas como

    respuesta.

    Tras el reconocimiento, la Grammar retorna variables a la aplicacin

    VoiceXML en curso. Una Grammar puede residir como un elemento ms

    dentro de la aplicacin (inline) o bien, puede ser referenciada: fichero.grxml

    Speech Recognition Grammar Specification (SRGR) que es quien establece

    el uso de XML como sintaxis para la programacin de Grammars.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page24

    A Continuacin Un Ejemplo de una Aplicacin VoiceXML y su Grammar

    con las respuestas posibles:

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page25

    Algunas consideraciones sobre la sintaxis de su codificacin: Entrada de datos: ,

    Seleccionar gramticas:

    Asignacin de variables: y

    Reproduccin de un clip de audio:

    Grabacin de la voz:

    Definicin de mens: y

    Condicionales y saltos: , ,, y

    Anidar dilogos:

    Control de la sesin: , ,

    Incluir scripts ECMA/CTSA:

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page26

    CONCLUSIONES

    Internet condensa gran cantidad de informacin que hasta ahora slo era

    accesible a travs de un navegador. Abrir paso para que todo este contenido

    pueda volcarse sobre otros dispositivos es un reto que los portales de voz han

    asumido y han superado, ya que ofrecen la posibilidad de obtener esta

    informacin a travs de un telfono, ya sea mvil o fijo, con la movilidad,

    flexibilidad y facilidad de acceso que esto supone.

    El VoiceXML facilita el desarrollo de portales de voz ya que permite construir

    dilogos hablados de forma sencilla, ofreciendo al usuario una forma alternativa de

    interaccin. Su influencia ha sido decisiva en las nuevas aplicaciones de telefona

    y el hecho de estar aprobado por el W3C, y avalado por AT&T, Lucent

    Technologies, Motorola e IBM (y otras 350 empresas que en la actualidad son

    miembros del Foro VoiceXML), hace que sus posibilidades de difusin sean

    enormes.

    Sin embargo hay que tener en cuenta que no son todo ventajas, ya que la voz no

    es como un teclado, no se trata de un conjunto de tonos constantes y universales.

    Siempre se producirn errores en el reconocimiento de la voz, en la comprensin

    o simplemente al convertir la voz a texto. Adems a la hora de introducir datos con

    la voz hay que tener en cuenta que existen gramticas que recogen las entradas

    vlidas y por mucho vocabulario que abarquen estas gramticas siempre quedar

    alguna que no contemple. Otro problema es la Gran variedad de lenguajes y

    dialectos que existen y que dependen aun del lado usuario el de definirlo, por

    ahora se sigue los esfuerzos para ampliar estos estndares a nuevos idiomas.

    Pero no slo se presentan inconvenientes en el reconocimiento de la voz, sino

    tambin a la hora de sintetizarla. La conversin texto a voz permite sintetizar voz a

    partir de textos con una calidad muy alta, de hecho en un futuro no muy lejano se

    supone que no se podr distinguir una voz sintetizada de una voz pregrabada.

    Esto permite emitir por la lnea telefnica de forma natural informacin muy

    variada y flexible. As, en los nuevos sistemas de respuesta telefnica automtica

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page27

    el llamante puede interactuar hablando de forma natural y solicitar informacin

    muy diversa mientras que el sistema responde con voz sintetizada. Pero la voz

    sintetizada no es humana, eso est claro, y esto hace la comunicacin muy

    impersonal, algo que no gusta a la mayora de la gente. Quin no ha dicho

    alguna vez odio hablar con esta maquina?, y eso es precisamente lo que se

    pretende con VoiceXML: hablar con las mquinas. Sin embargo, Se sigue

    avanzando con este estndar aplicando nuevas tcnicas que nos permitan

    acceder a la comunicacin plural entre hombre maquina.

    Podemos concluir tambin que con la integracin del Hombre a esta gran red de

    redes como es la Internet se hace cada vez mucho ms necesario poder acceder

    de una manera mltiple, en este sentido la W3C sigue desarrollando esfuerzos

    para la accesibilidad multimodal, El nuevo trabajo anunciado, as como los planes

    sobre caractersticas adicionales para VoiceXML 3.0 en la verificacin del usuario,

    constituyen hoy un momento idneo para que nuevas compaas, investigadores y

    otros interesados, estn unindose al esfuerzo de W3C y participen en los ltimos

    desarrollos de las tecnologas de voz y la Web.

    Entre los contribuyentes potenciales estn aquellos procedentes del sector

    empresarial y de la investigacin presentes por toda Asa, en las reas de idiomas

    asiticos y la verificacin del usuario, para permitir la mejor especializacin en el

    desarrollo de estndares que realmente cubran las necesidades de los usuarios

    Web a nivel mundial.

    Carlos Alvarado Quintana

    www.complejocartavio.com.pe/semanticaweb/voicexml.html Nota: Se ha desarrollado una Pagina referida Al Tema en esta direccin conteniendo el trabajo desarrollado, artculos relacionados, Bibliografa, Link a paginas de referencia.

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page28

    BIBLIOGRAFA

    [IBM 2001] VoiceXML Programmers Guide, IBM documentation. Noviembre del 2001.

    [Wiley 2002] Sharma, Chetan., VoiceXML : strategies and techniques for effective voice application development with VoiceXML 2.0 Wiley 2002.

    [W3C 2002] The World Wide Web Consorcium W3C, Voice Extensible Markup Language (VoiceXML) Version 2.0 2002. http://www.w3.org/TR/2004/RECvoicexml2020040316/

    [Foro 2004] VXIDiscuss. 2004. Foro de discusin sobre VoiceXML y todos los aspectos relacionados con el intrprete OpenVXI 2.0: http://www.speechinfo.org/vxi-discuss/.

    [Burnett 2002] Burnett, D. C., M. R. Walker, A. Hunt. 2002. Speech Synthesis Markup Language Version 1.0. W3C Working Draft. http://www.w3.org/TR/speech-synthesis.

    VoiceXML Forum (http://www.voicexml.org/) Intel Telecom Products

    (http://www.intel.com/design/network/products/telecom/index.htm) Especificacin: http://www.w3.org/Voice/ http://www.voicexml.org. cVoiceXMLForum. Tutoriales: Gua a VoiceXML: http://www.w3.org/Voice/Guide/ VoiceXMLReview: http://www.voicexmlreview.org Portal sobre VoiceXML http://www.kenrehor.com/voicexml/ http://www.tellme.com Portal de Voz. Implementaciones: http://www.i6net.com Proyecto MCMS Gestion de Contenidos Multimodal http://www.intervoice.com OmviaMediaServerconexploradorcompatibleconVoiceXML2.0. http://www.fundacionucm.es/www.once.es Proyecto ONCE: Eliminacin de Barreras Mediante La Tecnologa del Habla. http://www.verbio.comAppliedTechnologiesonLanguageandSpeechS.L,http://www.softwareag.com Desarrollo de Proyectos Web Multimodal http://www1.softwareag.com/Corporate/Solutions/XML_Solutions/mobile_sol

    Herramientas: http://studio.tellme.com/ Herramienta de Desarrollo sobre VoiceXML www.verbio.com Empresa ATLAS, producto basado en VoiceXML: Dialog@

  • UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page29

    Grupos de Inters

    Grupo de Aplicaciones del Procesado de Seales: rea Procesamiento del Lenguaje Natural. Universidad Politcnica de Madrid. Investigador Principal: Luis A. Hernndez Gmez Persona de contacto: Luis A. Hernndez Gmez URL: http://www.gaps.ssr.upm.es/ E-mail: [email protected] Direccin Postal: ETSI Telecomunicaciones. Despacho C-330. Ciudad Universitaria s/n. 28040 Madrid. Espaa

    Grupo de Estructuras de Datos y Lingstica Computacional.

    Universidad de Las Palmas de Gran Canaria. Investigador Principal: Octavio Santana Surez Persona de contacto: Jos R. Prez Aguilar URL: http://www.gedlc.ulpgc.es E-mail: [email protected] Direccin Postal: Edificio de Informtica. Departamento de Informtica y Sistemas. Universidad de Las Palmas de Gran Canaria. Campus Universitario de Tafira. 35017 Las Palmas de Gran Canaria.

    Grupo ECA-SIMM.

    Universidad de Valladolid Investigador Principal: Valentn Cardeoso Persona de contacto: Valentn Cardeoso Payo URL: http://eca-simm.infor.uva.es E-mail: [email protected] Direccin Postal: Escuela Tcnica Superior de Ingeniera Informtica. Departamento de Informtica (ATC, CCIA, LSI). Campus Miguel Delibes s/n. 47011 VALLADOLID.

    Otros Trabajos de Investigacin Referentes al tema: [Granel 2001] R. Lpez-Czar, R. Granell. Sistema de Dilogo Basado en VoiceXML

    para Proporcionar Informacin de Viajes en Tren. Universidad de Granada. www.sepln.org/revistaSEPLN/revista/33/33-Pag171.pdf

    [Gemini 2002] R. Crdoba, L.F. DHaro, J.M. Montero, J. Ferreiros, J. Macas-

    Guarasa, J.D. Romeral, J.M. Pardo. Generacin semiautomtica de aplicaciones de dilogo multimodales: Proyecto GEMINI. Grupo de Tecnologa del Habla. Departamento de Ingeniera Electrnica. Universidad Politcnica de Madrid. www.gemini-project.org www-gth.die.upm.es/~macias/doc/pubs/telecomi+d03/abstract/resumen_Telecom_I+D_gemini.PDF

    [Oropeza 2006] Oropeza Rodriguez, Jose Luis. Algoritmos y Metodos para el Reconocimiento de Voz en Espaol Mediante Silabas. Centro de Investigaciones en computacin = IPN, Mexico, 2006. www.ejournal.unam.mx/compuysistemas/vol09-03/CYS09307.pdf

    [Hops 2004] Gatius, Martha, Gonzales, Maritzel. The Project HOPS: Enabling an Intelligent Natural Languaje Based Hub for the Deplpyment of Advance Semantically Enriched Multi-channel Mass Scale OnLine Public Services. Universitat Politecnica de Catalua, Espaa, 2004. http://www.bcn.es/hops/index.htm

    UNIVERSIDADPONTIFICIADESALAMANCA 2006

    [VoiceXML] Page30

    AUTOR:

    ALVARADO QUINTANA CARLOS ALBERTO Ingeniero de Computacin y Sistemas colegiado, egresado de la Escuela de ICS de Universidad Privada Antenor Orrego, Maestra en Administracin de Negocios MBA UCV-Univ. Miami, Actualmente he culminado el segundo ao de Doctorado en Ingeniera de Software en la Universidad Pontificia de Salamanca Madrid Espaa, Diplomado en Gerencia de Proyectos y Calidad en la Pontificia Universidad Catlica del Per y PMI, Diplomado en Gerencia de TI en ESAN y un Post Grado Tecnologas de la Informacin en CADEM. Catedrtico de diferentes Universidades de Trujillo, como es UPAO y UPN en cursos de Administracin de Proyectos. Me he desempeado como Jefe de Sistemas y Gerente de Proyectos, he tenido la Jefatura de Sistemas de Complejo Agroindustrial Cartavio 1998-2007, he sido Jefe de Proyectos de desarrollo de software integrado sobre Visual Studio y SQL Server (mdulos backoffice: Logstica, Recursos Humanos, Contabilidad, Comercial y Financiero). Tengo experiencia Laboral de ms de 8 aos asumiendo Jefaturas de Sistemas en diversas empresas Agroindustriales, he tenido Gerencias de Proyectos de Implementacin de ERP como Biosalc, Spring y Sapiens, he participado como Lder de Tecnologa y de Procesos en un programa de excelencia operacional en Cartavio y Casagrande con preparacin para la Implementacin de SAP.

    Email: [email protected]