Unidad 1: Introducción - Personal · registrados por los órganos de los sentidos. ... !Estuve...

31
Unidad 1: Introducción Maestría en Sistemas Computacionales Clave: MPSCO-0214 6 Créditos Sesiones: Sábados de 7 a 10 hrs. Rafael Vázquez Pérez lunes 24 de agosto de 15

Transcript of Unidad 1: Introducción - Personal · registrados por los órganos de los sentidos. ... !Estuve...

Unidad 1:Introducción

Maestría en Sistemas ComputacionalesClave: MPSCO-0214 6 CréditosSesiones: Sábados de 7 a 10 hrs.

Rafael Vázquez Pérez

lunes 24 de agosto de 15

• “Describir el contexto del Procesamiento del Lenguaje Natural. Dicho de otra manera, establecer claramente su rol dentro de la Inteligencia Artificial.”

Objetivo de la unidad:

lunes 24 de agosto de 15

1.1 ¿Qué es Lingüística Computacional?

1.2 Ambigüedad.

1.3 Modelos y Algoritmos.

1.4 Lenguaje, Pensamiento y Entendimiento.

1.5 Breve Repaso Histórico.

Agenda

lunes 24 de agosto de 15

Overview

• ¿ Que es el lenguaje ?

• El lenguaje se configura como aquella forma que tienen los seres humanos para comunicarse.

• Se trata de un conjunto de signos, tanto orales como escritos, que a través de su significado y su relación permiten la expresión y la comunicación humana.

lunes 24 de agosto de 15

¿ Que es el lenguaje ?• Y la Wiki dice que...

• Un lenguaje (del provenzal lenguatg1 y este del latín lingua) es un sistema de comunicación estructurado para el que existe un contexto de uso y ciertos principios combinatorios formales.

• Existen contextos tanto naturales como artificiales.

• Desde un punto de vista más amplio, el lenguaje indica una característica común al hombre y a los animales para expresar sus experiencias y comunicarlas a otros mediante el uso de símbolos, señales y sonidos registrados por los órganos de los sentidos.

• El ser humano emplea un lenguaje complejo que se expresa con secuenciassonoras y signos gráficos.

• Los animales, por su parte, se comunican a través de signos sonoros ycorporales y en muchos casos distan de ser sencillos.

lunes 24 de agosto de 15

¿ Que es el lenguaje ?• El Lenguaje Humano se basa en la capacidad de los seres

humanos para comunicarse por medio de signos (usualmente secuencias sonoras, pero también gestos y señas, así como signos gráficos).

• Aun así, hay diversos tipos de lenguaje.

• El lenguaje humano puede estudiarse en cuanto a su desarrollo desde dos puntos de vista complementarios: la ontogenia y la filogenia.

• La ontogenia analiza el proceso por el cual el ser humano adquiere el lenguaje. La filogenia se encarga de estudiar la evolución histórica de una lengua.

lunes 24 de agosto de 15

¿ Que es el lenguaje ?• El Lenguaje animal se basa en el uso de

señales sonoras, visuales y olfativas, a modo de signos, para señalar a un referente o un significado diferente de dichas señales.

• Dentro del lenguaje animal están los gritos de alarma, el lenguaje de las abejas, etc.

lunes 24 de agosto de 15

¿ Que es el Lenguaje ?• Los lenguajes formales son construcciones

artificiales humanas, que se usan en matemática y otras disciplinas formales, incluyendo lenguajes de programación.

• Estas construcciones tienen estructuras internas que comparten con el lenguaje humano natural, por lo que pueden ser en parte analizados con los mismos conceptos que éste.

lunes 24 de agosto de 15

¿ Que es el Lenguaje Natural ?

• El lenguaje natural es la forma de comunicación que el ser humano aprende de su ambiente y usa para comunicarse con los demás.

• Para expresar sus ideas, emociones y necesidades, esperando cierta clase de respuesta por parte de su interlocutor.

lunes 24 de agosto de 15

Organos que participan en el lenguaje• El órgano principal para el aprendizaje del lenguaje es el

cerebro.

• El cerebro recibe todos los impulsos que mandan otros órganos que participan en el lenguaje:

• Músculos de la laringe

• La lengua.

• Cuerdas vocales.

• Los Ojos

• Los Oídos

lunes 24 de agosto de 15

¿Qué es Lingüística?

lingüístico, ca [1]

1. adj. De la lingüística o relativo a esta ciencia: geografía lingüística. 2. Relativo a la lengua o al lenguaje: problema lingüístico. 3. f. Ciencia que estudia el lenguaje y las lenguas. 4. lingüística aplicada.- Rama de la lingüística que trata los problemas que el lenguaje plantea como medio de relación social, especialmente de los que se refieren a la enseñanza de idiomas. 5. lingüística general.- Estudio teórico del lenguaje que se ocupa de métodos de investigación y de cuestiones comunes a las diversas lenguas.

[1] http://www.wordreference.com/definicion/linguistica

lunes 24 de agosto de 15

1.1 ¿Qué es Lingüística Computacional? [2]

DAVE BOWMAN: Open the pod bay doors, HAL.HAL: I’m sorry Dave, I’m afraid I can’t do that. Stanley Kubrick and Arthur C. Clarke, from screenplay of “2001: A Space Odyssey.

“Rama de la lingüística en la que se aplican las técnicas de la ciencia de la computación para el análisis y la síntesis del lenguaje y el habla.”

[2] http://www.oxforddictionaries.com/definition/english/computational-linguistics

lunes 24 de agosto de 15

¿Qué se necesitaría para crear la parte relacionada con el lenguaje de un agente inteligente como HAL?

Deberá ser capaz de:

1. Interactuar con humanos vía lenguaje.2. Comunicarse con los humanos.3. Otras cosas.

lunes 24 de agosto de 15

“La principal preocupación del campo del Procesamiento del Lenguaje Natural es resolver todos estos tipos de problemas.”

1•Reconocimiento del habla (speech recognition).•Entendimiento del lenguaje natural (understanding natural language).

2 •Generación de lenguaje natural (natural language generation). •Síntesis del habla (speech synthesis).

3•Recuperación de información (information retrieval).•Extracción de información (information extraction).•Inferencia (inference).

lunes 24 de agosto de 15

¿Con cuál conocimiento se debe contar para emplearse en resolver el comportamiento complejo del lenguaje?

1. Fonética y fonología (phonetics & phonology).- El estudio de sonidos lingüísticos.

2. Morfología (morphology).- El estudio de los componentes significativos de las palabras.

3. Sintaxis (syntax).- El estudio de las relaciones estructurales entre las palabras.

4. Semántica (semantics).- El estudio del significado.5. Pragmática (pragmatics).- El estudio de cómo el lenguaje es utilizado para el

logro de metas.6. Discurso (discourse).- El estudio de las unidades lingüísticas más grandes

que un solo enunciado.

lunes 24 de agosto de 15

1.2 Ambigüedad.

“Decimos que alguna entrada es ambigua si hay múltiples estructuras lingüísticas alternativas que se pueden construir para él.”

Algunos ejemplos son:

§Lourdes no quiere a su tía por que es muy envidiosa.§Estuve esperándote en el banco.§Me doy a dar una vuelta.§Pepe festejará sus 20 años cantando.§El juez Morris condenó a Umberto Pierce por estafar a su hermana Karol.

Algunas ambigüedades se pueden resolver mediante el Etiquetado Gramatical (Part of Speech Tagging), otras mediante la Desambiguación del Sentido de la Palabra (Word Sense Disambiguation), otras a través del Análisis Sintáctico Probabilístico (Probabilistic Parsing) y por último la Interpretación del Acto del Habla (Speech Act Interpretation).

lunes 24 de agosto de 15

1.3 Modelos y Algoritmos.Existe un conjunto reducido de Modelos que se utilizan el en procesamiento del Lenguaje Natural, entre ellos se encuentran:

§Máquinas de Estados.ü Autómatas Finitos (deterministas y no deterministas).ü Transductores de Estados Finitos.

§Sistemas de Reglas Formales.ü Gramáticas Regulares.ü Gramáticas de Libre Contexto.ü Relaciones Regulares.ü Gramáticas con Características Aumentadas. ü Autómatas con Peso.

§Lógica.ü De primer orden o cálculo de predicados.

lunes 24 de agosto de 15

1.4 Lenguaje, Pensamiento y Entendimiento.

Para muchas personas, “el hecho de que las computadoras procesen el lenguaje tan hábilmente como lo hacemos nosotros, significa que en un futuro no muy lejano, las computadoras verdaderamente podrán pensar”.

La base de lo anterior es el hecho de que el uso efectivo del lenguaje está entrelazado con nuestras habilidades cognitivas generales.

lunes 24 de agosto de 15

1.4 Lenguaje, Pensamiento y Entendimiento.

• En 1950 Alan Turing expuso en un artículo su famoso “Test de Turing”. El Test de Turing es un juego en el que intervienen 2 personas y 1 computadora, una de estas personas juega el rol de Interrogador. Para ganar, el Interrogador deberá determinar cuál de los otros 2 participantes es una máquina al hacer una serie de preguntas vía teletipo.

• La tarea de la máquina es hacer que el Interrogador concluya que ella es la persona. La tarea de la otra persona es hacer pensar al interrogador que el otro participante es una máquina.

lunes 24 de agosto de 15

1.4 Lenguaje, Pensamiento y Entendimiento. (cont.)Turing predijo que a finales del siglo XX, una máquina con 10 GB de memoria RAM podría tener una probabilidad del 30% de engañar al Interrogador.

Q: Por favor, escríbeme un soneto acerca del amor.A: En eso no cuentes conmigo. Nunca he escrito poesía.

Q: A 34957 sumar 70764.A: (Después de algunos segundos, dar la respuesta…) 105721.

En 1966 se lanzó el programa ELIZA, el cual era un sistema de procesamiento del Lenguaje Natural capaz de llevar a cabo una forma limitada de conversación con un usuario.

Un ejemplo de tipo de preguntas-respuestas en el que ELIZA toma el papel de un psicoterapeuta sería:

lunes 24 de agosto de 15

1.4 Leguaje, Pensamiento y Entendimiento. (cont.)Un ejemplo de tipo de preguntas-respuestas sería:

USUARIO_1: “You are like my father in some ways”.ELIZA: “WHAT RESEMBLANCE DO YOU SEE”.

USUARIO_2: “You are not very aggressive but I think you don’t want me to notice that”.ELIZA: “WHATS MAKES YOU THINK I AM NOT AGGRESSIVE”. USUARIO_3: “You don’t argue with me”.ELIZA: “WHY DO YOU THINK I DON’T ARGUE WITH YOU”.

USUARIO_4: “You are afraid of me”.ELIZA:“DOES IT PLEASE YOU TO BELIEVE I AM AFRAID OF YOU”.

lunes 24 de agosto de 15

1.4 Lenguaje, Pensamiento y Entendimiento. (cont.)Este programa simple, hace uso de la Coincidencia de Patrones (pattern-matching), para procesar la entrada y transformarla en una salida adecuada.

El éxito de esta técnica simple en este dominio se basa en el hecho de que ELIZA no necesita saber nada para imitar al USUARIO.

Muchas personas han creído que ELIZA realmente las entiende y comprende sus problemas.

Prueba Eliza

http://nlp-addiction.com/eliza/

lunes 24 de agosto de 15

1.5 Breve repaso histórico. Perspicacias fundamentales: Años 40s y 50s

Justo después de la Segunda Guerra Mundial, surgen dos paradigmas fundamentales:

§ Paradigma de Autómatas.ü El autómata surgió en 1950 del modelo de computación algorítmica de

Turing.ü Modelo de neurona artificial de McCulloch-Pitts en1943.ü Autómatas Finitos y Expresiones Regulares por Kleene en 1951 y 1956.ü Shannon en 1948 aplicó los modelos probabilísticos de procesos de

Markov discretos para autómatas para el lenguaje.ü Chomsky en 1956 fue el primero en considerar a las máquinas de estados

finitos como una forma de caracterizar una gramática.ü Backus en 1959 y Naur en 1960 describieron una gramática para el

lenguaje de programación ALGOL.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.)

§ Paradigma Probabilístico.

ü La metáfora del canal ruidoso y decodificación para la transmisión de lenguaje a través de los medios de comunicación como los canales de comunicación y la acústica del habla propuesta por Shannon.

ü Shannon toma prestado el concepto de Entropia de la Termodinámica como una forma de medir la capacidad de información de un canal, o de la información contenida de un lenguaje, y realizando la primer medida de entropía del Idioma Inglés utilizando técnicas probabilísticas.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.) Los dos campos: Años 1957 a 1970

El procesamiento del habla y el lenguaje se dividió muy claramente en dos paradigmas:§Simbólico.

ü Teoría de Lenguaje Formal y Sintaxis Generativa.Propuesta por Chomsky y otros lingüistas y científicos de la computación. Por ejemplo, Analizadores Sintácticos Descendentes, Ascendentes y vía Programación Dinámica.

ü El surgimiento del nuevo campo llamado “Inteligencia Artificial”.

Se construyeron los primeros sistemas de entendimiento del Lenguaje Natural , los cuales eran sistemas que trabajaban en dominios sencillos, a través de una combinación de Coincidencia de Patrones con Búsqueda de Palabra Clave.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.) § Estocástico.

Se estableció principalmente en los Departamentos de Estadística y de Ingeniería Eléctrica.

üA finales de los 50s el método Bayesiano se empezó a aplicar al problema del Reconocimiento Óptico de Caracteres.üBledsoe y Browning en 1959 construyeron un sistema Bayesiano para el Reconocimiento de Texto utilizando un diccionario grande y calculado la probabilidad de cada secuencia de letras observada dado a cada palabra en el diccionario multiplicando las probabilidades para cada letra. üMosteller y Wallace en 1964 aplicaron métodos Bayesianos al problema de la Atribución de Autoría del conjunto de artículos y ensayos denominados “The Federalist”.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.)

Los cuatro paradigmas: Años 1970 a 1983§ Paradigma Estocástico.

ü Desarrollo de algoritmos para el reconocimiento del habla, utilizando Modelos de Markov.

ü Reconocimiento del habla y Síntesis.

§ Paradigma basado en Lógica.ü Q-systems (transformaciones con grafos dirigidos).ü Precursores de Prolog y de las Gramáticas con clausulas definitivas.ü Lógica de predicados como una representación semántica.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.) § Entendimiento del Lenguaje Natural.

ü Sistema de simulación de un Robot en el mundo de los bloques.

ü Gramática funcional sistémica, elaborada por Halliday.ü Programas de comprensión del lenguaje que se centraron en

el conocimiento conceptual humano, como Scripts, Organización de la memoria humana, planes y metas.

§ Paradigma de Modelado del discurso.ü Estructura del discurso.ü Enfoque del discurso.ü Resolución Automática de Referencias.ü Marco para el trabajo basado en la lógica de los actos de

habla.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.)

Modelos de estados finitos y Empirismo: Años 1983 a 1993

§Kaplan & Kay proponen un Modelo de estados finitos para tratar la Fonología y Morfología.§Church propone un Modelo de estados finitos para la sintaxis.§“IBM Thomas J. Watson Research Center” desarrolla Modelos probabilísticos para el reconocimiento del habla.§Modelos probabilísticos y de “data-driven” (modelos impulsados por los datos) para el POS: Part of Speech Tagging, Parsing, y tratamiento de ambigüedades.

lunes 24 de agosto de 15

1.5 Breve repaso histórico. (cont.) Los distintos campos se agrupan juntos: Años 1994 a 1999

§PRIMERO: Los modelos probabilísticos y de “data-driven” se convierten en estándar para el Procesamiento del Lenguaje Natural. Los algoritmos para Parsing, POS, resolución de referencias y para el procesamiento del discurso incluyen probabilidades y emplean métodos de evaluación “tomados prestados” del Reconocimiento del Habla y de Recuperación de Información”.§SEGUNDO: El advenimiento de sistemas de cómputo con mayor velocidad y capacidad de memoria ha permitido la generación de aplicaciones comerciales, por ejemplo para verificación gramatical, verificación de ortografía y reconocimiento del habla.§TERCERO: La Web ha enfatizado la necesidad de Recuperación de Información basada en el Lenguaje y Extracción de Información.

lunes 24 de agosto de 15

Elaborar un artículo acerca del “Procesamiento del Lenguaje Natural en México”

Fecha máxima de entrega: 20 de Septiembre

TAREA

lunes 24 de agosto de 15