Aprendizaje Automtico ILN 2005-06
Aprendizaje Automtico
Armando Surez
ILN 2005-06Aprendizaje Automtico 2
Contenidos
Introduccin Clasificacin de mtodos de aprendizaje
automtico Aprendizaje Automtico basado en corpus
textuales Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la
ambigedad lxica categorial
ILN 2005-06Aprendizaje Automtico 3
Qu es el aprendizaje automtico
aprender (Del lat. apprehendre).1. tr. Adquirir el conocimiento de algo por
medio del estudio o de la experiencia.3. tr. Tomar algo en la memoria.
Real Academia Espaola Todos los derechos reservados
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 4
Qu es el aprendizaje automtico
Aprender automticamente1. tr. Adquirir automticamente? el
conocimiento de algo por medio del estudio o de la experiencia.
3. tr. Tomar automticamente? algo en la memoria.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Hacer que un ordenador adquiera cierto conocimiento de un dominio particular
Hacer que un ordenador adquiera cierto Hacer que un ordenador adquiera cierto conocimiento de un dominio particularconocimiento de un dominio particular
ILN 2005-06Aprendizaje Automtico 5
Qu es el aprendizaje automtico
Hacer que un ordenador adquiera cierto conocimiento de un dominio particular El alumno es el ordenador Nosotros le decimos cmo aprender Nosotros le proporcionamos los datos de los que aprender y l aprende slo (la mayora de las veces)
y vosotros?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 6
Qu es el aprendizaje automtico
Aprendizaje automticoes una rama de la Inteligencia Artificial cuyo objetivo es desarrollar tcnicas que permitan a las computadoras aprender. De forma ms concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una informacin no estructurada suministrada en forma de ejemplos. Es por lo tanto, un proceso de induccin del conocimiento.
Wikipedia
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 7
Un ejemplo
La buena msica
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
La guitarra es un instrumento musicalLa batera es un instrumento musicalLa bicicleta es un vehculoLa motocicleta es un vehculoLos vehculos aceleranLos instrumentos musicales suenan
Juan aceler su guitarra hasta los cien km/hLa batera de Pepe suena fatal
ILN 2005-06Aprendizaje Automtico 8
Otro ejemplo
El mdico en casa
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Estornudar = catarroFiebre = gripeEstornudar = alergiaPolen = alergiaDolor muscular = gripe
Antonio no estornuda, tiene fiebre y dolor muscular Mara estornuda, no tiene fiebre, y estamos en mayo
ILN 2005-06Aprendizaje Automtico 9
Por qu aprendizaje automtico
porqu no una mquina especialmente diseada para la tarea
algunas tareas no pueden ser bien definidas si no es por ejemplos
relaciones y correlaciones importantes pueden estar ocultas dentro de una gran cantidad de datos
la cantidad de conocimiento disponible puede ser, simplemente, excesiva para un humano
adaptabilidad a los cambios, no rediseo constante descubrimiento de nuevos
conocimientos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 10
Por qu ahora
Antes Inabordable en la mayor parte de los casos
El AA usa grandes cantidades de datos Los algoritmos necesitan gran cantidad de recursos
(memoria, procesador ) para ser eficientes
Despus El conocimiento lo suministra el experto
Ahora El AA ya es abordable
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 11
Por qu ahora
Basado en el conocimiento Las personas, cuando estn despiertas, no roncan
pepe, despierto = NO RONCA juan, dormido = ?
Basado en ejemplos pepe, dormido juan, dormido, ronca mara, despierta antonia, dormida, ronca manuel, dormido, ronca francisco, despierto josefa, dormida patricia, despierta
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
las personas, cuando estndespiertas, no roncan
las personas, cuando estndespiertas, no roncan
ILN 2005-06Aprendizaje Automtico 12
Por qu ahora
El resurgimiento del AA Ingentes cantidades de informacin disponible
electrnicamente Mquinas muy potentes Cada vez ms importante la automatizacin
de las tareas, por ejemplo, del lenguaje humano Los idiomas de la Unin Europea: cunto
cuesta, en tiempo y personal, traducir TODOS los documentos a TODOS los idiomas de la UE?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 13
Aplicaciones
Control de procesos industriales Cmo debe comportarse un sistema ante un conjunto de
eventos concurrentes
Control del trfico Establecer las modificaciones a las frecuencias de los
semforos para hacer ms fluido el trfico
Diagnsticos mdicos Ayuda al diagnstico por los sntomas y pruebas realizadas
Robots Contestadores automticos
Qu informacin desea? Carreteras cortadas en Huesca Lo siento no tengo informacin sobre muescas en jarreterasholgadas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 14
Aplicaciones
El AA tiene muchas reas de aplicacin, centrmonos en el Lenguaje Natural Prcticamente todas
Anlisis sintctico y morfolgico Recuperacin de informacin Extraccin de informacin Bsqueda de respuestas Traduccin automtica Reconocimiento y generacin de voz Creacin de resmenes Minera de textos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 15
El caso particular del Lenguaje Natural
Los problemas de clasificacin son uno de los casos particulares del AA Las TLH son, en general, problemas de
clasificacin clasificar = ordenar en clases
cama = nombre dormir = verbo bonito = nombre o adjetivo?
Quiero dormir en la cama con un bonito pijama
clase = una de las opciones de anotacin contexto = informacin que nos permite decidir
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 16
Lo que veremos
El aprendizaje automtico en general La importancia de la informacin de
aprendizaje qu seleccionar, cmo usarlo
algunos mtodos de AA ejemplos, descripciones de tareas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 17
ClasificaciClasificacin de mn de mtodos de todos de Aprendizaje AutomAprendizaje Automticotico
aprendizaje y clasificacin representacin de ejemplos de aprendizaje el problema de la dispersin de datos en TLH
IntroduccinClasificacin de mtodos de AAAA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 18
Clasificacin de Mtodos
Segn la naturaleza del conocimiento simblico subsimblico
Por la forma del aprendizaje supervisado no supervisado
Por las tcnicas empleadas aprendizaje estadstico razonamiento inductivo
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 19
Clasificacin de Mtodos
Segn la naturaleza del conocimiento simblico
Representacin explcita (se reconoce lo que dice el ejemplo)
Subsimblico representacin no directamente
interpretable por un humano, codificada
Por la forma del aprendizaje Por las tcnicas empleadas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 20
Clasificacin de Mtodos
Segn la naturaleza del conocimiento Por la forma del aprendizaje
Supervisado Los ejemplos estn previamente anotados,
se conoce la clase a la que pertenece cada uno
no supervisado No hay anotacin, se agrupan
automticamente los ejemplos en categoras (preestablecidas o no)
Por las tcnicas empleadas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 21
Clasificacin de Mtodos
Segn la naturaleza del conocimiento Por la forma del aprendizaje Por las tcnicas empleadas
aprendizaje estadstico Obtencin de un modelo de probabilidad a partir de
un conjunto de observaciones
razonamiento inductivo Modalidad de razonamiento no deductivo que
consiste en obtener conclusiones generales a partir de premisas que contienen datos particulares.cuervo1: negro, cuervo2: negro cuervo1000: negro todos los cuervos son negros
(Wikipedia)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 22
Otra clasificacin de mtodos
Aprendizaje estadstico HMM, Bayesian Networks, Maximum Entropy
Tradicionales de la IA Decision trees/lists, Exemplar-based learning, Rule induction,
Neural Networks, etc.
Del rea Computational Learning Theory (CoLT) Winnow, AdaBoost, SVMs, etc.
Combinacin de clasificadores cmo hacer la combinacin
Aprendizaje semi-supervisado bootstrapping, superar el cuello de botella de la adquisicin
de conocimiento
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 23
Interesados en
Aprendizaje estadstico HMM, Bayesian Networks, Maximum Entropy
Tradicionales de la IA Decision trees/lists, Exemplar-based learning, Rule induction,
Neural Networks, etc.
Del rea Computational Learning Theory (CoLT) Winnow, AdaBoost, Support Vector Machines, etc.
Combinacin de clasificadores cmo hacer la combinacin
Aprendizaje semi-supervisado bootstrapping, superar el cuello de botella de la adquisicin
de conocimiento
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 24
Aprendizaje automAprendizaje automtico basado en tico basado en corpus textualescorpus textuales
IntroduccinClasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 25
corpus textuales
Para aprender necesitamos datos, ejemplos
El AA para las TLH se basa en corpus textuales
documentos artculos de prensa transcripciones de conversaciones
Depende de la tarea, contienen ms o menos anotacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 26
Qu es un corpus
Un conjunto de ejemplos Anotado, si estn marcadas las categoras que
nos interesan No anotado
Algunos y famosos Noticias: EFE, WSJ, AA Heterogneos: Brown, BNC, LexEsp
Todos ellos son la base para obtener nuevos corpus anotados con informacin morfolgica, sintctica, semntica DSO, SemCor, Senseval, Penn Treebank
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 27
Qu es un corpus
Por ejemplo, LexEspCLiC dispone actualmente de un corpus de 6 millones de ocurrencias anotado morfolgica y sintcticamente mediante sus propias herramientas. Este corpus es el resultado de los proyectos de investigacin Lexesp-I (APC 93-0122) y Lexesp-II (APC 96-0125) y se compone de textos de diversos gneros: prensa, ensayo, novela, revistas, artculos de divulgacin cientfica, etc.
http://clic.fil.ub.es/
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 28
Problemas de clasificacin
Generalmente, el AA ve las TLH como problemas de clasificacin
Ejemplo: un filtro contra el correo basura el problema: hay correos que quiero leer
(deseados) y correos que no (no_deseados) hay alguna forma de conseguir clasificarlos
automticamente?
la solucin: entrenar a un clasificador basado en AA que asigne la etiqueta apropiada a los mensajes nuevos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 29
Problemas de clasificacinUn filtro anti-spam
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 30
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 31
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
From From -- Wed Nov 07 16:22:29 2001Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])
by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100Wed, 7 Nov 2001 14:51:59 +0100
Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.9Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])7])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100Wed, 7 Nov 2001 14:51:58 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3--21) with ESMTP id 21) with ESMTP id
OAA29856OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100for ; Wed, 7 Nov 2001 14:51:56 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100for ; Wed, 7 Nov 2001 14:51:58 +0100
Received: from ua.es ([172.16.242.69])Received: from ua.es ([172.16.242.69])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100for ; Wed, 7 Nov 2001 14:51:57 +0100
MessageMessage--ID: ID: Date: Wed, 07 Nov 2001 14:52:42 +0100Date: Wed, 07 Nov 2001 14:52:42 +0100From: Sergio =?isoFrom: Sergio =?iso--88598859--1?Q?Luj=E1n?= Mora 1?Q?Luj=E1n?= Mora Organization: DLSI Organization: DLSI -- Universidad de AlicanteUniversidad de AlicanteXX--Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)XX--AcceptAccept--Language: esLanguage: es--ES,en,pdfES,en,pdfMIMEMIME--Version: 1.0Version: 1.0To: [email protected]: [email protected]
ILN 2005-06Aprendizaje Automtico 32
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Subject: [Fwd: (DBWORLD) NLIS 2002 Subject: [Fwd: (DBWORLD) NLIS 2002 -- Call for Papers]Call for Papers]ContentContent--Type: multipart/mixed;Type: multipart/mixed;boundary="boundary="------------------------7095D3B8C13D3939F5F1329D"7095D3B8C13D3939F5F1329D"
ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitStatus: OStatus: OXX--MozillaMozilla--Status: 8001Status: 8001XX--MozillaMozilla--Status2: 00000000Status2: 00000000XX--UIDL: 3be9357a00000005UIDL: 3be9357a00000005This is a multiThis is a multi--part message in MIME format.part message in MIME format.----------------------------7095D3B8C13D3939F5F1329D7095D3B8C13D3939F5F1329DContentContent--Type: text/plain; charset=isoType: text/plain; charset=iso--88598859--11ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitHola.Hola.Os reenvOs reenvo un CFP sobre lenguaje natural. Supongo que ya lo o un CFP sobre lenguaje natural. Supongo que ya lo tendrtendris...is...pero por si las moscas.pero por si las moscas.----Sergio LujSergio Lujn Moran MoraDpto. Lenguajes y Sistemas InformDpto. Lenguajes y Sistemas InformticosticosUniversidad de AlicanteUniversidad de AlicanteApdo. de correos 99Apdo. de correos 99EE--03080 Alicante03080 AlicanteSpainSpain
ILN 2005-06Aprendizaje Automtico 33
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Subject: [Fwd: (DBWORLD) NLIS 2002 Subject: [Fwd: (DBWORLD) NLIS 2002 -- Call for Papers]Call for Papers]ContentContent--Type: multipart/mixed;Type: multipart/mixed;boundary="boundary="------------------------7095D3B8C13D3939F5F1329D"7095D3B8C13D3939F5F1329D"
ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitStatus: OStatus: OXX--MozillaMozilla--Status: 8001Status: 8001XX--MozillaMozilla--Status2: 00000000Status2: 00000000XX--UIDL: 3be9357a00000005UIDL: 3be9357a00000005This is a multiThis is a multi--part message in MIME format.part message in MIME format.----------------------------7095D3B8C13D3939F5F1329D7095D3B8C13D3939F5F1329DContentContent--Type: text/plain; charset=isoType: text/plain; charset=iso--88598859--11ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitHola.Hola.Os reenvOs reenvo un CFP sobre lenguaje natural. Supongo que ya lo o un CFP sobre lenguaje natural. Supongo que ya lo tendrtendris...is...pero por si las moscas.pero por si las moscas.----Sergio LujSergio Lujn Moran MoraDpto. Lenguajes y Sistemas InformDpto. Lenguajes y Sistemas InformticosticosUniversidad de AlicanteUniversidad de AlicanteApdo. de correos 99Apdo. de correos 99EE--03080 Alicante03080 AlicanteSpainSpain
ccmo introduzco esta informacimo introduzco esta informacin en el n en el aprendizaprendiz
ILN 2005-06Aprendizaje Automtico 34
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
From - Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])
by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100
Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3-21) with ESMTP id OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100
ReceivedReceived:: fromfrom ua.es ([172.16.242.69])ua.es ([172.16.242.69])byby aitana.cpd.ua.esaitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100
Message-ID: Date: Wed, 07 Nov 2001 14:52:42 +0100
FromFrom:: Sergio =?isoSergio =?iso--88598859--1?Q?Luj=E1n?= MoraOrganization: DLSI - Universidad de AlicanteX-Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)X-Accept-Language: es-ES,en,pdfMIME-Version: 1.0
ToTo: : [email protected]@dlsi.ua.esSubjectSubject: [: [Fwd: (DBWORLD) NLIS 2002 Fwd: (DBWORLD) NLIS 2002 -- Call for PapersCall for Papers]]Content-Type: multipart/mixed;boundary="------------7095D3B8C13D3939F5F1329D"
Content-Transfer-Encoding: 8bitStatus: OX-Mozilla-Status: 8001X-Mozilla-Status2: 00000000X-UIDL: 3be9357a00000005This is a multi-part message in MIME format.--------------7095D3B8C13D3939F5F1329DContent-Type: text/plain; charset=iso-8859-1Content-Transfer-Encoding: 8bitHola.Os reenvo un CFP sobre lenguaje natural. Supongo que ya lo tendris...pero por si las moscas.--Sergio Lujn MoraDpto. Lenguajes y Sistemas InformticosUniversidad de AlicanteApdo. de correos 99E-03080 AlicanteSpain
ILN 2005-06Aprendizaje Automtico 35
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
From - Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])
by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100
Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3-21) with ESMTP id OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100
Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100
ReceivedReceived:: fromfrom ua.es ([172.16.242.69])ua.es ([172.16.242.69])byby aitana.cpd.ua.esaitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100
Message-ID: Date: Wed, 07 Nov 2001 14:52:42 +0100
FromFrom:: Sergio =?isoSergio =?iso--88598859--1?Q?Luj=E1n?= MoraOrganization: DLSI - Universidad de AlicanteX-Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)X-Accept-Language: es-ES,en,pdfMIME-Version: 1.0
ToTo: : [email protected]@dlsi.ua.esSubjectSubject: [: [Fwd: (DBWORLD) NLIS 2002 Fwd: (DBWORLD) NLIS 2002 -- Call for PapersCall for Papers]]Content-Type: multipart/mixed;boundary="------------7095D3B8C13D3939F5F1329D"
Content-Transfer-Encoding: 8bitStatus: OX-Mozilla-Status: 8001X-Mozilla-Status2: 00000000X-UIDL: 3be9357a00000005This is a multi-part message in MIME format.--------------7095D3B8C13D3939F5F1329DContent-Type: text/plain; charset=iso-8859-1Content-Transfer-Encoding: 8bitHola.Os reenvo un CFP sobre lenguaje natural. Supongo que ya lo tendris...pero por si las moscas.--Sergio Lujn MoraDpto. Lenguajes y Sistemas InformticosUniversidad de AlicanteApdo. de correos 99E-03080 AlicanteSpain
dir= [email protected]= Fwd;DBWORLD;NLIS;Call;for;Papersto= [email protected]= 0reply_to= receivedFrom= ua.es ([172.16.242.69])receivedBy= aitana.cpd.ua.es
dir= [email protected]= Fwd;DBWORLD;NLIS;Call;for;Papersto= [email protected]= 0reply_to= receivedFrom= ua.es ([172.16.242.69])receivedBy= aitana.cpd.ua.es
ILN 2005-06Aprendizaje Automtico 36
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Inbox1Inbox2
Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17
ILN 2005-06Aprendizaje Automtico 37
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Inbox1
Inbox2Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17
ILN 2005-06Aprendizaje Automtico 38
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevosdatos
del clasificador
Correos clasificados
Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Inbox1Inbox2
Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17
ILN 2005-06Aprendizaje Automtico 39
Problemas de clasificacinUn filtro anti-spam
Correos antiguosy clasifi-cados
Aprendiz Clasificador
Correos nuevos
Abstraccin
datosdel
clasificador
Correos clasificados
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Correos antiguos y clasificados, resumidos
ILN 2005-06Aprendizaje Automtico 40
ILN 2005-06Aprendizaje Automtico 41
Representacin de la informacin
El AA como problemas de clasificacin de vectores de rasgos o atributos Representar el conocimiento con vectores de
valores heterogneos Establecer las categoras, las clases Obtener funciones de prediccin de la clase
para casos nuevos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 42
Representacin de la informacin
Rasgos o atributos (features) Extraer la informacin esencial del contexto
Xi = {xi1,xi2,,xin} valores discretos o reales el mtodo de ML determina la forma de representar
estos datos (reglas, rboles de decisin, funciones booleanas...)
Vectores de atributos aprendizaje (Xi ,Cj ) y clasificacin (Xk ,?)
se conoce la clase!
se conoce la clase!
nuestro problema: clasificar Xknuestro problema: clasificar Xk
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 43
Problemas de clasificacin
Espacio de hechos X = {x1,x2,,xm}
Conjunto de clases C = {c1, c2, , cn}
Objetivo: funcin de clasificacin (clasificador)
f : X C desconocida!...desconocida!...
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 44
Problemas de clasificacin
Conjunto de entrenamiento D X d D, f(d) es conocido
Conjunto de clases C = {c1, c2, , cn}
Objetivo: funcin de clasificacin h H : X C d D, h(d) = f(d)
el resto de X se tratarn como predicciones
mi limitado conocimiento del problema
mi limitado conocimiento del problema
no es tan fcilno es tan fcil
si no, por qubamos a estar aqu?
si no, por qubamos a estar aqu?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
utopa?utopa?
ILN 2005-06Aprendizaje Automtico 45
Problemas de clasificacinEjemplo
Ejemplo: clasificador anti-spam clasificacin de documentos
clases: DESEADO, SPAM todos los correos del mundo, pasados presentes
y futuros = X los que yo tengo en mi cuenta y que he clasificado
a mano =D
codificacin de ejemplos: atributos palabras en el asunto, direccin del remitente, dominio
del remitente
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 46
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM
: ? : ?
APRENDIENDO:
CLASIFICANDO:
corpus de aprendizajecorpus de aprendizaje
correos nuevoscorreos nuevos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 47
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 48
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 49
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 50
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM : DESEADO
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 51
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM : DESEADO
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 52
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM : DESEADO
: ? : ?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
APRENDIENDO:
CLASIFICANDO:
ILN 2005-06Aprendizaje Automtico 53
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM : DESEADO
: ? : ?
APRENDIENDO:
CLASIFICANDO:
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 54
APRENDIENDO:
CLASIFICANDO:
Problemas de clasificacinEjemploCunta informacin necesito?
: DESEADO : SPAM : SPAM : SPAM : DESEADO
: ? : ?
cmoadquiero el conocimiento, encuentro
relaciones entre atributos consigo la funcin de clasificacin?
(no basta con la frecuencia de aparicin )
cmoadquiero el conocimiento, encuentro
relaciones entre atributos consigo la funcin de clasificacin?
(no basta con la frecuencia de aparicin )
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 55
Problemas de clasificacinObjetivos
Sesgo inductivo (inductive bias) las elecciones que se realizan al disear,
implementar y configurar un sistema de aprendizaje que conducen al sistema a aprender una generalizacin en lugar de otra (Mitchell,1980) Un mtodo sin sesgo es nicamente memorstico,
no puede hacer predicciones sobre casos no aprendidos
Un mtodo sin sesgo no puede adaptarse a situaciones (datos) nuevos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 56
Problemas de clasificacinDispersin de datos
Tamao de la muestra El problema de la dispersin de datos
Data sparseness
e1 = Juan est esperndonos en el banco#2 de abajoe2 = El banco#1 devolvi los recibose3 = Bancos#1 hay muchos, elige el menos caroe4 = El pescador conoce la posicin de los bancos#3 peligrosos
x1 = #2 (Juan, estar, esperar, abajo)x2 = #1 (devolver, recibo)x3 = #1 (haber, elegir, menos, caro)x4 = #3 (pescador, conocer, posicin, peligroso)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 57
Problemas de clasificacinDispersin de datos
Tamao de la muestra El problema de la dispersin de datos
Data sparseness
e1 = Juan est esperndonos en el banco#2 de abajoe2 = El banco#1 devolvi los recibose3 = Bancos#1 hay muchos, elige el menos caroe4 = El pescador conoce la posicin de los bancos#3 peligrosos
x1 = #2 (Juan, estar, esperar, abajo)x2 = #1 (devolver, recibo)x3 = #1 (haber, elegir, menos, caro)x4 = #3 (pescador, conocer, posicin, peligroso)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
f1=IN(e,Juan)=ciertof2=IN(e,estar)=ciertof3=IN(e,esperar)=ciertof4=IN(e,abajo)=ciertof5=IN(e,devolver)=ciertof6=IN(e,recibo)=ciertof7=IN(e,haber)=ciertof8=IN(e,elegir)=cierto
f1=IN(e,Juan)=ciertof2=IN(e,estar)=ciertof3=IN(e,esperar)=ciertof4=IN(e,abajo)=ciertof5=IN(e,devolver)=ciertof6=IN(e,recibo)=ciertof7=IN(e,haber)=ciertof8=IN(e,elegir)=cierto
ILN 2005-06Aprendizaje Automtico 58
Problemas de clasificacinDispersin de datos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
x1=100000000000000000000000000000000000000000...x2=000000010000000000000010000000000000000000...x3=000000000001000000000000000000000000000000...x4=000000000000001000000100000000000000000000...x5=010000000000000000000000100000000000000000...x6=000000010000000000000000000000000000000000...x7=000000000000000000000000000100000000001000...x8=000000000000000100000000000000000000000000...x9=100000000000000000000000000000000000000000...x10=000000000000000000000000000000000000000000...x11=000000000000000000000000000000000100000000...x12=000000000000000000000000000000000000000001...x13=010000000000000000000000000000000000000000...x14=000000000000000001000000000000000000010000...
...
x1=100000000000000000000000000000000000000000...x2=000000010000000000000010000000000000000000...x3=000000000001000000000000000000000000000000...x4=000000000000001000000100000000000000000000...x5=010000000000000000000000100000000000000000...x6=000000010000000000000000000000000000000000...x7=000000000000000000000000000100000000001000...x8=000000000000000100000000000000000000000000...x9=100000000000000000000000000000000000000000...x10=000000000000000000000000000000000000000000...x11=000000000000000000000000000000000100000000...x12=000000000000000000000000000000000000000001...x13=010000000000000000000000000000000000000000...x14=000000000000000001000000000000000000010000...
...
ILN 2005-06Aprendizaje Automtico 59
Problemas de clasificacinDispersin de datos
Minimizar el error esperado estamos trabajando con un subconjunto del
espacio de hechos (potencialmente infinito) buscamos una funcin que se parezca a la
realno tenemos datos suficientes para saber cul es, el mtodo determina las condiciones para determinar ese parecido
son frecuentes los problemas de sobreentrenamiento (sobreajuste, overfitting)
ajuste excesivo a los datos de entrenamientotcnicas de alisado (smoothing), seleccin de atributos, ...
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 60
Problemas de clasificacinSobre-sub ajuste
Muestra
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 61
Problemas de clasificacinSobre-sub ajuste
Error de entrenamiento = error real?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 62
Problemas de clasificacinSobre-sub ajuste
Subajuste (underfitting)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 63
Problemas de clasificacinSobre-sub ajuste
muestra
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 64
Problemas de clasificacinSobre-sub ajuste
Error de entrenamiento = error real?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 65
Problemas de clasificacinSobre-sub ajuste
Sobreajuste (overfitting)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 66
Problemas de clasificacinMtodos
Descripcin de algunos mtodos Nave Bayes Mxima entropa
Maximum entropy
rboles de decisinDecision trees
Mquinas de vector soporteSupport vector machines
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 67
Problemas de clasificacinMtodosmtodos bayesianos
Mtodos bayesianos (Mitchell 1997)
Mtodo prctico para realizar inferencias a partir de los datos, induciendo modelos probabilsticosque despus sern usados para razonar (formular hiptesis) sobre nuevos valores observados.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 68
Problemas de clasificacinMtodosmtodos bayesianos
Mtodos bayesianos ventajas
asignan una probabilidad a cada hiptesis ordenador es nombre (s 0,75) ordenador es verbo (s 0,01) ordenador es adjetivo (s 0,24)
permiten elegir entre varias opciones positivas slido enfoque terico
Desventajas coste computacional alto
reducir la complejidad de los modelos Nave Bayes, Redes Bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 69
Redes bayesianas En realidad, es habitual que haya
dependencias entre las variables
NB es muy sensible a variables irrelevantes o redundantes
aportaciones de la teora de toma de decisiones, estadstica e inteligencia artificial
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
estornudaestornudacatarrocatarro
ILN 2005-06Aprendizaje Automtico 70
Conocimiento cualitativo grafo dirigido acclico relaciones de independencia / dependencia
Conocimiento cuantitativo distribuciones de probabilidad
fuerza de las relaciones entre las variables
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 71
Est enfermo? Probabilidades sin evidencia
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
estornudaestornuda
catarrocatarro p(cat)s = 0,06no = 0,94
p(est)s = 0,15no = 0,85
6 de cada 100 pacientes tienen
catarro
6 de cada 100 pacientes tienen
catarro
15 de cada 100 pacientes estornudan
15 de cada 100 pacientes estornudan
ILN 2005-06Aprendizaje Automtico 72
Aprender y clasificar Estimacin de las probabilidades condicionales
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
estornudaestornuda
catarrocatarro p(cat)s = 1,00no = 0,00
p(est)s = 0,92no = 0,08
ste tiene catarroste tiene catarro
es posible que tenga catarro y estornude?
es posible que tenga catarro y estornude?
ILN 2005-06Aprendizaje Automtico 73
Redes bayesianas para clasificacin Nave Bayes es la RB ms simple
sin dependencia entre variables
TAN, BAN Tree Augmented Nave Bayes, Bayesian Network Augmented
Nave Bayes la clase se trata de forma separada a los atributos
Otros todas las variables se tratan igual
existen varios algoritmos para hacer la estimacin en todos ellos
B, BIC, K2, EM, PC
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 74
Software Elvira (http://leo.ugr.es/elvira/) WEKA (http://www.cs.waikato.ac.nz/ml/weka/) Listas de software
http://www.cs.ubc.ca/~murphyk/Bayes/bnsoft.html http://directory.google.com/Top/Computers/Artificial_Int
elligence/Belief_Networks/Software/
Problemas de clasificacinMtodosredes bayesianas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
http://leo.ugr.es/elvira/ILN 2005-06Aprendizaje Automtico 75
Modelos de probabilidad de mxima entropa (ME)
Cuando no tenemos informacin suficiente para distinguir entre dos eventos la mejor estrategia es considerarlos equiprobables(Laplace)
Maximizar la entropa a partir de informacin incompleta
Estar de acuerdo con todo aquello que es conocido Evitar asumir nada que sea desconocido
Problemas de clasificacinMtodosmxima entropa
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 76
Modelos de probabilidad de mxima entropa (ME) (Lau et al. 1993)
Reconocimiento del habla (speech recognition)
(Berger et al. 1996) Clasificacin de documentos
(Ratnaparkhi, 1998) POS-tagging Anlisis sintctico (parsing) Deteccin oraciones (sentence boundary detection)
Problemas de clasificacinMtodosmxima entropa
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 77
Modelos de probabilidad de ME Basado en rasgos o atributos (features)
=
=casootroen 0
')(si1),(
ccxcpcxf
contexto
claseCaracterstica a
observar
Clase asociada
Problemas de clasificacinMtodosmxima entropa
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 78
Clasificacin de contextos no anotadosf1(x,c) = 1 si w-1=el y c= s1f2(x,c) = 1 si w-1=el y c= s2f3(x,c) = 1 si w-2=es y c= s1f4(x,c) = 1 si w+1=de y c= s2
x = Ese es el banco#? que mejor inters da.
p(s1|x)p(s2|x)
El contexto x se clasificara como s2
= p(1010)= p(0100)
= 0.4= 0.6
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
=
=K
i
cxfi
i
xZxcp
1
),(
)(1)|(
Problemas de clasificacinMtodosmxima entropa
ILN 2005-06Aprendizaje Automtico 79
Ventajas combina atributos (features) heterogneos aproximacin general al PLN, reusabilidad buen comportamiento general
Desventajas El proceso de estimacin de los coeficientes es
costoso computacionalmente Sufre de sobreentrenamiento en algunos casos Necesita suavizado, seleccin de atributos, ...
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosmxima entropa
ILN 2005-06Aprendizaje Automtico 80
rboles de decisin (decision trees) Una manera de representar reglas implcitas
en los datos de aprendizaje, con estructuras jerrquicas que particionan esos datos recursivamente
Utilizados en reconocimiento de patrones, estadstica, aprendizaje automtico, descripcin, clasificacin, generalizacin
Perspectiva del aprendizaje automtico
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosrboles de decisin
ILN 2005-06Aprendizaje Automtico 81
Ejemplo: debo operarme?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosrboles de decisin
edad?edad?
astigmatismo?astigmatismo?
miopa?miopa?
miopa?miopa?
SS
SSNONO
NONO
NONONONO
NONO
no
s
2550
6
1,510
ILN 2005-06Aprendizaje Automtico 82
Ejemplo: reglas derivables
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosrboles de decisin
edad?edad?
astigmatismo?astigmatismo?
miopa?miopa?
miopa?miopa?
SS
SSNO
NO
NONO
NONO NO
NO
NONO
no
s
2550
6
1,510
operacin?SI astigmatismo=NO Y 25
ILN 2005-06Aprendizaje Automtico 83
Ventajas Representacin comprensible del
conocimiento Algoritmos y variantes muy estudiados Fcil traduccin a reglas Software disponible
CART (Breiman et al. 84),ID3, C4.5, C5.0 (Quinlan 86,93,98),ASSISTANT, ASSISTANT-R (Cestnik et al. 87) (Kononenko et al. 95)
Integracin fcil en sistemas multi-clasificador
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosrboles de decisin
ILN 2005-06Aprendizaje Automtico 84
Desventajas Coste computacional cuando la cantidad de
datos es grande (ejemplos, atributos, ) Dispersin de datos AA.DD. es un modelo con gran variabilidad Tendencia al sobreajuste, necesidad de poda
y reestructuracin Mucho esfuerzo para afinar el proceso
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosrboles de decisin
ILN 2005-06Aprendizaje Automtico 85
Mquinas vector soporte (SVM, support vector machines)
sistemas de entrenamiento que usan un espacio de hiptesis de funciones lineales en un espacio de atributos de alta dimensionalidad, entrenados con un algoritmo de aprendizaje de la teora de la optimizacin que implementa un sesgo de aprendizaje derivado de la teora del aprendizaje estadstico
Cristianini & Shawe-Taylor, 2000
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Problemas de clasificacinMtodosmquinas vector soporte
ILN 2005-06Aprendizaje Automtico 86
Problemas de clasificacinMtodosmquinas vector soporte
Descripcin SVM pertenecen a la
familia de los clasificadores lineales
inducen separadores lineales (hiperplanos) en espacios de muy alta dimensionalidad (funciones ncleo, kernels) con un sesgo inductivo muy particular (maximizacin del margen)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 87
Problemas de clasificacinMtodosmquinas vector soporte
Clasificacin en espacio bidimensional
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
b+= xwx )h(
>+==
casootroenxhsi
signo1
0)(1))h((f(x) x
w
++ +
+
++
_
_ _ _
__
__
_wb
po fale
ILN 2005-06Aprendizaje Automtico 88
Problemas de clasificacinMtodosmquinas vector soporte
Objetivo (sesgo inductivo) maximizar el margen geomtrico
hiperplano en la posicin ms neutra respecto de los conjuntos de clases
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 89
Problemas de clasificacinMtodosmquinas vector soporte
Objetivo (sesgo inductivo) maximizar el margen geomtrico
hiperplano en la posicin ms neutra respecto de los conjuntos de clases
slo tiene en cuenta los puntos en la frontera (los ms dudosos), no se arrima a la clase mas poblada
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
hiperplano con el margen mximo
vectores soportevectores soportevectores soporte
ILN 2005-06Aprendizaje Automtico 90
Problemas de clasificacinMtodosmquinas vector soporte
Diferentes problemas, diferentes objetivos no todos son linealmente separables
lo normal funciones ncleo
mapean el espacio de atributos de entrada a un espacio de dimensin mucho mayor y que s es separable
a veces no interesa obtener el mejorseparador algunos ejemplos de aprendizaje pueden no ser
correctos SVM con margen blando (soft margin)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 91
Problemas de clasificacinMtodosmquinas vector soporte
Ventajas eficiencia en espacios de alta dimensionalidad reduce el peligro de sobreentrenamiento se basa en algoritmos de optimizacin cuadrtica no slo para clasificacin: regresin, clustering utilizado con xito en muchas aplicaciones: OCR,
visin, bioinformtica, reconocimiento del habla, categorizacin de textos, anlisis morfolgico, sintctico y semntico,
Inconvenientes es difcil encontrar los parmetros adecuados para
el aprendizaje (convergencia a la solucin ptima, dispersin de datos, )
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 92
Problemas de clasificacinMtodosmquinas vector soporte
Ms ventajas informacin disponible
www.kernel-machines.org
bastantes implementaciones de libre distribucin
LIBSVM (www.csie.ntu.edu.tw/~cjlin/libsvm) SVMlight (svmlight.joachims.org) SVMTorch (www.idiap.ch/learnings/SVMTorch.html)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Aprendizaje Automtico ILN 2005-06
Aprendizaje Automtico (y 2)
Armando Surez
ILN 2005-06Aprendizaje Automtico 94
Aproximaciones a las tareas de las Aproximaciones a las tareas de las TecnologTecnologas del Lenguaje Humanoas del Lenguaje Humano
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 95
Tratamiento de la ambigedad
Tratamiento de la ambigedad del LN mediante tcnicas de aprendizaje automtico
Acercamiento a unos cuantas tareas de las TLH bsicamente, casos simples de representacin de
ejemplos de aprendizaje
Las soluciones aportadas no son las ms eficaces, slo ilustrativas
Distintas aproximaciones segn el problema a tratar
Iniciacin en la descripcin de los contextos por la extraccin de la informacin relevante (?)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 96
Tratamiento de la ambigedad
Tratamiento de la ambigedad del LN mediante tcnicas de aprendizaje automtico
Segmentador de frases Reconocimiento de entidades Clasificacin de preguntas (QA) Anlisis morfolgico Desambiguacin del sentido de las palabras
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 97
Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea
Segmentador en frases Determinar los lmites de la frase
Inicio = mayscula, final = punto
O1-La Reina visit a su nuera en la clnica Ruber.O2-Ambas dos se quieren mucho.
La Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.
La Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 98
Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea
Segmentador en frases Determinar los lmites de la frase
Inicio = mayscula, final = punto
O1-S.O2-M.O3-Ambas dos se quieren mucho.
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 99
Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea
Segmentador en frases Determinar los lmites de la frase
Inicio = mayscula, final = punto
O1-S.O2-M.
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 100
Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea
Hiptesis de trabajo Suponemos correccin ortogrfica
y los signos de puntuacin no estn separados.
Clasificacin de tokens Buscamos slo el final de la frase
Slo interesa clasificar: x. x! x? x)
Clases: { s | no } Es final de frase o no lo es
No necesariamente es el mejor modelo
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 101
Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea
Clasificacin de tokens relevantes
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
SS SS
NoNo
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 102
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
Rasgos Prefijo Sufijo Si el candidato es un tratamiento o dato
corporativo Sr. Dr. Sa. D. S.A. S.L. Co.
Si la palabra anterior empieza por mayscula Si la palabra posterior empieza por mayscula
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 103
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
Rasgos
Candidato Si el candidato es un
tratamiento o dato corporativo
Sr. Dr. Sa. D. S.A. S.L. Co.
Si la palabra anterior empieza por mayscula
Si la palabra posterior empieza por mayscula
S.M
0
No aplicable
0
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
Tened en cuenta que esto no es lo habitual, habr
muchas, muchasoraciones
Tened en cuenta que esto no es lo habitual, habr
muchas, muchasoraciones
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
Porque no hay espacio detrs del punto
Porque no hay espacio detrs del punto
ILN 2005-06Aprendizaje Automtico 104
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
Rasgos
Candidato Si el candidato es un
tratamiento o dato corporativo
Sr. Dr. Sa. D. S.A. S.L. Co.
Si la palabra anterior empieza por mayscula
Si la palabra posterior empieza por mayscula
Ruber
0
0
1
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 105
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
Rasgos
Candidato Si el candidato es un
tratamiento o dato corporativo
Sr. Dr. Sa. D. S.A. S.L. Co.
Si la palabra anterior empieza por mayscula
Si la palabra posterior empieza por mayscula
mucho
0
0
No aplicable
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 106
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
Rasgos Resumiendo
ejemplos de aprendizaje
e1(S.M,0,-,0: NO)e2(Ruber,0,0,1: S)e3(mucho,0,0,-: S)
S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 107
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
No siempre se cumple la correccin ortogrfica
Candidato Si el candidato es un tratamiento o dato
corporativo Sr. Dr. Sa. D. S.A. S.L. Co.
Si la palabra anterior empieza por mayscula Si la palabra posterior empieza por mayscula Prefijo S.M. Sufijo S.M.
y toda la informacin que se pueda aadir
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 108
Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos
No siempre se cumple la correccin ortogrfica O no siempre es tan sencillo
Actuar en L.A. S. M. La Reinadel cabaret . .
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 109
Tratamiento de la ambigedadSegmentacin en frasesms difcil
TeletiposG00D EVENING GIANNI VERSACE ONE OF THE WORLDS LEADING FASHION DESIGNERS HAS BEEN MURDERED IN MIAMI POLICE SAY IT WAS A PLANNED KILLING CARRIED OUT LIKE AN EXECUTION SCHOOLS INSPECTIONS ARE GOING TO BE TOUGHER TO FORCE BAD TEACHERS OUT AND THE FOUR THOUSAND COUPLES WH0 SHARED THE QUEENS GOLDEN DAY
Good evening. Gianni Versace, one of the world's leading fashion designers, has been murdered in Miami. Police say it was a planned killing carried out like an execution. Schools inspections are going to be tougher to force bad teachers out. And the four thousand couples who shared the Queen's golden day.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 110
Tratamiento de la ambigedadreconocimiento de entidades
Reconocimiento y clasificacin de entidades Porciones de texto que representan entidades,
nombres propios dos problemas:
reconocer qu es una entidaddnde empieza, dnde termina
clasificar la entidadclases: persona, lugar, organizacin
El estadio Santiago Bernabeu ser cerrado por...
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 111
Tratamiento de la ambigedadreconocimiento de entidadesmodelo BIO
Reconocimiento de entidades modelo BIO (Begin Inside Outside) Clasificacin estndar Clasificacin secuencial
la decisin de etiquetar un cierto ejemplo depende, tambin, de las etiquetas anteriores
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 112
Tratamiento de la ambigedadreconocimiento de entidadesmodelo BIO
BIO Clasificar tokens Clases: { b | i | o }
El estadio Santiago Bernabeu ser cerrado por...o b i i o o o
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 113
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
BIOw-2 w-1 t w+1 w+2
Palabra objetivott empieza por mayscula?
Palabras del contextow-2, w-1, w+1, w+2
Empiezan por mayscula?mw-2, mw-1, mw+1, mw+2
colocaciones (bigramas)w-2w-1, w-2w+1, w-2w+2, w-1w+1, w-1w+2, w+1w+2
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 114
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
t
t empieza por mayscula?
w-2, w-1, w+1, w+2
mw-2, mw-1, mw+1, mw+2
w-2w-1, w-2w+1,w-2w+2,w-1w+1,w-1w+2,w+1w+2
el
s
doctor palomar
1 1
doctor_palomar
ILN 2005-06Aprendizaje Automtico 115
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
t
t empieza por mayscula?
w-2, w-1, w+1, w+2
mw-2, mw-1, mw+1, mw+2
w-2w-1, w-2w+1,w-2w+2,w-1w+1,w-1w+2,w+1w+2
doctor
s
El palomar inaugur
1 1 0
el_palomar el_inaugurpalomar_inaugur
ILN 2005-06Aprendizaje Automtico 116
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
t t empieza por
mayscula? w-2, w-1, w+1, w+2 mw-2, mw-1, mw+1,
mw+2 w-2w-1, w-2w+1,w-2w+2,
w-1w+1,w-1w+2,w+1w+2
RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
el 1 doctor palomar 1 1 doctor_palomar
doctor 1 El palomar inaugur 1 1 0 el_palomar el_inaugur palomar_inaugur
palomar 1 el doctor inaugur la 1 1 0 0 el_doctorel_inaugur el_la doctor_inaugur doctor_lainaugur_la
inaugur 0 doctor palomar la exposicin 1 1 0 0doctor_palomar doctor_la doctor_exposicinpalomar_la palomar_exposicin la_exposicin
ILN 2005-06Aprendizaje Automtico 117
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
ClasificacinEl Doctor Manuel Palomar inaugur la
o i b i o o
Qu hacemos con las combinaciones imposibles Post-proceso: reglas para sustituir las
combinaciones erroneas BIO secuencial
El proceso de clasificacin exige esperar a la etiqueta anterior
Tampoco es que lo garantice al 100% pero
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 118
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
BIO secuencial Palabra objetivo Palabras del contexto Empiezan por mayscula? colocaciones Etiquetas del contexto colocaciones de las etiquetas
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 119
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
t t empieza por
mayscula? w-2, w-1, w+1, w+2 mw-2, mw-1, mw+1,
mw+2 w-2w-1, w-2w+1,w-2w+2,
w-1w+1,w-1w+2,w+1w+2 ew-2, ew-1 ew-2ew-1
RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.
el 1 doctor palomar 1 1 doctor_palomar
doctor 1 El palomar inaugur 1 1 0 el_palomar el_inaugur palomar_inaugur o
palomar 1 el doctor inaugur la 1 1 0 0 el_doctorel_inaugur el_la doctor_inaugur doctor_lainaugur_la o b ob
inaugur 0 doctor palomar la exposicin 1 1 0 0 doctor_palomar doctor_la doctor_exposicinpalomar_la palomar_exposicin la_exposicin b i bi
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 120
Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos
Otras fuentes de informacin Anlisis morfo-sintctico
POS-tagger, parser, stemmer
Listas de palabras Stop-words, gazetteers,
Conocimiento externo dominios (tema o fuente de los documentos)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 121
Tratamiento de la ambigedadClasificacin de preguntas (QA)
Bsqueda de respuestas Fase preliminar: clasificacin de preguntas
El tipo de pregunta permite restringir las respuestas posibles
clases: tiempo, lugar, personas, Quin mat a Kennedy?Cundo vendr la ola de fro?Dnde se fabrica el mejor aceite de oliva?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 122
Tratamiento de la ambigedadClasificacin de preguntas (QA) atributos
Depende de cunta informacin quiera procesar palabras lemas o stems categoras gramaticales sintagmas nominales y adverbiales entidades (personas, lugares, organizaciones)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 123
Tratamiento de la ambigedadClasificacin de preguntas (QA) atributos
Lo fcil partcula interrogativa
Quin, Qu, Cmo, Cundo, Dnde el problema es identificarla
bolsa de palabras es la aparicin o no de las palabras en los
contextos se pierde informacin estructural
qu palabras van delante de cules si se repite
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 124
Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos
La partcula interrogativa Parece, a priori, fuertemente relacionada con
las clases posiblesCuantas ms clases, ms difcil ser el aprendizaje dada la dispersin de datos del lenguaje
SupongamosDefinicionesPersonasLugaresTemporales (fechas, principalmente)OrganizacionesProcesos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 125
quin?dnde?cundo?
La partcula interrogativaQuin mat a Kennedy?Cundo vendr la ola de fro?Dnde se fabrica el mejor aceite de oliva?Qu es la fotosntesis?
peroQu lugar produce el mejor aceite de oliva?Dime quin mat a KennedyKennedy fue asesinado por alguien, dime su nombreEn qu fecha vendr la ola de froProvincia con el mejor aceite de oliva
DefinicionesPersonas
LugaresTemporales
OrganizacionesProcesos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos
ILN 2005-06Aprendizaje Automtico 126
Bolsa de palabras eliminar stop-words (palabras sin carga
semntica)Quin mat a Kennedy? mat KennedyCundo vendr la ola de fro? vendr ola froDnde se fabrica el mejor aceite de oliva?
fabrica mejor aceite olivaQu es la fotosntesis? fotosntesis
pasar a minsculas? lemas o prefijos (stems)?
necesitaramos un lematizador o un stemmer
informacin sintctica?
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos
ILN 2005-06Aprendizaje Automtico 127
Tratamiento de la ambigedadanlisis morfolgico
Anlisis morfolgico POS-tagging
clasificar cada palabra dentro de una frase en una de sus etiquetas posibles
ejemplos: palabras dentro de frases
la ambigedad es ms alta de lo que parece
El ama de llaves ama al portero de aqu no hay quin vivaNN NN NN NN V VNP NP NP NP VA VAV V VA VA
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 128
Tratamiento de la ambigedadanlisis morfolgicoclases
Etiquetas posibles Depende de la cantidad de informacin que se
quiera manejar (gnero, nmero, tiempo verbal,)
Supongamos que slo la categora gramatical nombres nombres propios verbos verbos auxiliares determinantes adverbios pronombres
El conjunto de clases puede ser ms o menos extenso
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 129
Tratamiento de la ambigedadanlisis morfolgicoatributos
La estructura de la secuencia de etiquetas Det + Det no Det + Nombre s
Sera interesante disponer de las etiquetas anteriores y posteriores
por ejemplo de las 3 palabras anteriores y de las 3 posteriores
pero en la clasificacin no vamos a disponer de las etiquetas posteriores! slo las anteriores
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 130
Tratamiento de la ambigedadanlisis morfolgicoatributos
Una posibilidad
w0 la palabra objetivo e-1 etiqueta de la palabra anterior e-2e-1 secuencia de las etiquetas de las 2 pal. ants. w-2 palabras en posicin -2 respecto del objetivo w-1 w+1 w+2
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 131
Tratamiento de la ambigedadanlisis morfolgicoatributos
Ejemplos de aprendizaje
el (DET) 0 0 0 0 ama deama (N) DET 0 0 el de llavesde (C) N DET_N el ama llaves amallaves (N) C N_C ama de ama alama (V) N C_N de llaves al portero
w0e-1
e-2e-1w-2w-1w+1w+2
El ama de llaves ama al portero de aqu no hay quin viva
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 132
Tratamiento de la ambigedadanlisis morfolgicoatributos
Ms rasgos Ratnaparkhi (1998) introduce el concepto de
palabra rara que aparece menos de 5 veces en el corpus
2 tipos de caracterizacin si la palabra objetivo es rara
todos los prefijos de 4 o menos caracteres todos los sufijos de 4 o menos caracteres si contiene nmeros si contiene letras maysculas si contiene smbolos _ -
w0e-1
e-2e-1w-2w-1w+1w+2
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 133
ILN 2005-06Aprendizaje Automtico 134
DesambiguaciDesambiguacin del sentido de n del sentido de las palabraslas palabras
definicin de la tarea definicin de clases
corpus, idiomas, diccionarios, ...
aproximaciones tradicionales combinaciones de clasificadores aprendizaje semi-supervisado
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 135
El problema
Qu significa, qu sentido tiene
an sabindolo, cmo lo represento de una forma simblica?
algo que entienda un ordenador:
COMPRENSIN DEL TEXTO
an sabindolo, cmo lo represento de una forma simblica?
algo que entienda un ordenador:
COMPRENSIN DEL TEXTO
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 136
El problema
Ms fcil, dividamos el problema
Insisto, cmo lo represento de una forma simblica?
COMPRENSIN DE LA FRASE
Insisto, cmo lo represento de una forma simblica?
COMPRENSIN DE LA FRASE
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 137
El problema
Ms fcil todava
>
temtico, ca. (Del gr. ). 1. adj. Perteneciente o relativo al tema, especialmente el gramatical. 2. adj. Que se arregla, ejecuta o dispone segn el tema o asunto de cualquier materia. 3. adj. En filatelia, perteneciente o relativo a una serie, a una emisin o a una coleccin de sellos, en los que se utiliza nicamente un tema o motivo, como la fauna, los deportes, etc. 4. adj. Gram. Dicho de un elemento: Que, para la flexin, modifica la raz de un vocablo.5. adj. desus. temoso. 6. f. Conjunto de los temas parciales contenidos en un asunto general. V. parque temticoReal Academia Espaola Todos los derechos reservados
temtico, ca. (Del gr. ). 1. adj. Perteneciente o relativo al tema, especialmente el gramatical. 2. adj. Que se arregla, ejecuta o dispone segn el tema o asunto de cualquier materia. 3. adj. En filatelia, perteneciente o relativo a una serie, a una emisin o a una coleccin de sellos, en los que se utiliza nicamente un tema o motivo, como la fauna, los deportes, etc. 4. adj. Gram. Dicho de un elemento: Que, para la flexin, modifica la raz de un vocablo.5. adj. desus. temoso.
6. f. Conjunto de los temas parciales contenidos en un asunto general. V. parque temticoReal Academia Espaola Todos los derechos reservados
Esto s tiene una representacin fcil
RESOLUCIN DE LA AMBIGEDAD SEMNTICA DE LAS PALABRAS
An as...
Esto s tiene una representacin fcil
RESOLUCIN DE LA AMBIGEDAD SEMNTICA DE LAS PALABRAS
An as...
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 138
La dificultad del problema
AsientoAsiento
de peces de peces
de datos de datos de rganos de rganos de arena de arena
Institucin FinancieraInstitucin Financiera
Pero nos hace falta ms informacin, ms contexto
Pero nos hace falta ms informacin, ms contexto
Algunos sentidos parece que ya los podemos descartar .
Algunos sentidos parece que ya los podemos descartar .
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 139
La dificultad de la tarea
Estado de la tecnologa Senseval (International Workshop on Evaluating Word
Sense Disambiguation Systems)
mximas tasas de acierto:
2001 2003
Muestra lxica ingls 64% 73-79%
Muestra lxica espaol 71% 84%
Texto completo ingls 69% 65%
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 140
La importancia de la tarea
Tarea intermedia Anlisis morfo-sintctico-semntico Apoyo a
Recuperacin de informacin Traduccin automtica Bsqueda de respuestas Extraccin de informacin Resolucin de la anfora Web semntica
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 141
Soluciones a la tarea
Mtodos no supervisados Modelado del lenguaje por expertos que aportan
su conocimiento Tasas de acierto relativamente bajas
Mtodos supervisados Actualmente, los ms eficaces Aprendizaje automtico a partir de ejemplos
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 142
Mtodos supervisados
Dependencia de los ejemplos de aprendizaje La anotacin manual por expertos es
dificultosa, por lo que Son escasos y cubren pocas palabras No para todos los idiomas Son pequeos?
Las precisiones no son aceptables Son fiables?
No basta con tener muchos ejemplos Son completos?
El cambio de dominio (y anotacin) afecta mucho
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 143
Los recursos
Antes de aprender Corpus
cules son los textos, prrafos, frases objetivo de la desambiguacin
cules son los que voy a utilizar para aprender
Anlisis si conozco la categora (nombre, verbo, adjetivo,
adverbio) va a ser ms fcil puedo utilizar datos sintcticos profundos como
atributos (es nombre propio?, es sujeto?)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 144
Los recursos
Corpus anotados semnticamente Semcor (ingls) line, serve, hard (ingls) interest (ingls) DSO (ingls) Senseval (ingls, espaol, ) 3LB (CESS-ECE) (espaol, catal, euskera)
Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales
Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica
ILN 2005-06Aprendizaje Automtico 145
Los recursos
Corpus anotado semnticamente Semcor
Ingls Extracto del Brown Corpus anotado con WordNet
Br
Top Related