Ingeniería y evaluación Índice - esi.uem.esjmgomez/pln/00.introduccion.PLN.pdf · los mecanismos...

34
Procesamiento del Lenguaje Natural – José María Gómez Hidalgo – U. Europea Madrid Introducción al PLN Procesamiento del Lenguaje Natural José María Gómez Hidalgo http://www.esp.uem.es/~jmgomez/ Procesamiento del Lenguaje Natural – José María Gómez Hidalgo – U. Europea Madrid Índice Definición y aplicaciones Historia e hitos Ingeniería y evaluación Análisis superficial y comprensión – Comprensión Análisis estadístico El problema de la ambigüedad

Transcript of Ingeniería y evaluación Índice - esi.uem.esjmgomez/pln/00.introduccion.PLN.pdf · los mecanismos...

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Procesam

iento delLenguaje N

aturalJosé M

aría Góm

ez Hidalgo

http://www.esp.uem.es/~jmgomez/

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Índice

•D

efinición y aplicaciones

•H

istoria e hitos•

Ingeniería y evaluación

•A

nálisis superficial y comprensión

–C

omprensión

–A

nálisis estadístico

•E

l problema de la am

bigüedad

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Definición y aplicaciones

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Definición y aplicaciones

•E

l lenguaje es un aspecto humano

fundamental

•R

elacionado con la inteligencia

•M

edio de–

Com

unicación–

Alm

acenamiento del conocim

iento humano

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Definición y aplicaciones

•P

LN =

tratamiento com

putacional de los lenguajes naturales (vs. form

ales) para–

Desarrollar p

rog

ram

as

que realicen tareas relacionadas con el lenguaje

–D

esarrollar mo

delo

sque ayuden a com

prender los m

ecanismos hum

anos relacionados con el lenguaje

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Definición y aplicaciones

•Lingüística com

putacional–

Especificar m

odelos que aproximen la capacidad

humana en tareas lingüísticas com

o leer, e

scrib

ir, escuch

ar

y hab

lar

•Ingeniería del lenguaje (U

nión Europea)

–D

esarrollar sistemas plenam

ente funcionales y utilizables que realicen tareas relacionadas con el lenguaje

i+

D

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Definición y aplicaciones

•C

arácter multidisciplinar

–Lingüística y psicolingüística

•Lexicografía y term

inología

–Lenguajes form

ales y compiladores

–Inteligencia artificial

•R

epresentación del conocimiento

–Lógica

–Ingeniería del softw

are

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Definición y aplicaciones

•T

raducción automática

•R

ecuperación de información

•Interfaces a bases de datos, y sistem

as de respuesta a preguntas

•E

xtracción de información

•E

xtracción de resúmenes

•R

esolución cooperativa de problemas

•T

utores inteligentes

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Historia e hitos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Historia e hitos

•P

rimeros tiem

pos (1950-65)–

Traducción autom

ática =>

ALP

AC

–G

ramática transform

ativa (Chom

sky)–

Recuperación de inform

ación

•A

mpliación de perspectivas (1960-70)

–S

istemas de respuesta a preguntas (B

AS

EB

ALL)

–R

esolución de problemas (S

TU

DE

NT

)–

Consulta (E

LIZA

)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Historia e hitos

•D

esarrollo de formalism

os (1965-70)–

Augm

ented Transition N

etwork, A

TN

(1960)–

Gram

ática de casos (1975)–

Dependencia conceptual (1972)

–S

emántica procedim

ental (1968)–

Red sem

ántica (1968)

•H

itos de los 70–

SH

RD

LU (1972)

–LU

NA

R (1972)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Historia e hitos

•E

xpansión de dominios de aplicación (1970-

85)–

Interfaces a BD

s(LA

DD

ER

/LIFE

R, 1977)

–A

prendizaje asistido por computadora

(SC

HO

LAR

, 1970)–

Autom

atización de oficinas (SC

HE

D, 1978)

–P

rogramación autom

ática (NLP

Q, 1976)

–P

rocesamiento de textos científicos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Historia e hitos

•T

endencias actuales (1985-)–

Implem

entaciones independientes del dominio

–R

esurgimiento de la traducción autom

ática•

ME

TE

O (1977)

–C

omercialización del P

LN•

RO

BO

T/IN

TE

LLEC

T (1977)

•IN

QU

ER

Y (1990), O

racle ConT

ext Cartridge

(1997)•

BA

BY

LON

(1997)•

VIA

VO

ICE

(1998)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Historia e hitos

•T

endencias actuales (1985-)–

Proliferación de form

alismos (1970-)

•S

intaxis (gramáticas basadas en restricciones)

•S

emántica (gram

ática de Montague)

–Intensificación del em

piricismo

•A

plicación del aprendizaje automático

–N

uevos dominios de aplicación

•Internet/W

eb =>

traducción automática, recuperación de

información

•B

ibliotecas digitales

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Ingeniería y evaluación

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•T

écnicas genéricas de Ingeniería del S

oftware

•R

eutilización de herramientas y m

ódulos–

Lenguajes declarativos (Prolog, D

CG

)–

Recursos léxicos -

WordN

et, EuroW

ordNet

–O

racle ConT

ext Cartridge

–S

mart

•N

osotros usaremos

–Java, P

rolog Cafe, W

eka

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•E

valuación–

Objetivo =

> determ

inar la calidad de un sistema

de PLN

–M

ala fama desde A

LPA

C (1966)

–E

valuación desde la Ingeniería del Softw

are•

International Standard

ISO

/IEC

9126•

Caja negra vs. caja de cristal

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•E

AG

LES

(1992)–

Expert A

dvisory Groups for Language E

ngineering S

tandards-

Evaluation W

orking Group

–E

valuación de progreso, ad

ecu

ac

ión

y diagnóstico

–E

nfoque “informe del consum

idor”–

Definición de una m

etodología de evaluación

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•E

AG

LES

(1992)–

Características de calidad (IS

O 9126)

Subcaracterísticas

Funcionalidad

Fiabilidad

Adecuación, precisión, interoperabilidad, conform

idad, seguridad

Características

Facilidad de uso

Facilidad de m

ant.

Eficiencia

Transportabilidad

Madurez, tolerancia a fallos, recuperabilidad

Com

prensibilidad, facilidad de aprendizaje, facilidad de operación

Com

portamiento respecto al tiem

po y mem

oria

Analizabilidad, capacidad de m

odificación y prueba, estabilidad

Adaptabilidad, facilidad de instalación y m

antenimiento,

capacidad de ajuste

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•A

RP

A/D

AR

PA

(1985-)–

(Defense) A

dvanced Research P

rojects Agency

–A

portan recursos–

Dependientes de la tarea•

Traducción autom

ática•

Acceso B

Ds

con habla (AT

IS)

•R

ecuperación de textos (TR

EC

)•

Extracción de inform

ación (MU

C)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Ingeniería y evaluación

•R

ecursos para la evaluación–

Córpora

(Brow

nC

orpus)•

Colecciones de textos de origen natural en form

ato electrónico

–C

onjuntos de casos de prueba•

Conjunto de entradas construidas artificialm

ente para probar un sistem

a respecto a un fenómeno

–C

olecciones de evaluación (Ohsum

ed)•

Conjunto de entradas en lenguaje natural y las

correspondientes respuestas deseables

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Análisis superficial y com

prensión

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis superficial y com

prensión

•P

LN =

traducción a lenguaje interno de representación

Sistem

ade P

LNT

exto

Acción

Resultado

Representación

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis superficial y com

prensión

•C

omplejidad de la representación

–A

lta (ej. lógica de primer orden) =

> com

prensión–

Baja (ej. Listas de térm

inos) =>

análisis superficial

•C

orresponde a dos corrientes históricas–

Corriente form

alista = com

prensión = P

LN basado

en conocimiento

–C

orriente empiricista

= análisis superficial =

PLN

estadístico

•A

ctualidad =>

tendencia a la integración

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis superficial y com

prensión

•C

aracterísticas de los sistemas

Com

prensiónA

nálisissuperficial

Dom

inio

Coste de

desarrollo

Efectividad

De

pe

nd

ien

tes

Ind

epe

nd

ien

tes

Alto

Ba

jo

Alta

Me

dia

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Análisis superficial y com

prensión

Com

prensión

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónN

iveles del lenguaje

•N

ivel fonológico–

Trata de cóm

o las palabras se relacionan con los sonidos que las representan

•N

ivel morfológico

–T

rata de cómo las palabras se construyen a partir

de unas unidades de significado más pequeñas

llamadas m

orfemas

–P

or ejemplo: rápida +

mente =

> de m

anera rápida

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónN

iveles del lenguaje

•N

ivel sintáctico–

Trata de cóm

o las palabras pueden unirse para formar

oraciones, fijando el papel estructural que cada palabra juega en la oración y que sintagm

as son parte de otros sintagm

as

•N

ivel semántico

–T

rata del significado de las palabras y de cómo los

significados se unen para dar significado a una oración–

Se refiere al significado independiente del contexto, es decir,

de la oración aislada

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónN

iveles del lenguaje

•N

ivel pragmático

–T

rata de cómo las oraciones se usan en distintas

situaciones y de cómo el uso afecta al significado

de las oraciones–

Se suele reconocer un subnivel: discursivo•

Trata de cóm

o el significado de una oración se ve afectado por las oraciones inm

ediatamente anteriores

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónA

rquitectura de un sistema de P

LN

•A

nálisis = traducción de un lenguaje a otro

•C

ada nivel se corresponde con un tipo de conocim

iento y por tanto un lenguaje

•S

eparación en fases

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónA

rquitectura de un sistema de P

LN

Análisis

morfo-

sintácticoE

xpresiónen LN

Análisis

semántico

Análisis

pragmático

Ejecución

Árbol

sintáctico

Form

a lógica

Expresión

finalR

esultado

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónA

rquitectura de un sistema de P

LN

•S

eparación en fases favorece la m

od

ula

rida

d

•Integración de fases favorece la e

ficie

nc

ia

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónR

epresentación del conocimiento

•S

e han propuesto numerosos form

alismos de

representación (len

gu

aje

s fo

rma

les)

–G

ramáticas de estructura de frase (sintaxis)

–G

ramáticas basadas en restricciones (sintaxis,

semántica)

–Lógica de prim

er orden y otras (semántica)

–S

istemas de m

arcos -fram

es(sem

ántica, pragm

ática)–

Dependencias conceptuales (sem

ántica)–

Scripts, planes y objetivos (pragm

ática)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónR

epresentación del conocimiento

•T

ipos de conocimiento

–C

onocimiento lingüístico

–C

onocimiento del m

undo•

Situación del discurso o de la historia

•C

onocimiento de la aplicación

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Com

prensiónR

epresentación del conocimiento

•E

l papel del Prolog

como m

arc

o u

nific

ad

or

–C

apacidad para representar conocimiento m

orfo-sintáctico (G

ramáticas de C

láusulas Definidas)

–C

apacidad para representar conocimiento

semántico y del m

undo (Lógica de primer orden)

–O

peratividad (como lenguaje de program

ación)•

Sim

ultáneamente form

alismo y analizador

•E

jecución

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

Análisis superficial y com

prensión

Análisis estadístico

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Motivación

•E

ra de la información (electrónica)

–C

recientes cantidades de información y otros

recursos en formato electrónico

•E

mpresas, agencias gubernam

entales, individuos enfrentados a un problem

a de so

bre

carg

a d

e

info

rma

ció

n

•W

WW

-270 m

illones de páginas (mediados 1998)

•D

e 1970 a 1980 se pusieron en circulación 2000000 de inform

es anuales (7000 diarios)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Motivación

–C

arencia de métodos efectivos de procesam

iento de inform

ación para sistemas prácticos

•P

LN basado en conocim

iento efectivo sólo en dominios

limitados

–D

isponibilidad de recursos•

Grandes cantidades de texto en form

ato electrónico =>

posibilidad de realizar estudios estadísticos efectivos del uso del lenguaje

•D

iccionarios y datos en formato electrónico

–P

or todo ello, cre

cie

nte

inte

rés e

n té

cnic

as

esta

dís

ticas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

¿Q

ué es?

•E

nfoque simplista

–T

écnicas basadas fundamentalm

ente en contar palabras

•E

nfoque general–

Sistem

as prácticos de efectividad razonable basados en técnicas sim

ples (tareas de clasificación)

–D

escubrimiento de generalizaciones (teorías)

sobre el uso del lenguaje a partir de datos contrastables em

píricamente

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

¿Q

ué es?

•Intersección de varios cam

pos

–R

ecuperación de información

–A

prendizaje automático (m

ach

ine le

arn

ing)

–T

eoría de la probabilidad–

Estadística

–T

eoría de códigos–

Teoría de la inform

ación–

etc.

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Tareas de clasificación

•C

asi todas las tareas resueltas por técnicas estadísticas adm

iten una formulación com

o “clasificación de texto”

•C

lasificación = agrupam

iento de entidades•

Clasificación de texto =

agrupamiento de

expresiones en lenguaje natural

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Tareas de clasificación

•B

ásicamente dos tipos de tareas

–C

lasificación de documentos

•E

xpresiones en LN =

documentos / casi docum

entos•

Grano grueso

–C

lasificación de términos

•E

xpresiones en LN =

palabras / expresiones muy cortas

•G

rano fino

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Tareas de clasificación

•T

areas de clasificación de documentos

–R

ecuperación de documentos (IR

-in

form

atio

n

retrie

val)

–C

ategorización de documentos (te

xt

cate

goriz

atio

n)–

Agrupam

iento de documentos (c

luste

ring)

–F

iltrado/enrutamiento de docum

entos (SD

I -sele

ctiv

e d

isse

min

atio

n o

f info

rmatio

n)–

Alineam

iento de texto–

Segm

entación de texto

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Tareas de clasificación

•T

areas de clasificación de términos

–C

ategorización de términos

•E

tiquetado sintáctico (PO

Sta

gg

ing

-pa

rt-of-s

pe

ech

tag

gin

g)•

Desam

biguación (WS

D -

wo

rd s

en

se

dis

am

big

ua

tion)

–A

grupamiento de térm

inos•

Creación de th

esa

uri-

diccionarios de sinónimos/cam

pos sem

ánticos

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•T

res tipos de recursos–

Colecciones de texto•

Co

rpora

•C

olecciones de evaluación

–R

ecursos léxicos•

Diccionarios electrónicos y th

esa

uri

•B

ases de datos léxicas

–P

rogramas

•R

ecuperación de información

•A

prendizaje automático

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•C

orpora(sing. corpus)

–C

olecciones de texto, no necesariamente

documentos

–P

uede tener las siguientes características•

Representatividad (orientado al estudio de la lengua)–

El corpus constituye una m

uestra representativa del (fragm

ento del) lenguaje que se trata de representar

–B

rown

Corpus -

muestra representativa del inglés

americano m

oderno -1M

pal, elaborado 1960-70 a partir de reportajes periodísticos, ficción, texto científico y legal, etc.

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•A

notación–

El corpus poseen anotaciones (etiquetas) que

proporcionan algún tipo de información

–P

enn Treebank

-etiquetado con m

arcas sintácticas que indican el árbol de análisis de cada oración -

extraído del W

all Street Journal

•M

ultilingualidad–

El corpus puede tener textos en varios idiom

as

–C

anadian Hansards

-bilingüe inglés francés alineado

(mism

os textos en dos idiomas) -

actas del parlamento

canadiense

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•C

olecciones de evaluación–

Conjunto de textos en lenguaje natural y las

correspondientes respuestas deseables para la tarea elegida

–R

ecup

era

ció

n d

e d

ocu

me

nto

s

•U

n conjunto de documentos +

un conjunto de solicitudes de inform

ación (consultas) + un conjunto de juicios de

relevancia (qué documentos deberían recuperarse para

cada consulta)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•A

lgunos ejemplos (colecciones clásicas)

–C

AC

M -

resumenes

de artículos de Com

munications of the

AC

M -

3204 docs, 52 consultas

–C

RA

N -

aerodinámica e Ingeniería A

eronáutica -1398

docs, 225 consultas

–M

ED

LINE

-M

edicina -1033 docs, 30 consultas

–LIS

A, N

PL, C

RA

N, T

ime, etc.

•M

ás ejemplos (recientes)

–O

HS

UM

ED

-E

xtraidasdel canal M

ED

LINE

-348566 docs,

106 consultas

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

–C

ategorización de documentos

•U

n conjunto de documentos +

un conjunto de categorías +

un conjunto de juicios de relevancia (qué documentos

están en cada categoría)•

Algunos ejem

plos–

Reuters-21578 -

noticias de la agencia Reuters, categorías

basadas en el contenido -21578 docs, 135 categorías

–O

HS

UM

ED

-categorías M

edical Subject H

eadings(M

eSH

) -cerca de 3000 categorías

–Y

ahoo! Science, Industry

Sector, N

ewsgroups, W

ebKB

, S

pambase, etc.

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

–D

esambiguación (W

SD

)•

Un conjunto de docum

entos + un diccionario +

un conjunto de juicios de relevancia (cuál es el significado de cada aparición de una palabra respecto al diccionario)

•A

lgunos ejemplos

–S

emcor

-subconjunto del B

rown

Corpus y “T

heR

ed B

adge of Courage” -

250000 palabras, etiquetadas con significados de W

ordNet

–Interest-

2369 oraciones con la palabra “interest”, etiquetadas con significados de W

ordNet

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•D

iccionarios electrónicos–

Diccionarios tradicionales en form

ato electrónico–

Algunos ejem

plos•

LDO

CE

-Longm

an Dictionary of C

ontemporary E

nglish•

Internet Dictionary

Project

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•T

hesauri(sing. thesaurus)–

Tradicionalm

ente, diccionarios de sinónimos

–E

n la actualidad, colecciones de palabras organizadas en grupos relacionados sem

ánticamente

–A

lgunos ejemplos

•R

oget’s Thesaurus

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•B

ases de datos léxicas–

Sistem

as con información relativa al léxico de uno

o varios idiomas

–D

iccionarios estructurados conceptualmente

–A

lgunos ejemplos

•W

ordNet -

inglés•

EuroW

ordNet-

ingles, español, italiano, holandés, etc.•

ED

R -

inglés y japonés

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•P

rogramas de recuperación de inform

ación–

Diseñados para la tarea de recuperación de

documentos

–F

recuentemente, útiles para otras tareas com

o categorización, filtrado, etc.

–A

lgunos ejemplos

•S

mart-

modelo del espacio vectorial

•Inquery

-redes bayesianas

de inferencia•

Oracle C

onText-

tecnología propietaria

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Recursos disponibles

•P

rogramas de aprendizaje m

áquina–

Construyen clasificadores a

uto

mátic

am

ente

–A

plicables a multiples

tareas (categorización, desam

biguación, etiquetado sintáctico, filtrado...)–

Algunos ejem

plos•

Rainbow

-aprendizaje bayesiano

•S

VM

light(SupportV

ector Machines) -

aprendizaje de funciones lineales con um

bral•

Ripper

-aprendizaje inductivo de reglas

•C

4.5 -aprendizaje de árboles de decisión

•W

EK

A -

múltiples m

étodos en Java

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Evaluación

•D

os criterios básicos–

Efic

iencia

•C

ómo es de rápido el sistem

a (pruebas empíricas,

complejidad teórica)

–E

ficacia

o e

fectiv

idad

•C

uál es la calidad de la clasificación (métricas de

efectividad)•

Suele ser el único aspecto considerado

–S

e suelen ignorar otros aspectos (p. ej. facilidad de uso) aunque en general, las técnicas son porta

ble

sy e

scala

ble

s

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Análisis estadístico

Evaluación

•M

étricas de efectividad–

Típicam

ente provenientes del campo de la

recuperación de información y del aprendizaje

automático

–B

asadas en contar el número de aciertos o fallos

al asignar categorías a expresiones

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

Introducción al PLN

El problem

a de la ambigüedad

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•U

no de los grandes problemas en el P

LN

•S

e produce cuando una expresión en LN

posee más de una interpretación (es decir,

cuando en el lenguaje de destino se le pueden asignar dos o m

ás expresiones distintas)

•S

e presenta en todos los niveles del lenguaje

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•A

mbigüedad sintáctica

–C

ategoría sintáctica•

"Lloro" = N

,V

–E

structural•

"Juan vio (a María (con el telescopio))"

•"Juan vio (a M

aría) (con el telescopio)"

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•A

mbigüedad sem

ántica–

Significado de las palabras (polisem

ia)•

"Banco"–

Entidad financiera.

–A

siento en un parque.

–A

cumulación de arena en un río.

–Á

mbito de los cuantificadores

•"T

odo chico ama a un perro"

–∀

X (perro(X

) & ∃Y

(chico(Y) →

ama(X

,Y)))

–∃Y

(chico(Y) →

∀X

(perro(X) →

ama(X

,Y)))

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•A

mbigüedad sem

ántica–

Roles o casos•

"Pedro corrió los m

il quinientos en (los Juegos O

límpicos/tres m

inutos y medio)"

•"E

n" expresa tiempo y lugar

•A

mbigüedad pragm

ática–

Am

bigüedad referencial•

"Cogí la tarta de la m

esa y me la com

í"•

¿"la" se refiere a la tarta o a la m

esa?

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•A

mbigüedad pragm

ática–

Am

bigüedad en el discurso (Literalidad)•

"(1) ¿P

uedes abrir la puerta? (2) Tengo frío"

•¿

Interpretamos (1) literalm

ente o como acto expresivo

indirecto?•

Literalmente: A

l volver de un paseo por la calle y llegar a casa, (1) es una pregunta "sí/no" y la respuesta (2) no es adecuada

•Indirectam

ente: En una habitación con calefacción, (1)

es una solicitud, y (2) es una respuesta adecuada

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•La am

bigüedad en un nivel del lenguaje se puede resolver usando conocim

iento de otro nivel–

Am

bigüedad estructural•

"Pedro m

ató (al ciervo (con el rifle))"•

"Pedro m

ató (al ciervo) (con el rifle)"•

Se puede resolver usando conocim

iento semántico (un

rifle sólo puede ser un instrumento) o conocim

iento del m

undo (los ciervos no usan rifles)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

–A

mbigüedad referencial

•"M

etí la camiseta en la lavadora y la lavé"

•¿

"la" se refiere a la camiseta o a la lavadora?

•S

e puede resolver usando conocimiento sem

ántico (la lavadora es un instrum

ento y la camiseta el objeto) o

conocimiento del m

undo (las lavadoras no se lavan, se lim

pian)

Procesam

iento del Lenguaje Natural –

José María G

ómez H

idalgo –U

. Europea M

adrid

El problem

a de la ambigüedad

•D

isminución de la efectividad en todas las

aplicaciones–

Traducción autom

ática•

“car” =>

automóvil/vagón

–R

ecuperación de información

•B

anco =>

documentos financieros o sobre geología o

etc.