TESIS DOCTORAL · 2015-10-06 · espacio vectorial, y ya en el capítulo 8 se muestra las partes de...

TESIS DOCTORAL

PhraseNET: Detección y extracción

automatizada de unidades

fraseológicas

Realizada por: José Luiz De Lucca

Dirigido por: Dra. María Luisa Carrió Pastor

Octubre 2011

PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca

2


3

ÍNDICE


4


5

ÍNDICE DE FIGURAS.............................9

ÍNDICE DE TABLAS.............................13

1. INTRODUCCIÓN..............................17

2. LA FRASEOLOGÍA............................29

2.1. El concepto de Fraseología........43

2.2. Definición de las unidades fraseo- lógicas............................51

2.3. Características de las unidades fraseológicas......................54

2.4. Tipología y clasificación de las unidades fraseológicas.............63

2.5. Las corrientes investigadoras de la Fraseología........................77

3. VARIACIÓN Y VARIANTE. HACIA UNA CLASIFICA- CIÓN DE LAS VARIACIONES Y VARIANTES....103

3.1. La definición de variación y variante..........................105

3.2. La tipología de las variantes.....117

3.2.1. Variante fónica............119

3.2.2. Variante morfológica.......120

3.2.3. Variante morfosintáctica...124

3.2.4. Variante sintáctica........126


6

3.2.5. Variante léxica...........127

3.2.6. Modificación y desautomati- zación......................133

3.2.7. Variantes lingüísticas y socioculturales.............140

4. LA EXTRACCIÓN DE LA INFORMACIÓN.........145

4.1. Evaluación de los sistemas de extracción de la información.....158

4.2. Métricas de evaluación...........162

4.3. Los métodos......................165

4.4. Tipos de aproximaciones..........168

4.5. Sistemas informáticos de extrac- ción de las unidades fraseo- lógicas..........................176

5. OBJETIVOS...............................191

6. ARQUITECTURA............................197

6.1. Módulo de Acceso.................208

6.2. Módulo de Extracción de la Información......................211

6.3. Módulo Base de Datos.............220

6.3.1. La base de datos del sistema.....................223


7

6.3.2. El diccionario de patrones.....................231

6.4. El corpus de entrenamiento........245

6.4.1. El muestreo aleatorio

simple.......................250

6.4.2. Procesamiento del corpus...256

7. EL MODELO DEL ESPACIO VECTORIAL..........263

7.1. El Sistema SMART..................265

7.2. Medidas de similitud..............266

7.3. El cálculo vectorial..............271

8. LOS RESULTADOS DE PHRASENET..............285

8.1. La interfaz del usuario...........287

8.2. Los experimentos de PhraseNET.....300

9. CONCLUSIONES.............................311

10. BIBLIOGRAFÍA............................325

11. ANEJO I.................................359

12. RESÚMENES...............................383


8


9

ÍNDICE DE FIGURAS


10


11

Figura 1. Enunciados fraseológico............72 Figura 2. Modelo de Casares..................94 Figura 3. Modelo de Zuluaga..................96 Figura 4. Modelo de Corpas Pastor............97 Figura 5. Modelo de Moon....................101 Figura 6. Dominios de extracción utilizados en las MUC........................161 Figura 7. Mejores resultados reportados en las MUC........................161 Figura 8. Aprendizaje de reglas.............171 Figura 9. Interfaz monolingüe del Termight..178 Figura 10. Interfaz bilingüe del Termight...179 Figura 11. Interfaz de LExTER...............183 Figura 12. Resultado de una búsqueda en ConcGram.......................187 Figura 13. Interfaz con el usuario (ELexBI).189 Figura 14. Diagrama del módulo de acceso....210 Figura 15. Matrix de vectores de documentos.216 Figura 16. Diagrama de flujo de la extracción

de UFs............................218 Figura 17. Diagrama de flujo abreviado de

PhraseNET.........................219 Figura 18. Ficha de entrada de unidades

fraseológicas.....................227 Figura 19. Ficha de salida de unidades

fraseológicas.....................229 Figura 20. Fórmula final del desvío

estándar..........................238 Figura 21. Fórmula de la media aritmética...240 Figura 22. Fórmula del cálculo de la

varianza..........................241 Figura 23. Fórmula del cálculo del desvío

estándar..........................241 Figura 24. Distribución del corpus..........249 Figura 25. Tamaño de la muestra.............252 Figura 26. Ficha terminológica..............257 Figura 27. Matrix de vectores de documentos.267


12

Figura 28. Medidas de similitud entre dos vectores de términos en el modelo vectorial.........................268 Figura 29. Matrix de vectores de

documentos........................273 Figura 30. Matrix de similitud término-

término...........................274 Figura 31. La similitud del coseno entre

pregunta y docu-mentos............276 Figura 32. Matriz de vectores de UFs candidatas x Matriz de la UF canónica..280 Figura 33. La Norma Frobenius...............281 Figura 34. Pantalla principal...............288 Figura 35. Ayuda............................291 Figura 36. Menú para importación de

ficheros..........................292 Figura 37. Menú View........................294 Figura 38. Search for and highlight for all

UFs...............................296 Figura 39. Search and highlight each

phraseological unit...............297 Figura 40. Multiple search..................298 Figura 41. Frecuencia de las UFs............304


13

ÍNDICE DE TABLAS


14


15

Tabla 1. Comparación entre las expresiones idiomáticas y paremias................76 Tabla 2. Modelo de Efimov.......................81 Tabla 3. Dicotomias de Mokienko.................83 Tabla 4. Modelo de Gross (1996).................87 Tabla 5. Variante fónica.......................119 Tabla 6. Otro tipo de variante fónica..........120 Tabla 7. Variante morfológica flexiva..........121 Tabla 8. Variante morfológica por derivación...121 Tabla 9. Variante morfológica de género........122 Tabla 10. Variante morfológica de número.......123 Tabla 11. Variante sintáctica..................127 Tabla 12. Variante léxica diatrópica...........128 Tabla 13. Variante por sinonímia...............129 Tabla 14. Variante del componente nominal......131 Tabla 15. Variante del componente verbal.......132 Tabla 16. Desautomatización de refranes........139 Tabla 17. Variante diatrópica..................142 Tabla 18. Aprendizaje automático...............169 Tabla 19. Ejemplo de etiquetado................180 Tabla 20. Sistemas de extracción...............203 Tabla 21. Generación de la plantilla...........217 Tabla 22. Aplicación del desvío estándar.......238 Tabla 23. Comodines............................243 Tabla 24. Margen de error......................255 Tabla 25. Matriz de las UFs canónicas y candidatas a UFs..........................277 Tabla 26. Matriz de vectores de UFs

candidatas...........................279 Tabla 27. Vectores Unitarios...................281 Tabla 28. Matriz de similitud (elementos del

vector x longitud)...................282 Tabla 29. Frases clasificadas..................283 Tabla 30. Evaluación de PhraseNET..............306 Tabla 31. Evaluación de PhraseNET con el corpus de Entrenamiento..............307


16


17

1. INTRODUCCIÓN


18


19

La comunicación no está formada solamente de

palabras aisladas en el discurso, sino que

muchas veces nos encontramos con unidades

fraseológicas como locuciones, refranes,

dichos, expresiones idiomáticas, etc. Es un

hecho que los hablantes de la lengua española

en la Península Ibérica utilizan expresiones

coloquiales como ‘contra las cuerdas’, ‘tirar

del carro en la misma dirección’, ‘tomar las de

Villadiego’, ‘enseñar los dientes’, ‘hincarse

de rodillas’, ‘traer entre manos’, ‘dar rienda

suelta’, etc. Por medio de ellas, los hablantes

hacen referencia a su realidad cultural como

recurso de la función comunicativa.

Cada hablante reconoce ciertas construcciones

fraseológicas que están refrendadas por la

comunidad lingüística local, pero muchas veces

desconocidas por los hablantes no nativos de

esa lengua. Por ello, es imprescindible el

conocimiento de las unidades fraseológicas

(UFs) para poder entenderse y comunicarse con

los hablantes de una misma lengua, como es el

caso de los hablantes de Latinoamérica.


20

La dificultad estriba, a veces, en que para un

mismo sentido existen distintas unidades

fraseológicas. Por ejemplo, con el sentido de

enfrentarse a una situación o a alguien se dice

‘plantar cara a algo’ o ‘a alguien’ en España,

pero se expresa como ‘dar la cara’ en América,

o también con el sentido de gozar de la

protección de alguien se dice ‘tener enchufe’

en España, mientras que en América se expresa

como ‘tener palanca’.

Actualmente, la abundancia de datos que

encontramos en Internet y la necesidad de

información que tienen las empresas, institu-

ciones e investigadores, hacen que exista un

entorno caracterizado por niveles crecientes de

complejidad y cambios rápidos y profundos, como

resultado del acelerado avance tecnológico.

Esto hace que sea necesaria la creación

constante de herramientas informáticas para

poder procesar la información.

Para llevar a cabo la formulación e

investigación de mecanismos que utilicen

lenguajes naturales, buscamos apoyo en el

Procesamiento del Lenguaje Natural (PLN). El


21

PLN trata del diseño de mecanismos

computacionales que se realizan por medio de

herramientas de software que ejecutan o simulan

la comunicación. Para la extracción fraseo-

lógica, que es el caso que nos ocupa, es preci-

so construir una herramienta capaz de detectar

y extraer las unidades fraseológicas. Las

unidades fraseológicas suelen ser una de las

tareas más difíciles para la traducción

automática, puesto que su equivalencia lingüís-

tica no se deduce del significado de sus

componentes ni de las reglas gramaticales que

parecen combinarlas.

Tal dificultad hace que los traductores

automáticos suelan fracasar estrepitosamente

ante las locuciones, pues son sistemas

rudimentarios, por lo que es siempre necesaria

la aportación humana para obtener una

traducción inteligible. Las unidades fraseoló-

gicas, así cómo el lenguaje coloquial y litera-

rio, incumplen las reglas habituales de la

gramática y de la semántica, siendo en muchas

ocasiones imposible una traducción automática.


22

En los estudios de lingüística, la variación

fraseológica no ha recibido la importancia que

merece, así como tampoco en los estudios del

Procesamiento del Lenguaje Natural. En los

pocos trabajos existentes sobre el tema, le

dedican unas páginas, que en realidad son

recopilaciones de otras investigaciones,

exceptuando los trabajos de García-Page (2008)

y Mena Martínez (2003). El estudio de la

variación de las unidades fraseológicas fomenta

divergencias semánticas y terminológicas entre

los fraseólogos; en cambio, para el

procesamiento informático de las UFs, esta

variación plantea un problema de difícil

solución. Por ello, en este estudio hemos

dedicado escasa atención a la fijación

fraseológica, pues consideramos que ésta no

conlleva muchos problemas para el PLN.

La investigación de esta tesis doctoral se ha

centrado, en primer lugar, (capítulos 2, 3 y 4)

en la descripción y comportamiento de las

variantes fraseológicas, analizando y contras-

tando los distintos enfoques aportados por los

estudiosos de este tema. Hemos querido aportar


23

una perspectiva global del concepto de las

unidades fraseológicas y lo que se entiende

como tales, ya que componen el corpus de este

estudio. También se ha incluido una parte

dedicada a la extracción de la información,

aspecto fundamental en esta tesis doctoral.

A continuación, en el capítulo 5, establecemos

los objetivos que nos proponemos en esta tesis

doctoral, tanto generales como específicos. En

los capítulos 6 y 7 presentamos la metodología

que se ha seguido para diseñar la herramienta

que presentamos, el corpus y el modelo del

espacio vectorial, y ya en el capítulo 8 se

muestra las partes de la herramienta,

PhraseNET. La aportación de esta tesis doctoral

se basa en una herramienta, es decir, una

aplicación informática desarrollada para la

detección y la extracción de unidades fraseo-

lógicas de un corpus elegido por el usuario.

Presentamos las potencialidades de esta

herramienta a través de la interfaz y de los

rasgos lingüísticos y recursos informáticos

asociados al resultado de las pruebas a las que

fue sometida mediante un corpus de entre-


24

namiento. El corpus de la base de datos está

compuesto de 1386 UFs.

El sistema informático que presentamos es capaz

de extraer correctamente la información

relevante a partir de unas unidades fraseoló-

gicas introducidas previamente. El núcleo de

este sistema de extracción automatizada de UFs

es un algoritmo que, basándose en un texto,

obtiene una lista ordenada de todas las frases

halladas tras su comparación con un diccionario

de patrones. La ventaja de nuestro método, a

diferencia de otros anteriores, es que no

precisamos contar con un experto externo en el

dominio de la fraseología o con sólidos

conocimientos lingüísticos.

A partir de la base de datos bilingüe español y

portugués, construimos un diccionario de

patrones. No basta con incluir las unidades

fraseológicas en una base de datos junto con su

equivalencia, también es preciso que el sistema

sepa reconocerlas como tales en el corpus, sin

tener en cuenta su forma de aparición, sea

simple o compuesta.


25

De esta forma, nuestro sistema es más

productivo en la medida que se logre

incrementar la base de datos a corto, medio y

largo plazo. Son muchos los beneficios que

conlleva; el principal es que puede solucionar

los problemas de la traducción automática de

unidades fraseológicas, puesto que los traduc-

tores automáticos no son capaces de tradu-

cirlas. Además, no existe otra herramienta que

realice las mismas funciones. Sí que existen

herramientas informáticas desarrolladas para la

extracción de términos técnicos, asociaciones

de palabras, pero el usuario ha de introducir

la UF buscada cada vez que desee encontrarla.

El corpus de entrenamiento utilizado como base

para este proyecto es un corpus hispano-

americano del español (CHADES). Actualmente,

este corpus posee más de 3,5 millones de

palabras. Empezó a ser recopilado en la mitad

de la última década como parte de una

investigación llevada a cabo por el autor de

esta tesis. La mayor parte del corpus se basa

en publicaciones periodísticas. Este corpus ha

servido para realizar el experimento que


26

llevamos a cabo al final del proyecto con el

fin de extraer las unidades fraseológicas con

PhraseNET.

La función del lenguaje de programación fue muy

importante en la planificación, el análisis, el

diseño, la codificación y las pruebas del

proyecto. Una vez establecidos los requisitos

del software, las características del lenguaje

de programación jugaron un papel decisivo para

llevar a cabo esta investigación. Algunas

características sirven de base a sofisticadas

estructuras de datos, otras dependen de la

eficiencia de la memoria y de la velocidad, por

ello, es crucial elegir las adecuadas.

Para este estudio, hemos elegido el lenguaje de

programación Visual Fox Pro 9.0, que nos

permitió desarrollar una interfaz compatible,

implementando los modelos de análisis y diseño

creados mediante el análisis orientado a

objetos y diseño, con el Windows XP como

sistema operativo, y el propio Visual Fox Pro

9.0 para Windows como gestor de la base de

datos.


27

Nuestros criterios para la selección de las

unidades fraseológicas se han basado en los

criterios establecidos por diversos autores,

entre ellos Haensch (1982), que establece que

los materiales que un lexicógrafo dispone para

recoger datos pueden ser procedentes de fuentes

escritas u orales, primarias o secundarias.

Para este autor, las fuentes primarias, serían

los textos y las fuentes secundarias, los

diccionarios que contienen descripciones

metalingüísticas.

En este estudio nos vamos a centrar en los

textos escritos, puesto que el proyecto que

presentamos se basa en la detección de unidades

fraseológicas en este tipo de textos. Para

ello, n uestro corpus se ha centrado en el

vaciado de una serie de diccionarios, de tesis

y también de algunas fuentes primarias (nativos

de Brasil y de España).

En resumen, esta tesis doctoral se centra en

presentar una herramienta informática que no

solo detecta unidades fraseológicas, sino que

incluso detecta aquellas que han variado por

los cambios de la lengua o por el uso que se

hace de ellas. A continuación vamos a detallar


28

los fundamentos teóricos de este estudio que

han dado pie a los objetivos que nos planteamos

antes de diseñar esta herramienta.


29

2. LA FRASEOLOGÍA


30


31

Las primeras unidades fraseológicas (UFs)

fueron realizadas en el antiguo Egipto y

Mesopotamia, donde existen ejemplos de

paremias. Las paremias también se incluyen en

los libros clásicos chinos y sánscritos según

Paczolay (1998). En Occidente, la Biblia es la

mayor fuente paremiológica, como se puede

observar en los libros Proverbios, Eclesiastés

y el Cantar de los Cantares, atribuidos al rey

Salomón y de donde proceden muchos de los

proverbios occidentales más difundidos

(Schulze-Busacker, 1997).

En el Medievo, los proverbios escritos en latín

tenían una función didáctico-persuasiva dentro

de la sociedad medieval. Los animales

representaban los modelos de conducta humana

(virtudes y vicitudes) ideales para los

intereses de la iglesia. Las paremias

representaban un retorno de los antiguos

valores del catolicismo transmitiendo, por

medio de metáforas asociadas a los animales,

prácticas del comportamiento del propio hombre.

Como nos indica Bragança Junior (2007: 132):


32

[…] animales como metáforas del comporta-miento humano y el legado cultural de la Antigüedad Clásica presente en personajes reales y mitológicos cargados de una nueva simbología, determinan, en líneas generales, algunas de las principales temáticas de los proverbios medievales rimados, reflejos incontestables de una sociedad, que aún tenía en la palabra de Dios, y en la escritura de la Iglesia, los sustentáculos morales de su propia supervivencia.

Poco después, en el siglo XVI, se publicaron

por toda Europa colecciones multilingües de

proverbios y refranes, que incluían tra-

ducciones de paremias al latín o a otras

lenguas vulgares, junto con glosas sobre su

origen, sentido, uso, etc. (Iñesta y Pamies,

2002). En Francia aparecen en Cordier (1541) y

Meurier (1568); en Alemania, las podemos

observar en Hidrónimo Magisero (1605) con su

Paroemiologia Polyglottos; en Inglaterra se

observan en la publicación de “Ianua Linguarum,

quadrilinguis or a Messe of Tongues; Latine,

English, French and Spanish, Reatly served up

together, for a wholesome reparst, to the

worthy curiosity of the studious”1 (1617); en

1 Una colección de proverbios en latin, compilada originalmente por William Bathe con la equivalencia al español y al inglés. El prólogo


33

Holanda las podemos ver en Jacobus Cats (1632)

y en Italia en la obra trilingüe de Gallego

Barnés (1997).

Corpas Pastor (1997: 166) nos resume el caso de

España:

En el caso del español, el uso de paremias lleva aparejado connotaciones de diverso tipo, por más que éstas no suelan recogerse en los diccionarios. En primer lugar, y en cuanto a las conotaciones estilísticas se refiere, gran parte de las paremias (no así las citas y algunos tipos de enunciados de valor específico) se asocian con niveles culturales bajos y con inferioridad social.

Como bien explica Combet (1971) en su obra

monográfica sobre el refranero castellano, esta

situación proviene de tiempos antiguos. Ya en

el siglo XVI, se detecta cierta reticencia a

usar refranes vulgares por influencia del

pensamiento humanista. La crítica abierta al

uso de refranes comienza en el siglo XVII con

Baltasar Graciá y se agudiza en el XVIII, con

el padre Feijoo. Durante el siglo XIX se

produce cierta revitalización por influencia

está firmado por el traductor de francés "Io. Barbier", probablemente un seudónimo de Isaac Habrecht.


34

del romanticismo y el interés de los fol-

kloristas.

En Alemania, durante el periodo de la Reforma

(siglo XVI) se prestó atención especial al

registro del habla y de los dialectos. Como

evidencia de esta producción lexicográfica, en

el entorno de la fraseología podemos observar a

Sattler (1607) en Teutsche Orthographey und

Phraseologey y más tarde, en 1746, Bödiker

publica Grundsäsen der Teutschen Sprache.

Así mismo, los diccionarios alemanes del siglo

XVII de Geor Henisch (1616) y Kaspars Stieler

(1691) son una prolífera fuente lexicográfica

para investigar la fraseología histórica del

alemán, valiosa no solamente desde la

perspectiva lingüística, sino también como

fuente de referencia del control ejercido por

las autoridades.

En Rusia, en el siglo XVIII, la emperatriz

Catalina II fomentó un importante trabajo de

producción y compilación del folklore que

enriquecería el tesoro de paremias rusas. Como

consecuencia, aparece en 1770 una antología


35

anónima editada por Brasov y en 1769 una

Antología de refranes incluida en la Gramática

rusa de Kurganov. El diccionario de la Academia

Rusa (1789-1794) también registra proverbios y

refranes. El apogeo de las publicaciones sobre

paremias se da en el siglo XIX, por las

aportaciones de Snegirev (1831-1834), Afanasiev

(1850), Buslaiev (1854-1861) y Vladimir Dal

(1862), entre otros (Iñesta y Pamies, 2002).

Vladimir Dal fue uno de los precursores, quizás

el principal, del registro de proverbios en

diccionarios, según vemos en su obra: The

Dictionary of the Living Russian Language

(1863–6), que incluye proverbios de la lengua

rusa.

Por otro lado, Snegirev (1831-1834) escribió

uno de los clásicos del folklore ruso, Russkie

narodnye poslovitsy i pritchi (Parábolas y

proverbios del folklore ruso). Este libro fue

publicado de nuevo en 1999 por Evgenii

Alekseevich Kostiukhin en Moscú, que también

publicó en 1997 junto con otro colegas en

Pushkin House Narodnye russkie skazki ne dlia

pechati, zavetnye poslovitsy I pogovorki,


36

sobrannye i obrabotannye Afanas’evym (Cuentos,

proverbios y dichos secretos rusos no

publicados, recopilados y editados por

Afanas’ev, 1857-1862).

Respecto a la teoría fraseológica, podemos

afirmar que no empieza hasta el siglo XX,

impulsada por Bally. Discípulo de Saussure,

“Bally trata las expresiones fijas dentro del

análisis estilístico en el précis de

stylistique (1905) y en el Traité de

Stylistique Française (1909). Sin embargo, sus

observaciones pasaron desapercibidas en su

entorno, siendo reconocidas solamente en los

años treinta y cuarenta, cuando Vinográdov lo

ha redescubierto” (Iñesta y Pamies, 2002: 16-

17).

Estos autores continuan definiendo el concepto

expresado por Bally de la siguiente forma:

“Bally llama locuciones fraseológicas

(locutions phraséologiques) a los grupos

consagrados por el uso, distinguiendo, en

función de la cohesión o fijación, entre UFs

(unités phraséologiques o grupes aglutinés),

cuando la cohesión es completa, y series


37

fraseológicas (séries phraséologiques ou

groupements usuels) cuando es parcial”.

Al mismo tiempo, el formalismo ruso estaba

constituido por investigadores de Moscú y

Leningrado entre 1915 y 1930. El grupo estaba

formado por una docena de formalistas que

rechazaban considerar la literatura como la

transposición de cualquier otro tipo de género

literario. Sus investigadores, liderados por

Jacobson, se concentran en las estructuras

narrativas (Shklovski, Tomashevski, Propp), en

las estilísticas (Eichenbaum, Tinianov, Vino-

gradov, Bashtin, Voloshinov), en las rítmicas

(Brik, Tomashevski), en las sonoras (Brik,

Jakobson), e incluso en la evolución literaria

(Shklovski, Tinianov) así como en la relación

entre literatura y sociedad (Tinianov,

Voloshinov).

El lenguaje político de la Revolución

Bolchevique, en aquel entonces URSS (1917),

llamó la atención de los lingüistas rusos en

los años 20, poco después de la Revolución.

Entre los autores más destacados, podemos

nombrar a Mazon (1920), Jakobson (1921) y


38

Karcevski (1923), seguidos más tarde, en el

inicio de los años 30, por Vinokur (1925),

Polivanov (1927 y 1931) y Selishchev (1928).

André Mazon, según Pöppel (2007), publicó el

libro Lexique de la guerre et de la révolution

en Russie (1914-1918), donde analiza los

cambios ocurridos en este periodo en las

siglas, fraseologismos y vocabulario bajo el

impacto de la Primera Grande Guerra y de la

Revolución Bolchevique. Vinokur (1925) citado

en Pöppel (2007: 53), revisaba varios temas,

entre ellos, el purismo, las siglas, los

neologismos y la fraseología en el contexto

cultural. Presta especial atención al lenguaje

político, demostrando su contenido con ejemplos

extraídos del Pravda. Respecto a la

fraseología, comenta:

Almost all elements of our phraseology are hackneyed clichés; coins worn so smooth it´s impossible to tell their value, the worthless currency of 1917-1921. The very cobblestones cry out the devaluation and denomination of this tender. These are words devoid of any function except the nominative.


39

Vinokur (1925: 84) llega en sus estudios a la

siguiente conclusión: “Shouldn´t we begin out

struggle with bureaucracy and vulgarity by

renewing phraseology? This would not be such a

bad idea”.

En la Rusia de la posrevolución se realizaron

varios estudios sobre el neologismo y la

fraseología (Vinokur, 1925; Polivanov, 1931;

Uspenskii, 1931). Poco después, durante la

primera mitad de 1941 hasta la invasión alemana

de la URSS, existió un avance considerable en

la producción lingüística y, consecuentemente,

de la Fraseología.

Se ha de resaltar la figura del lingüista

soviético Vinogradov (1947) que formula el

objetivo de la fraseología como disciplina

científica, es decir, el estudio de las leyes

que condicionan la falta de libertad de las

palabras para combinarse y la descripción,

sobre esta base, de las combinaciones fijas de

palabras según su tipología, tanto en su

desarrollo actual como histórico. Establece una

primera clasificación sincrónica de las UFs,


40

desde el punto de vista de su cohesión

semántica, aunque no recoge las paremias.

Otro de los países que destaca por sus estudios

de la fraseología es Gran Bretaña. Las más

tempranas adaptaciones inglesas de la Fraseo-

logía se realizan a través de Weinreich (1969)

(dentro del enfoque de la Gramática

Transformacional), Arnold (1973) y Lipka

(1983). En Gran Bretaña, así como en otros

países de la Europa Occidental, la fraseología

se ha desarrollado considerablemente durante

los últimos veinte años. Siguiendo las

afirmaciones de González Grueso (2006: 3), “El

avance de la Fraseología se ha fundamentado en

el sustento recibido desde el Contextualismo

Británico, y disciplinas como el Análisis del

Discurso, la Lingüística del Texto, la

Lingüística del Corpus y la Psicolingüística”.

Los estudios angloamericanos sobre la

Fraseología han dedicado especial atención a la

investigación sobre la idiomaticidad (idiom),

destinando gran parte de sus publicaciones para

desarrollar diccionarios idiomáticos. De hecho,

su dedicación ha sido tan plena que hasta hoy


41

no existe ninguna corriente anglosajona o

norteamericana involucrada en estudios de

Fraseología, sino que han preferido dedicarse a

la idiomaticidad. Sin embargo, no hemos de

olvidar que los autores anglosajones estudian

los phrasal verbs como expresiones idiomáticas.

Los phrasal verbs son unidades constituidas de,

por lo menos, dos palabras: por ejemplo, un

verbo más una preposición (take back), que

suelen ser unidades fraseológicas desde el

punto de vista de la Fraseología española,

aunque los anglosajones, así como otras

escuelas fraseológicas, no los traten como tal.

Hemos de mencionar también la diferencia de

interpretación de lo que es la idiomaticidad

entre los anglosajones y el resto de escuelas.

Para los primeros, las expresiones idiomáticas

o idiomaticidad deben tener un homónimo lite-

ral, que conduzca a la ambigüedad, así el

significado literal permanece, a la vez que el

idiomático es el que está realmente

actualizado. Sin embargo, para otras escuelas,

como la rusa, la alemana y la española, la

existencia o no de un homónimo literal no


42

influye en el rasgo distintivo de fijación

fraseológica e idiomaticidad.

En el ámbito de la lengua castellana, en

concreto en España, Casares (1950) dedicó un

capítulo de su manual Introducción a la

Lexicografía Moderna a la locución, a la frase

proverbial, al refrán y al modismo, que fue la

primera clasificación de las expresiones fijas

en español. Después aparecieron los libros

Porqué de los dichos de Iribarren (1974) y

Cuento de cuentos de Luján (1993) que tratan

del problema del origen histórico de diversas

expresiones idiomáticas españolas, incluyendo

todo tipo de fraseologismos, incluso los

proverbios.

A partir de la década de 1980, surgen otras

obras importantes sobre el español, como la de

Zuluaga (1980) Introducción al estudio de las

expresiones fijas, la de Tristá Pérez (1988)

Fraseología y contexto, la de Corpas Pastor

(1997) Manual de Fraseología Española, la de

Ruiz (1998) La Fraseología del Español Actual y

la de Mendivil (1999) Las palabras desagregadas

(Antonio Pamies y Iñesta, 2002).


43

Una vez vista la importancia de la Fraseología

en distintos periodos y países, vamos a

comentar el concepto de Fraseología, es decir,

qué definiciones han surgido a través de la

historia.

2.1. El concepto de Fraseología

El término Fraseología designa la disciplina

científica que se ocupa de los estudios del

léxico, teniendo en cuenta la contextualización

de las UFs que la componen. El término

Fraseología o unidad fraseológica contiene

combinaciones de carácter general de diversa

índole léxica. Esto sucede porque los lingüis-

tas lo designan de distinto modo, generando

diversas teorizaciones o elocubraciones léxicas

en el intento de buscar una definición

diferente.

Sin embargo, todos coinciden en que, sea cual

sea su escuela o línea metodológica, las

combinaciones sintagmáticas y paradigmáticas de

la Fraseología son de una gran flexibilidad y


44

capacidad de absorción. La unidad fraseológica

se representa en términos de sus relaciones con

el léxico y en el binomio semántico-conceptual.

Debido a una variación gradual, la Fraseología

presenta los siguientes rasgos distintivos:

alta frecuencia de aparición y de coaparición,

institucionalización decurrente de su repro-

ducción o reutilización, estabilidad (fijación

morfológica o especialización semántica) e

idiomaticidad y variación potenciales.

El deseo de investigar este fenómeno ha dado

lugar al nacimiento de una nueva disciplina

lingüística, la Fraseología, que luchó durante

muchos años por su propia identidad, finalmente

logrando su autonomía. A pesar de esto, el

término Fraseología no ha sido definitivamente

aceptado por los lingüistas que continúan

discutiendo sobre un término general que pueda

abarcar tales fenómenos y, sobre todo, acerca

de su clasificación (Iliná, 2001: 2).

En este estudio, vamos a considerar la

definición de Corpas Pastor (1997), en la que

las UFs engloban las colocaciones, las


45

locuciones, y los enunciados fraseológicos.

Partiendo de esta clasificación, nos

centraremos en las locuciones y en los

enunciados como base teórica de este estudio.

El concepto que Saussure (1916) acuñó como

aglutinación ha sido utilizado por Casares

(1950) como expresión pluriverbal o, más

recientemente, como expresión fija por Zuluaga

(1980), término consensuado en la actualidad

por la mayoría de los estudiosos de este tema.

La Fraseología representa, de este modo, la

disciplina lingüística que estudia las UFs. El

concepto de fraseología puede abarcar desde

expresiones fijas (idiomáticas), hasta aquellas

combinaciones usuales, pero que no son fijas,

dentro de la lengua. También se considera que

la fraseología incluye dichos, proverbios y

refranes (García-Page, 2008). Por ello, Ruiz

Gurillo (1998: 12) afirma:

[…] existen dos concepciones de la Fraseología: la concepción estrecha, según la cual esa disciplina abarca las locuciones y frases proverbiales y la concepción amplia, de acuerdo con la cual la fraseología incluye, además, los refranes, dialogismos, aforismos, vocabulario técnico y fórmulas.


46

Lo cierto es que el concepto de Fraseología

tiene muchas acepciones, dependiendo en ocasio-

nes de la orientación de cada investigador.

Podemos decir que dicho concepto puede abarcar

desde expresiones fijas (Dubois et al., 1973)

hasta aquellas combinaciones usuales pero no

fijas dentro de la lengua (Benson, 1986) como

se puede observar cuando Beneviste se refiere a

sinapse, Martinet a frasema y Dubois a unidad

sintagmática.

Así mismo, algunos investigadores consideran

que la Fraseología debe incluir proverbios y

dichos (Zareba, 1976) aduciendo como motivo que

todas estas denominaciones tratan de la misma

realidad, es decir, grupos de palabras sinté-

ticamente conectadas que tienen solamente un

significado en un determinado contexto. Por

ello, si tenemos en cuenta este concepto en

sentido amplio, podemos afirmar que comprende

todas las UFs que tengan el rasgo de la

estabilidad y de la fijación y que, por consi-

guiente, están limitadas a una estructura

sintagmática u oracional, incluyendo tanto el


47

centro como la periferia. Así, son considerados

dentro de este ámbito los refranes, las frases

proverbiales, los aforismos y las citas, además

de las combinaciones fijas más simples, por

ejemplo, ‘mosquita muerta’.

Zuluaga (1975), Tristá Pérez (1976, 1998),

Martínez Marín (1996) y Navarro (2005) argumen-

tan que los refranes deben ser estudiados

mediante el criterio amplio de la fraseología,

puesto que, aunque equivalgan a un sintagma,

pertenecen al discurso oral y escrito. Zuluaga

incluso argumenta que los refranes, las frases

proverbiales, las máximas y las citas tienen el

rasgo distintivo de la fijación.

La primera división que se realizó,

especialmente en el ámbito de la fraseología

castellana, se debió fundamentalmente a su

concepto; en concreto, a la concepción amplia y

a la concepción restringida de la Fraseología

(Corpas Pastor, 1995; Ruiz Gurillo, 1997 y

Zuluaga, 1998). Como nos comentan Kótova et al.

(1998: 225):

Hay quien intenta disminuir las distancias entre las dos opiniones con argumentos


48

fraseográficos y afirma la validez de las dos posiciones declarando que la fraseología (conjunto de UFs) en un sentido amplio tendría que ser recogida en los diccionarios generales (monolingües y bilingües) y la fraseología en un sentido restringido, tendría que aparecer en los diccionarios fraseológicos.

Por otro lado, Morvay (1996: 720) afirma:

“Otros creen que se debería crear una nueva

disciplina nombrándola de combinatoria para dar

cabida a estas divergencia semánticas”. Debido

a la disparidad de opiniones a continuación

vamos a enumerar los distintos conceptos de la

fraseología y sus definiciones.

1. Concepción basada en el sentido estrecho. La

fraseología comprende las combinaciones de

palabras que presentan una cierta estabilidad.

Quedan excluidas de la fraseología, por consi-

guiente, los refranes, proverbios, citas, colo-

caciones, etc. Casares (1950), Wotjak (1983),

Fernández Sevilla (1985), Conca (1985) y

Sevilla Muñoz (1992, 1994, 2000) señalan que,

por razones formales y semánticas, los refranes

deberían estudiarse mediante la paremiología,

pues constituyen textos autónomos.


49

2. Modelos de centro y periferia. En la

Fraseología, el modelo de centro y periferia

fue creado por la Escuela de Praga para

establecer sus límites. Fleischer (1982),

publicó una monografía que se considera la

pionera en este tipo de estudios. Este concepto

fue creado para separar los fraseologismos

fijos e idiomáticos (el centro), de aquellos

que sólo presentan fijación (la periferia).

3. Concepción amplia y una concepción restrin-

gida. (Corpas Pastor, 1995 y Ruiz Gurillo,

1997). Estas son dos posturas antagónicas en

relación a la Fraseología. La concepción

estrecha o restringida de la Fraseología

considera al fraseologismo como una combinación

fija de, por lo menos, dos palabras

ortográficas separadas por un espacio, con un

cierto grado de lexicalización e institucio-

nalización, con una alta frecuencia de coa-

parición en la lengua y que funciona como parte

integrante de una oración, lo cual es la

rectificación de la teoría de las locuciones de

Casares (1950) o, mas exactamente, de sus ante-

cesores. La distinción entre ambos se puede


50

medir por el tamaño de su estructura, es decir,

en el centro estarían las unidades próximas a

la palabra simple o al sintagma, o sea, menores

que el sintagma, con un alto grado de fijación

e idiomaticidad y entre ellas se situarían las

locuciones. Koller (1977) y Burger et al.

(1982) defienden la ‘teoría del centro’ y la

‘teoría de la periferia’, que significa que

algunos fraseologismos tienen hard core (un

alto grado de fijación).

Las unidades cuya estructura equivalga o supere

al sintagma, y que tengan como rasgo distintivo

una cierta estabilidad, se sitúan en la peri-

feria, como las paremias (refranes, ada-gios,

frases proverbiales). Sin embargo, hemos de

destacar que “[…] los estudios anglo-nortea-

mericanos sobre idiomaticidad las han situado

fuera de la fraseología, o, como mucho, en el

extrarradio” (Corpas Pastor, 2001: 91).


51

2.2. Definición de las unidades fraseo-

lógicas

El primer concepto de unidad fraseológica (UF)

surgió con Saussure (1916 [1980]), que habla de

un concepto de aglutinación: “[...] dos o más

palabras, originariamente autónomas y dife-

rentes, que se unen, constituyendo una nueva

unidad absoluta, o dificilmente analizable”. En

español, la primera definición de UF fue dada

por Casares (1950: 170), que es una: "[...]

combinación estable de dos o más términos, que

funcionan como elemento oracional y cuyo

sentido unitario consabido no se justifica, sin

más, como una suma del significado normal de

los componentes". Por otro lado, Tristá Pérez

(1976: 156) define las UFs del siguiente modo:

Aquellas combinaciones pluriverbales en las que el significado de la palabra se oscurece y sólo se hace comprensible dentro de la combinación. Tenemos que incluir dentro de la fraseología los refranes, proverbios, aforismos, citas de autores, términos científicos compuestos, etc.


52

El origen de las UFs se sitúa en la tradición

del habla, lo que hace que sus constituyentes

estén previamente establecidos en la memoria

discursiva, siendo un reflejo de la cultura y

de la idiosincrasia de los hablantes de una

comunidad lingüística, como nos explica Pedi-

cone de Parellada (2004, citado en Soto de

Matulovich, 2008: 6):

La unidad fraseológica es un discurso social de soporte lingüístico oral ya existente que se materializa en un texto producido, paremia –prensa, y nos sitúa frente a una nueva discursividad, el sincretismo que se da entre el soporte gráfico y el enunciado fra-seológico.

Siguiendo a Glässer (1984: 348), “Unidad fra-

seológica es un término superordinado para

designar ítems léxicos de dos o más palabras”.

También la denominación de Lyons (1977: 23)

Phrasal lexeme se refiere a los mismos ítems

léxicos, pero con la denominación de expre-

siones idiomáticas o idioms. Otros autores como

Carter (1987) y Moon (1998) designan estos

mismos ítems léxicos como ‘expresión fija’ o

fixed expression, incluyendo las colocaciones,


53

los proverbios, fórmulas rutinarias, dichos y

símiles. Zuluaga (1980) las ha denominado

expresiones fijas y Corpas Pastor (1997),

unidades fraseológicas. Montero Martínez et al.

(2002) las describen así:

El término idiom, por ejemplo, es usado por los estudiosos de la fraseología de Gran Bretaña y Norteamérica desde Hockett, para describir de forma genérica las combinaciones de palabras que funcionan como un todo, sin tener en cuenta sus características semánticas. En contraposición, en el conti-nente europeo se utiliza el término phraseological unit como genérico mientras que el idiom se entiende como prototipo y subgrupo de las Unidades fraseológicas en función de una determinada característica semántica como es la opacidad.

El término estable significa que se han fijado

en una comunidad lingüística, no que la unidad

fraseológica sea fija e imutable, es decir, las

UFs se caracterizan por un alto grado de

cohesión, la naturaleza sintáctica de la

relación entre sus elementos y la posibilidad

de expansión o reducción. En nuestra opinión,

las unidades fraseológicas, no tienen un orden

fijo, aunque puedan estar fijadas en una

comunidad lingüística.


54

2.3. Características de las unidades

fraseológicas

La institucionalización de las UFs se realiza

por uso, repetición, cristalización morfológica

y semántica y la frecuencia de aparición. Estos

factores que permiten el paso de las

expresiones neológicas del discurso a la

lengua, como nos explica Guilbert (1975: 33,

citado en Corpas Pastor, 1997: 21). La

institucionalización y convencionalismo se da

por la repetición o uso constante de una unidad

fraseológica en el discurso (Coulmas, 1979;

Alexandrova y Ter-Minasova, 1987). El proceso

de institucionalización está relacionado

directamente con el de fijación (estabilidad

formal) y lexicalización (especialización se-

mántica), como indica García-Page (2008: 218):

La institucionalización no sólo favorece o consigue así la preservación y supervivencia de la estructura original ante cualquier agresión formal, sino que, contradic-toriamente, propicia su manipulación lúdica a sabiendas de la naturaleza fugaz de la nueva forma, de su existencia provisional, de su ineficacia como elemento sustituyente.


55

La institucionalización contiene los rasgos

básicos de la fijación y la idiomaticidad. A

continuación vamos a detallar sus rasgos:

1. Fijación o Estabilidad. La teoría fraseo-

lógica ha dado lugar al establecimiento de los

principios teóricos de la fijación fraseológica

y la idiomaticidad, según Martínez Marín

(1996). Existe una distinción clara entre

fijación y estabilidad: la fijación formal es

el rasgo distintivo sintáctico, léxico,

morfológico y semántico de las UFs, mientras

que la estabilidad existe en el modo en que la

unidad fraseológica se fija en el discurso y en

la memoria de la comunidad lingüística, es

decir, es independiente de las variaciones o

modificaciones que la forma canónica de una UF

suele sufrir.

El significado puede cambiar, como en el caso

de las modificaciones (desautomatización,

desviación o variantes), pero éstas también se

estabilizan posteriormente en el discurso de

una comunidad lingüística. Se fijan morfo-

lógicamente, lexicalmente, sintácticamente y

semánticamente, lo que les confiere el rasgo


56

distintivo de estabilidad y fijación, de forma

canónica o variante. La fijación no es

absoluta, pero sí existen algunas locuciones

que no admiten cualquier tipo de modificación,

conocidas también como fósiles. Existen

también, por otro lado, locuciones comple-

tamente variables. Para Corpas Pastor (1997:

66-76) sería “[…] el grado de fijación lo que

distinguiría una colocación de una locución”,

mientras que Kubarth (1998: 328) y Ruiz Gurillo

(1999: 206) las distinguen “[…] por el criterio

del grado de idiomaticidad”.

La primera definición de unidad fraseológica en

España fue realizada por Casares (1950: 170).

Esta definición se refiere a las locuciones

que, por extensión, pasó también a designar la

expresión idiomática. Por antonomasia, todas

las UFs, consideradas como tal, contienen dos o

más términos.

Respecto a la fijación formal o fijación

léxico-morfosintáctica, el uso repetido a

través de generaciones de hablantes da como

resultado que las UFs se vuelvan estables en

una determinada comunidad lingüística. La


57

fijación formal o léxico-morfosintáctica se

desencadena por ese uso repetido y arbitrario,

convirtiéndose en un rasgo distintivo básico de

las UFs.

De acuerdo con Zuluaga (1980), por un lado, hay

distintos grados de fijación de los componentes

que permiten delimitar dichas estructuras, y

por otro, desde la perspectiva funcional, la

fijación fraseológica es arbitraria, pues desde

el punto de vista sintáctico y semántico, no

hay explicación para la estabilidad de una UF.

No obstante, la fijación en verdad es relativa,

pues hay UFs que pueden sufrir variaciones,

especialmente las locuciones pluriverbales.

2. Idiomaticidad o fijación semántica. El idiom

es “[…] un sintagma fijo y estable de elementos

donde al menos uno de ellos, en relación con

los demás (al menos con uno) es miembro de un

paradigma rigurosamente restringido y cerrado

(siempre en cuanto a la forma, aunque a menudo

también semánticamente)” (Cermak, 1988: 15).

La fijación semántica o idiomaticidad es otro

rasgo distintivo de las UFs. Su significado


58

sintagmático no se logra desde el significado

aislado de cada uno de sus elementos

constituyentes, sino que una UF es idiomática

cuando se obtiene su sentido a partir del

significado conjunto de sus componentes, por

ello, pierden su autonomía e identidad

semántica, constituyendo una unidad única de

comunicación.

En las expresiones idiomáticas hay siempre un

componente en el sintagma que cambia el sentido

usual del mismo, caracterizándose así la

expresión idiomática. Por ejemplo ‘meterse a

alguien en el bolsillo’. El verbo ‘meterse’

tiene un sentido figurado, lo que conlleva al

sintagma la característica de expresión idio-

mática.

Aunque presenten ciertas diferencias, todas las

UFs comparten estas características; de modo

que, de acuerdo con el rasgo de idioma-ticidad,

podemos encontrar, concretamente, tres grandes

grupos de UFs (Corpas Pastor, 1997), existen

las colocaciones, locuciones y enunciados

fraseológicos, que van desde un menor a un

mayor grado de idiomaticidad. Mientras que las


59

locuciones y las colocaciones se encuentren

bajo el dominio suboracional, los enunciados

fraseológicos así como los refranes y las

fórmulas rutinarias corresponden al dominio

oracional.

Los componentes pueden ser morfemas, monemas o

simple secuencia de palabras. Según Ruiz

Gurillo (1997) ‘agua de borrajas’, es un

ejemplo de expresión fraseológica fija y

estable con significado idiomático que

constituye el núcleo de la fraseología. Sin

embargo, según Insa Alba (2006: 1), ‘agua de

borrajas’ tiene su origen en ‘agua de

cerrajas’: “El mal dicho “agua de borrajas” en

realidad y en origen es “agua de cerrajas”, una

hierba de la que se utilizaba su caldo de

cocción como remedio medicinal hasta que se

comprobó que, menos calentar, todo lo demás era

fantasía. Y por los caprichos de la similitud

sonora, la borraja cargó con el descrédito”.

Los estudios sobre las expresiones idiomáticas

o idioms empezaron en la década de los 50 y

fueron fomentados por la gramática generativa

como observamos en Hockett (1958), Weinreich


60

(1969), Fraser (1970) y Chomsky (1980). Estos

autores enfocan las expresiones idiomáticas

desde la morfología y la gramática generativa.

Es un modelo de gramática que usa reglas

transformacionales u otros mecanismos para

representar el desplazamiento de constituyentes

y otros fenómenos del lenguaje natural.

Hockett (1958) definió que las expresiones

idiomáticas son como cualquier clase de

expresiones no compositivas (comparativas).

Según Hockett un morfema es un idiom si es un

constituyente de otro idiom más amplio, es

decir, de otro idiom compuesto. Por ejemplo

head es un idiom en la frase to have a head

start (have an advantage over others), pero no

lo es en la frase A group of engineers have

developed an extremely accurate and sensitive

head control device, en la que es un componente

léxico. La definición de Hockett se asemeja a

la definición de construcción sintáctica dada

por Goldberg (1995: 4):

C is a construction if and only if C constitutes a couple form-direction such as there exists an aspect of Fi or of If which is not to be strictly prédictible starting


61

from the components of C or other beforehand established constructions.

Como también afirma Corpas Pastor (1997: 26-

27):

El término idiomaticidad se viene reservando para denominar una especialización o lexicalización semántica en su grado más alto. Las Unidades fraseológicas pueden tener dos tipos de significado denotativo: significado denotativo literal y significado denotativo figurado o traslaticio (idiomá-tico). Es precisamente el segundo (trasla-ticio), el responsable de la idiomaticidad y, entre ambos, lo que representan la mayor parte de estas unidades.

Zuluaga (1980), así como Wotjak (1988) se basan

en los mismos criterios semánticos para hacer

un subgrupo de expresiones idiomáticas en su

clasificación de las expresiones fijas dentro

de enunciados fraseológicos. Para ellos, basta

con que haya un elemento idiomático para que

toda la expresión lo sea; como comenta Zuluaga

(1980: 126):

La idiomaticidad de una expresión fija no depende propiamente de la cantidad de componentes con funcionamiento idiomático (figuras) existentes en ellas, expresiones


62

como por si las moscas 'por si acaso', a mí plin 'a mí qué me importa', son idiomáticas aunque en cada una de ellas solamente un elemento componente funciona idiomáticamente. Con esta observación nos distanciamos de la diferenciación hecha por Weinrigh entre "phraseological units" e "idiom"; para nosotros, basta con que un sólo elemento funcione idiomáticamente en una combinación fija para que se presente, en ésta, el fenómeno de la idiomaticidad.

El rasgo principal de la idiomaticidad es la

ausencia de contenido semántico en los

elementos que la componen. Esta es la

diferencia fundamental entre una expresión

idiomática y otras paremias o UFs. A juicio de

Penadés Martínez (1999: 18), “[…] entre la

fijación formal y la semántica existe una

ordenación jerárquica: la semántica va

acompañada de la formal, pero no sucede así a

la inversa, lo que quiere decir que todas las

UFs son fijas, en mayor o menor grado, pero no

todas son idiomáticas”.

Las definiciones más recientes buscan formas

diferentes de enmarcarlas. Nunberg, Sag y Wasow

(1994) y Dobrovol'skij (1999) prestan una

especial atención a la fijación y a la opacidad


63

semántica de los idioms, describiéndolos como

convencionales, inflexibles, figurados, prover-

biales, informales y afectivos. Por otro lado,

Moon (1998) apunta que los idioms están

típicamente institucionalizados por la

fijación, el léxico y la gramática, por lo que

no son expresiones compositivas, como afirmaba

Hockett (1958).

2.4. Tipología y clasificación de las

unidades fraseológicas

Las unidades fraseológicas se clasifican en:

unidades fraseológicas separables (UFsS) y

unidades fraseológicas no separables (UFsN). En

general, las unidades fraseológicas formadas de

dos o tres constituyentes no se separan; sin

embargo, las unidades fraseológicas con más de

tres constituyentes se suelen separar.

Como ejemplo de unidades fraseológicas

separables podemos citar ‘tener mala leche’. En

este caso se puede separar el verbo principal

del objeto directo. Los ejemplos son muchos:


64

‘tener la mala leche’, ‘tener muy mala leche’,

‘tener tan mala leche’, etc. Como ejemplo de

unidades fraseológicas no separables tenemos a

‘al cabo de’, donde no es posible insertar

ningún otro componente en esta locución

prepositiva.

Las UFs incluyen un elenco de diversas

combinaciones que frecuentemente se denominan

de forma distinta: expresión fija, unidad

fraseológica, modismo, locución, expresión

idiomática, unidad de texto repetido, frase

proverbial, dicho, refrán, expresión poliléxica

o fórmula pragmática. Recientemente encontramos

otras expresiones como: colocaciones, unidades

pluriverbales, unidades de texto repetido y

expresiones poliléxicas, estas dos últimas

acuñadas por Martínez Martín (1996). Esta

variedad de términos demuestra la cantidad de

autores que las han tratado y la falta de

consenso entre ellos, además de la

inestabilidad del concepto de fraseología.

Las unidades fraseológicas se incorporan a los

textos y se reproducen en el habla de forma

unitaria. Estas unidades tienen características


65

propias, tanto en su composición como dentro

del discurso. Para delimitar estas unidades hay

que tener en cuenta la estructura interna, la

semántica y la gramatical. En este estudio

consideramos el concepto y clasificación de las

UFs aportado por Corpas Pastor (1997: 20):

UFs son combinaciones estables formadas por al menos dos palabras y cuyo límite superior se sitúa en la oración compuesta. Se carac-terizan por la alta frecuencia de aparición en la lengua y de coaparición de sus ele-mentos integrantes, así como la institucio-nalización, la estabilidad, la idiomaticidad y la variación potencial que dichas unidades presentan en diverso grado.

Esta investigadora establece una tipología de

las UFs en cuanto a su clasificación,

caracterización y sistematización de los

distintos tipos y subtipos de UFs. Lo realiza

mediante criterios de tipo semántico,

sintáctico, pragmático y denominativo. Propone

una división del sistema fraseológico español

en tres esferas: colocaciones, locuciones y

enunciados fraseológicos.

Tanto las locuciones como las colocaciones no

constituyen enunciados completos. Las coloca-


66

ciones están fijadas en la norma y las

locuciones en el sistema. Los enunciados

fraseológicos constituyen enunciados completos

y están fijados en el habla. Estas dos últimas

son en las que nos vamos a centrar en nuestra

investigación, por lo que no vamos a incluir

las colocaciones, pues son sintagmas comple-

tamente libres que “[…] presentan cierto grado

de restricción combinatoria determinada por el

uso” (Corpas Pastor, 1997: 53). Del mismo modo,

no haremos distinción entre locuciones y

enunciados fraseológicos, considerándolos sim-

plemente como UFs.

A continuación vamos a definir los conceptos de

locuciones y enunciados fraseológicos:

1. Las locuciones. Existe una maraña concep-

tual a la hora de clasificar las locuciones,

así como ocurre con las paremias y las unidades

fraseológicas. Esto ocurre debido a diferencias

en las definiciones del término locución y los

distintos tipos de locuciones.

El término locución en la filología española

fue introducido por Casares (1950: 170), quien


67

la definió como la "[…] combinación estable de

dos o más términos, que funcionan como elemento

oracional y cuyo sentido unitario consabido no

se justifica, sin más, como una suma del

significado normal de los componentes".

Respecto a los rasgos distintivos apunta lo

siguiente:

Las unidades fraseológicas del sistema de la lengua tienen los siguientes rasgos distintivos: fijación interna, unidad de significado y fijación externa. Estas unidades no constituyen enunciados completos, y, generalmente, funcionan como elementos oracionales.

Casares hace una distinción sintáctico-

funcional entre locuciones ‘conceptuales o

significantes’ y ‘conexivas’. Las locuciones

‘conceptuales o significantes’ son aquéllas a

las que corresponde una representación mental,

una idea o un concepto, aunque no sea el mismo

que tiene fuera de las locuciones citadas. Las

locuciones ‘conexivas’, según Casares (1950:

170) son aquéllas en que "[…] su humilde oficio

se reduce a establecer un nexo sintáctico".


68

El primer grupo comprende las locuciones

nominales, adjetivas, verbales, adverbiales,

pronominales y exclamativas. El segundo grupo

se compone de las palabras sin contenido semán-

tico, como las locuciones conjuntivas y prepo-

sitivas. Las locuciones nominales se subdividen

en locuciones nominales denominativas (por

ejemplo, ‘buque escuela’, ‘coche cama’),

locuciones nominales singulares (por ejemplo,

‘el cuento de nunca acabar’, ‘la purga de

Benito’), y locuciones nominales infinitivas

(por ejemplo, ‘coser y cantar’, ‘repicar y

andar en la procesión’).

Las locuciones adjetivas son, por ejemplo, ‘de

tomo y lomo’, ‘de pacotilla’; locuciones

adverbiales son ‘de repente’, ‘a tontas y a

locas’; respecto a las locuciones conjuntivas

podemos enumerar ‘por consiguiente’, ‘con tal

que’; las locuciones interjectivas son tales

como ‘¡ay de mí!’, ‘¡válgame Dios!’; las

locuciones prepositivas son, por ejemplo, ‘en

torno a’, ‘en pos de’ y por último, en las

locuciones verbales tenemos, por ejemplo,

‘beber los vientos’, ‘mandar a tomar viento


69

fresco’, ‘cantarle a uno las cuarenta’ y

‘llover a cántaros’.

Posteriormente, Zuluaga (1980) divide las locu-

ciones según un criterio gramatical (categoría

y función) y semántico. La locución, como

instrumento gramatical, se subdivide en: locu-

ción prepositiva (por ejemplo, ‘a ras de’;

conjuntiva ‘como quiera que’) y elativa (por

ejemplo, ‘rezar más oraciones que un ciego’,

‘más viejo que Matusalén’). Las locuciones

elativas son locuciones comparativas verbales o

adjetivas que, como unidad léxica se subdivide

en:

nominal (por ejemplo, ‘palabra de grueso

calibre’)

adnominal (por ejemplo, ‘de escasas

luces’)

adverbial (por ejemplo, ‘por si las

moscas’) y verbal (por ejemplo, ‘llegar a

buen puerto’).

Otra clasificación es la de Corpas Pastor

(1997) que establece la siguiente división de

las locuciones:


70

Locuciones nominales: ‘mosquita muerta’,

‘paño de lágrimas’, ‘el qué dirán’.

Locuciones adjetivas: ‘corriente y

moliente’, ‘más papista que el Papa’, ‘de

rompe y rasga’.

Locuciones adverbiales: ‘gota a gota’, ‘de

tapadillo’, ‘a raudales’.

Locuciones verbales: ‘llevar y traer’,

‘nadar y guardar la ropa’, ‘meterse en

camisa de once varas’.

Locuciones prepositivas: ‘gracias a’,

‘lugar de’.

Locuciones conjuntivas: ‘antes bien’,

‘como si’.

Locuciones causales: ‘salirle a alguien el

tiro por la culata’, ‘como quien oye

llover’.

Más recientemente, García-Page (2008: 83)

distingue:

Las locuciones verbales ‘tomar el portante

y meter la pata’ “[…] porque sus

estructuras estén constituidas por

sintagmas verbales cuyo núcleo es un verbo


71

predicativo”; las locuciones adjetivas

‘mondo y lirondo’, ‘amigo de lo ajeno’

“[…] porque representan sintagmas

adjetivales con núcleo adjetivo”.

Las locuciones nominales ‘conejillo de

Indias’, ‘el garbanzo negro del cocido’

“[…] porque son, formalmente, sintagmas

nominales, con la estructura de núcleo

sustantivo + adyacente adjetivo o

preposicional”.

Las locuciones adverbiales ‘hoy día, aquí

y ahora’ “[…] porque el núcleo (o los

núcleos) de la construcción son un

adverbio”.

2. Los enunciados fraseológicos. En los enun-

ciados fraseológicos, de acuerdo con Corpas

Pastor (1997: 270-271), se incluyen las UF que

constituyen actos de habla completos, paremias

y fórmulas rutinarias, que pertenecen a la

herencia sociocultural de una comunidad

lingüística. Esta autora clasifica los enun-

ciados fraseológicos, como se observa en la

figura 1:


72

Figura 1. Enunciados fraseológicos. Corpas (1997: 271).

P aremias

1. Enunc iados de va lor especí fico: las pa redes oyen; Ahí le due le 2. C ita s: el homb re e s un lobo para e l hom bre 3. R efrane s: por la boc a mu ere el p ez; un día e s un día

F órm ulas ruti naria s

F órmu las di scursiva s

1. Fórm. de ape rt ura y ci erre : ¿Q ué hay?; Hasta luego 2. Fórm. de transi ción: A e so voy.

F órmu las psi co-soc ia les

1. Fórm. expresivas: -d e disculpa : Lo s ient o -d e c onsenti miento: Ya lo cre o -d e recusación: Ni hablar. -d e a gradec imi ento: Di os se l o pag ue -d e desea r s uerte : Y ust ed que lo vea -d e soli daridad: Q ué se le va a hac er -d e insol aridad: ¡A m í, plin!

2. Fórm. comisi vas: (de p romesa y amenaz a ): Ya t e apañaré

3. Fórm. dire cti vas: -d e e xh ortac ión: La rgo de aquí -d e informac ión: T ú dirás -d e á nimo: N o es para t anto

4. Fórm. a ser ti vas: -d e a seve raci ón: Por m is m ue rtos -emoc iona les: No te digo

5. Fórm. ritua le s: -d e sa ludo: ¿Q ué es de tu vi da? -d e despedida : L e sal uda atent amente -m iscelá nea : Pe lill os a la m ar

Las paremias populares o clásicas sirven para

establecer normas y valores en una sociedad y


73

engloban los refranes y los proverbios. Tienen

una función educacional y un contenido

moralizante, con un significado metafóricamente

motivado. Son distintas, tanto en relación a la

construcción sintáctica como en relación a la

articulación entre la forma y el contenido.

También se destacan por la función comunicativa

que realizan poseyendo una estructura de ora-

ción. Funcionan como una base para hacer ana-

logías entre hechos ocurridos y la propia pare-

mia, por ejemplo ‘Ellos son blancos y se en-

tienden’, ‘No es oro todo lo que reluce’. Según

Sevilla Muñoz y Cantera (2002: 19):

[…] refrán es una paremia que se caracteriza por los siguientes rasgos: es popular, repetitiva, célebre, universal; posee temática general, de frecuente estructura binaria y sentido idiomático; se basa en la experiencia y se sirve de elementos mnemotécnicos. Por ejemplo: A buen entendedor, pocas palabras bastan; a falta de pan, buenas son tortas.

Las paremias, es decir, los proverbios,

máximas, citas y refranes, fueron las UFs que

primero despertaron el interés de los estudios

en este campo (Profantová, 1998) porque


74

conectan normas e ideales con la realidad

cotidiana como resultado de la experiencia

repetida.

Según Sevilla Muñoz (1993: 17): “Los proverbios

son paremias desprovistas de elementos

mnemotécnicos y a menudo de una elaboración

formal que implica en ocasiones fórmulas

exhortativas o de prohibición”. Por ejemplo:

‘El hambre echa al lobo del bosque’ o ‘hay que

contar con la gallina antes de poner el huevo’.

Para Paczolay (1998) el proverbio se distingue

de los demás fraseologismos por su completa

autonomía, tanto formal como semántica.

Mieder (1997) define los proverbios como la

afirmación corta de la sabiduría y principios

morales y tradicionales que ha circulado

verbalmente entre la gente. Casares (1950: 192)

define así los refranes:

Frase completa e independiente, que en sentido directo o alegórico, y por lo general en forma sentenciosa y elíptica, expresa un pensamiento -hecho de experiencia, enseñanza, admonición, etc.- a manera de juicio, en el que se relacionan por lo menos dos ideas.

Y las frases proverbiales (ibid: 190) como:


75

La frase proverbial es una entidad léxica autónoma que no se sometería sin violencia a servir de elemento sintáctico en el esquema de la oración. Es siempre algo que se dijo o se escribió, y su uso en la lengua tiene el carácter de una cita, de una recordación, de algo que se trae a cuento ante una situación que en algún modo se asemeja a la que dio origen al dicho. Su valor expresivo no está en las imágenes que puede contener, coso que es esencial en las locuciones significantes, sino en el paralelismo que se establece entre el momento actual y otro pretérito, evocado con determinadas palabras.

De la misma forma en que existe mucha contro-

versia para definir unidad fraseológica o

fraseología, la paremiología no se queda fuera

de esta maraña conceptual: paremia, adagio,

aforismo, apotegma, axioma, máxima, expresiones

idiomáticas, modismos, clichés, giros, dicho,

principio, proverbio, refrán, sentencia, etc. A

continuación, incluimos en la tabla 1 una

comparación de las características de las

expresiones idiomáticas y las paremias:


76

Tabla 1. Comparación entre las expresiones idiomáticas y paremias.

Expresiones idiomáticas Paremias

Se mantienen inalterables a través del tiempo

Se mantienen inalterables a través del tiempo

Están limitadas a una estructura sintagmática u oracional

Su estructura equivale o supera el sintagma

Tienen una fuerte estabilidad y fijación

Tienen una cierta fijación y estabilidad

No tienen complejidad sintáctica

Complejidad sintáctica

Otro enunciado fraseológico son las fórmulas

rutinarias que manifiestan actos de habla. Su

aparición viene determinada, en mayor o menor

medida, por situaciones comunicativas precisas

(saludos, disculpas, felicitaciones, sorpresa,

indignación, entusiasmo, etc.) expresadas por

medio de enunciados preconstruidos que pueden

pertenecer al registro de la lengua familiar

coloquial (incluso vulgar) o al registro de la

lengua formal: por ejemplo, ‘Buenos días’,

‘Hola’, ‘Disculpe’.

El escaso uso de estas fórmulas puede ser

interpretado como falta de educación o

respecto, o como decía un político en relación


77

a los italianos manca finezza. En la

teorización propuesta por Corpas Pastor (1997),

las fórmulas rutinarias están situadas en la

tercera esfera en su clasificación

fraseológica, denominada enunciados fraseoló-

gicos. Según la autora, “se caracterizan por

constituir actos de habla, y por presentar

fijación interna y externa, es decir,

constituyen cadenas autónomas del habla y se

formulan con entonación independiente, como

corresponde a su carácter de unidades mínimas

de comunicación” (Corpas Pastor, 1997: 132).

2.5 Las corrientes investigadoras de la

Fraseología

A continuación definiremos aquellas corrientes

de investigadores que se han dedicado al

estudio de la fraseología para tener una Idea

general de este concepto. Generalmente se trata

de corrientes o escuelas situadas geográ-

ficamente por países: la Escuela Rusa, la

Francesa, la Alemana, la Eslava, la Española y

la Angloamericana.


78

a) La Escuela Rusa: El desarrollo de los

estudios fraseológicos en Rusia tuvo sus

inicios en el siglo XVIII. Lomonosov fue el

precursor de las primeras reflexiones teóricas.

Fue uno de los primeros en estudiar las

paremias y los modismos, haciendo de su

gramática rusa (1757) un vehículo para la

difusión de las paremias y de los modismos. El

autor examinó la semejanza existente entre los

idiomatismos y las locuciones, resaltando la

importancia de conocerlos por el buen

conocimiento de la lengua, sugiriendo su

registro en los diccionarios. Polivanov (1931)

por otro lado, no hace distinción entre la

fraseología y la idiomaticidad, tratándolas

como una disciplina especial, que en relación

al léxico, ocupa la misma posición que la

fonética, la morfología, la sintaxis, el

vocabulario o el léxico. (Tristá Pérez, 1988;

Minoresko, 1997, citado en Iñesta y Pamies,

2002).

Abakumov (1936) posteriormente, establece una

diferenciación entre la idiomaticidad y la

fraseología. Según él, los rasgos distintivos


79

de la idiomaticidad son la integridad semán-

tica, la no traducción, indivisibilidad sintác-

tica y léxica, la invariabilidad parcial de la

forma gramatical y la invariabilidad en el or-

den de las palabras. Según el autor, las UFs

pierden, en menor grado, la significación

independiente de las palabras. Para Abakumov,

la fraseología es la ciencia de la expresión

del pensamiento valorizada por los seres huma-

nos. En su artículo La composición estable de

las palabras en 1936, pretende hacer una clasi-

ficación de las UFs incorporando las distintas

etimologías, aunque de forma bastante incom-

pleta.

Respecto a Vinogradov (1938), aunque su teoría

tenga algunas imprecisiones, fue el primero en

clasificar sincrónicamente las UFs desde el

punto de vista funcional. La estrecha relación

que hay entre la fraseología (idiomática) y la

lexicología está condicionada no sólo por el

acercamiento estructural de los conceptos de

las palabras e idiomatismos, sino también por

el movimiento constante de las palabras a los

idiomatismos y de los idiomatismos a las pala-


80

bras. Por ejemplo, la palabra “pico”, aislada

no es ningún idiomatismo, pero junto con

determinadas palabras forma una UF idiomática,

como en “darle al pico”. Vinogradov introdujo

así un cambio en el estudio de la fraseología,

pasando del plano descriptivo hacía el plano de

la combinatoria de las palabras.

En lo que concierne a Isachenko (1948) éste

explica los fundamentos de la fraseología como

disciplina lingüística. Destaca la contribución

del Círculo de Praga para la formación de esa

nueva disciplina y este autor presenta una

nueva clasificación de las UFs, ampliando la ya

elaborada por Vinogradov (Groupes phraséolo-

giques soudés) formados por grupos de palabras

cuyo sentido global es independiente del

sentido de sus constituyentes léxicos.

Posteriormente, Efimov (1954) en su libro titu-

lado "Sobre la lengua en las obras literarias"

(1954), hizo un estudio minucioso del estilo

utilizado en algunas obras literarias. En uno

de sus capítulos analiza las UFs que aparecen

en textos literarios y ofrece una clasificación

de las mismas desde el punto de vista


81

estilístico. Este análisis de la fraseología en

las obras literarias fue muy novedoso, ya que

Efimov fue el primero que hizo un estudio

específico sobre este tema. En la tabla 2 se

puede observar una comparación entre palabra y

fraseologismo:

Tabla 2. Modelo de Efimov. Palabra FraseologismoSignificado semántico léxico

Significado especial fraseológico, más expresivo y generalizado

Composición morfémica constante

Componentes constantes

Unidad fonética con acento único

Divisibilidad fonética con dos o más acentos

Reproducción de formas hechas Reproducción de correlaciones con una parte del discurso Constancia de funciones sintácticas Expresión libre Fraseologismo Se construye cada vez de nuevo

Reproducción de composición constante

Motivación completa del significado por la semântica de los componentes

Inmotivación parcial o completa del significado por la semántica de los componentes

Imposibilidad absoluta de sustitución de alguno de los componentes sin cambiar el significado

Posibilidad relativa de omisión o sustitución de uno de los componentes conservando el significado general

Independencia de funciones sintácticas de cada palabra

Unidad en la función sintáctica de todo el giro

Composición de dos o más palabras


82

Posteriormente, Melćuk (1963) centra sus

investigaciones sobre la fijación, la

idiomaticidad y las combinaciones. Éstas se

basaban en un criterio matemático-estadístico.

Según Melćuk (citado en Zuluaga, 1980: 66)

"[…] la fijación de una expresión se mide según

el grado de probabilidad con que alguno de sus

componentes puede predecir la presencia de los

demás componentes (en un orden determinado en

relación con dicho componente)”. La fijación,

según Melćuk, es una característica de la

lexicología, la fonología y la sintaxis. En

otras palabras, las combinaciones de fonemas,

de morfemas y de frases pueden ser combina-

ciones fijas.

Más recientemente, Dobrovol'skij (1990) consi-

dera la idiomaticidad como una parte de la

fraseología en la cual, de manera muy

particular, se distingue un alejamiento (o

desligamiento) de las palabras componentes de

una unidad fraseológica de sus significados

iniciales. La idiomaticidad está ligada a los

textos sobre folklore y, por esa razón, está

relacionada con las imágenes ingenuas del


83

mundo, de la cultura, de la vida espiritual y

de las fantasías de una determinada comunidad.

Ya en el siglo XXI, Mokienko (2000) investiga

las locuciones verbales y ha escrito dos libros

sobre Fraseología; Fraseología eslava (2000) e

Imágenes de la lengua rusa (2000). Mokienko

introduce un nuevo enfoque de la Fraseología,

ya que a diferencia del enfoque sobre la

fijación, evidencia la movilidad existente en

las UFs, que divide en seis dicotomías como se

aprecia en la tabla 3:

Tabla 3. Dicotomías de Mokienko. Estabilidad Inestabilidad Modelabilidad Inmodelabilidad Implicidad Explicitad Imagibilidad Inimagibilidad Expresividad Neutralidad Sincronía Diacronía

b) Respecto a la Escuela Francesa, podemos

destacar primero a Michel Bréal (1897), que

publicó Éssai de sémantique en 1897, en el cual

habla con frecuencia de fórmulas, locuciones y

grupos articulados. La definición de grupos

articulados se puede aplicar a la de expre-

siones fijas: “Comme les pièces d´un engrenage,


84

que nous sommes si habitués à voir sádapter

lúne Dans láutre que nous ne songeons pas à

nous figurer séparées, le langage présente des

mots que lúsage a reunís si longtemps quíls

néxistent plus pour notre intelligense à

l´état isolé” (citado en Zuluaga, 1980: 35).

A continuación, no podemos dejar de mencionar a

Ferdinand de Saussure, que fue el fundador del

estructuralismo lingüístico. El Cours de

linguistique générale ha sido la piedra angular

para muchos estudios de la lengua. Entre sus

contribuciones más importantes, se puede citar

el estudio del significado y las interco-

nexiones entre parole (expresiones particulares

lingüísticas) y langue (el sistema de conven-

ciones lingüísticas, compartido por hablantes y

oyentes).

Saussure no llega a ocuparse de las expresiones

fraseológicas, sin embargo, destaca que las

expresiones fraseológicas no son hechas del

habla, sino de la lengua, pues son combina-

ciones sintagmáticas determinadas por el uso

colectivo. “El concepto saussureano de aglu-

tinación consiste en que dos o más palabras,


85

originariamente autónomas y diferentes, se unen

constituyendo una nueva unidad absoluta o

difícilmente analizable” (Zuluaga, 1980: 37).

Además, hemos que destacar que aporta también

las relaciones sintagmáticas y paradigmáticas

en la constitución de los agrupamientos.

Bally (1905), discípulo de Saussure y fundador

de la estilística francesa moderna, trata, en

parte, sobre la fraseología desde el punto de

vista estilístico en sus publicaciones Précis

de stylistique (1905) y Traité de stylistique

(1909 [1951]). Aporta, por primera vez, los

fenómenos sintácticos y semánticos que

caracterizan las series fraseológicas o

groupements usuels y, por otra, las unités

phraséologiques. En Traité de stylistique

plantea una teoría de la fraseología,

introduciendo este término y esbozando los

conceptos fraseológicos que empleamos.

Bally esboza la mayoría de los conceptos que se

han convertido en la base de la discusión

teórica en torno al fenómeno fraseológico

actual; es decir, la estabilidad y la fijación.

Además, introduce la noción de los índices


86

exteriores e interiores. Los índices exteriores

representan la fijación de las UFs (esta-

bilidad, imposibilidad de inserción o susti-

tución). Los índices interiores se refieren al

sentido global de los constituyentes y no al

sentido aislado de algún componente. Hace

también una distinción entre unidades

fraseológicas y séries fraseológicas o agru-

paciones usuales.

Posteriormente, Greimas, investigador y lin-

güista francés, nacido en la Rusia prerre-

volucionaria, realizó importantes contribu-

ciones a la teoría de la semiótica y de la

Fraseología, así mismo creó la semiótica

estructural inspirada en Saussure y Hjelmslev,

por la cual es internacionalmente conocido. Sus

investigaciones en la fraseología se centraron

en el estudio sobre expresiones idiomáticas,

proverbios, dichos y en el análisis de

combinabilidad.

Respecto a Gaston Gross, en los años 70 fundó

el Laboratorio de Automática y de Lingüística

en la Universidad París VII (LADL), cuyo

objetivo era el estudio sistemático del léxico


87

sobre la base de las propiedades sintácticas.

Fue el creador de la noción de clase de

objetos, fundamentada en la teoría

transformacional de Harris, apoyándose en las

propiedades sintácticas del léxico que deben

ser analizadas en el marco de la frase simple

constituida por un predicado y sus argumentos.

Dedicó la mayor parte de su investigación a los

verbos soporte en francés, llegando a

establecer cinco clases de verbos, según su

comportamiento sintáctico: predicativos,

locuciones verbales, auxiliares temporales:

“ser y haber”, auxiliares aspectuales: “acabar

de”, “estar a punto de”, etc. y soportes.

Más recientemente, Gross (1996) propuso cinco

criterios diferentes para caracterizar las

expresiones fijas, como se observa en la tabla

4:

Tabla 4. Modelo de Gross (1996).

Criterios Definición Ejemplos

1 Opacité sémantique

Una expresión fija corresponde a una secuencia de palabras dónde cada una debe tener una existencia autónoma.

L´écolier a effacé le tableau L´écolier a effacé les graffitti

2 Blocage des Una expresión fija no A partir de la frase :


88

propriétés transformationnelles

sostiene las transformaciones sintácticas. “Les constructions libres ont des propriétés transformationnelles qui dépendent de leur organisation interne. Ainsi, la relation entre un verbe transitif direct et son complément peut faire lóbjet de certains changements de structures appelés«transformations».

Lénfant a lu ce livre Podemos obtener las siguientes phrases : Ce livre a été lu par lénfant Lénfant lá lu Ce livre, l énfant lá lu Cést ce livre que lénfant a lu Le livre que lénfant a lu

3 Non-actualisation des éléments constitutifs de l’expression

Los elementos de una expresión fija no son susceptibles de actualización

Para poner esta propiedad en evidencia añadimos a título de ilustración, la locución prepositiva avec le désir de, que es paralela a la preposición simple pour: Paul nous a dit cela avec le désir de nous convaincre. Paul nous a dit cela pour nous convaincre

4 Substitution synonymique impossible (blocage des paradigmes synonymiques)

En una expresión fija, es imposible reemplazar un elemento por uno de sus sinónimos

Dada la locución: Une caisse Notre Es imposible decir/escribir: Une caisse sombre

5 Non-insertion d’éléments nouveaux

En una expresión fija es imposible insertar elementos suplementarios En las secuencias libres, en ciertos casos determinados, es posible insertar elementos, como un

Dada la locución: Une bonne pomme de terre No es posible escribir: Une pomme bonne de terre Sin embargo, sería imposible hacer cualquiera inserción


89

adjetivo o un pronombre relativo en el grupo nominal: j’ai lu un libre: j’ai lu un beau libre.

entre el nombre y el adjetivo: Dada la locución: Col-vert Sería imposible la siguiente construcción: Un col très vert, un col très bleu.

c) Respecto a la Escuela Rumana, podemos

destacar a Coseriu (1981). Según este

investigador, el sistema fraseológico está

compuesto por norma-habla y se divide en tres

grandes áreas: locuciones, colocaciones y

enunciados fraseológicos. Éste último lo divide

en paremias y fórmulas rutinarias. Coseriu

introduce la teoría del discurso repetido, que

fue una de las aportaciones más importantes de

sus investigaciones, que se caracteriza por una

combinación más o menos fija de sus constitu-

yentes.

d) En la Escuela Alemana, Hermann Paul (1880)

fue el precursor de la fraseología entre los

alemanes, pertenece al grupo de los

neogramáticos (Brugmann, Hermann Paul, Rask,

etc.). Su contribución a la fraseología se debe

a su obra Prinzipien der Sprachgeschichte


90

(1880), en la cual hace importantes aporta-

ciones sobre el reconocimiento y carac-

terización de las expresiones fijas. Hermann

Paul habla de la fijación o formas fijas, así

como de la idiomaticidad.

Así mismo, Georg von der Gabelentz (1901) fue

el autor de la gramática china Chinesische

Grammatik, aún en uso. Fue una de las figuras

más importantes de la segunda generación de

pioneros en la enseñanza de las lenguas

orientales en Europa. En su libro das

lautsymbolische Gefühl, se refiere a las

expresiones fraseológicas con el nombre de

stehende Redensarten donde explica los factores

de constitución y fijación como propios del

sentimiento lingüístico. La relación semántica

se da por afinidad y por contraste.

Wissemann (1961), dentro de la concepción

creada por Hermann Paul, Saussure y Bally,

presentó una serie de observaciones sobre las

expresiones fijas o grupo lexemático de

palabras. Para él, “[…] tanto un lexema simple

cuanto un grupo lexemático pueden cumplir la


91

misma función comunicativa” (Zuluaga, 1980:

70).

Algunos años después, según Weinreich (1969:

229-260) la diferencia semántica entre expre-

siones idiomáticas y otras formas literarias es

arbitraria. Esto significa que la relación

entre el sentido figurado de las expresiones

idiomáticas y sus componentes es completamente

ad hoc. Sin embargo, los sentidos figurados no

son arbitrarios, sino están determinados por el

uso.

Más tarde, Burger (1973) es autor de numerosos

libros sobre la fraseología y explora en sus

estudios la variación, la variabilidad

fraseológica, las modificaciones y la desauto-

matización de las UFs, basándose en el

periodismo y en la literatura.

A continuación, Thun (1978) se especializó en

investigar la Fraseología en las lenguas

romances (Corpas Pastor, 1997: 23) y diferencia

cuatro tipos de fijación externa:

1. Fijación situacional: Es la que se da como

consecuencia del uso de ciertas unidades


92

lingüísticas en situaciones sociales deter-

minadas.

2. Fijación analítica: Es la que se da como

consecuencia del uso de determinadas unidades

lingüísticas para el análisis ya establecido

del mundo.

3. Fijación pasemática: Es la originada en el

empleo de unidades lingüísticas según el papel

del hablante en el acto comunicativo.

4. Fijación posicional: Es la preferencia de

uso de ciertas unidades lingüísticas en

determinadas posiciones en la formación de

textos.

Posteriormente, Wotjak (1983) presenta una

tipología de las UFs clasificadas según una

estructura formal. La autora ha estudiado

distintos aspectos de las UFs, desde su

significado y potencial significativo hasta la

variación y el tratamiento lexicográfico.

Distingue las paremias de las UFs, reservando

éstas útimas al estudio de la paremiología.

e) En la Escuela Eslava, tenemos que destacar

a Lewicki (Polonia), que publicó dos estudios

sobre combinatoria sintáctica (1976) y uno


93

sobre la estabilidad y la variabilidad de las

UFs (1982). En Yuguslavia, Bugarsky contribuyó

al estudio de las relaciones entre gramática y

léxico. En la fraseología señala una serie de

procedimientos que permiten reconocer y

diferenciar las construcciones libres y las

fijas o idiomáticas.

f) En la Escuela Danesa destacamos a Otto

Jespersen (1924) que publicó la Filosofía de la

Gramática (1924), en la cual establece la

distinción entre expresiones libres (libertad

combinatoria) y el fijamiento (fórmulas o

unidades formulísticas) y define así el

carácter de inalterabilidad o fijación de los

aspectos formales de una expresión.

g) Respecto a la Escuela Española, Casares

(1950) fue el primero en hacer una clasifi-

cación de las expresiones idiomáticas en su

célebre Introducción a la Lexicografía Moderna

(1950). Su concepción de fraseología ha ayudado

a realizar el registro de éstas en el

Diccionario de la Real Academia Española

(DRAE). En una gran parte de su obra, dedica

mucha atención a la locución, a la frase


94

proverbial, al refrán y al modismo. El autor

formula las bases de lo que sería la

fraseología española, influyendo en los futuros

estudios de las UFs en lengua española. Define

los distintos grados de fijación y presenta la

primera clasificación de locuciones en español,

como vemos en la figura 2:

Figura 2. Modelo de Casares (1950).

Zuluaga (1975: 2), por otra, parte señala las

cuatro formas características de la fijación

fraseológica:

[…] inalterabilidad del orden de los componentes, invariabilidad de alguna categoría gramatical; inmodificabilidad del inventario de los componentes; insustitui-


95

bilidad de los elementos componentes. Sin embargo, he señalado que la fijación no es una propiedad absoluta, hay distintos grados de fijación en las expresiones fijas (fijación formal y la semántica).

Para Zuluaga (1975: 230) la propiedad de

fijación consiste en la suspensión, semántica y

sintácticamente inmotivada, de la aplicación de

alguna regla de la combinación de los elementos

del discurso. Clasifica las UFs en dos grupos:

[…] enunciados fraseológicos y locuciones. El primero se caracteriza por dispensar el contexto verbal para construir una expresión en el discurso de sentido completo. El segundo, exige contexto verbal inmediato.

También Zuluaga (1980), bajo la caracterización

de expresiones fijas o UFs, las estudia desde

combinaciones como mínimo de dos palabras hasta

combinaciones constituidas por oraciones com-

pletas. Zuluaga no contempla la inclusión de

las colocaciones como parte integrante de la

Fraseología. Las UFs pueden ser fijas y no

idiomáticas. La clasificación de las UFs según

Zuluaga (1980: 121-134) “se queda reducida a 2

clases: locuciones y enunciados, divididos en


96

frases (clichés, fórmulas, dichos) y textos

(refranes)”. El modelo de Zuluaga se puede

observar en la figura 3.

Figura 3. Modelo de Zuluaga (1980).

Las UFs pueden presentar fijación interna o

fijación externa, estableciendo los siguientes

grados de fijación interna o formal según

Zuluaga (1980):

1. Fijación del orden de los componentes.

2. Fijación de categorías gramaticales (de

tiempo, persona, número y género).

3. Fijación en el inventario de los componen-

tes, llegando así a la imposibilidad de

suprimir, sustituir o insertar.

4. Fijación transformacional.


97

5. Sustitución de un componente por otro.

Otra lingüista que estudia las UFs es Corpas

Pastor (1997: 18), definiéndolas como:

Combinaciones estables formadas por al menos dos palabras y cuyo límite superior se sitúa en la oración compuesta. Se caracterizan por la alta frecuencia de aparición en la lengua y de coaparición de sus elementos inte-grantes, así como la institucionalización, la estabilidad, la idiomaticidad y la variación potencial que dichas unidades presentan en diverso grado.

Se puede observar en la figura 4 una represen-

tación de su modelo:

Figura 4. Modelo de Corpas Pastor (1997).


98

Las locuciones son las UFs que están fijadas en

el sistema, pero no pueden funcionar como

enunciados. Las colocaciones están fijadas en

la norma, pero las UFs no pueden funcionar como

enunciados y los enunciados fraseológicos son

aquellos que están fijados en el habla y

también pueden constituir enunciados. Así,

obtenemos una clasificación genérica de tres

conjuntos amplios que, aplicándose posterior-

mente diferentes criterios, se irán subdivi-

diendo para reflejar de forma satisfactoria

todos los tipos de UFs existentes en español.

Corpas Pastor (1997: 51) añade que en

[…] el segundo grupo se encuadran aquellas UFs que pertenecen exclusivamente al acervo socio-cultural de la comunidad hablante (unidades del habla). En esta esfera III ponemos el resto de las UFs, a las cuales denominaremos enunciados fraseológicos (paremias y fórmulas situalizadas). Estas unidades se caracterizan por estar fijadas en el habla y por constituir actos de habla realizados por enunciados completos, dependientes o no de una situación especí-fica.

h) Respecto a la Escuela Angloamericana,

Fillmore (1979) estudia la construcción fija,


99

incluyendo las frases fijas, dichos, proverbios

y fórmulas rutinarias. Después, Hockett (1958),

estructuralista postbloomfieldeano, en su libro

A Course in Modern Linguistics reivindica que

toda forma gramatical cuyo sentido de sus

componentes no se puede inferir del conjunto de

sus constituyentes es una expresión idiomática.

De acuerdo con la definición de Hockett, cada

morfema es un idiom, excepto si es

constituyente de un idiom más amplio, es decir,

de otro idiom constituído por una forma

compuesta. Por ejemplo, head es un idiom en la

frase to have a head start (=have an advantage

over others), pero no lo es en la frase A group

of engineers have developed an extremely

accurate and sensitive head control device, en

la que es un componente lexical. Establece así

la concepción de idiomaticidad más citada desde

entonces, en un periodo en que discutían mucho

sobre el tema.

Entre los anglosajones y los norteamericanos,

la idiomaticidad puede estar presente también

en construcciones sintácticas, como en las

metáforas y en los phrasal idioms.


100

Posteriormente Makkai (1965) dedica su tesis al

estudio de los idiomatismos, que es una impor-

tante contribución al dividir las Multiword

Units en un conjunto heterógeneo de sintagmas,

frases y las expresiones idiomáticas lexémicas

como se detalla a continuación:

a) Phrasal verbs: make up, turn out, bring

up, etc.

b) Tournures (‘turn of phrase’): fly off the

handle, rain cats and dogs, kick the

bucket, have it out with somebody, be

well-off, etc.

c) Irreversible binomials: pepper and salt

(sic), coffee and cream, etc.

d) Phrasal compounds: hot dog, blackmail,

high-handed, etc.

e) Incorporating verbs: eavesdrop, manhandle,

boot-lick, etc.

f) Pseudo-idioms: kith and kin, spic and

span, to and fro, etc. (Makkai, 1972: 135-

172, citado en Grant, 2003: 24).

Después, Lyons (1977) trata los fraseologismos

como expresiones idiomáticas y, como tal, los

caracteriza como enunciados estereotipados.


101

Más recientemente, Moon (1998) designa las UFs

como phrasal lexeme o fixed expression

ofreciendo una macroclasificación en torno a

tres unidades de acuerdo con la figura 5:

Figura 5. Modelo de Moon: Categorías de expresiones fijas y expresiones idiomáticas (1998).

En primer lugar, las colocaciones anómalas, en

segundo, las fórmulas y en tercer lugar, las

metáforas. Las colocaciones anómalas se carac-

terizan, según la autora, por estar léxicogra-

maticalmente marcadas y son también conocidas

como clichés. Las fórmulas están pragmá-

ticamente marcadas, compuestas por dichos,

proverbios y símiles. Las metáforas comprenden

los idioms o locuciones idiomáticas.


102

Moon realiza una investigación con un corpus de

6.700 multiword expressions extraídas del

corpus HECTOR, llegando a la conclusión que más

de un 70% tienen una frecuencia de aparición

insignificante. Además, confirma que las

expresiones idiomáticas también tienen una

frecuencia muy baja en los textos. Las

colocaciones gramaticales predominan en el

corpus y las colocaciones léxicas, las más

representativas, presentan algún tipo de

variación.

Una vez enumeradas todas las escuelas de la

Fraseología, con el fin de tener una idea

general sobre las diversas corrientes, a

continuación vamos a diferenciar entre los

términos variación y variante. Estos términos

han de estar diferenciados, puesto que la

herramienta que proponemos en esta tesis

doctoral localiza las variaciones de las UFs.


103

3. VARIACIÓN Y VARIANTE: HACIA UNA

CLASIFICACIÓN DE LAS VARIACIONES

Y VARIANTES


104


105

3.1. Definición de variación y variante

La lengua es social y los cambios sufridos por

las UFs reflejan los procesos sociales. Por

eso, la lengua requiere una investigación sobre

la variación lingüística en los diferentes

estratos sociales, teniendo como objeto de

estudio la variación fraseológica como fenómeno

inseparable del lenguaje natural y de las

implicaciones de esta variabilidad (geográfica,

social e histórica) tanto para la comprensión

de los cambios de diferente índole y niveles

lingüísticos (fonología, sintaxis, semántica y

pragmática) como para la mejora de la inte-

racción comunicativa del diseño de aplicaciones

lingüísticas.

Sin embargo, los cambios formales y semánticos

en la Fraseología no son tratados con el rigor

con que son tratados los sufridos por la

lengua. Las UFs de la lengua española presentan

una variación fraseológica muy significativa,

debido a su extensión geográfica, teniendo así

una importante variación fraseológica, tanto en


106

el español de la Península Ibérica como en el

español de América.

Entre las variantes fraseológicas, la

sustitución es la variación más común, aunque

no haya ningún estudio específico sobre la

frecuencia. La variación por adición, sus-

tracción o interpolación es la segunda más

frecuente y la tercera más frecuente es el

cambio por orden sintáctico. La estructura de

la variante fraseológica se compone de dos

partes:

Un paradigma invariable, en el que sus

componentes están siempre presentes en la

estructura.

Un paradigma variable, donde los componen-

tes se cambian, por la naturaleza foné-

tica, sintáctica, morfológica o léxica,

añadiendo, quitando o reduciendo los

constituyentes de la unidad fraseológica.

En la fraseología hispánica, Zuluaga (1980:

106-110) introdujo la distinción entre

variaciones consideradas en sentido estricto, y

variaciones en el sentido amplio. Para este


107

autor, las variaciones fraseológicas (en

sentido estricto) pueden ser producto de una

variación morfológica, sintáctica o léxica,

pero no presentan cambios de significado y se

caracterizan por ser variaciones por transfor-

mación o modificación. De este modo, hace la

siguiente delimitación entre ambas:

Las variantes en sentido estricto, deben

ocurrir dentro de una misma lengua

funcional, no pueden presentar diferencias

de sentido, deben ser independientes de

los contextos, deben ser parcialmente

idénticas en su estructura y en sus

componentes, (o sea ella se torna una

variante por sustitución de uno de sus

componentes), la sustitución de los

constituyentes (sustituyente y sustituido)

debe ser fija y estable.

Las variaciones en el sentido amplio

consisten en transformaciones reales o mo-

dificaciones de las UFs ‘tomar el pelo’

/’tomadura de pelo’; ‘echar una cana al

aire’/’echar una canita al aire’; los

miembros de las llamadas series: ‘ofrecer


108

la mano’/’brindar ayuda’, deben ser

consideradas distintas, pues tienen un

significado léxico diferente; UFs aparen-

temente semejantes, pero con significados

antagónicos ‘hacer [algo] de buena/mala

fe’, pues sus componentes son distintos,

aunque dichas unidades puedan ser

intercambiables ocasionalmente, a causa de

la sinonímia. Así, por ejemplo ‘tomar las

de Villadiego’ y ‘poner pies en polvorosa’

son sinónimos tal como lo son huir y

escapar; UFs con estructura e componentes

distintos, no obstante con significados

idénticos ‘tomar las de Villadiego’,

‘poner pies en polvorosa’; las UFs

socioculturales motivadas por variaciones

léxicas (diatópicas, diafásicas y

socioculturales) deben ser consideradas

variantes en sentido estricto. Hay que

tener en cuenta las distinciones entre las

diferentes lenguas funcionales; las UFs

con casillas vacías tampoco deben ser

consideradas como variantes, en sentido

estricto. Deben ser tratadas como

alteraciones libres, dentro de ciertos


109

límites léxico-gramaticales de una misma

expresión fija.

Por otro lado, el concepto de variante de

Carneado Moré (1985) contiene todas las

variaciones que puede experimentar un

fraseologismo, sin alterar su sentido o violar

la norma. De este modo agrupa las variantes en

tres tipos:

a) Variantes morfológicas: Se trata de cambios

gramaticales en la UF que afectan los

siguientes elementos: el género ‘lanzarse como

un león’/’lanzarse como una leona’, alternan en

el uso de los determinantes como la preposición

‘tener a alguien en ascuas’/’tener a alguien

sobre ascuas’ o en la inclusión u omisión de un

artículo (Pegarse el/un tortazo).

b) Variantes léxicas: Consisten en el cambio de

un constituyente de las unidades léxicas en un

nivel de la lengua. Puede ser sinonímica,

antonimita, metonímica, etc. Ejemplo de

variante léxica sinonímica: ‘A caballo regalado

no le mires el diente’/’A caballo regalado no

se le mira el diente’.


110

c) Variantes por extensión: Se trata de la

supresión de una parte de la unidad

fraseológica o de la interpolación de algún

elemento facultativo. Por ejemplo: ‘tener

(buen) ángel’.

Las variantes son fruto de los cambios en el

lenguaje, sin intención, y que generalmente se

dan en el habla, establecidas en los sistemas

de la lengua, y por lo tanto, institucio-

nalizadas (Corpas Pastor y Mena Martínez, 2003:

186). Estas autoras adoptan la definición de

institucionalización de Zuluaga (1997: 17)

“Institucionalización significa, pues, difusión

generalizada, uso común y corriente".

Posteriormente, Sancho Cremades (1999: 30-33)

destaca tres tipos de variación:

a) Variación motivada por las reglas

morfosintácticas que interactúan en la

lengua (ej.: ‘salir (salió, saldrá) el

tiro por la culata’).

b) Variantes de una misma unidad fraseológica

(Zuluaga, 1980), como por ejemplo,

tomar/coger las de Villadiego.


111

c) Variación por procesos de desautoma-

tización o deslexicalización con intención

estilística o expresiva (ej. ‘¡Sálvese, si

puede el tonto/que yo ni salvarlo puedo!’)

Somos de la misma opinión que Montoro del Arco

(2005: 115) que afirma que una UF puede

presentar diversos rasgos de fijación, pero los

rasgos de variación son más numerosos que los

de fijación.

Un análisis más detallado nos muestra que una unidad fraseológica puede manifestar distin-tos rasgos de fijación como los citados, pero que, por el contrario, los rasgos de variación pueden ser bastante más numerosos que los de fijación. Así, ante una unidad con pocos componentes como hilar fino, podemos decir que está fijada por la invariabilidad de la unidad fino (hilar* finamente). Sin embargo, en oposición al único rasgo de fijación que encontramos vemos que presenta al menos dos posibles variaciones: hilar (muy) fino y posible sustitución de los elementos componentes: hilar delgado.

Por otro lado, desde el punto de vista

lingüístico, hay muchas opiniones divergentes

sobre el alcance y cobertura de las variantes.

García-Page (2008: 219) aporta una de las más


112

lúcidas definiciones de lo que es la variante

fraseológica:

Hablamos de variantes fraseológicas cuando las modulaciones formales que presenta una misma expresión fija estén codificadas o institucionalizadas; las variaciones lúdicas o estructuras desautomatizadas no constituyen variantes, salvo en el caso de que con el tiempo, su uso se generalice y sean sancio-nadas por la comunidad.

Hund (1993), como comenta García Benito (1997:

47), define así las variantes: “[…] variantes

son formas coexistentes de una misma expresión,

que funcionan paralelamente en el lenguaje con

un significado invariable”. Mena Martínez

(2003: 1), más específicamente las define así:

Las variantes, por otro lado, no deben ser confundidas con las Unidades fraseológicas sinónimas. Estas últimas son unidades que comparten el mismo significado pero nada más. Sin embargo, las variantes, además de poseer el mismo significado, comparten también elementos léxicos.

Nosotros consideramos que lo son cuando sucede

cualquier cambio léxico, sintáctico, morfoló-

gico, aunque sea un sinónimo o una variante.


113

Cuando ocurre un cambio en la estructura, sea

en la periferia o en el centro es una variación

y, por lo tanto, se convierte en una variante.

En relación a las variantes, Corpas Pastor y

Mena Martínez (2003: 186), puntualizan:

Utilizando criterios formales podemos localizar cambios léxicos, sintácticos y estructurales que dan lugar a las variantes léxicas, variantes estructurales y variantes perspectivas; categorías todas ellas presentes en dos de las esferas fraseológicas: las locuciones y los enun-ciados fraseológicos.

También Barz (1992) distingue tres tipos de

variaciones en el sentido amplio; es decir,

variaciones que no son variantes de acuerdo con

el concepto de Zuluaga (1980):

a) Los cambios regulares de la gramática.

b) Los cambios ocasionales o modificaciones.

c) Los cambios por sinonimia.

Éste coincide con Zuluaga (1980) en relación

con las variaciones motivadas por las distintas

variaciones socioculturales que pueden ser

diatópicas, diastráticas, y diafásicas.


114

En cambio, Barz (1992), así como Burger,

Buhofer y Sialm (1982) divergen de Zuluaga

(1980) cuando distinguen las formas variantes

(gramaticales y léxicas) de las formas

flexionales de un paradigma. Bajo la

perspectiva de Barz, en relación a la flexión

normal del verbo ésta es considerada una

restricción morfológica y no una variante. Las

variantes consisten en la sustitución fija de

un elemento de la unidad fraseológica por otro

de características equiparables, formales y

funcionales. Como se puede apreciar en los

ejemplos: “Hacer su santa voluntad”/“Hacer su

santísima voluntad”, “Mover montañas”/“Remover

montañas”.

Lo que para Sancho Cremades (1999), sería un

caso de variación motivada por las reglas

morfosintácticas, sin embargo, para Montoro del

Arco (2006) son variantes léxicas. Este autor

dice que no había encontrado ninguna referencia

a ellas. En cambio, nosotros hemos encontrado

dos referencias, "agua de borrajas" y “tomar

las de Villadiego” según Insa Alba (2006:1).


115

Corpas Pastor (1997) elige el concepto de

variantes fraseológicas para designar una gran

cantidad de variaciones que, a diferencia de

Carneado Moré (1983), no las considera léxicas.

Corpas Pastor distingue solamente entre

variantes y modificaciones, siendo ésta última

lo que para otros autores se llama deslexica-

lización.

Corpas Pastor (1997) y Barz (1992) coinciden en

el concepto y designación de modificaciones

como cambios de orden creativo que están

producidos en el discurso para obtener efectos

expresivos. Dobrovol’skij (1988: 163), a su

vez, llama variantes estructurales a la

variación sintáctica que incluye el uso de los

conectores2, resultando en formas acortadas o

en la reducción de sus constituyentes. Un

ejemplo de variante por acortamiento es ‘Por

obra (y gracia)’, un ejemplo de variante por

alternativas estructurales, ‘irse de/a picos

pardos’ y un ejemplo de variante léxica

sinonímica: ‘A caballo regalado no le mires el

2 Una palabra o un conjunto de palabras que une partes de un mensaje y establece una relación lógica entre ellas.


116

diente’/‘A caballo regalado no le mires el

dentado’.

De acuerdo con Sosiński (2006: 39),

Zuluaga incurre en una contradicción al afirmar que las UFs con casillas vacías no constituyen variantes ya que entre los ejemplos aportados para las variantes, nos encontramos con expresiones “de punta a punta”, “de pe a pe”, “de cabo a cabo” que, también aparecen en la lista de esquemas fraseológicos, es decir, expresiones que antes había definido como un tipo de UF con casillas libres.

Sin embargo, para García-Page (2008), a dife-

rencia de Zuluaga, las unidades fraseológicas

con casillas vacías y las series fraseológicas

constituyen el mismo fenómeno.

Wotjak (1992) distingue dos tipos de

variaciones: Modificaciones textuales y

variantes convencionales sistemáticas. Las

variantes convenciones sistemáticas representan

lo mismo que las variantes léxicas para Montoro

del Arco (2006). Es decir, variaciones

diatópicas, diastráticas y diafásicas. Las

modificaciones textuales de Wotjak coinciden

con la modificación de Corpas Pastor (1997) y

la desautomatización bajo la perspectiva de


117

Mena Martinez (2003), Ruiz Gurillo (1997),

Zuluaga (1997; 2001) y Zamora Muñoz (2000).

Corpas Pastor y Mena Martínez (2003) hacen una

separación de las variaciones fraseológicas en

variantes sistemáticas, usuales y modifica-

ciones. Según estas autoras, cuando la varia-

ción de la UF tiene como origen la intenciona-

lidad de los hablantes, tenemos un caso de

modificación, sin embargo, si los cambios

percibidos en la UF son motivados por el

sistema lingüístico, tendremos entonces las

variantes institucionalizadas. Las diferencias

motivacionales entre ambas se refieren a

aspectos pragmáticos, estilísticos y socio-

lingüísticos.

3.2. La tipología de las variantes

Las variantes pueden tener una naturaleza

lingüística diversa y, por ello, creemos que es

pertinente una clasificación de las variantes

fraseológicas. Entendemos como variantes todas

aquellas UFs que sufren alteraciones en sus


118

constituyentes (alteración interna o externa),

tanto desde el punto de vista léxico y

morfosintáctico como desde el semántico, sin

perder el significado básico de la UF. Por lo

tanto, el concepto de variante que utilizamos

abarca todas las variaciones posibles que puede

experimentar una unidad fraseológica, sin

violar su sentido. Es decir, variante será “[…]

cada una de las diferentes formas con que se

presenta una unidad lingüística de cualquier

nivel” (DRAE, 2001).

En esta tesis doctoral, una unidad fraseológica

de cualquier nivel y variación será considerada

como la acción y efecto de variar. Este

concepto sigue la terminología de Corpas Pastor

(1997), considerando como variantes de las UFs

las variaciones que afectan a las locuciones y

a las paremias. La investigación nos lleva a

recoger los siguientes cambios que se producen

en las UFs: léxicos, semánticos, morfosin-

tácticos y pragmáticos, incluyendo también las

modificaciones y desautomatizaciones, de acuer-

do con los investigadores de la Escuela Espa-


119

ñola. A continuación vamos a detallar los

distintos tipos de variantes:

3.2.1. Variante fónica

El rango de las variantes fónicas es poco

representativo cuando lo comparamos con el

número de otras variantes (léxicas, sintác-

ticas, etc.) acarreando consigo un cambio

gráfico junto al cambio fónico. Según García-

Page (2008: 228):

Las variantes fónicas pueden producirse bien por la sustracción de un sonido, (por ejemplo, “al redropelo”/“al redropelo, no hay atutía”/“no hay tutía”, “por amor de”/“por mor de”), bien por la adición de un sonido (por ejemplo “de buces”/“de bruces”, “en un pis pas”/“en un plis plas”).

De acuerdo con este autor, se consideran un

cambio fónico por sustracción de sonido los

siguientes casos de la tabla 5.

Tabla 5. Variante fónica.

palabra simple LocuciónMansalva A mano salva Salvamano A salva mano Mandoble A mano doble


120

De acuerdo con el mismo autor, otro tipo de

variante fónica puede conseguirse por medio de

una sustitución, como se aprecia en la tabla 6:

Tabla 6. Otro tipo de variante fónica.

Locución – forma canónica Locución – forma variante Así así Así asá De aquí allá De acá allá A trochemoche A troche moche

3.2.2. Variante morfológica

La variante morfológica afecta a la estructura

interna de las UFs (morfología flexiva) en la

variación por derivación (como en el ejemplo,

‘ser un culillo (culo) de mal asiento’, ‘contar

batallitas’) o en la variación en el número

gramatical de los constituyentes (como por

ejemplo ‘ahuecar el ala/las alas’, ‘criar a

alguien entre algodón/algodones’; en la flexión

de los verbos andar, andado, andando, anduvo,

anduve). Existen otras variantes derivadas de

la morfológica:

a. Variante morfológica flexiva. Aunque el

verbo experimente un cambio flexivo, no deja de

ser una variante, como también han postulado


121

Zuluaga (1980) y García-Page (2008). Se da en

la flexión de los verbos, como en los ejemplos

siguientes de la tabla 7:

Tabla 7. Variante morfológica flexiva.

Mirar a otro lado Mirando a otro lado, Miró a otro lado Miramos a otro lado, Se ha mirado a otro lado

Jugar a la baja Jugando a la baja, jugó a la baja, jugamos a la baja

Lanzar la toalla Lanzarse la toalla, se ha lanzado la toalla

b. Variante morfológica por derivación. El

cambio se puede dar por la adición de un sufijo

a la base léxica o por prefijación (adición de

un prefijo a la base léxica) como se ve en la

tabla 8:

Tabla 8. Variante morfológica por derivación.

Forma canónica Forma derivadaPico de oro Piquito de oro Rascarse el bolso Rascarse el bolsillo Más delgado que un palo Más delgado que un

palillo Pegar el petardo Pegar el petardazo Decir alguna cosa con la boca chica

Decir alguna cosa con la boca chiquita

Mover montañas Remover montañas Sentar la cabeza Asentar la cabeza


122

El número de opciones es limitado (chica o

chiquita, pico o piquito, etc.), los demás

componentes son fijos (en número, género y

grado). Del mismo modo, García-Page (2008: 231)

confirma que “[…] la derivación puede afectar a

los componentes opcionales (generalmente,

intensi-ficadores)”, pero solamente a éstos, de

acuerdo con el valor enfático que esta variante

ofrece en los ejemplos: ‘De puta pena’/‘de

putísima pena’ y ‘hacer su santa volun-tad’/

‘Hacer su santísima voluntad’.

En la variante por derivación, la forma

primitiva se queda fija, lo que cambia es el

afijo, por ejemplo: ‘a redopelo’/‘a pospelo’,

‘a contrapelo’ y ‘a trasmano’/ ‘a contramano’.

c. Variante morfológica de género. El cambio

explícito se da en uno de los constituyentes,

masculino/femenino o femenino/masculino. Como

se aprecia en la tabla 9:

Tabla 9. Variante morfológica de género

Correr parejos Correr parejas Lanzarse como un león Lanzarse como una leona


123

d. Variante morfológica de número. En el

primer ejemplo, el cambio de número se da tanto

en el nombre como en el adjetivo. En el segundo

ejemplo, las balas o la bala no se refieren a

ningún sintagma nominal, no deben concordar más

que el nombre con el determinante o artículo,

como se aprecia en la tabla 10:

Tabla 10. Variante morfológica de número.

A pie juntillas A pies juntillas Ir como una bala Ir como las balas

e. Variante morfológica de género y número.

En el tercer caso, ser ‘ligero de cascos’ ser

refiere a tener ‘los cascos’ ligeros, como si

se dijera que es ‘rápido de pies’. No diríamos

‘rápido de pie’ porque cada persona tiene dos

pies y por eso pies va en plural, como se ve en

el ejemplo siguiente. Por ejemplo: ‘Ligero de

cascos’/‘Ligera de cascos’, ‘ligeras de cascos’

y ‘ligeros de cascos’.


124

3.2.3. Variante morfosintáctica

Las variantes morfosintácticas, estructurales

de acuerdo con Corpas Pastor y Mena Martínez,

(2003: 186) o gramaticales según García-Page

(2008: 233), representan las variantes más

institucionalizadas de las UFs. Algunos

ejemplos son: ‘Bravo como león’/‘Bravo como un

león’ y ‘Bravo como el perro’/‘Bravo como el

perro de Bush’.

Los cambios ocurren en las palabras funcionales

o stop words (preposiciones, conjunciones,

artículos, pronombres, etc.), en el número y en

el orden de los constituyentes, acarreando

cambios estructurales por su naturaleza

morfosintáctica, pero no semántica o funcional.

Como indica García-Page (2008: 233):

Hablamos de variantes gramaticales cuando se produce la conmutación de alguna de las llamadas palabras gramaticales o no léxicas (artículo, preposición, conjunción…), o la adición o supresión del determinante, o bien, ocasionalmente, de una preposición sin repercusión sintáctica.

A continuación pasamos a detallar los distintos

tipos de variantes morfosintácticas:


125

a. Variante morfosintáctica en el uso de la

preposición. La preposiciones son variables,

pero imprescindibles, se puedem sustituir por

otras, siempre en la misma posición dentro del

sintagma. Por lo tanto, las variantes están

predeterminadas por el uso facultativo, pero

indispensable, de la preposición, como se

aprecia en los ejemplos siguientes: ‘decir para

sí’/‘decir entre sí’, ‘poner en las nubes’/

‘poner sobre las nubes’; ‘poner por las nubes’,

‘tener a alguien en ascuas’/‘tener a alguien

sobre ascuas’.

b. Variante morfosintáctica en el uso

facultativo de la preposición. El uso de la

preposición es facultativo y variable, como se

aprecia en los ejemplos que mostramos a

continuación, pero los demás componentes son

fijos. Es decir, las variantes están

determinadas: ‘A punta pala’/‘apunta de pala’,

‘Punta pala’/‘punta de la pala’.

c. Variante morfosintáctica en el uso del

artículo. El pronombre está pospuesto al verbo

y, por ello, señala una especificación que

restringe el número del sustantivo. El artículo


126

es variable como en ‘dar (un) plantón a

alguien’ y en algunos casos, imprescindible

‘pegarse el/un tortazo’. Las variantes también

están predeterminadas en los ejemplos, ‘Dar

(un) plantón a alguien’ y ‘Pegarse el/un

tortazo’.

3.2.4. Variante sintáctica

La variación sintáctica se realiza cuando hay

una modificación en las relaciones sintagmá-

ticas de las palabras, alteración en el orden

de los constituyentes, el cambio en la estruc-

tura sintáctica y la formación de unidades

superiores a éstos, como los sintagmas y ora-

ciones, pero no influyen en la lexicalización

de la UF, como se aprecia en la tabla 11.


127

Tabla 11. Variante sintáctica. UF Variante Cambiolevantarse de con el pie

izquierdo cambio de preposición

No dar el su brazo a torcer cambio de determinante

ser uña y carne ser carne y uña cambio en el orden de constituyentes

hablar (hasta) por los codos

hablar por los codos

cambio en el número de constituyentes

No caber (ni) un alfiler

no caber un alfiler

cambio en el número de constituyentes

hacer la vista gorda

Hacerse de la vista gorda

cambio en la estructura sintáctica

3.2.5. Variante léxica

La variante léxica consiste en el cambio de un

constituyente de las unidades léxicas por otro

o por un sintagma, manteniendo las relaciones

semánticas preexistentes y ocupando la misma

posición dentro de la unidad fraseológica. En

el primer caso, no existen cambios en el número

de constituyentes. Ambos forman parte de una

unidad fraseológica en el nivel de la lengua,

suelen ser sinonímicas, antonímicas, metoní-

micas y diatrópicas, las cuales pasamos a

describir:


128

a. Las variantes léxicas diatrópicas son

formas fraseológicas que se establecen en la

lengua por medio del contacto de hablantes de

la misma lengua, procedentes de sitios

distintos. Al establecerse estas variantes

léxicas en las lenguas, ellas se vuelven

nacionalizadas, lo que se realiza por

sustitución léxica de uno o más componentes.

Estas variantes, sin embargo, mantienen una

relación semántica de sinonimia o de antonimia

o incluso de metonimia con las formas que

tenían antes del intercambio. El intercambio y

la institucionalización pueden afectar a uno o

más componentes, como se puede ver en la tabla

12:

Tabla 12. Variante léxica diatrópica. UF Variación Regiónser uña y carne ser uña y diente República

Dominicana ser uña y mugre Méx, Honduras,

Panamá, Colombia, Venezuela, Bolivia, Chile

cortar el bacalao corta r el queque Chile coger con las manos en la masa

Agarrar con las manos en la masa

América

comer como una lima

comer como pelón de hospicio

México

comer como lima Puerto Rico,


129

nueva Venezuela, Argentina

comer como un sabañón

Chile

dormir como un leño

dormir como un tronco

sinonímia

A caballo regalado no le mires el diente

A caballo regalado no le mires el dentado.

sinonímia

poner buena cara poner mala cara

b. La variante léxica por sinonímia se

caracteriza por la similitud estructural y los

rasgos parciales del componente léxico, como se

puede ver en la tabla 13. Por supuesto, si el

cambio formal no comporta ningún cambio

semántico, en este caso estaríamos ante un caso

de sinónimos estructurales partiendo de la

concepción de Dobrovol´skij (1988: 163) y Barz

(1992: 37-41), no de variantes.

Tabla 13. Variante por sinonímia. A caballo regalado no le mires el diente

A caballo regalado no se le mira el diente

dormir como un leño dormir como un tronco A perro ladrador no le mires el dentado

Al perro flaco no le mires el diente

dormir como un rey dormir como un bebé A toda carrera A toda hostia A toda mecha A toda pastilla cagando hostias cagando leches echando hostias echando leches Con todo gusto a toda satisfacción


130

La distinción entre sinónimo y locución con

variantes no siempre es tan clara (García-Page

2008: 220). El caso más común es el de las

locuciones que tienen un inventario extenso de

variantes, como por ejemplo: ‘en un instante’,

‘en un momento’, ‘en un suspiro’. La distinción

entre variante y sinónimo es más difícil cuando

las alternativas dejan de ser estrictamente

léxicas y tienen otro tipo de alteración, como

la morfológica, la gramatical o la fónica, como

apreciamos en el ejemplo: ‘tomar el olivo’ y

‘tomar las de Villadiego’.

Este criterio es bastante polémico entre los

fraseólogos. Algunos estudiosos defienden la

concepción de sinonimia, aunque otros hablan de

variante estructural. En términos de fraseo-

logía española, García-Page (2008: 220)

pertenece a los que entienden que se trata de

variantes estructurales.

c. La variante léxica del componente nominal

consiste en el cambio de un constituyente

nominal por otro. Como se puede ver en la tabla

14, en los cuatro ejemplos se puede emplear o

bien el nombre ‘castañuelas’ o bien ‘pascuas’,


131

en el primer ejemplo; en el segundo ejemplo, el

cambio se da con ‘rabo’ por ‘toro’; en el

tercer ejemplo, el cambio se da con ‘carácter’

por ‘armas’ y en el último ejemplo, el cambio

se da con ‘calle’ por ‘casa’. La fijación no es

absoluta pero las variantes están predeter-

minadas.

Tabla 14. Variante del componente nominal.

estar más alegre que unas castañuelas

Estar más alegre que unas pascuas

Ir al rabo Ir al toro Hombre de carácter Hombre de armas Hombre de la calle Hombre de la casa

d. La variante léxica del componente verbal

consiste en el cambio de un constituyente

verbal por otro. El verbo queda sustituido por

otro (coger, ganar, levar, tomar), siempre

antepuesto al pronombre (la) y en algunos

casos, al artículo (uno, una). La flexión del

verbo es variable (llevar, lleva, llevó,

llevaba, llevando). La fijación no es absoluta,

pero las variantes están predeterminadas, como

se aprecia en la tabla 15.


132

Tabla 15. Variante del componente verbal.

Coger la delantera

Cogió la delantera

Ganar la delantera

Ganó la delantera

Llevar la delantera

Lleva la delantera Llevó la delantera Llevaba la delantera Llevando la delantera

Tomar la delantera tomar una delantera tomaba la delantera ha.tomado la delantera tomarle la delantera tomaron la delantera

e. La variante léxica del componente adjetivo

consiste en el cambio de un constituyente adje-

tival por otro. El adjetivo queda sustituido

por otro (moradas o negras), siempre antepuesto

al artículo (las), la flexión del verbo es

variable (pasar, pasó, pasado). La fijación no

es absoluta, pero las variantes están

predeterminadas. Como por ejemplo, en ‘Pasar

las moradas o pasarlas moradas’/‘Pasar las

negras o pasarlas negras’, ‘Pasó las moradas’/

‘Pasó las negras’.

f. La variante léxica del componente

adverbial consiste en el cambio de un


133

constituyente adverbial por otro. El adjetivo

queda sustituido por otro. En este ejemplo,

poco o casi nunca está en la misma posición del

sintagma. Por lo tanto, las variantes están

predeterminadas. Como por ejemplo en: ‘No ser

alguien poco diablo’/‘No ser alguien muy

diablo’.

3.2.6. Modificación y desautomatización

Entre las posibles variaciones de las UFs se

encuentra la desautomatización, que puede

modificar o destruir la naturaleza semántica,

estilística y pragmática de una unidad fraseo-

lógica. La desautomatización es un término que

ha entrado en la Fraseología española de la

mano de Zuluaga, que lo ha tomado de los

formalistas rusos y ha sido, de acuerdo con

Mena Martínez (2003: 1), utilizado por "[…]

fraseólogos de la talla de, además del propio

Zuluaga, de Corpas Pastor, Ruiz Gurillo y

Zamora Muñoz". Según esta autora (ibid), la

desautomatización es un acto "[…] aplicado de


134

forma intencionada de manipulación o modifi-

cación creativa". Su origen está en la:

[…] intención del emisor que realiza esas operaciones creativas impulsado por una determinada finalidad, y culmina en el momento en el que la nueva UF despliega toda una serie de efectos especiales y llamativos (Ibid).

Corpas Pastor y Mena Martínez (2003: 188), por

su parte, afirman que: “[…] las modificaciones

ocupan la parte más inestable, pero también más

creativa, de la variabilidad”.

Las investigaciones tienen su foco espe-

cialmente en el periodismo y en la literatura,

de donde sacan muchos y valiosos ejemplos. Los

que aparecen en Corpas Pastor (1997), Martínez

Marín (1996), Moon (1998), Burger et al. (1982)

siguen, en líneas generales, esta misma

tendencia, y provienen del lenguaje perio-

dístico, publicitario y literario. Según

Sypnicki (1991: 6) citado en Corpas Pastor

(1997: 233), “[…] éste es el recurso profundo

del periodismo satírico”. Koller (1977),

Grassegger (1989) y Wotjak (1991) han confir-


135

mado lo mismo, así como Búrli-Storz (1980) y

Sánchez Corral (1990), que han encontrado con

gran frecuencia modificaciones de UFs en los

textos literarios y en la publicidad.

Según Corpas Pastor (1997), estas alteraciones

están consideradas como manipulación creativa.

Ellas corresponden a la desautomatización de

acuerdo con los investigadores Ruiz Gurillo

(1997), Zuluaga (1997: 2001) y Mena Martinez

(2003), o a la deslexicalización de acuerdo con

Garcia-Page (1989), la modificación de acuerdo

con Barz (1986) y la propia Corpas Pastor, la

manipulación como Montoro Del Arco (2003) lo

denomina, y défigement bajo la perspectiva de

Gross (1996: 20) y Ben Amor (2008). Estas

modificaciones:

[…] además de constituir un uso caracterís-tico de las UFs, no está reñida con la estabilidad (semántica y formal) de la que gozan estas unidades, es más, precisamente depende de ésta y del conocimiento previo de las unidades originales que les sirven de base. (Corpas Pastor, 1997: 233).

Más recientemente, Mena Martínez (2003) ha

hecho un estudio específico sobre las modifica-


136

ciones o desautomatización en el concepto de

esta autora, comparándola con las desviaciones

y las variantes, reforzando la idea de que la

desautomatización es la aplicación de forma

intencionada de cualquier alteración creativa y

ocasional, llevada a cabo con una finalidad

específica. Según García-Page (2008: 208),

Las manipulaciones arbitrarias son por lo general de vida efímera. Como otros tipos de objetos de naturaleza fungible, una vez cumplida su misión en el discurso en que es empleada, la expresión novedosa deja de tener relevancia y muere o se olvida; nunca sustituye, salvo en ese instante de su enunciación, a la expresión genuina que, no obstante, actúa in absentia.

En este proceso, la forma canónica de la unidad

fraseológica puede ocasionalmente ser modifi-

cada, formalmente, no compartiendo los elemen-

tos léxicos con la forma usual registrada en el

discurso y en los diccionarios. La modificación

o desautomatización va más allá de la simple

variación. Este cambio es intencional y tiene

como objeto efectos estilísticos en el texto

según López Roig (2001).


137

Siguiendo a Corpas Pastor (1997), hay un amplio

abanico de modificaciones de las UFs; se las

puede dividir en modificaciones externas y

modificaciones internas o sea, modificaciones

que no aceptan a su estructura formal y

modificaciones que afectan a la estabilidad y

estructura de sus componentes individuales.

Según Corpas Pastor (1997) debido a su

ambigüedad potencial, muchas de estas expre-

siones constituyen secuencias de palabras

altamente polisémicas en contexto.

Según esta autora, las modificaciones textuales

suelen ser por expansión, reducción o

sustitución de las UFs. La adición o expansión

consiste en añadir nuevos elementos externos a

una UF, aumentando el número de componentes,

adjetivos, sustan-tivos, preposiciones que mo-

difican a algún componente de la UF. Como por

ejemplo, en: ‘Portales de coartadas para echar

una cana al aire’ y ‘echar de cuando en cuando

una cana al aire’.

La reducción por acortamiento consiste en la

eliminación de uno o más componentes de una UF

determinada. Se refiere al sentido de la unidad


138

entera, usándose solo algunos de los compo-

nentes. Como por ejemplo en ‘matar la gallina

de los huevos de oro’/‘permitiendo estas

situaciones estamos matando nuestra gallina de

oro’. La sustitución se da por el cambio de

alguno(s) de sus componentes por otro(s)

equivalentes, teniendo en cuenta su relación

semántica o de su relevancia textual.

Hemos encontrado ejemplos de formación

neológica, como por ejemplo, ‘huevos’ y

‘huecos’ (Corpas Pastor 1997: 246) en: ‘Matar

la gallina de los huevos de oro’ y ‘¿Quién va a

matar a la gallina de los huecos de oro?’.

Desde el punto de vista de las modificaciones y

también de las variaciones ocasionales de las

UFs, hay que tener en cuenta que se trata de un

área lingüística de inestabilidad objetiva,

pues dependen de la finalidad con que estas

manipulaciones creativas se llevan a cabo.

La investigación de Medrano Herrero (2000)

sobre la desautomatización de refranes, se basa

en las obras de San Juan Bautista de la

Concepción, nacido en el siglo XVI en la villa

manchega de Almodóvar del Campo (Ciudad Real).


139

Las variantes de refranes encontradas en sus

investigaciones son variantes léxicas, con

cambio de hasta cuatro componentes. Los cambios

se dan en los adjetivos, nombres o verbos.

Además, la variación no ha afectado a la

fijación del refrán en la comunidad

lingüística, como se aprecia en los ejemplos de

la tabla 16.

Tabla 16. Desautomatización de refranes. Nº Forma canónica Desautomatización Tipos de

cambios 1 “A buena

hambre no hay pan malo”

“A buena hambre no hay pan duro”

A veces el cambio es mínimo, representando una variación sinonímica. “malo” por “duro” o “ignorantes” por “obstinados” y “cuerda” por “soga” y “romper” por “quebrar”

2 “De hombres es errar y de ignorantes perseverar”

“De hombres es el errar y de obstinados el perseverar”

3 “La cuerda siempre se rompe por lo más delgado”

“La soga quiebra por lo más delgado”

4 “Dime con quién andas y te diré quién eres”;

“Dime con quién andas, diréte quién eres”

Con el uso enclítico o proclítico del pronombre.

5 “El pie en el lecho y el brazo en el pecho”.

“El brazo en el pecho y la pierna en el lecho”

Con la inversión de las dos partes de la paremia, además de algún sinónimo


140

6 “Como el perro del hortelano, que ni come las berzas ni las deja comer”.

“Como los perros del hortelano, que no comen las berzas porque no son de su manjar, ni las dejan comer para quien son”

Variantes con dos cambios. En este refrán, aparte del plural “perros”, se añade nuevos elementos, explicándolo por qué los perros comen y dejan de comer las berzas.

3.2.7. Variantes lingüísticas y socio-

culturales

En una lengua se encuentran, normalmente, tres

categorias de variaciones lingüísticas, cada

una estudiada por una disciplina. Las variantes

lingüísticas se definen como una forma de habla

que presenta diferencias estructurales y

léxicas en comparación con otras variantes de

la misma agrupación lingüística, por ejemplo,

la pragmática y la dialectología. Las variantes

socioculturales implican una diferencia de la

identidad sociolingüística entre los usuarios

de distintas comunidades lingüísticas. Incluyen

los fenómenos lingüísticos del nivel fonético


141

del español de América y de la Península,

considerando las variaciones diatópicas,

diastráticas y diafásicas.

Las variantes lingüísticas y socioculturales

son denominadas variantes externas léxicas por

Montoro del Arco (2005: 125) y se dividen en:

Variedad diatópica, que es estudiada por

la dialectología.

Variedad diastrática, que es estudiada por

la sociolingüística.

Variedad diafásica que es estudiada por la

pragmática.

A continuación vamos a detallarlas, puesto que

son relevantes para esta tesis doctoral:

a. Las variantes diatópicas son las variantes

encontradas en las diferentes zonas geográficas

donde se habla una lengua. Representa la

pluralidad lingüística de una lengua. En el

caso del español son las variedades dialectales

del español: castellano, leonés, aragonés,

andaluz, extremeño, murciano, canario,


142

valenciano, balear e hispanoamericanos como se

puede ver en la tabla 17:

Tabla 17. Variante diatrópica.

Variantes diatópicas Forma canónica Local Variante Local plantarle la cara a alguien

España dar la cara

América

casarse de penalti España casarse apurado América írsele el santo al cielo

España írsele la onda América

Meter baza España Meter cuchara América

b. Las variantes diafásicas son las

diferencias de modos de habla o registros

determinadas por el contexto social o situación

comunicativa en que se produce la comunicación.

Se distinguen dos variedades de variantes

diafásicas: un registro formal o culto

(requiere una selección de los recursos

lingüísticos y el uso del lenguaje de forma

cuidada, como en conferencias y discursos) y un

registro informal o coloquial (propio de la

comunicación interpersonal), como se aprecia en

los ejemplos: ‘me importa un culo’/‘me importa

un chorizo’, ‘estar en el quinto pino’/‘estar

algo en el quinto coño’.


143

c. Las variantes diastráticas caracterizan el

hablante de un determinado grupo social que

posee una fraseología propia. Así, los grupos

sociales como los estudiantes, políticos,

delincuentes o médicos, poseen una argot o

jerga propia, como se aprecia en los ejemplos:

‘Tener mucha cara’/‘tener mucho morro’.

Una vez delimitados los distintos tipos de

variantes, vamos a centrarnos en esta tesis

doctoral en la parte de la Extracción de la

Información para poder completar todos los

aspectos de los fundamentos teóricos que nos

conciernen en este estudio.


144


145

4. LA EXTRACCIÓN DE LA INFORMACIÓN


146


147

La gran proliferación de textos existentes en

formato electrónico en los últimos tiempos

sobrepasa la capacidad de una persona para

leer, comprender y sintetizar la gran cantidad

de información contenida en ellos. Para ordenar

el manejo de esta información, se han

desarrollado dos estrategias: la Recuperación

de la Información (RI) y la Extracción de la

Información (EI).

Los inicios de la Extracción y Recuperación de

la Información se ubican en la década de 1940

cuando Vannevar Bush (1945) publicó un artículo

que tenía como reto la idea de crear una

máquina, MEMEX, en la cual podría residir una

masa sustancial de conocimientos útiles y

organizados. Los primeros sistemas de Recupera-

ción de la Información empiezan a ser implan-

tados a finales de los años cincuenta e inicio

de los sesenta. Sin embargo, solamente a

finales de la década de 1980 esta tecnología

empieza a ganar relevancia.

La Extracción de la Información (EI) no debe

ser confundida con la Recuperación de la


148

Información (RI), que selecciona, de una gran

colección, un subconjunto de documentos

relevantes basados en una consulta del usuario.

La diferencia entre los objetivos de los

sistemas de la Extracción de la Información y

de la Recuperación de la Información se puede

sintetizar de la siguiente forma: la

Recuperación de la Información recupera

documentos relevantes de una colección,

mientras que la Extracción de la Información

extrae informaciones relevantes de los

documentos. Por consiguiente, las dos técnicas

son complementarias y, cuando se combinan,

pueden producir herramientas interesantes para

el procesamiento de textos (Gatzauskas y Wilks,

1998).

En otros términos, se puede decir que mientras

la Recuperación de la Información recoge

material útil de grandes cantidades de textos

con la finalidad de recuperar únicamente los

que sean relevantes ante una consulta determi-

nada, la Extracción de la Información, por el

contrario, a partir de estos textos, busca

extraer la información relevante que satisfaga


149

las necesidades de información del usuario ante

una solicitud de búsqueda.

Para muchos autores, la Extracción de la

Información es una etapa posterior a la

Recuperación de la Información. La principal

diferencia entre ambas es que la primera

proporciona la información que se busca,

mientras que la segunda proporciona los textos

en los que aparece dicha información.

Los sistemas de Extracción de la Información

escanean una serie de documentos escritos en

una lengua buscando y enlazando la información

concreta en colecciones o flujo de documentos.

Detectan, extraen y presentan la información

relevante e ignoran la extraña e irrelevante de

datos no estructurados, transformándola en

información susceptible de ser tratada automá-

ticamente de forma estructurada al rellenar una

base de datos con la información extraída. Esta

información se clasifica en eventos y

entidades. En el ámbito de esta investigación

trabajamos con dos clases de información: la

fuente de las unidades fraseológicas que es el

corpus y las unidades fraseológicas propiamente


150

dichas. Esta información contiene entidades y

eventos. Las entidades se designan como las

unidades fraseológicas y los eventos se carac-

terizan como los distintos tipos de unidades

fraseológicas consideradas en esta investiga-

ción: locuciones y paremias.

Estos documentos suelen contener información

estructurada, semiestructurada o no estructu-

rada. Inicialmente, los primeros sistemas

tenían como objetivo la identificación de

nombres de personas, organizaciones, lugares,

ciertas expresiones numéricas e incluso sintag-

mas nominales, especialmente para la compren-

sión de mensajes.

EI es una tecnología del Procesamiento de

Lenguaje Natural (PLN) cuya función es procesar

textos no estructurados, localizar partes

específicas de información, o hechos, en el

texto para conformar con éstos una base de

datos. Su meta es extraer de los documentos los

hechos sobresalientes sobre datos de eventos y

entidades. Estos hechos se introducen en una

base de datos que puede usarse en el proceso

más adelante de modo automático. Los sistemas


151

de Extracción de la Información no intentan

entender el texto en el documento de entrada,

sino que analizan porciones de cada documento

que contienen la información pertinente. El

sistema de Extracción de la Información intenta

convertir el texto no estructurado en entradas

de la base de datos codificadas.

Para poder crear un sistema de la Extracción de

la Información, primero se tiene que desarro-

llar un sistema de la Recuperación de la

Información que obtiene documentos con informa-

ción significativa respecto a la solicitud de

búsqueda y, a continuación, generar un sistema

que encuentre y relacione información rele-

vante.

El área de Extracción de la Información, a

diferencia de la de Recuperación de la Informa-

ción, ha tenido un crecimiento acelerado en las

dos últimas décadas. El desarrollo computa-

cional y el gran número de información textual

existente en formato electrónico, unido a la

intervención de la Agencia de Defensa de los

Estados Unidos, hicieron que esta tecnología

alcanzase su auge en la década de los 90,


152

cuando diferentes técnicas se probaron en

pequeñas colecciones de textos (corpus).

La Recuperación de la Información es el proceso

utilizado por las aplicaciones más populares de

Internet (Google, Yahoo, Lycos, etc.)

patrocinados por el gobierno norteamericano.

Estos sistemas se construyeron para realizar

una tarea específica, en función del tipo de

información a extraer en cada caso.

Lo que es relevante se determina mediante guías

predefinidas de un escenario particular,

llamado dominio de extracción, especificadas

con la mayor precisión posible. Desde la

perspectiva del Procesamiento del Lenguaje

Natural (PLN), los sistemas de Extracción de la

Información deben trabajar en distintos

niveles, desde el reconocimiento de palabras

hasta el análisis de oraciones, y desde el

entendimiento a nivel de oración sobre el

análisis del discurso hasta el del texto

completo.

Un ejemplo podría ser un sistema de Extracción

de la Información orientado a la extracción de


153

las unidades fraseológicas que aparecen en

textos literarios o científicos. Este sistema

evidentemente precisaría tener una base de

datos relacional donde estarían almacenadas las

unidades fraseológicas, y operaría de forma que

automáticamente buscaría en el texto todas las

UFs existentes en la base de datos, extrayendo

la información correspondiente y la incorpo-

raría a otra base de datos o tesauro creado

para tal efecto que haría de output. Desde este

punto de vista, la Extracción de la Información

se puede ver como una tarea de clasificación

según distintos patrones. La unidad de la

información que es candidata a ser extraída o

clasificada semánticamente es descrita por un

conjunto de atributos que atienden a distintos

patrones léxicos, sintácticos, semánticos y del

discurso.

La característica del texto donde se hace la

Extracción de la Información tiene gran

influencia sobre la elección de la técnica

utilizada en la construcción de sistemas

Extracción de la Información. A continuación se


154

da una breve descripción de los posibles tipos

de textos que podemos encontrar:

a. Texto estructurado: Un texto se considera

estructurado cuando presenta una semántica

definida, altamente regular, con estructuras

homogéneas, que puede ser procesada automá-

ticamente por los sistemas para Extracción de

la Información. Como ejemplos, se pueden citar

las bases de datos, las hojas de cálculo, etc.

b. Texto semi-estructurado: Los textos semi-

estructurados son aquellos que presentan una

información heterogénea y esparcida con alguna

regularidad en la disposición de los datos.

Como ejemplo de este tipo de texto, se puede

citar una página en XML.

c. Texto no estructurado: Los textos no

estructurados (libres) son aquellos en los que

la información está codificada y no permiten el

procesamiento automático inmediato. Como

ejemplo de este tipo de texto, se puede citar

una página Web o grabación radiofónica.


155

Las técnicas de Procesamiento del Lenguaje

Natural3 han sido bastante utilizadas en el

proceso de Extracción de la Información de

documentos semi-estructurados y libres (Soder-

land, 1999; Cowie y Lehnert, 1996). El objetivo

del uso de esas técnicas de PLN en el contexto

de Extracción de la Información es intentar

comprender textos en alguna lengua natural, a

fin de encontrar información relevante para

extraerla. Los sistemas de extracción basados

en PLN han sido definidos para diferentes

dominios, contando con etapas de procesamiento

comunes a los sistemas de PLN en general y

algunos módulos específicos para la Extracción

de la Información (Rajman y Besançon, 1997).

Diversos trabajos relacionados con la tarea de

Extracción de la Información se encuentran en

la literatura. En general, esos métodos

utilizan reconocedores de estado-finito (Hobbs

et al., 1997). La creación de un diccionario de

reglas de acuerdo con el tipo de texto

analizado emplea técnicas de Aprendizaje de

3 Las técnicas se realizan a través de distintos niveles de análisis como el morfológico y el sintáctico.


156

Máquina para que el ordenador ejecute las

reglas predeterminadas por el autor

automáticamente y así minimizar la partici-

pación humana (Glickman y Jones, 1999).

Las técnicas estadísticas de aprendizaje de la

máquina, por ejemplo, los Modelos Ocultos de

Markov (Hidden Markov Model (HMM)), están

siendo aplicadas en la Extracción de la

Información, especialmente en tareas como el

aprendizaje del modelo de una estructura a

partir de los datos y cómo hacer mejor uso de

datos etiquetados como lo prueban los estudios

de Freitag y McCallum (1999); Seymore, McCallum

y Rosenfeld (1999) y Connan y Omlin (2000).

Otro punto de vista utilizado es la inducción

de Wrappers. Los sistemas Wrappers exploran la

regularidad presentada por textos estructurados

con el propósito de localizar información

relevante. Un Wrapper (Widom, 1995, Ashish et

al., 1997) es un sistema específico para una

clase de fuente de datos que se encarga de

traducir los datos del formato de la fuente de

origen al formato y modelo de los usados por el

Data Warehouse.


157

En general, un Wrapper tiene como objetivo

principal el extraer información relevante

presente en documentos y exportar esa

información como parte de una estructura de

datos; por ejemplo, en una base de datos

(Freitag y Kushmerick, 2000). En el contexto de

la web, el propósito de un Wrapper es convertir

información implícita almacenada en páginas

HTML, en información explícita estructurada,

para un posterior procesamiento (Eikvil, 1999).

En cuanto a la técnica de implementación, esos

sistemas pueden estar construidos de forma

automática, semi-automática o completamente

manual (Freitag y Kushmerick, 2000).

Otros trabajos utilizan conceptos de la

Programación Lógica Inductiva para la

resolución de problemas en PLN como los de

Lopes y Brazdil (1998); Junker y Sintek y Rinck

(1999). Algunas tareas de lenguaje natural que

emplean el aprendizaje relacional incluyen el

aprendizaje de etiquetado categorial (part-of-

speech tagging), el aprendizaje de relaciones

semánticas y el aprendizaje en el contexto de

traducción de la máquina (Cussens y Džeroski,


158

2000). He aquí algunas de las principales

ventajas de la utilización del aprendizaje

relacional en PLN:

a. Las reglas inducidas por sistemas rela-

cionales son comprensibles por lingüistas.

b. Los sistemas relacionales permiten fácil-

mente integrar algún conocimiento lingüístico

de fondo en la definición del problema.

c. La utilización de una representación más

expresiva (basada en lenguaje de primer orden)

para el lenguaje de hipótesis y del conoci-

miento de fondo.

A continuación vamos a detallar algunos de los

aspectos más destacados en este capítulo.

4.1 Evaluación de Sistemas de Extracción

de la Información

Los Sistemas de Extracción de la Información

(SEI) están compuestos por un conjunto de

textos en lenguaje natural de donde se extraen


159

determinados conceptos, elegidos por nosotros,

para una aplicación específica. El método es

distinto al de la Recuperación de la

Información, pero la complementa. Los sistemas

de la Recuperación de la Información buscan

documentos con información significativa, como

son los casos de los motores de búsqueda, donde

se puede buscar cualquier palabra de cualquier

tema.

Sin embargo, un SEI rastrea la información

relevante y específica en los documentos, la

extrae y la organiza rellenando una base de

datos. La información requerida está

previamente definida por un diccionario de

patrones. Este proceso es diferente al de la

Recuperación de la Información, cuya informa-

ción es buscada por el usuario en un campo

específico.

El campo de la extracción automática de la

información fue creado a finales de la década

de los 80 por DARPA (Defense Advanced Research

Projects Agency), y fue pensado para extraer

información específica. Se desarrollaron diver-

sas conferencias para desarrollar el


160

entendimiento de mensajes, conocidas como MUCs

(Message Understanding Conference), centradas

en la Extracción de la Información. El

principal objetivo de las mismas fue la

evaluación de sistemas de la Extracción de la

Información desarrollados en diferentes centros

de investigación, proponiéndose en cada uno de

ellos un dominio distinto y nuevo.

Las conferencias sirvieron para presentar

sistemas nuevos de Extracción de la Información

para observar cuál lograba mejores resultados,

de acuerdo con las especificaciones determi-

nadas en cada MUC para la tarea de Extracción

de la Información. Los dominios presentados en

los MUCs hasta 1998 se pueden ver en la figura

6, mientras que el nivel de evaluación aparece

en la figura 7.


161

Figura 6. Dominios de extracción utilizados en las

MUC´s.

Figura 7. Mejores resultados reportados en las MUC´s.

A partir de los MUCs fueron confeccionados

varios sistemas, como por ejemplo: Autoslog

Riloff (1993), PALKA Kim y Moldovan (1995),


162

Crystal Soderland et al. (1995), Rapier (Califf

y Mooney, 1997), Nymble (BBN) Bikel et al.

(1997).

4.2. Métricas de evaluación

Las métricas de evaluación para la Extracción

de la Información fueron definidas durante las

MUCs (Conferencias de Entendimiento de

Mensajes). El estudio realizado por medio de

las cuatro primeras MUCs (Sundhelm, 1992)

suministraron la base para la definición de las

medidas de evaluación existentes.


fueron evaluados en función de la Precisión, la

Cobertura, la medida F y el Fallout. Para la

evaluación de los sistemas de Extracción de la

Información se suelen utilizar las mismas

medidas de precisión y cobertura utilizadas en

los sistemas de Recuperación de la Información,

teniendo en cuenta la similitud de los

resultados que se quieren obtener.


163

En la tarea de Extracción de la Información, la

cobertura (Recall), es definida como la

cantidad de datos correctamente extraídos sobre

la información relevante existente en los

textos. La precisión es definida como la

cantidad de información correctamente extraída

en relación con el total de las mismas. La

Medida-F combina la cobertura y la precisión.

La Tasa de fallo (Fallout), indica la habilidad

del sistema para ignorar la información

errónea.

Resumiendo, la cobertura se refiere a la

cantidad de información relevante que se ha

extraido correctamente, aunque la precision se

refiere a la confianza de la información

extraída o la capacidad para extraer todos los

registros correctos. En función de la plantilla

de la extracción, la precisión (P) y la

cobertura (C) son definidas, respectivamente,

en las ecuaciones:


164

En estas ecuaciones, N1 es el número de

extracciones correctas realizadas y N2 el

número de extracciones posibles existentes en

el texto. Estas medidas están inversamente

relacionadas, o sea, cuando ocurre un aumento

en la cobertura, la precisión tiende a

disminuir y viceversa.

En la tentativa de valorar un sistema de

Extracción de la Información teniendo en cuenta

la cobertura y la precisión, se puede utilizar

otra medida llamada medida F (F-measure), que

combina las medidas anteriores, presentadas en

la siguiente ecuación:

En esta ecuación, el parámetro ß cuantifica la

preferencia de la cobertura sobre la precisión.

Frecuentemente es usado ß=1. La ecuación de

abajo tiene el propósito de valorar sistemas de

Extracción de la Información ponderando las 2

medidas:


165

La tasa de fallo o fallout representa la

porción de los documentos no relevantes que son

extraídos:

En esta ecuación, A equivale a las respuestas

incorrectas devueltas y R son las oraciones con

información falsa. El uso práctico de estas

medidas de evaluación se verá en más detalle en

el capítulo de los resultados de esta tesis

doctoral.

4.3. Los métodos

La ingeniería del conocimiento se basa en

estructuras lingüísticas que conforman sistemas

conceptuales variables que ofrecen respuestas

probables. Siguiendo a Hutchins y Somers (1992:

417-422), “Esta visión cognitiva se está

aplicando en muchos de los retos asociados al


166

procesamiento del lenguaje natural. De esta

forma, las memorias de traducción, o córpora

textual paralelo, están siendo utilizados para

la construcción de sistemas de traducción

automatizada, los cuales se indizan utilizando

bases de conocimiento”.

Las gramáticas se construyen manualmente y el

experto tiene la tarea de refinamiento de los

sistemas, a través del estudio del corpus. A

nivel técnico, requiere que el diseñador del

sistema de Extracción de la Información esté

familiarizado con los recursos lingüísticos

existentes y los requerimientos del dominio,

para fijar las reglas que deben aplicar y las

gramáticas de extracción que requiere el

sistema. El desarrollo de las reglas se produce

por medio del conocimiento general, la intuí-

ción o las heurísticas. Dentro de la Ingeniería

del conocimiento hay dos formas de extraer los

patrones:

a. La aproximación molecular. El experto,

después de haber identificado los principales

patrones de los textos en cuanto a su estruc-

tura, construye las reglas para generalizar


167

esos patrones. Posteriormente, busca los

patrones que no fueron abarcados por las

primeras reglas, construyendo otras nuevas,

cuyo objetivo es la búsqueda para una mayor

precisión.

b. La aproximación atómica. La idea es que la

información que se desea extraer se centra en

las frases nominales y en los verbos de una

determinada clase, pues se asume que ahí está

toda la información de interés expresada en

sucesos o relaciones. De este modo, se obtienen

todas las descripciones posibles de los sucesos

y de las relaciones en el texto. Luego, los

resultados se combinan para obtener una

estructura completa. Al final esas estructuras

se filtran según criterios predefinidos, lo que

es posible cuando las entidades en el dominio

se identifican fácilmente, es decir, las

unidades fraseológicas.


168

4.4. Tipos de aproximaciones


suelen utilizar las aproximaciones de la

Ingeniería del Conocimiento, los Separadores

Lineares, el Aprendizaje Estadístico y el

Aprendizaje Automático (Baeza-Yates et al.,

1999 y Jurafsky y Martín, 2000).

Para que un sistema de la Extracción de la

Información pueda reconocer las unidades

fraseológicas en un corpus, se hace necesaria

la construcción de un diccionario de patrones.

A diferencia de un sistema de la Recuperación

de la Información, donde a partir de una o más

palabras, el sistema retorna un conjunto de

documentos que las contienen, un sistema de la

Extracción de la Información retorna exclusi-

vamente la información requerida, generando de

forma automática los patrones de la informa-

ción.

Existen dos aproximaciones que intentan

resolver esta tarea de forma automática,

tomando como referencia datos extraídos de los

corpus textuales de entrenamiento como suelen


169

ser los datos de procesamiento: el método

supervisado y el método no-supervisado. La

diferencia entre ambos es que el primero se

basa en un corpus previamente etiquetado y el

segundo en patrones sintácticos.

El método supervisado de clasificación consta

del aprendizaje de reglas, el aprendizaje

estadístico y los separadores lineales, como se

expresa en la tabla 18.

Tabla 18. Aprendizaje automático. Nombre del sistema

Clase Modelo Textos Fragmento Exacto

AutoSlog Crystal

Aprendizaje De Reglas

Aprendizaje proporcional

NE No

SRV Aprendizaje Relacional

SE Sí

RAPIER WHISK NE,

SE, E TEXTTRACTOR

Separadores Lineales

Clasificadores SE

SNOW-IE COA NE y

SE LHMM Aprendizaje

Estadístico Modelo Oculto de Markov

SI HMM

TC

La primera columna indica el nombre del

sistema. En la columna textos, NE representa

textos no estructurados, SE textos semies-

tructurados y E textos estructurados.


170

A continuación vamos a detallar los distintos

tipos de aprendizaje automático. Los modelos de

aprendizaje automático y las técnicas estadís-

ticas sirven para extraer regularidades del

lenguaje que se puede utilizar en la implemen-

tación de los Sistemas de Procesamiento de

Textos:

a. Aprendizaje de Reglas. Es un auxiliar en

la construcción de sistemas de Extracción de la

Información. Esta aproximación utiliza la

programación lógica inductiva. El contexto en

el cual trabajan puede ser por aprendizaje

proposicional o relacional. Ambos requieren

marcaje a priori de ejemplos en el corpus de

entrenamiento, lo que hace que el proceso sea

muy laborioso, como se puede ver en la figura

8.


171

Figura 8. Aprendizaje de reglas4.

La representación del aprendizaje proposicional

se basa en los ejemplos de un concepto en

términos de la lógica de proposiciones. Autos-

log y Crystal son ejemplos de sistemas

desarrollados mediante el aprendizaje proposi-

cional.

Autoslog (Riloff, 1993) prescinde de la

supervisión. La intervención humana se limita a

clasificar como relevante o irrelevante el

texto que se incorpora al proceso de

aprendizaje. Crea un diccionario de patrones de

extracción especializado poseyendo un conjunto

de patrones sintácticos generales y asume que

4 http://www.iula.upf.edu/materials/041110rodriguez.pdf.


172

posteriormente un especialista filtre los

patrones producidos.

Crystal (Soderland et al., 1995) es un sistema

que utiliza técnicas de formación de conceptos

(Concept Induction Learning Michalski), y usa

un corpus anotado para el aprendizaje (anali-

zado sintácticamente). Así mismo, crea un

diccionario de patrones de extracción genera-

lizando patrones identificados en el texto por

un especialista.

Palka desarrolla patrones de extracción contan-

do con un concepto de jerarquía para guiar las

generalizaciones y especializaciones. Esos

sistemas han contado anteriormente con una

etapa de análisis de frases para identificar

elementos sintácticos y sus relaciones, y

necesitan de un procesamiento adicional para

completar las plantillas.

Rapher (Califf y Money, 2003) (Robust Automated

Production of Information Extraction Rules), es

otro sistema que, a diferencia de los

anteriores, aprende reglas para hacer la tarea

completa de Extracción de la Información. Éstas


173

extraen automáticamente la información relevan-

te de los documentos sin necesitar un análisis

sintáctico previo de las oraciones ni realizar

algún tipo de post-procesamiento. Su algoritmo

de aprendizaje incorpora varias técnicas de

sistemas de Programación Lógica Inductiva y

consiste básicamente en una busca (bottom-up)

por patrones que caracterizan el texto. El

sistema RAPHER se ha basado en los siguientes

sistemas: GLEM (Muggleton y Feng, 1992),

CHILLIN (Zelle y Mooney, 1994) y PROGOL

(Muggleton, 1995).

b. Aprendizaje estadístico de aprendizaje.

Comprende un conjunto de técnicas, desde el

simple cálculo de medias hasta la construcción

de modelos complejos como las redes bayesianas

o las redes neuronales. Los sistemas basados en

Modelos Ocultos de Markov o HMMs como el

DATABOLD (Borkar, Deshmukh y Sarawagi, 2001) o

el DVHMM (Takasu, 2003), son sistemas

determinísticos de aprendizaje estadístico que

representan el conocimiento necesario para

extraer los fragmentos relevantes de los

textos, es decir, los patrones de extracción


174

son representados por HMMs. En los textos, este

modelo se lleva a cabo identificando los grupos

de caracteres separados por signos de

puntuación (tokens), espacios en blanco o las

combinaciones entre ellos. Este modelo extrae

información de textos desestructurados, gene-

rando, en contrapartida, un registro estruc-

turado.

La precisión obtenida es generalmente alta en

la extracción de la información. Sin embargo,

los sistemas que usan los Modelos Ocultos de

Markov consumen mucho tiempo en su

procesamiento.

c. Separadores lineales. Es una técnica más

rápida para crear los patrones de extracción

requeridos. No requiere la intervención de un

experto en el proceso de aprendizaje, empleando

algoritmos de aprendizaje automático para

inducir el conocimiento necesario a partir de

un conjunto de corpus de entrenamiento. Algunos

métodos basados en separadores lineales han

sido aplicados en tareas asociadas a la

Recuperación de la Información y al

procesamiento de documentos textuales, logrando


175

resultados competitivos en la tarea de la

categorización de documentos. Cohen y Singer

(1996) y Lewis et al. (1996).

A diferencia de los patrones de extracción, que

requieren la intervención de un experto en el

proceso de aprendizaje (sistemas de aprendizaje

de reglas y aprendizaje estadístico), esta

técnica emplea algoritmos de aprendizaje

automático, creando de forma más rápida los

patrones de extracción requeridos. Esta meto-

dología se basa en el aprendizaje automático,

buscando inducir el conocimiento necesario

desde un conjunto de documentos de

entrenamiento previamente etiquetado. La téc-

nica incluye ejemplos negativos de extrac-ción.

Las entidades relevantes y las irrelevantes son

separables linealmente, tras-formando así el

problema de extracción en un problema de

clasificación. Ejemplos de esta aproximación

son los sistemas: Textractor, SNoW-IE y CoA.

Esta técnica presenta una exacta extracción de

los fragmentos de textos revelantes,

especialmente cuando se emplea en textos

semiestructurados y desestructurados.


176

4.5. Sistemas informáticos de extracción

de las unidades fraseológicas

La Lingüística de Corpus, haciendo uso de las

técnicas facilitadas por el Procesamiento del

Lenguaje Natural, ha fomentado la aparición de

varias herramientas como la traducción automá-

tica, la extracción y Recuperación de la

Información enfocadas para la descripción y el

análisis lingüístico. Se pueden dividir entre

las que se centraron en el desarrollo de

sistemas para la extracción automática de

terminología y los sistemas para la extracción

de colocaciones. Los campos de aplicación de

estas herramientas se pueden dividir en dos

grupos: extracción de terminología, extracción

de fraseología. La norma ISO 1087 (1990) define

el término como “La designación de un concepto

definido en una lenguaje especializado mediante

una expresión lingüística.”

Dado que esta tesis doctoral se centra en las

herramientas desarrolladas para la extracción


177

terminológica, vamos a realizar un breve de

este tema.

Las primeras investigaciones desarrolladas con

el objetivo de extraer unidades fraseológicas,

enfocaban el problema desde la perspectiva de

las regularidades sintácticas o similitud

lexical (Dagan, 1994, Dagan y Church, 1995,

Bourigault, 1996, Blank, 1998, Bourigault y

Jacquemin, 1999). Dagan y Church (1995),

trabajaron para los laboratorios ATyT Bell y

construyeron una herramienta semi-automática

(Termight) para ayudar a los traductores

profesionales y a los terminólogos a identi-

ficar términos técnicos en sus traducciones.

Esta herramienta hace uso de un marcaje de las

partes de la oración (part-of-speech) y está

basada en algoritmos para el alineamiento de

palabras y la extracción de términos candidatos

y sus traducciones.


178

Figura 9. Interfaz monolingüe del Termight.

En la figura 9 se puede ver la interfaz del

usuario que consiste en 3 ventanas: (1) Listado

de entrada de términos candidatos (arriba a la

derecha), (2) Listado de salida de términos,

como construido por el usuario (arriba a la

izquierda) y (3) Las líneas de concordancia

asociadas con el término corriente, indicado

por la posición del cursor en la pantalla.

En la figura 10 se pueden apreciar dos

pantallas. En la primera, las traducciones

candidatas con sus frecuencias y una

concordancia bilingüe para cada candidata. En

la segunda el glosario construido en base a la

traducción semiautomática hecha por Termight.


179

Figura 10. Interfaz bilingüe del Termight.

Para llevar a cabo un estudio sobre la

extracción basada en las regularidades

sintácticas, se realiza un análisis de la frase

para que se pueda determinar qué papel juegan

las palabras que componen los diferentes casos

gramaticales y por qué puede ser de poca

eficacia en otras lenguas. La frase está

dividida en constituyentes sintácticos (sujeto,

forma verbal, complemento directo, complementos

indirectos y complementos circunstanciales).

Los términos constituyentes de una frase suelen


180

representarse en un marco cuyo elemento

fundamental es el verbo.

Este enfoque, sin embargo, exige un

conocimiento profundo de la lengua en estudio,

siendo de poca escalabilidad para otras

lenguas. Para este sistema, el patrón

sintáctico más usado es el Part-of-speech (POS)

de una palabra, o sea, las categorías

gramaticales de la lengua: sustantivo, verbo,

adjetivo, adverbio, artículo, etc. Este proceso

se realiza con un marcaje de POS en el corpus,

asignándose la categoría gramatical a cada

palabra encontrada, teniéndose en cuenta las

características morfológicas y sintácticas del

lenguaje.

Al final del proceso de reconocimiento de

patrones, se obtiene un etiquetado, como se

puede apreciar en la tabla 19:

Tabla 19. Ejemplo de etiquetado

POS Variación morfológica Etiquetado

verbo en indicativo VIN verbo en condicional VCO verbo en subjuntivo VSJ grupo verbal finito VP objeto directo del verbo finito

VP DOBJ


181

Verbo

grupo del verbo en infinitivo para no auxiliares

VP_INF

objeto directo del infinitivo VP_INF_DOBJ

secuencia de otros objetos del infinitivo

VP_INF_OBJS

modificador del verbo VP_MODS

secuencia otros objetos del verbo finito

VP_OBJS

núcleo del grupo verbal VP_V núcleo del grupo del infinitivo

V_INF

Posteriormente, en un nuevo enfoque tiene lugar

la identificación de nombres compuestos a

partir de simple filtros lingüísticos,

aplicando medidas estadísticas de asociación

para elegir UFs entre las candidatas a unidades

fraseológicas. Sin embargo, en este sistema no

se incluyeron las locuciones y las paremias.

Las técnicas de extracción estaban restringidas

a la estructura y tamaño de las frases y

teniendo en cuenta esta técnica, fue construido

el sistema Alethlp o Erli.

El sistema LExTER (Logiciel d'EXtraction de

TERminologie), realizado por Bourigault (1994),

es un software para extraer terminología semi-

automáticamente a partir del alineamiento de


182

palabras. Su arquitectura es muy similar al de

Termight. A diferencia de Termight, LExTER

extrae términos candidatos de documentos mono-

lingües. A partir de la entrada de un docu-

mento, el software hace un análisis sintáctico

y produce una red de candidatas a unidades

terminológicas a partir del que ha sido

introducido por el usuario, cuyo resultado es

sometido a un experto para ser validado. Los

términos pueden ser simples o compuestos.

Para identificar las unidades terminológicas,

LExTER procede en dos etapas principales: En el

primero estadio, LExTER usa un diccionario de

reglas para categorizar todas las palabras

(sustantivos, adjetivos, verbos, etc.)

identificándolas por la forma que tienen en el

diccionario. En un segundo estadio, LExTER

analiza sintácticamente estas frases buscando

extraer subgrupos de palabras que son

candidatas a unidades terminológicas. LExTER

detecta solamente los nombres compuestos

“canónicos”, sin tener en cuentas las

variantes. Se puede apreciar en la figura 11 la

interfaz de LExTER.


183

Figura 11. Interfaz de LExTER.

En cambio, los estudios más recientes buscan

identificar las unidades fraseológicas inclu-

yendo sus variantes, pues no siempre la forma

canónica de las UFs se encuentra como tal en el

corpus, siendo necesario detectar las palabras

existentes en la periferia o en el interior de

la UF. Por ello, los sistemas actuales intentan

detectar y extraer, además de las UFs

canónicas, sus variantes. Ese tipo de

variaciones se pueden observar en los ejemplos

‘como meter cerveza de contrabando a cualquier

sitio’, ‘me cago en tu puta madre y en el


184

cornudo de tu padre’, ‘no pude pegar ni un

ojo’, ‘nunca nos van a quitar de la boca

nuestro pan’, ‘tener una cabeza muy bien

amueblada’.

Estos modelos se basan en medidas estadísticas

y lingüísticas de asociaciones que existen

entre los componentes de cada UF. De este modo,

es posible detectar y extraer las unidades

fraseológicas a partir de regularidades esta-

dísticas. La principal ventaja que presentan es

su flexibilidad respecto al alto grado de

extracción de todos los tipos de UFs. Son

modelos propuestos de esta tercera generación

de algoritmos creados por Thurmair (2003),

Dobrov et al. (2003), Alegria et al. (2003),

Dias y Pereira Lopes (2005) y Duan et al.

(2006). Esta corriente incluye diversos

proyectos que consideramos relevantes en esta

tesis doctoral. Duan et al (2006) proponen una

nueva perspectiva para la extracción de

unidades fraseológicas (equivalente en inglés a

Multi-word Expression), basada en el alinea-

miento de los genes que, según los autores,

tienen una secuencia similar a la secuencia


185

textual. La técnica utilizada es la de la

teoría informática (Theory of Longest Common

Subsequence o LCS), cuyo método se basa en los

n-grams.

Deane (2005), por su parte, propone un nuevo

método para identificación de multiword units,

equivalentes a las unidades fraseológicas en

español. Este método no paramétrico usa una

medida heurística basada en el ranking. El

método enfoca el alineamiento de secuencia

múltiple para la extracción de unidades

fraseológicas. Esa técnica de MSA se combina

con una técnica conocida como reglas guiadas

por el error que junto a la eficiencia mejorada

de métodos tradicionales, lo que le garantiza

la obtención de resultados satisfactorios para

la extracción de las MWE.

Por otro lado, Dias et al. (2001) utilizan una

herramienta estadística, SENVA (Software for

Extracting N-ary Verbal Associations), y una

versión personalizada de SENTA (Software for

Extracting N-ary Textual Associations) con el

propósito de extraer paráfrasis verbales del

estonio. SENVA utiliza una fórmula matemática y


186

un algoritmo para calcular el grado de

coherencia entre las palabras de un texto. Se

define un modelo matemático para describir el

grado de coherencia que existe en las palabras

constituyentes de un n-gram. Se define la

Expectativa Normalizada que existe entre n

palabras como la expectativa media de la

presencia de una palabra en una posición dada,

reconociendo la presencia de otras palabras (n-

1) por sus posiciones.

Además de las investigaciones antes mencio-

nadas, hay una infinidad de trabajos que

enfocan la extracción de unidades fraseológicas

bajo una perspectiva del Procesamiento del

Lenguaje Natural, especialmente para el inglés.

Por ejemplo, desde un enfoque basado en el uso

del ordenador para la enseñanza de la

fraseología, Greaves y Warren (2007) han

desarrollado una metodología de Recuperación de

la Información que denominaron Concgram, una

máquina de búsqueda de asociaciones de 2 hasta

5 palabras. Compara n-grams en un texto en

busca de patrones fraseológicos, recuperando

las co-ocurrencias existentes.


187

El usuario puede usar ConcGram para encontrar

todas las asociaciones de palabras en un texto,

tanto gramatical como semántico. La plantilla

de salida cataloga los resultados por la

frecuencia de ocurrencia y hace la asociación

de 2 a 5 palabras que co-ocurren dentro de un

rango de hasta 12 palabras. El usuario

introduce el texto para que el sistema haga el

análisis. Tiene además otros recursos, como

listado de palabras, concordancia, etc. Como

ejemplo de la recuperación de asociaciones de

palabras hecha por ConcGram, se pueden apreciar

en la figura 12 los resultados de una búsqueda

de las palabras Asia, world y city, es decir un

ConcGram de 3 palabras.

Figura 12. Resultado de una búsqueda en ConcGram.


188

Otra herramienta conocida es Colex,

desarrollada por Orliac y Dillinger (2003). Se

trata, como ConcGram, de un sistema híbrido

para extracción de colocaciones del tipo verbo

+sustantivos que combina métodos lingüís-ticos

y estadísticos para extraer colocaciones de

textos automáticamente.

La extracción basada en sintaxis es limitada y

no hace diferenciación entre colocaciones del

tipo to make money y combinaciones libres del

tipo to make a table. Según Orliac (2008), el

sistema hace un análisis lingüístico de las

colocaciones cuyo modelo fue elaborado dentro

del Meaning-Text Theory (Mel’cuk 1998, 2003)

para representar las colocaciones, basándose en

tres gramáticas artificiales con relaciones

gramaticales distintas: sujeto+verbo, verbo+

objeto directo y verbo+objeto indirecto. En los

experimentos a que fue sometido Colex alcanzó

un nivel de Precision del 71% en dos pruebas

estadísticas, según Orliac y Dillinger (2003).

En España, más recientemente Alegria et al.

(2006) presentaron ELexBI, un sistema para

extraer automáticamente pares de términos


189

equivalentes de memorias de traducción del

español y el vasco. El enfoque se basa en la

extracción monolingüe de candidatos a términos

en cada lengua, la creación de bigramas

candidatos para las traducciones de ambas

lenguas y, por último, la selección de los

mejores pares de candidatos. Se puede apreciar

su interfaz en la figura 13.

Figura 13. Interfaz de ElexBI.

La estructura del proceso se puede resumir en

dos etapas, primero se identifican los términos

candidatos de cada lengua mediante técnicas

lingüísticas y después se emparejan dichos

términos mediante técnicas estadísticas.


190


191

5. OBJETIVOS


192


193

La estrategia de trabajo que seguimos se sitúa

en el ámbito de la fraseología aplicada,

partiendo de la observación directa de los

datos lingüísticos obtenidos de un corpus de

entrenamiento. Esta aportación pretende

explicitar los criterios y presentar una

herramienta informática para la detección y

extracción automática de las UFs desde la

perspectiva del Procesamiento del Lenguaje

Natural.

A continuación pasamos a exponer la hipótesis

que se plantea en esta tesis doctoral. Las UFs,

aunque son expresiones fijas, son grupos

sintagmáticos con flexibilidad sintáctica. Los

verbos se conjugan, se cambia el tiempo verbal,

se puede cambiar el género de los nombres, los

sustantivos, los adjetivos e incluso insertarse

palabras entre las UFs o en la periferia de

éstas. La variación dentro de las UFs plantea

serias dificultades léxicas, sintácticas y

morfológicas para realizar sistemas informá-

ticos que las detecten y extraigan. Si el

sistema informático no advierte su presencia en

el texto debido a su variación, puede que no se


194

detecten todas las UFs que aparecen en el

mismo.

Como consecuencia de esta hipótesis, los

objetivos generales que se plantean en este

estudio son, por un lado, realizar una

investigación que ayude a solucionar las

lagunas existentes en el campo de la

fraseología. Por otro, crear una herramienta

informática que, conjuntamente con una base de

datos sólida, pueda permitir la detección y

extracción de las UFs en un corpus específico.

Para lograr estos objetivos generales,

proponemos los siguientes objetivos especí-

ficos:

a. Desarrollar un sistema informático que

permita detectar una unidad fraseológica

en castellano con su equivalencia en

portugués, lo cual no se puede realizar

con los traductores automáticos en la

actualidad. Ello nos servirá para ver las

equivalencias lingüísticas de dos lenguas

y así ayudar a los traductores.


195

b. Ayudar a identificar las UFs para que

sirvan de apoyo a estudiantes y traduc-

tores. No basta con incluir las UFs en un

diccionario electrónico junto con su

equivalencia, es preciso que el sistema

sepa cómo reconocerlas en el corpus, sea

cual sea su forma de aparición. Las ha de

distinguir de otras unidades sintagmáticas

y extraerlas automáticamente a partir de

un corpus textual, mostrando ejemplos de

las UFs en el texto. Esta herramienta,

además de servir para el área de

traducción, se puede utilizar también para

la elaboración de diccionarios fraseo-

lógicos.

c. Sistematizar el tratamiento de la

información fraseológica en una base de

datos bilingüe onomasiológica que permita

ver la variación que existe en las UFs.


196


197

6. ARQUITECTURA


198


199

Un programa informático dista bastante de ser

un software. Un software se desarrolla, no se

fabrica en el sentido clásico. De hecho, un

software es la combinación del programa

ejecutable para una plataforma específica, el

código ejecutable, su configuración, la

descripción de la arquitectura y la documen-

tación.

La construcción de un software requiere

mantenibilidad, es decir, la capacidad del

software para ser cambiado, para poder cumplir

con las necesidades de cambios, de ser seguro e

integro para no dañar la información, causando

pérdidas económicas. También necesita eficien-

cia para utilizar los recursos de una manera

óptima, así como usabilidad, es decir, pro-

porcionar una interfaz de usuario amigable con

una documentación fácil de entender.

Desde la perspectiva del producto, el proceso

tecnológico empieza con la identificación de

una necesidad o el planteamiento de un

problema. En general, se parte de los recursos

disponibles en el entorno junto con los


200

conocimientos y, mediante el seguimiento de un

método, se intenta desarrollar un conjunto de

procesos para obtener un producto tecnológico

que satisfaga la demanda.

A continuación vamos a detallar las distintas

fases que hemos seguido en la elaboración del

sistema informático que presentamos en esta

tesis doctoral.

Primer paso: La identificación del problema.

Entre las unidades lingüísticas, las unidades

fraseológicas están caracterizadas por ser las

unidades de significado que ofrecen una difi-

cultad mayor a la hora de encontrar una unidad

equivalente en el texto meta. Los traductores

automáticos se enfrentan a muchas dificultades

al traducir los fenómenos lingüísticos y

especialmente, los lexemas complejos, la

ambigüedad semántica y estructural y los signos

lingüísticos como la polisemia y la homonimia.

Los resultados de la traducción automática de

las unidades fraseológicas (dichos, refranes,

frases proverbiales, etc.), no han sido muy

satisfactorios hasta el momento. Las UFs tienen


201

peculiaridades que se muestran, a veces,

extremamente difíciles en la traducción automá-

tica.

Para el desarrollo de esta hemos tenido en

cuenta que, además de incluir las unidades

fraseológicas en un diccionario electrónico

(junto con su explicación y/o su equivalencia),

es preciso que el sistema sepa cómo

reconocerlas como tales en el corpus. A este

hecho hemos de añadir la necesidad de que esté

etiquetado o lematizado, orientado hacia

usuarios de una lengua concreta, pero fácil-

mente reconvertible a otras lenguas.

En esta fase se recogió toda la información

disponible para el análisis del problema. Se

utilizó la investigación documental en varias

fuentes bibliográficas especializadas en

fraseología, Extracción de la Información y

Procesamiento del Lenguaje Natural, además se

buscó información proveniente de proyectos

enfocados en la extracción de terminología,

colocaciones y sentencias. Utilizamos también

Internet, visitando varios sitios web a través

de buscadores como Google e Yahoo, localizando


202

información relacionada con el tema de la

investigación. Se pudo determinar la necesidad

de contar con una herramienta distinta a las

tradicionales para la extracción de unidades

fraseológicas, ya que las existentes no

atendían nuestras necesidades.

Aunque muchas clasificaciones de las unidades

fraseológicas pensadas por diferentes autores

incluyen las colocaciones como integrantes del

sistema de unidades fraseológicas, decidimos

que nuestro sistema de extracción de UFs

detectaría y extraería solamente las locuciones

y los enunciados fraseológicos. En la tabla 20

se pueden apreciar las características más

importantes de las diferentes herramientas que

hemos detallado en el capítulo 4 de esta tesis

doctoral. Esta comparación nos aportó una

visión general de las herramientas más

comunmente utilizadas en el campo de la

extracción de la fraseología y lo comparamos

con las expectativas de la herramienta

informática que deseábamos desarrollar,

PhraseNET.


203

Tabla 20. Sistemas de extracción.

Características

PhraseNET

ConcGrams Colex ElexBI Termight LExTER

Año 2009 2009 2000 2009 1994 1992 Lengua- jes

Bilin- güe

Monolin- güe

monolingüe Bilingüe Bilingüe Monolin- güe

base estadís- tica

Análi- sis Vecto- rial

- filtros estadísti-cos

Frecuencia y mutual information

Frequency Frecuen- cia

tipo de corpus

Cual- quier uno

Cualquier uno

Especiali-zado

Especiali-zado

Especializado

Especializado

type of Extraction

Locu cio nes y paremias

Coloca- ciones

Colocacio-nes

términos Términos Términos

Méto- dos

no alineamiento

no alineamiento

no alinea-miento

alineamiento

Alineamien- to

Alineamiento

corpus etiquetado

No no ? sí Sí Sí

área de aplica- ción

Unida- des fraseo- lógicas

Coloca- ciones

Colocacio-nes

Terminología

Terminolo- gía

Termi- nolo- gía

Valida- ción

Automá- tica

? Semiautom. semiautom. Semiautom. Semiautomático

Preci- sión

99% ? 71% 100% ? ?

Si observamos la tabla, cuatro de los sistemas

se basan en un corpus especializado, es decir

Colex, ElexBI, LExTER y Termight, aunque los

tres últimos extraen terminología propiamente

dicho, quedándose Termight como único entre los

cuatro que extrae terminología monolingüe.

PhraseNET, por su parte es el único que extrae

locuciones y paremias, es decir, unidades

fraseológicas.


204

Colex y ConcGram extraen colocaciones y se

distinguen del resto por basarse en el método

vectorial de análisis de similitud entre

unidades fraseológicas canónicas y candidatas.

Los demás se basan en algún método estadístico.

Si compararmos PhraseNET y ConcGram, observamos

que PhraseNET es un sistema de extracción de

locuciones y paremias grosso modo, aunque

ConcGram es un sistema de recuperación de

colocaciones. Es decir, en ambos, el usuario

importa algún archivo para ser procesado por el

sistema. Las diferencias empiezan en este

punto.

PhraseNET posee un rango de conexiones externas

mucho más amplia que ConcGram. Como ejemplo,

podemos citar el caso de MSWORD©. En ConcGram

el usuario necesita salvar el archivo hecho en

MSWORD en formato .txt, y solamente después

importar al ConcGram, manualmente. En PhraseNET

el propio sistema importa, directamente de

MSWORD, convertiéndolo en base de datos, sin

que el usuario tenga que hacerlo manualmente.

El sistema ConcGram permite al usuario

introducir una o más palabras para que éste


205

haga la búsqueda en el corpus, presentando las

asociaciones de palabras que existan entorno de

la palabra buscada. Sino hay asociaciones, él

la(s) presenta tal y cual parecen en el texto.

PhraseNET extrae automáticamente todas las UFs

que puedan existir en el corpus, desde que

suelen ser reconocidas por su base de datos

interna. En verdad ConcGram se asemeja más al

aplicativo WordSmith Tools, cuyos rasgos

principales se puede ver en De Lucca y Nunes

(2002).

Segundo paso: El lenguaje de programación.

Desde hace años se está trabajando con la

programación orientada a objetos y con sistemas

de gestión de bases de datos (DbaseIII,

Clipper, FoxPro). La programación orientada a

objetos es un paradigma de programación que usa

objetos y sus interacciones para diseñar

aplicaciones y programas de computadora.

En relación a los sistemas de gestión de base

de datos, dBASE fue el primer sistema de

gestión de base de datos usado durante mucho

tiempo para microcomputadoras, publicado por


206

Ashton-Tate. Clipper es un lenguaje de

programación procedural e imperativo creado en

1985 por Nantucket Corporation. Clipper fue

creado como un compilador para el sistema

gestor intérprete de bases de datos dBase III.

FoxPro es un lenguaje de programación orientado

a objetos, y también un Sistema Gestor de Bases

de Datos o Database Management System (DBMS),

publicado originalmente por Fox Software y

posteriormente por Microsoft.

De este modo, decidimos trabajar con el

lenguaje Visual Fox Pro 9.0. Es un lenguaje de

programación orientado a objetos y procedural,

un Sistema Gestor de Bases de y desde la

versión 7.0, un Sistema administrador de bases

de datos relacionales. Una de las ventajas del

Visual Fox Pro es que comparte la base

sintáctica y la gestión del formato DBF de

fichero de base de datos, aunque difiere en la

gestión de los campos MEMO y los archivos de

índices.

Se configuró el software para trabajar a través

de una plataforma de 32 bits en el sistema

operativo Windows 98/Me/2000/XP. Aparte, nos


207

decidimos por la versión Windows XP

Professional, que proporciona una interfaz

sencilla para el usuario y facilita su uso. La

versión XP Pro es más avanzada en lo referente

a las conexiones de red, está hecha también

para servir como servidor de otros ordenadores.

Hemos de resaltar que el proceso de extracción

de unidades fraseológicas realizado por el

sistema es totalmente transparente para el

usuario por lo que no se necesitan conocer los

detalles para poder operar el sistema, se puede

utilizar de forma intuitiva. Hemos diseñado que

el sistema ha de tener una estructura que

empiece por el usuario y acabe con la creación

de una base de datos que extraiga las unidades

fraseológicas correctamente.

La arquitectura del sistema se dividió en

varios módulos o subsistemas, cada uno de los

cuales tenía una funcionalidad específica y

también cada uno tenía una interfaz que

proporcionaba la funcionalidad propia de dicho

módulo. Además, estos módulos proporcionaban

otras interfaces para ofrecer funcionalidades

más genéricas.


208

A continuación, vamos a describir brevemente el

diseño de los módulos que forman el sistema

para explicar todo el proceso de formación del

programa informático que presentamos en esta

tesis doctoral.

6.1. Módulo de Acceso

Posee referencias a todos los módulos, ya que

es la fachada de cara a los recursos que

existen en el sistema. Todas las ventanas

acceden a las funcionalidades del resto de los

módulos a través de éste.

La secuencia de este módulo guía al usuario con

el fin de que abra la aplicación para el

procesamiento de textos. Bajo el menú FILE, en

la opción OPEN, se abre un archivo que contiene

las UFs extraídas. En CREATE y ADD el usuario

es direccionado a otra pantalla en la que

importar los ficheros de corpus para un

posterior procesamiento. En CREATE se crea una

base de datos nueva con el corpus que va a


209

introducir, en ADD añade un nuevo corpus a la

base de datos.

En FILE REPORT y PRINT REPORT se puede grabar

en un fichero o imprimir los resultados de la

extracción de las UFs. En SAVE y EXIT, se

graban los cambios hechos en la base de datos y

se sale del sistema. En el segundo menú

UTILITIES, en la opción VIEW el usuario puede

ver los resultados de la extracción de las UFs.

En SEARCH FOR AND HIGHLIGHT se pueden ver todos

los casos en el corpus de una misma UF, a la

ver que se pueden contrastar. En HIGHLIGHT UFs

se pueden ver todas las UFs en negrita en la

oración donde aparecen. En SEARCH ENGINE se

pueden buscar las UFs, insertando una o más

palabras al mismo tiempo. En COLLOCATIONS

también se puede insertar, una palabra o más y

ver el resultado en forma de Keyword in context

(KWIC).

Las últimas tres opciones son informes sobre la

frecuencia. En FREQUENCY FILES, la frecuencia

de los archivos en la base de datos; en

FREQUENCY, la frecuencia acumulada de las


210

unidades fraseológicas y en SORT podrá ver la

base de datos indexada por cualquier columna.

Por último, hemos creado un tercero menú,

justamente para el auxilio al usuario. El

módulo de ayuda al usuario ofrece información

sobre los módulos y los comandos del sistema.

El diagrama de actividades del módulo de acceso

se queda representado en la figura 14.

Figura 14. Diagrama del módulo de acceso.


211

6.2. Módulo de Extracción de la

Información

Este módulo ofrece la posibilidad de enriquecer

de manera automática la base de datos

fraseológica del sistema. Abarca las tareas de

extracción de UFs procedentes del texto

insertadas en el sistema por el usuario

mediante un modelo algebraico, y nos aporta el

cálculo de las similitudes entre unidades

fraseológicas canónicas y las candidatas, a

partir de la base de datos.

El proceso de Extracción de la Información

consta de dos etapas principales. En la primera

etapa, el sistema extrae los datos del texto de

un documento por medio del análisis local del

texto. En la segunda etapa, el sistema integra

y combina esos datos produciendo datos mayores

o nuevos datos. Finalmente, los hechos

considerados relevantes al dominio se estruc-

turan para dar paso al patrón de salida.

Para estructurar la información en el patrón de

salida creamos una plantilla estructurada por

campos que se complementan con los datos


212

extraídos del corpus. La arquitectura de

nuestro sistema de Extracción de la Información

posee siete módulos principales:

1. Filtrado: Nivel del texto. Consiste en seg-

mentar un texto en zonas basándose en deter-

minados patrones. Estas zonas suelen estar

delimitadas por marcas de puntuación en oración

y párrafos. De este modo, el corpus que se

encuentra en el lenguaje natural se divide

automáticamente en frases. Entendemos por texto

segmentado en oraciones aquellos segmentos del

texto separados por punto final o signo de

interrogación. En la secuencia, es sometido a

un procesamiento de más de siete etapas que

minimizan el tiempo de detección y extracción

de UFs.

2. Etiquetado léxico: Nivel de la palabra

(proce-sador léxico-morfológico). Hemos dividi-

do esta parte en tres segmentos:

2.1. Tokenización, consiste en el análisis

léxico-morfológico de los tokens para

determinar su clase morfosintáctica (artículo,

sustantivo, verbo, etc.) y sus características


213

de flexión (género y número). Este segmento

identifica y separa cadenas de unidades mínimas

de información o unidades léxicas y cada grupo

de caracteres obtenido se llama token.

2.2. Lematización, realiza una extracción

automática de los términos a partir de las

formas flexionadas o derivadas del verbo, así

como del número de los adjetivos y sustantivos

reduciéndolos a su forma canónica o lema.

2.3. Se eliminan las stop words (palabras

funcionales) tales como pronombres, numerales y

artículos. Este proceso empieza por un listado

predefinido de palabras candidatas a ser

eliminadas. Las stop words son palabras no

representativas del texto.

3. Análisis sintáctico y morfológico: Nivel de

la oración. El análisis sintáctico toma como

entrada una oración y trata de descubrir la

estructura sintáctica que explica las rela-

ciones entre las palabras de esa oración. El

análisis es definido por una gramática, a

partir de la cual, un conjunto de algoritmos de

aprendizaje automático determina cuál es el


214

árbol sintáctico de la oración mediante una

estrategia de búsqueda mostrando las relaciones

entre dichos sintagmas.

El análisis morfológico debe identificar los

lexemas y morfemas presentes en los tokens.

Cada palabra debe ser analizada para

identificar las palabras derivativas por número

o desinencia verbal.

4. Análisis del discurso: Nivel de la inter-

oración. Superpone y mezcla las estructuras

producidas por el analizador reconociendo y

unificando las expresiones de referencia.

Consiste en resolver aspectos semánticos de la

información extraída en los pasos anteriores.

5. La indexación es el proceso mediante el

cual, el algoritmo de la Extracción de la

Información va rastreando el corpus. Tiene como

propósito la elaboración de un índice que

contiene de forma ordenada los constituyentes

de las unidades fraseológicas. La indexación

puede realizarse desde el enfoque estadístico o

lingüístico. En el primer caso, se utilizan

técnicas estadísticas como análisis de


215

frecuencias, probabilidades, agrupamiento

(clustering) y ponderación de los términos. En

el segundo, se utilizan técnicas del

Procesamiento del Lenguaje Natural (PLN).

6. El siguiente paso es la creación de la

matriz de vectores de frases, constituida por

oraciones y unidades fraseológicas canónicas.

Las filas de la matriz, es decir, los vectores

en términos algebraicos, son representadas por

los términos de las frases, las columnas, son

representadas por los términos de la base de

datos, que se expresa en función de las

apariciones de cada término. En esta etapa, el

modelo toma en consideración las oraciones que

contienen las unidades fraseológicas, asignando

pesos5 a los términos índice de las frases y de

las UFs almacenadas en la base de datos. De ese

modo el emparejamiento resulta más preciso,

como se aprecia en la figura 15.

5 Aplicar un peso (valor) a cada un de los términos índice de los documentos.


216

Figura 15. Matrix de vectores de documentos.

7. Generación de la plantilla de salida. Nivel

plantilla. El proceso finaliza con la

generación de plantillas, como se puede

apreciar en la tabla 21, que contiene la

información relevante, extraída de manera

estructurada en una forma predefinida. El

módulo de extracción del sistema se refleja en

la figura 16, más delante.


217

Tabla 21. Generación de la plantilla.

Información UFs Contexto Información relevante

a buen paso En el balcón no quedaba nadie; don Fermín salió del portal, arrimado a la pared, y se alejó a buen paso.

a cada rato El niño Humberto era malo y pegaba pronto, a cada rato. En la calle. En el corredor también. Y en la escalera. Y también en la cocina, delante su mamá y delante la patrona.

a causa de En un principio, quizás a causa de dolores de parto, el capitalismo fue humanizado por la democracia promulgando normas para hacerlo más tolerable y evitar el renacer de la esclavitud.

a causa de "La lesión quedó atrás y la única preocupación es su brazo, a causa de la inactividad", dijo el piloto de los Orioles, Mike Hargrove... Hay 11 nipones en el spring training


218

Figura 16. Diagrama de flujo de la extracción de UFs.

Así mismo, en la figura 17 se puede apreciar el

diagrama de flujo desde el usuario hasta la

extracción.


219

Figura 17. Diagrama de flujo abreviado de PhraseNET.

En esta figura se pueden apreciar las cinco

etapas del proceso de extracción de las UFs. El

proceso empieza por el usuario que introduce un

corpus en el sistema por medio de la interfaz.

El sistema entonces se encarga de procesar la

información, como hemos visto antes en la

figura 16. Finalmente, el sistema presenta las

unidades fraseológicas en una plantilla.


220

6.3 Módulo Base de Datos

Este módulo incorpora la base de datos bilingüe

de unidades fraseológicas del sistema, que se

genera a partir de las extracciones de las UFs

del corpus introducido en el sistema por el

usuario y la base de datos que denominamos

diccionario de patrones. Esta base de datos es

un conjunto de información estructurada y

almacenada en discos que permite el acceso

directo y un conjunto de programas que

manipulan ese conjunto de datos en tiempo real.

La información almacenada puede ser organizada

y visualizada de distintas formas. Las bases de

datos relacionales con las cuales trabajamos

son las más difundidas.

Los elementos de una base de datos de una clase

se organizan en una tabla de dos dimensiones

que consiste en filas y columnas. Cada fila es

un registro de datos y cada columna es un campo

de datos. A cada campo se le asigna un nombre y

se le adjudica un número a cada registro que se

introduce en la base de datos. Como resultado,

cualquier dato en una base de datos se puede

identificar por su número de registro y por el


221

nombre del campo. La estructura de una base de

datos está constituida por las descripciones

detalladas de cada campo de datos de los

registros. Nombre del campo es un nombre

descriptivo para la identificación del campo de

datos que el usuario asigna a ese campo. El

nombre del campo puede variar también

dependiendo de la base de datos.

La denominación tipo del campo es un código de

un carácter que indica la clase del campo de

datos. Existen varios tipos de campos de datos,

dependiendo del gestor de la base de datos, que

almacenan diferentes datos de información. Los

cinco tipos de campos comunes a todos ellos

son:

C Campo de carácter/texto N Campo numérico D Campo de fecha L Campo lógico M Campo de datos memo

La longitud del campo carácter/texto es un

número siendo la cantidad máxima de un campo de

254 caracteres), que indica el tamaño del campo

de datos según el número de caracteres. La


222

longitud de un campo numérico es el número de

bytes utilizados para su almacenamiento y se

define de dos maneras. Primero, se definen los

números máximos de dígitos permitidos por el

valor, incluyendo el signo y el punto decimal.

Después, se determina el número de dígitos tras

el punto de decimal. Un entero no requiere de

lugares decimales definidos en la longitud de

campo. Un campo de fecha es siempre de ocho

caracteres y almacena los códigos numéricos del

día, mes y año y las barras que separan los

códigos. El formato de datos normalizado en

España es de dd/mm/aa.

Como un campo lógico acepta un carácter que

indica el valor verdad o falsedad, la longitud

de un campo lógico es siempre de un carácter.

El campo de tipo Memo se utiliza para almacenar

bloques de datos. El contenido de un campo memo

se guarda en un fichero externo al disco. Los

datos de campo Memo de una tabla se almacenan

en un archivo distinto con el mismo nombre que

la tabla y una extensión que varia de acuerdo

con la base de datos. En Visual Fox Pro, los

archivos suelen tener una extensión FPT. El


223

límite para el tamaño de los campos Memo es el

espacio en disco.

6.3.1. La base de datos del sistema

Nuestros criterios para la selección de las

unidades fraseológicas se han basado en los

criterios establecidos por diversos autores,

entre ellos Haensch (1982), que establece que

los materiales que un lexicógrafo dispone para

recoger datos pueden ser procedentes de fuentes

escritas u orales, primarias o secundarias.

Para este autor, las fuentes primarias, serían

los textos y las fuentes secundarias, los

diccionarios que contienen descripciones meta-

lingüísticas.

En este estudio nos vamos a centrar en los

textos escritos, puesto que el proyecto que

presentamos se basa en la detección de unidades

fraseológicas en textos escritos. A conti-

nuación vamos a describir las etapas realizadas

en la elaboración de una base de datos bilingüe

de las unidades fraseológicas. Lo más usual es

hacer un vaciado de una serie de diccionarios,


224

como lo hizo Penadés Martínez (2005) y Carvalho

Rios y Xatara (2005).

La selección de las UFs incluidas en nuestra

base de datos se ha llevado a cabo de tres

modos: mediante el vaciado de una serie de

diccionarios, de tesis y también de algunas

fuentes primarias (nativos de Brasil y de

España).

El objeto de este corpus es suminis-trar las

unidades fraseológicas que van a ser insertadas

en nuestra base de datos. Ésta tiene una

macroestructura semasiológica6 bilingüe, que

aunque esté ordenada alfabéticamente, no es un

diccionario, sino una base de datos de lexemas

complejos, sin marcas que indican

características lingüísticas como familiar,

vulgar, jergalismo, o marcas que indiquen

connotaciones como peyorativo, coloquial,

eufemístico, etc.

Nuestro sistema de extracción de unidades

fraseológicas se centra en detectar y extraer

6 Semasiología es el estudio que parte del signo en busca de la determinación del concepto.


225

solamente las locuciones y los enunciados

fraseológicos, siguiendo la clasificación de

unidades fraseológicas presentado por Corpas

Pastor (1997: 52). Para cada UF inventariada en

ambas lenguas, buscamos una segunda fuente para

comprobar la equivalencia de cada UF antes de

catalogarla. Si la primera fuente era un

diccionario monolíngüe, buscamos una segunda

fuente en un diccionario bilingüe y viceversa.

Las fuentes lexicográficas monolingües en

español fueron las siguientes: Moliner (1996),

DRAE (1995), Seco et al. (1999); en portugués

fueron Ferreira (1999) y Houaiss (2001), los

bilingües fueron Ortega y Cavero (1975),

Flavian et al. (1994) y Alcalá de Henares

(2001), de unidades fraseológicas Nunes y Nunes

(1982), Seco et al. (2005) y las tesis

doctorales fueron Mouzinho Ferraro (2000),

Serey Leiva (2000) y Ortíz Alvarez (2000). La

consulta en diccionarios monolingües no

especializados fue bastante importante para

establecer los términos equivalentes de las UFs

en español. Las definiciones encontradas en

estos diccionarios han permitido confirmar si


226

una UF era de hecho un equivalente inter-

lingüístico.

Decidimos incluir las unidades fraseológicas

del español junto con su explicación o equiva-

lencia con el portugués en una base de datos.

La próxima etapa fue la construcción de un

diccionario de patrones, un componente esencial

de un sistema de Extracción de la Información

para identificar la información relevante de un

documento. En la última etapa se realizó un

algoritmo para analizar la similitud entre las

unidades fraseológicas canónicas y las unidades

fraseológicas candidatas, que culminó con el

reconocimiento automático de las unidades

fraseológicas en un corpus textual digital.

Para facilitar el proceso, elaboramos unas

fichas en la que se incluyen las unidades

fraseológicas, las definiciones en español y en

portugués, y las fuentes en otras lenguas, de

fácil implementación en cualquier sistema de

almacenamiento electrónico compatible con

MSAccess, MSSQL y Visual FoxPro, como se puede

apreciar en la figura 18.


227

Figura 18. Ficha de entrada de unidades fraselógicas.

A continuación, vamos a describir los campos

que componen la ficha de entrada de las unida-

des fraseológicas.

FILEID es el número de registro de cada unidad fraseológica.

SPANISH es el campo donde se rellena la UF de la lengua de partida.

PORTUGUESE es el campo donde se rellena con la UF de la lengua de llegada.

SOURCESPA en este campo se introduce la fuente bibliográfica de la lengua de partida. Las siglas que vemos en este campo se refieren a las siguientes obras: DRAE=REAL ACADEMIA ESPAÑOLA (1995); TEIPDC=Tesis: Expresiones idiomáticas del portugués de Brasil y del español de Cuba; TACEPUF=Tesis: Análisis Contras-tivo Español/Portugués de Unidades Fraseo-


228

lógicas; DFDEA=Diccionario Fraseológico Documentado del Español Actual.

SOURCEPTG. Este campo se introduce la fuente bibliográfica de la lengua de llegada.

Las siglas que vemos en este campo se refieren

a las siguientes obras:

DHLP=Houaiss (2001); DALP=Ferreira (1999); MDLP=Flavian, E. y Fernández, G. E. (1994); TEIPDC=Tesis: Expressões idiomá-ticas do portugués do Brasil e do español de Cuba; TACEPUF=Tesis: Análisis Contras-tivo Español/Portugués de Unidades Fraseo-lógicas.

DEFINITION en este campo se rellena, eventualmente, con la definición de la UF en la lengua de llegada.

Ahora vamos a tratar de la ficha de salida de

los datos, después de haber extraído las

unidades fraseológicas. La ficha de salida es

rellenada automáticamente por el sistema. Nos

permite ver las unidades fraseológicas

extraídas y, también, las relaciones que hay

entre los campos de la tabla.


229

Los registros de una base de datos se ordenan

de acuerdo con la indicación hecha por el

administrador del sistema a la hora de crearla.

A cada registro de datos el sistema se le

asigna un número cuando se añade a la base de

datos. Los usuarios pueden de esta forma

identificar estos registros de datos por sus

números de registro, como se puede apreciar en

la figura 19.

Figura 19. Ficha de salida de unidades fraseológicas.


230

Describimos a continuación los campos que

componen la ficha de salida de las unidades

fraseológicas:

FILEID. Es un campo de tipo entero autoincrementable, es decir, es un número generado por el sistema internamente, se inician en 1 y se incrementan en 1 automáticamente a cada nuevo registro de datos.

PORTUGUESE. Es un campo de tipo carácter reservado para el registro de las unidades fraseológicas en portugués.

ESPANOL. Es un campo de tipo carácter reservado para el registro de las unidades fraseológicas en español.

DEFINITION. Es también un campo de tipo carácter en el cual se registra la definición.

SENTENCE. Campo de tipo memo usado para almacenar gran cantidad de texto en una base de datos, en este caso cada oración en que fue dividido el corpus. Los campos Memo de PhraseNET pueden almacenar hasta 1 gigabyte de caracteres, o 2 gigabytes de almacenamiento (2 bytes por carácter), de los cuales se pueden mostrar 65.535 caracteres en un control de un formulario o informe.


231

SOURCE Es un campo de tipo carácter reservado al almacenamiento del archivo (oración por oración) que originó el corpus.

UFs es un campo de tipo carácter que contiene la UF tal y como se encuentra en el corpus (flexión, número y género).

6.3.2. El diccionario de patrones

El diccionario de extracción de patrones suele

ser una de las tareas más difíciles que se

lleva a cabo en un sistema de Extracción de la

Información. Para resolver esta tarea varios

sistemas se han desarrollado buscando la

generación automática de diccionarios de

patrones, como CRYSTAL (Soderland et al.,

1995), AutoSlog (Riloff, 1996) y RAPHER (Califf

& Money, 2003).

El sistema AutoSlog no necesita un corpus de

entrenamiento anotado, pero sí informaciones

preclasificadas como relevantes o irrelevantes

en función del dominio de la extracción. El

sistema CRYSTAL utiliza técnicas de formación

de conceptos (Concept Induction Learning


232

Michalski) y un corpus anotado para el

aprendizaje, analizado sintácticamente. El sis-

tema RAPHER, a diferencia de los citados con

anterioridad, aprende reglas para hacer la

tarea completa de Extracción de la Información.

Estas reglas extraen automáticamente la

información relevante de los documentos sin un

análisis sintáctico previo de las oraciones y

un post-procesamiento.

A partir del SGML (Standar Generalize Mark-up

Language) es posible empadronar la información

del corpus en una base de datos lo que permite

clasificarla según los patrones lingüísticos

internos y particulares de cada texto en

distintos campos como, por ejemplo, autor,

título, tema, marcas diastráticas, número de

palabras, número de tokens y número de tipos.

Ello nos permite comparar distintos tipos de

córpora lingüísticos por su tamaño, origen o

tema.

Las bases de datos tienen un papel importante

en el área de text mining, information

retrieval e information extraction. En general,

las bases de datos contienen información sobre


233

la morfología y sintaxis de las palabras. En la

literatura del Procesamiento del Lenguaje

Natural se acostumbra denominar a estas bases

de datos diccionarios de patrones. Los

diccionarios de patrones son imprescindibles en

los ámbitos de aplicación de las tecnologías

lingüísticas. Según Briscoe (1991), los diccio-

narios de patrones tienen una estructura

similar a un diccionario que posee un voca-

bulario adecuado a una aplicación. El término

diccionario de patrones es una formalización

referente a un componente, implementado y es-

tructurado con el reto de suministrar informa-

ciones lingüísticas a un software.

En este estudio proponemos una nueva método-

logía para la construcción automática de

diccionarios de patrones a partir del cual se

hace la extracción de unidades fraseológicas de

córpora textuales sin anotación alguna. La base

fundamental de este sistema son los algoritmos

de búsqueda y los cálculos estadísticos. Aunque

existan sistemas para generar diccionarios de

patrones automáticamente, como hemos explicado

en el capítulo anterior, la estrategia pro-


234

puesta en nuestra investigación parte de un

corpus de entrenamiento sin etiquetado, sin los

patrones sintácticos y semánticos que suelen

ser anotados manualmente, y también de un

método estadístico; el método de truncamiento y

un conjunto de unidades fraseológicas ela-

boradas a partir de un corpus de diccionarios y

tesis. Para que estos patrones puedan extraer

correctamente el mismo rango de información,

añadimos al diccionario de patrones reglas

basadas en técnicas estadísticas.

Actualmente, en la investigación lingüística

hay diversas maneras de calcular el grado de

coherencia de las unidades fraseológicas y,

aunque la mayor parte de los estudios estén

relacionados con las colocaciones, estos

métodos suelen estar adaptados para otras

unidades fraseológicas. Los métodos están

basados en la comparación de frecuencia de

pares de palabras obtenidas desde un corpus

real de textos. Así, nuestro sistema no

detectará, ni extraerá, las colocaciones, pero

lo hará con las locuciones y los enunciados


235

fraseológicos alineados en contexto (KWIC), de

acuerdo con Sinclair (1991).

Así, como sucede con otros sistemas de

Extracción de la Información, éste también

tiene inconvenientes: el tiempo destinado a la

realización de las tareas manuales llevadas a

cabo por un experto, lo que significa reajustar

manualmente el conocimiento lingüístico, y la

dificultad de escalabilidad del sistema exis-

tente a nuevos dominios e idiomas, pues así,

como en las aproximaciones presentadas con

anterioridad, nuestra metodología para la

construcción de un diccionario de patrones no

necesita del trabajo de un experto humano

aunque se tenga que trabajar con miles de

unidades fraseológicas, dónde cada una tiene

una sintaxis distinta, lo que exige una regla

específica para cada una.

Por lo tanto, utilizamos el método del trunca-

miento Salton (1980), más las técnicas estadís-

ticas para determinar la distancia entre las

palabras. Conviene remarcar que partimos de un

corpus de diccionarios y tesis para elección de

las UFs. Sin embargo, utilizaremos para


236

validación de nuestro diccionario un corpus de

entrenamiento sin anotaciones.

Respecto a las reglas, hemos utilizado la

desviación estándar para el cálculo de la

distancia entre los constituyentes. Los

patrones son específicos para cada unidad

fraseológica, están determinados por la

colocación de los constituyentes de la UF. Las

medidas de similitud entre oraciones tienen un

papel cada vez más importante en la

investigación relacionada con el texto y usos

en áreas como la minería de texto, la

recuperación de página Web y la Extracción de

la Información.

Existen distintas medidas basadas en el cálculo

del grado de proximidad de palabras en un

texto: mutual information (MI), log-likelihood

y chi-square. La información mutua (mutual

information por su nombre en inglés) en teoría

de la probabilidad, de dos variables alea-

torias, es una cantidad que mide la dependencia

mutua de éstas. Log-likelihood es el logaritmo

de la función de verosimilitud. En la práctica,

se puede estimar la máxima verosimilitud entre


237

palabras de córpora distintos. Chi-square es un

test estadístico para evaluar la asociación

entre dos variables. Nosotros, sin embargo,

hemos optado por una fórmula alternativa el

cálculo de la desviación estándar entre las

palabras que constituyen las candidatas a

unidades fraseológicas. Este método tiene en

cuenta la colocación y el orden de las palabras

implícito en las oraciones. La desviación

estándar es una medida de dispersión para

variables de razón (ratio o cociente) y de

intervalo, muy usada en la estadística

descriptiva. La desviación estándar (σ) mide

cuánto se separan los datos, es decir, las

palabras en este caso.

La semejanza entre dos oraciones se calcula

usando la información de un diccionario de

patrones, cálculos estadísticos y el corpus de

entrenamiento. El empleo de un diccionario de

patrones permite a nuestro método modelar el

conocimiento de sentido común, y la incorpo-

ración de la estadística a comparar la posición

de cada palabra. La fórmula del desvío estándar

se puede apreciar en la figura 20.


238

Figura 20. Fórmula final del desvío estándar.

A continuación, se ejemplifica como funciona el

cálculo del desvío estándar, como se puede

apreciar en la tabla 22.

Tabla 22. Aplicación del desvío estándar.

ID Forma Canónica

Contexto DP

1 Tener mala leche

Hay que tener muy mala leche.

1,527

2 Tener mala leche

La parodia debe tener un punto de mala leche

2,646

3 Tener mala leche

Hay que tener mala leche!

1

4 Tener mala leche

pero con la mala leche que tengo no tengo ganas de hacerlo

5 Tener mala leche

pero es que hay que tener mala leche)

1

6 Tener mala leche

¿Tendré mala leche de combustión rápida?

1

7 Tener mala leche

tendré leche fresca pero de mala calidad o sea que acabaré teniendo mala leche.

7,234

8 Tener mala leche

Es bajito, cabezón y tiene muy mala leche.

1,527


239

Las cuatro columnas de la tabla 22 están así

divididas en las siguientes partes que deta-

llamos a continuación. ID es la identificación

numérica de cada ejemplo. FORMA CANÓNICA, se

recoge aquí la forma en la que las UFs suelen

aparecer en los diccionarios. CONTEXTO, se

refiere a los ejemplos extraídos de Internet al

azar donde aparecen las unidades fraseológicas.

DP, es el desvío estándar calculado para las

palabras de cada unidad fraseológica. La

desviación estándar es una medida de

centralización o dispersión para determinar la

media de distancias que tienen los datos

respecto de su media aritmética.

En estos ejemplos vemos que las frases con ID=

1, 3, 4, 5, 6 y 8 presentan una desviación

estándar cerca de 1, por consiguiente tienen

una probabilidad mayor de similitud con la

forma canónica.

Supongamos que buscamos obtener el desvío

estándar de “Hay que tener muy mala leche. Los

términos que nos interesa son ‘tener’, ‘mala’ y

‘leche’ que a partir de ‘tener’ tienen los

siguientes valores: 1, 3, 4. De este modo


240

seguiríamos los siguientes pasos la averiguar

el desvío estándar:

Paso 1: Calcular la media aritmética de 1, 3,

4, cuya fórmula se puede apreciar en la figura

21:

Figura 21. Fórmula de la media aritmética.

1 + 3 + 4 = 2,67

3

Por tanto σ = 2,67 es el promedio.

Paso 2: encontrar la desviación de cada número

en relación a la media:

1 – 2,67= -1,67

3 – 2,67 = 0,33

4 – 2,67= 1,33

Paso 3: Encontrar el cuadrado de cada

desviación haciendo positivos los valores

negativos.


241

(-1,67)2 = 2,789

(-0,33)2 = 0,109

(1,33)2 = 1,769

Paso 4: Encontrar la media de los cuadrados o

la varianza, de acuerdo con la figura 22:

Figura 22. Fórmula del cálculo de la varianza.

σ2 = 2,789 + 0,109 + 1,769 = 4,667 / 3 = 1,556 3

La varianza es igual a 1,556.

Paso 5: Encontrar la raíz no cuadrada del

cuociente o la desviación estándar, como se

puede apreciar en la figura 23:

Figura 23. Fórmula del cálculo del desvío estándar.

√1,556 = 1,247


242

Por lo tanto, la desviación estándar (σ) es

1,247, lo que se considera muy cerca de 1, y

por tanto, se trata de una unidad fraseológica.

El hecho de elevar cada diferencia al cuadrado

hace que todos los números sean positivos para

evitar que una diferencia negativa anule una

positiva reduciendo la varianza. Esto también

hace que las diferencias grandes destaquen, por

ejemplo, los ocho ejemplos arriba citados,

cinco están dentro de dos desviaciones

estándares de la media. Por así decirlo, hay

similitud entre las unidades fraseológicas

candidatas y las formas canónicas.

El método del truncamiento o método de

extracción de las raíces y sufijos de las

palabras es una técnica adaptada aquí para la

Extracción de la Información en sistemas que

utilizan el vocabulario natural para almacenar

información. La técnica de raíces y sufijos fue

primeramente utilizada por Salton (1980).

Para que el sistema en MSSQL pueda buscar una

familia de términos que se relacionen

morfológicamente hemos introducido operadores

de truncamiento, definiendo comodines o


243

wildcards y operadores MSSQL. Los primeros son

operadores que se les denota con símbolos

llamados comodines y cuya presencia puede

sustituir a un carácter o a un conjunto de

éstos, como se puede apreciar en la tabla 23.

Tabla 23. Comodines.

Wildcard (comodines)

Descripción

% Sustituido por cero o más caracteres $ Retorna verdadero si un carácter o una

substring esta contenida en otra, y falsosi no está

_ Sustituido por un carácter exactamente [charlist] Cualquier carácter simple en charlista [^charlist] or [!charlist]

Cualquier carácter simple no se encuentraen charlista

La sentencia SELECT es la encargada de la

recuperación de datos. Si, por ejemplo, tenemos

la sintaxis:

SELECT * FROM micórpora WHERE texto $ ‘est' AND

texto $ 'órbita'

Esto significa que SELECT retorna un conjunto

de resultados como los siguientes: ‘estar en

órbita’, ‘estamos en órbita’, ‘estuve en

órbita’. Tenemos así:


244

SELECT * FROM micórpora WHERE texto $ 'llov%'

OR texto $ ‘cántaros’.

SELECT retornará los siguientes resultados:

‘llueve a cántaros’, ‘llovió a cántaros’.

Los truncamientos suelen ser por la derecha o

por la izquierda. La búsqueda de las unidades

fraseológicas, con base en los truncamientos

almacenados en el diccionario de patrones, se

hace a partir de la raíz y del sufijo del

mismo. La búsqueda distingue entre mayúsculas y

minúsculas. No es posible tener un fichero de

palabras vacías (stop words) como prepo-

siciones, artículos y pronombres. Las raíces y

sufijos se obtiene desde el diccionario de pa-

trones, que contiene dos campos específicos:

uno con raíces de palabras ordenadas alfabé-

ticamente que contiene, por ejemplo, ‘est-’, y

otro, con sufijos como ‘picota’, ‘brete’,

‘puño’, que se aplica para la descomposición de

unidades fraseológicas como ‘estar en la

picota’, ‘estar en un brete’ o ‘tener en un

puño’. Se introdujo también la posibilidad de

que fuera capaz de reconocer como equivalentes

una voz bien en singular o plural (‘firme como


245

una roca’ y ‘firmes como una roca’) y las

variaciones del verbo como (‘pues no se porque

yo creo que tendré una mala leche cuando vaya

de parto....’, ‘Es bajito, cabezón y tiene muy

mala leche’ y ‘La parodia debe tener un punto

de mala leche’) las cuales tendrían distintos

código de identificación.

6.4. El corpus de entrenamiento7

Gracias al avance de la tecnología y

especialmente de Internet, poseemos una

inagotable fuente de recursos lingüísticos,

accesibles en cualquier lugar. Ello ha hecho

posible la aparición de muchas herramientas

para el estudio y análisis de las lenguas. Las

informaciones de la Web proceden de publica-

ciones hechas por los medios de comunicación,

empresas e instituciones internacionales que

renuevan cada día o cada semana el contenido de

sus páginas.

7 Corpus de entrenamiento es un corpus reducido que se usa para evaluaciones.


246

A diferencia de los recursos impresos o

digitalizados, y por tanto, estáticos, de las

obras impresas, los recursos de la Web son

dinámicos, requieren del investigador ciertas

precauciones a la hora de ficharlos. No basta

con copiar una página en el disco duro, pues

puede no existir en una búsqueda posterior. Hay

que señalar el día de acceso, además del

enlace, lo cual requiere un esfuerzo suple-

mentario para extraer la información.

A través del Procesamiento del Lenguaje Natural

es posible analizar las complejas estructuras

del lenguaje mediante el estudio de grandes

cantidades de textos en lenguaje natural,

denominados córpora. La utilización de estos

corpus requiere el uso de técnicas como la

estadística, el reconocimiento de patrones y la

Extracción de la Información. Para realizar

esta investigación de extracción automática de

unidades fraseológicas y evaluar el nivel de

precisión es imprescindible elaborar un corpus,

en este caso un córpora de entrenamiento.

La Lingüística de Corpus se basa, en gran

medida, en los recursos disponibles en línea,


247

apoyándose en las herramientas creadas por el

Procesamiento del Lenguaje Natural (PLN), como

son la traducción automática, el desarrollo de

herramientas útiles para la lexicografía, la

terminografía y la enseñanza de segundas

lenguas, entre otras. Las técnicas de

tratamiento de córpora se usan para el

procesamiento de la información obtenida

creando múltiples herramientas: buscadores,

sistemas de indexación, extractores de

información, recuperadores de información, ge-

neradores de resúmenes, etc.

Nuestra aplicación depende del nivel de

anotación que tenga el corpus que se analiza

para que pueda identificar la variación

sociolingüística y el área a la que pertenece

una frase. En español, un corpus como el CREA o

el CORDE no proporcionan ningún tipo de

información adicional, sólo el texto plano. Por

otro lado, un corpus como el de las noticias de

la agencia española EFE de los años 1994 y

1995, contiene anotaciones sobre formato que

permiten identificar la información acerca de

la edición, los autores, las cabeceras de la


248

noticia y los párrafos en los que se subdivide

el corpus. Todos aportan un contenido con

ejemplos reales de uso de una lengua, ya sea

literaria, científica o periodística.

En cambio, nuestro corpus de entrenamiento

denominado CHADES (Corpus Hispanoamericano de

Español) es de uso general, como los citados

arriba. Es decir, contiene anotaciones sobre la

información que dispone: el nombre de los

autores, el título de la obra, la página, el

párrafo, el capítulo y la edición. La

elaboración de un corpus de lenguaje escrito

requere que se cumpla con los requisitos de

homogeneidad y representatividad.

La selección de un corpus representativo del

español se hace aún más difícil si tenemos en

cuenta que este corpus, desde el punto de vista

traductológico, deba ser relevante y reflejar

la realidad lingüística de una lengua bastante

heterogénea como la española. Aunque nuestro

corpus de entrenamiento tenga una diversidad de

temas, como cuentos gauchescos, literatura

histórica, publicaciones técnicas, etc., son

los textos obtenidos de los diarios


249

latinoamericanos y españoles los más

representativos del corpus (70%). Él permite un

contacto con la realidad lingüística asociada a

una muestra de varie-dades comunicativas

actuales y emergentes, recursos bastante

recurrentes en el corpus.

Como se puede apreciar en la página siguiente,

en la figura 24, la mayor parte del corpus se

constituye de los diarios españoles y

hispanoamericanos, 70,0%; los libros ocupan el

segundo lugar con apenas 25,6%. Las revistas

ocupan un modesto tercero lugar, quedándose

éstas con apenas 4,4%.

Figura 24. Distribución del corpus.


250

Tiene cerca de tres millones y medio de

palabras (251.399 frases) del español de España

e Hispanoamérica, incluyendo fuentes literarias

y periodísticas. Las fuentes impresas

representan 76,90% del corpus y 23,10% las

fuentes electrónicas.

6.4.1. El muestreo aleatorio simple

Los estudios estadísticos se llevan a cabo con

el propósito de extraer conclusiones acerca de

la naturaleza de una población o de algunas de

sus características. Entiéndase aquí como

población el corpus de entrenamiento total, es

decir, las 251.399 frases.

Siendo el corpus de entrenamiento muy extenso,

las conclusiones obtenidas deben basarse en el

examen de una parte de ésta, que denominamos

muestreo. Por lo tanto, para saber con cuantas

frases deberíamos trabajar decidimos utilizar

un método estadístico para determinar cual

sería el muestreo, entre los existentes, más


251

apropiado para nuestra investigación, teniendo

en cuenta el número total de frases de nuestro

corpus.

Nos decantamos por el muestreo aleatorio simple

(MAS) sin reposición de los elementos (cada

elemento extraído se queda descartado para la

siguiente extracción). La ventaja del MAS es

precisamente su simplicidad. El MAS consiste en

la extracción de una muestra de una población

finita. El proceso de extracción garantiza a

cada uno de los elementos de la población la

misma probabilidad de ser incluidos en dicha

muestra. De acuerdo con Azorín Poch (1969: 49),

El muestreo aleatorio sin reemplazamiento de poblaciones finitas llamado también muestreo irrestrictamente aleatorio o, más sencillamente, muestreo aleatorio simple (cuando no existe posibilidad de confusión entre este y el muestreo con reemplaza-miento), consiste en la selección de n elementos entre los N que constituyen la población, de modo que todas las muestras posibles de tamaño n (tantas como combina-ciones de N elementos de n en n) tengan la misma probabilidad de ser obtenidas.

Para determinar el tamaño del muestreo recu-

rrimos al cálculo del intervalo de confianza y


252

del nivel de confianza. Intervalo de confianza

(σ) o margen de error es la probabilidad de

equivocarnos. Cuanto más pequeño el margen de

error, más amplia deberá ser la muestra. El

margen de error sirve para medir la precisión

de nuestro informe estadístico de resultados.

El nivel de confianza (1- σ) es la probabilidad

de que el verdadero valor del parámetro se

encuentre en el intervalo construido. Por

ejemplo, el nivel de confianza del 95% quiere

decir que usted puede estar el 95% seguro; el

nivel de confianza del 99% quiere decir que

usted puede ser el 99% seguro. La mayor parte

de investigadores usan el nivel de confianza

del 95%. Los intervalos de confianza con (1- σ)

=95%, lo que es lo mismo que significancia un

margen de error del 5%. Para determinar los

diferentes tamaños de la muestra usamos la

siguiente fórmula, como se puede apreciar en la

figura 25.

Figura 25. Tamaño de la muestra.


253

Donde:

N = Total de la población

Za2 = 1.962 (si la seguridad es del 95%)

p = proporción esperada (en este caso 5% =

0.05)

q = 1 – p (en este caso 1-0.05 = 0.95)

d = precisión (en este caso deseamos un (desde

1% hasta 5%).

Se puede estimar el tamaño de la muestra sin

necesidad de trabajar con el número total de

oraciones del corpus. Tan solo hay que tener en

consideración el nivel de precisión o la

cantidad de error que sea aceptable, en

relación al tamaño del muestreo.

En esta investigación nos basamos en el cálculo

del tamaño de la muestra, para poder así

responder a la pregunta: ¿Cuántas oraciones

debemos tomar como muestra para determinar el

nivel de Precision y Recall, con un error

máximo de 1% antes de avalar el nivel de

eficiencia de nuestro sistema de extracción de

unidades fraseológicas? Nuestro corpus

comprende 251.399 oraciones o frases.


254

Por lo tanto, la población es finita, como

previamente se señaló. Para saber con cuantas

frases deberemos trabajar, tuvimos que cons-

truir una tabla con diferentes intervalos de

confianza, desde 1% hasta 5%, como se ha podido

ver en la tabla 20. Para llegar a la respuesta,

empezamos por testar el intervalo de confianza

(IC) en distintos niveles. Es decir si el IC

puede estar entre 1% y 5% (tabla 20), creemos

que con el Intervalo de Confianza de 4% y 5%

tendremos un muestreo poco representativo, 599

o 384 frases respectivamente.

Al mismo tiempo, pensamos que el IC de 2% y 3%

está muy por debajo de lo que se espera de una

investigación a nivel de doctorado. Así que

hemos optado por el Intervalo de Confianza (IC)

de 1% (el máximo) que representa cerca de 2%

del corpus y 4% de todas las UFs detectadas en

el corpus (población), como se ha podido

apreciar en la tabla 24. Con un nivel de

confianza del 95% y un intervalo de confianza

del 2%, para una población de 251.399

oraciones, necesitamos de un muestreo de 2.378

oraciones.


255

Finalmente, con un margen de error de solo 1%

nos dará un muestreo en el orden de 1% del

total de las oraciones o 9.250 UFs, teniendo

así el máximo muestro posible con 95% de

seguridad, como se observa en la tabla 24. En

todo el corpus PhraseNET ha detectado 18.059

UFs.

Tabla 24. Margen de error.

Nivel de confianza

Margen de error (%)

Población Número deFrases obtenidas Con PhraseNET

Muestra calculada

- - 251.399 18.059 - 95% 1 251.399 710 9.250 95% 2 251.399 184 2.378 95% 3 251.399 95 1.063 95% 4 251.399 48 599 95% 5 251.399 27 384

Finalmente nos decidimos por una muestra de

9.250 frases con un intervalo de seguridad de

95% y un error muestral del orden del 25%. Lo

que representa cerca de 35 mil palabras o 1%

del total de 3,5 millones de palabras.


256

6.4.2. Procesamiento del corpus

El corpus de entrenamiento está basado en

textos electrónicos y digitalizados. Por digi-

talizados se entiende aquellos escaneados y por

textos electrónicos se entiende aquellos obte-

nidos a partir de Internet.

Los textos del corpus fueron divididos en

oraciones con un máximo de 254 caracteres, pues

254 caracteres es el límite del campo de

caracteres en cualquier base de datos rela-

cional. No usamos el campo memo, que tiene una

capacidad de almacenamiento mucho más grande,

pero ocupa mucho espacio en el disco y

ralentiza el sistema. Usamos dos formas de

separarlas, interrogación y punto final. Las

oraciones con más de 254 caracteres fueron

automáticamente divididas por un algoritmo, en

dos o más partes, cada una en un registro

distinto. Las que tenían menos de 254

caracteres fueron agrupadas en un solo

registro.


257

La ficha terminológica o de registro se realizó

en una base de datos que se ejecuta en MSDOS y

tiene el formato que se indica en la figura 26.

Figura 26. Ficha terminológica.

RECORD No. Representa el número del registro

del corpus. Es una información que proporciona

la base de datos automáticamente. El campo

EX_USO1 se refiere a la oración extraída del

corpus. El campo FECHA se destina a registrar

la fecha de acceso y se refiere sólo a aquellas

oraciones extraídas de los textos que se han

extraído de Internet. HTML contiene la URL

completa de la fuente (cuando la fuente es un

texto con origen en Internet).


258

La FUENTE es la referencia bibliográfica en

código que se encuentra decodificado en otra

base de datos. Respecto a las citaciones o

frases, en el campo FUENTE, se ha utilizado el

siguiente código para ser identificadas: [Sigla

del Autor, Número de la Obra, País / Ciudad,

Página / Capítulo/ Cuaderno/ Párrafo, Sección

/Asunto, Año].

Las siglas de un autor están compuestas por las

iniciales de su nombre y apellidos. Por

ejemplo: José Vicente Rodríguez Cuenca = JVRC.

Si tiene i nombre y 1 apellido se añade la

última o las últimas letras del apellido. Así

el autor Pablo Neruda aparece como ‘Pnda’ y

Miguel Cervantes de Saavedra, aparece como

‘MCSa’.

Si hay más de un autor, aparece el nombre

abreviado de los autores. Después de la sigla

del autor viene la abreviatura del país, como

se puede apreciar en la figura 15. En el caso

de publicaciones periódicas, informamos la

abreviatura de la ciudad, no del país. El

número antes del último corchete se refiere al

número de la obra, es decir, identifica en el


259

índice bibliográfico a que obra se refiere tal

cita. En las obras impresas, en general,

también se informa el número de la página y el

capítulo. En caso de no saberse el número de la

página y solo del capítulo, se inserta el

número de éste capítulo en guarismos romanos.

Para los casos de publicaciones electrónicas,

cuando se trata de documento PDF se coloca el

número de la página, mientras que se trate de

documento .html se coloca el número del

párrafo. Cuando nos referimos a un diario

impreso, se coloca el número del cuaderno.

En general, cada oración lleva el número de la

página donde aparece. Sin embargo, como el

corpus está basado en oraciones terminadas por

punto o interrogación, a veces no es posible

saber exactamente el contenido de cada página.

En nuestra metodología, consideramos el número

de la página a partir del inicio de la oración.

La SECCION es la parte del texto de donde fue

extraída la oración. En los periódicos,

colocamos el nombre de la sección, pero en el

resto de literatura el asunto.


260

El DOMINIO hace referencia al tipo de

producción: Libro, revista o diario. El AÑO nos

indica el año en que fue publicado por vez

primera. El MEDIO puede ser online o impreso.

El AUTOR se refiere al autor de una obra o a la

publicación periodística. En relación al autor

no se ha incluido autores que no sean españoles

o castellanos aunque tengan conocimientos de la

lengua española. Todos los textos deben tener

el nombre y apellido del autor, país y ciudad o

el sitio de publicación de la obra. Se ha

incluido la siguiente información:

Nombre del autor.

Indicación de nacionalidad, residencia,

domicilio o trabajo en la fuente investi-

gada. Serán aceptados los autores hispano-

hablantes. Los autores de países de lengua

española, con apellidos en otra lengua, no

podrán ser incluidos, pues pueden no ser

españoles aunque viven en un país de habla

española. Si el nombre o apellido es

reconocido como de ascendencia castellana

podrá ser incluido.


261

La fecha de publicación es esencial, ya

que sino el trabajo no puede incluirse en

el corpus.

Los TITULARES: Cuando se trate de un texto

periodístico y contenga titulares. La

PART_OF_PH. Muchas oraciones se recortaron

por tener más de 254 caracteres y se

refiere a la parte de la oración que se

queda en el registro.

Las notas de pie de página, así como las

notas finales y la bibliografía no se

incluyen en el corpus.


262


263

7. EL MODELO DEL ESPACIO VECTORIAL


264


265

7.1. El Sistema SMART

El sistema SMART fue diseñado en 1964 por

Salton e inicialmente concebido como una

herramienta experimental para la evaluación de

la efectividad de tipos de análisis y

procedimientos de búsqueda. Se distingue de los

demás SRI convencionales por cuatro aspectos

fundamentales, según Martínez Méndez y

Rodríguez Muñoz (2004: 157):

(1) usa métodos de indización automática; (2) agrupa documentos relacionados dentro de clases comunes de materias; (3) identifica los documentos a recuperar por similitud con la pregunta realizada por el usuario y (4) incluye procedimientos automáticos para generar mejores ecuaciones de búsqueda.

SMART utiliza el modelo de espacio vectorial

para la clasificación temática de los

documentos así como la técnica de feedback de

relevancia para perfeccionar el proceso de

Recuperación de la Información. Este es el

modelo teórico más difundido en Recuperación de

la Información, el llamado modelo vectorial,

(Salton, 1983) formado por una matriz


266

término/documento que representa la base de

datos donde cada documento es representado por

un vector de n elementos, donde n es el número

de términos indexados en toda la colección de

documentos susceptibles de continuar en

cualquier elemento de la colección. A cada

elemento del vector es asignado un valor

numérico que corresponde a importancia del

término en el documento, desde 0 hasta 1 sí en

dicho documento no recoge el dicho término o sí

el valor del peso asignado al término no

existe. Actualmente muchos siguen utilizando

las técnicas de SMART para la gestión de

recuperación de documentos en las bases de

datos.

7.2 Medidas de similitud

Aunque nuestro sistema sea de la Extracción de

la Información, parte de la metodología se basa

en modelos de Recuperación de la Información.

En la Recuperación de la Información, cada

documento es representado a través de un vector

de n dimensiones. Los componentes de este


267

vector son representados por los términos que

aparecen en el texto, como se aprecia en la

figura 27.


El valor de cada componente se calcula a partir

de una frecuencia inversa del documento (IDF =

Inverse Document Frequency), de donde se

obtiene una comparación entre la representación

vectorial de las consultas y de los vectores de

los documentos.

Hay diversos métodos para el cálculo de la

similitud documental. Para poder evaluar la

similitud entre documentos es necesario definir

una medida cuantitativa de la similitud

existente de los mismos. Estes métodos se basan

en el modelo vectorial, asignando a cada


268

término de la consulta un peso (wi) que puede

ser cualquier valor positivo. Los coeficientes

binarios más utilizados como medida de

similitud entre una consulta y los documentos

en los sistemas de Recuperación de la

Información vectoriales son: Producto escalar,

coeficiente del coseno, coeficiente de Dice y

coeficiente de Jaccard, como se puede apreciar

en la figura 28.

Figura 28. Medidas de similitud entre dos vectores de términos en el modelo vectorial.

A continuación pasamos a detallar los

coeficientes binarios.

Producto escalar o interno. Bajo el modelo

vectorial, el producto escalar de los


269

vectores es el modelo más simple de

calcular la similitud entre una consulta

(query) y un documento. El resultado se

obtiene al multiplicar el producto de sus

módulos por el coseno del ángulo que ambos

forman.

El coeficiente de Dice es una medida de

similitud variante del índice de Jaccard.

Proporciona doble valor a los términos de

doble presencia. Tiene una estrecha

relación con la distancia de Levenstein

(1966: 707-710).

Coeficiente de Jaccard. El coeficiente de

Jaccard (1900), es una medida estadística

para el cálculo de la medida de similitud

de información asimétrica.

Coeficiente del coseno. La medida de

similitud está basada en el coseno del

ángulo que forman los dos vectores. Se usa

mucho en el área del procesamiento del

lenguaje natural y en especial en el campo

de la categorización automática de

documentos. Es el cálculo del producto


270

escalar de 2 vectores de oraciones (X, Y)

por la raíz cuadrada del sumatorio de los

componentes del vector X multiplicada por

la raíz cuadrada del sumatorio de los

componentes del vector Y. La medida más

utilizada para el cálculo de la similitud

de documentos es el coeficiente del coseno

extendido (Cumming et al. (1992), Qin

(1996)).

Aunque existan otros modelos como los de Dice y

Jaccard, debido a la dificultad de interpre-

tación que plantean, son menos usados en la

Recuperación de la Información. El modelo de

Salton es usado también en operaciones de

categorización automática, filtrado de

información, Extracción de la Información entre

otros.

Cálculo de la similitud documental. La

similitud documental es aquella que en

nuestro proyecto se entenderá como

similitud fraseológica: Las unidades

fraseológicas canónicas existentes en el

diccionario de patrones versus las

candidatas a unidades fraseológicas que


271

pueden o no existieren en las oraciones

extraídas del corpus.

7.3 El cálculo vectorial

El modelo del espacio vectorial fue definido

por Salton (1968) y posteriormente descrito por

Salton y McGill (1983) como aportación funda-

mental para el desarrollo de la Recuperación de

la Información. Desde entonces este modelo ha

sido utilizado como base para varios experi-

mentos de recuperación con ranking, como es el

caso de la serie de experimentos llevados a

cabo por Salton y sus asociados en el sistema

SMART. Los modelos alternativos de Recuperación

de la Información empezaron a desarrollarse

debido a las deficiencias del modelo booleano.

De esta forma, el Sistema SMART, desarrollado

primeramente en la Universidad de Harvard, se

basó en el modelo vectorial Lesk (1964) y

Salton (1964: 1971). Después, el modelo

continuó siendo desarrollado por Salton y sus

colaboradores en la Universidad de Cornell,


272

manteniéndose en uso en los experimentos que se

realizan en la actualidad.

El modelo del espacio vectorial está compuesto

por el espacio vectorial de dimensión M

representando en él (cada dimensión equivale a

un término distinto del glosario), los

documentos, las consultas y las operaciones

algebraicas sobre los vectores de dicho

espacio. Concretamente, la función que obtiene

la similitud de un documento con respecto a una

consulta se basa en la medida del coseno de

acuerdo con Salton et al. (1983), la cual

devuelve el coseno del ángulo que forman ambos

vectores en el espacio vectorial.

El modelo vectorial permite explicar de manera

sencilla las operaciones matemáticas que

determinan la similitud entre documentos (en

nuestro caso, oraciones) a partir de las

palabras que las constituyen.

Después de almacenar un conjunto de oraciones

en una matriz de m filas por n columnas, donde

las columnas representan los términos

almacenados en estas oraciones, calculamos la


273

similitud entre las UFs almacenadas en el

diccionario de patrones que se convierte en el

vector UF, expresado en función de la aparición

de los n términos en las UFs y los m vectores

de las oraciones extraídas del corpus. Las más

similares son aquellas más cercanas al 1 y las

menos similares aquellas más distantes del 1.

Este modelo se basa en la construcción de una

matriz o tabla de términos y oraciones. Este

modelo busca recoger la relación de cada

oración Di de una colección de X oraciones,

extraídas de un corpus, con el conjunto de las

n características de la colección, como se

observa en la figura 29.


Dt -> d= Ct1,Ct2,….,Ctn)


274

Las filas representan las oraciones y las

columnas, los términos, denominados vectores.

Las filas de esta matriz se expresan en función

de la frecuencia de apariciones de cada término

en las oraciones.

Los valores representan el número de veces que

aparece cada término en el documento. De este

modo la longitud del vector de documentos sería

igual al total de términos de la matriz (el

número de columnas). Este modelo permite

demostrar de una manera sencilla las

operaciones matemáticas que permiten determinar

la similitud entre frases, a partir de las

palabras contenidas en ellas, como se observa

en la figura 30.

Figura 30. Matrix de similitud término-término.


275

En nuestra investigación, a diferencia del uso

habitual del modelo del espacio vectorial, que

es la determinación de la similitud entre la

pregunta y los documentos, buscamos el cálculo

de la similitud entre oraciones, es decir, la

relación de cada oración Di, de una colección

de X oraciones, extraídas de un corpus, con el

conjunto de las n características del corpus.

Formalmente una frase puede considerarse como

un vector que expresa la relación de la oración

con cada una de esas características.

De esta forma el sistema puede calcular el

coseno del ángulo que forma el vector UFs

(consulta) con el resto, obteniendo un valor

que determinará la similitud entre las unidades

fraseológicas almacenadas en nuestro diccio-

nario de patrones y las candidatas a unidades

fraseológicas encontradas en la oraciones,

permitiendo al sistema detectar y extraer los

registros en función de esa similitud. La

fórmula del coseno se puede aplicar tanto para

determinar la similitud entre pregunta/oración,

como entre oraciones.


276

En el modelo de recuperación vectorial, las

medidas de similitud están asociadas con la

idea de distancia, siguiendo la idea de que

cuanto más cercano esté el espacio vectorial o

la medida angular, más similares son los

documentos. Inicialmente, el sistema SMART usó

una medida angular, que después fue sustituida

por la vectorial. Ésta es la fórmula del Coseno

creada por Rigsbergen (1979), como se puede ver

en la figura 31.

Figura 31. La similitud del coseno entre pregunta y

documentos.

Podemos observar en la figura 31 que:

tdij = el término i en el vector para el

documento j.

tqik = el término i en el vector para la

consulta k.


277

n = número de términos únicos en la base de

datos Lo que sería la pregunta, en un sistema

de Recuperación de la Información convencional,

en nuestro sistema de Extracción de la

Información, tenemos la unidad fraseológica

canónica. En lugar de los documentos,

tendremos, las oraciones, como observamos en la

tabla 25.

Tabla 25. Matriz de las UFs canónicas y candidatas a

UFs.

UFC8 Tener la cabeza bien amueblada F1 Me estoy quitando del café F2 Rento casa amueblada en Cancun por noche o

semana F3 Tener una cabeza muy bien amueblada F4 Lo asombroso del caso no es la operación, sino

el hecho de que la tuvo 12 años en la cabeza sin saberlo

F5 Cristiano tiene la cabeza muy bien amueblada

UFC= Unidades fraseológicas canónicas F1, F2,

F3, F4, F5 = Frases 1, Frases2, etc.

Estas oraciones sufren un pre-procesamiento

mediante el cual están son tokenizadas,

lematizadas y tienen las stop words cambiadas.

8 Unidades fraseológicas canónicas.


278

Los términos supervivientes (en negrita) se

usan para construir una matriz A término-

documento, conforme García (2006, 2008).

Esa matriz es populada con los términos

ponderados aij los cuáles son producto de local

(Lij), global (G), y normalización (Ni)

ponderados o: aij = Lij Gi Nj

En esta ecuación los términos se definen como

sigue:

a. Lij = fij, donde fij es la frecuencia del

término en la oración j. Es también

llamado modelo de frecuencia.

b. Gi = log(D/di), donde D es el tamaño de la

colección y di es el número de oraciones

que contienen el término i. Esto es

también llamado modelo IDF. IDF significa

Inverse Document Frequency.

c. Nj = 1; la extension del documento es

normalizado como 1.

Así tenemos que, aij = fij log(D/di)


279

Para cada unidad fraseológica almacenada en el

diccionario de patrones, el sistema calculará

el espacio vectorial para determinar el nivel

de similitud entre cada una de las UFs

almacenadas y las candidatas a UFs encontradas

en las oraciones. De esta forma para cada

unidad fraseológica canónica se hace necesario

construir una matriz, como podemos apreciar en

la tabla 26. La matriz de vectores de UFs

candidatas se multiplicará por la matriz de la

UF canónica, como se puede apreciar en la

figura 32, en la página siguiente:

Tabla 26. Matriz de vectores de UFs candidatas.

D1 D2 D3 D4 D5 Amueblada 0 4/3 4/3 0 4/3 años 0 0 0 4/1 0 Asombroso 0 0 0 4/1 0 Bien 0 0 4/2 0 4/2 Cabeza 0 0 4/3 4/3 4/3 Café 4/1 0 0 0 0 Cancun 0 4/1 0 0 0 Casa 0 4/1 0 0 0 caso 0 0 0 4/1 0 doce 0 0 0 4/1 0 Estoy 4/1 0 0 0 0 muy 0 0 4/2 0 4/2 Noche 0 4/1 0 0 0 Operación 0 0 0 4/1 0 Quitando 4/1 0 0 0 0 Rento 0 4/1 0 0 0 Saberlo 0 0 0 4/1 0 Semana 0 4/1 0 0 0 Tener 0 0 4/3 4/3 4/3


280

Figura 32. Matriz de vectores de las UFs candidatas x Matriz de la UF canónica.

La matriz de la UF canónica se origina en la

norma Frobenius9, que podemos ver en la figura

33. La norma también escrita como " norma"

es una norma vectorial definida como vector

complejo, como se puede apreciar en la figura

33, según Weisstein (2009).

9 La Norma Frobenius es una norma matricial no subor-dinada a ninguna norma vectorial.


281

Figura 33. La Norma Frobenius.

Los vectores unitarios se obtienen dividiendo

las columnas de vectores por la norma Frobenius

(L2-norms) conforme García (2008). La tabla 27

pone de relieve los distintos niveles de

similitudes entre las UFs canónicas y

candidatas:

Tabla 27. Vectores Unitarios.

D1 D2 D3 D4 D5 UFC Vector lengths

1,0427 1,352 0,4775 1,4851 0,4775 2,0000


282

Cada elemento del vector es dividido ahora por

su correspondiente longitud (length). Las

siguientes matrices son así obtenidas:

Tabla 28. Matriz de similitud (elementos del vector x

longitud).

Las frases quedarían, como se puede observar en

la tabla 29, según su grado de similitud:


283

Tabla 29. Frases clasificadas.

D1 D2 D3 D4 D5 Vector lengths

0 0,0462 0,7076 0,0841 0,7076

Por lo tanto, D3 = D5 > D4 > D2 > D1

El mismo proceso se efectúa para las restantes

UFs canónicas almacenadas en nuestra base de

datos, es decir, la búsqueda de candidatas a

UFs significativas entre las oraciones del

texto, para lo cual se recurren al denominado

diccionario de patrones. El sistema encuentra

frases y las convierte en candidatas.


284


285

8. LOS RESULTADOS DE PHRASENET


286


287

A continuación vamos a describir los resultados

obtenidos en el muestreo y en la construcción

de nuestra aplicación describiendo la interfaz

de usuario.

8.1. La interfaz del usuario

El objetivo del diseño de la interfaz de

PhraseNET es proporcionar al usuario que sea

capaz de extraer resultados óptimos de las

opciones que contiene el sistema. Es una

interfaz diseñada para los usuarios de Windows,

con una interacción totalmente estándar y fácil

de procesar.

La interfaz se basa en un sistema de menús,

barras de herramientas y cuadros de diálogo en

un área de trabajo que facilita la realización

del trabajo del usuario. Este sistema posee un

número de comandos limitado. El objetivo

principal del diseño de la interfaz del usuario

de PhraseNET es facilitar que se encuentre y


288

utilice las características que proporciona

PhraseNET.

La interfaz del usuario de PhraseNET es una

interfaz de documento simple, es la parte de la

aplicación que el usuario ve y con la cual

interactúa, es decir, las ventanas, los

controles y los menús. Como observamos en la

figura 34, la ventana principal de PhraseNET

contiene los siguientes elementos:

Figura 34. Pantalla principal.

La barra de menús desplegables con opciones o

comandos de PhraseNET, contiene los siguientes


289

tres menús: Files, Utilities y Help. Files está

compuesto de las siguientes opciones: Create,

add, print report, file report, save y exit.

Se utiliza create para importar ficheros que

seleccionan el nuevo tipo de documento para

volcar el corpus y crear una base de datos. Add

es la ventana que importa ficheros y escoge el

tipo de documento a importar y lo agrega a los

ya existentes.

El usuario no añade ni quita registros de la

base datos. Esta opción no existe en el

sistema, se puede crear y añadir uno o varios

corpus a la base de datos, pero no se tiene

acceso a los campos individuales de la base de

datos. Por otra parte, print report imprime el

contenido del resultado de la extracción de las

unidades fraseológicas, mientras que file

report graba en el disco duro el contenido del

resultado de la extracción de las unidades

fraseológicas. Finalmente, save & exit, termina

la sesión de PhraseNET.

El menú utilities nos permite acceder a cuatro

formas distintas de visualizar los resultados:


290

View, en el que se ve el resultado de la

extracción de las unidades fraseológicas y la

visualización de cada una junto con el contexto

(frase donde aparece), así como otros campos

del registro. Por ejempo, Search for and

highlight pone de relieve cada UF encontrada en

todo el corpus; en Highlight UFs se observa la

extracción de cada unidad fraseológica

destacada en rojo y en Multiple search busca y

recupera las UFs que se desea de las que han

sido extraídas.

En el menú principal, en HELP, la opción

MULTIPLE SEARCH abre la ventana que se puede

apreciar en la figura 35 y el módulo de ayuda

al usuario ofrece el ‘Manual de referencia de

PhraseNET’. En cualquier momento se puede

interrumpir el mensaje de ayuda pulsando la

tecla escape (esc) o pinchando el símbolo ‘x’

de la ventana.


291

Figura 35. Ayuda.

Además, el usuario podrá saber donde fue

construido el sistema, su autor y cómo obtener

una copia del mismo. En ABOUT el usuario puede

obtener información acerca de la versión y el

copyright de PhraseNET.

Cuando seleccionamos la opción create o add del

menú files, se abre una nueva ventana como se

puede apreciar en la figura 36. En esta ventana

hay cinco opciones para seleccionar el tipo de

archivo que pretendemos importar. Se pueden


292

importar páginas de la Web (webpage to dbf), un

archivo html grabado en el disco duro (html to

dbf), un archivo de texto plano que esté

compuestos únicamente por texto sin formato

(text to dbf), un archivo en formato rtf

(siglas en inglés para Rich Text Format o

'Formato de texto enriquecido').

Figura 36. Menú para importación de ficheros.

Cabe señalar que para cada procesamiento de

archivos importados hay un tiempo asignado para

la conversión del formato original al formato

de la base de datos. Cuando el archivo se ha

importado, sea para crear una nueva base de


293

datos o para añadirla a una ya existente, el

próximo paso será seleccionar la opción save o

exit. La última opción se utiliza en el caso de

haber desistido del intento y no se quiera

guardar.

El sistema procesará los datos buscando la

similitud entre las unidades fraseológicas

almacenadas en el sistema y las UFs candidatas

que puedan existir en las oraciones del corpus.

Aquí existe también un tiempo asignado para el

análisis vectorial de los datos. Después, el

sistema se encarga automáticamente de redi-

reccionar al usuario a la pantalla principal.

En el menú desplegable, la opción view abre la

ventana que se puede apreciar en la figura 37,

que contiene diversas opciones para manipular

los resultados de extracción de las unidades

fraseológicas: Main menu, frequency files,

frequency, sort, phs found, uf match corpus,

context, match, spanish, portuguese, source

file. Todas las opciones aparecen completas a

partir de que el usuario haga doble click sobre

la UF que aparece en UF match corpus.


294

A partir del segundo menú, UTILITIES, cuando

seleccionamos la opción VIEW, se abre una nueva

ventana como se puede apreciar en la figura 37.

Figura 37. Menú View.

La opción MAIN MENU hace que volvamos a la

pantalla principal. FREQUENCY FILES obtiene la

frecuencia de frases o registros por cada autor

o corpus. Frequency nos muestra la frecuencia

de cada unidad fraseológica. SORT indexa el

fichero final por columna. Phs found muestra el


295

número de unidades fraseológicas detectadas y

extraídas correctamente. UF match corpus

realiza un listado de las unidades fraseo-

lógicas extraídas. Context sitúa la frase donde

aparece la UF. Match nos señala la UF como

aparece en el corpus (en plural, con flexión

verbal, etc.). Spanich indica la unidad

fraseológica en español como aparece en nuestra

base de datos. Portuguese indica la unidad

fraseológica equivalente en portugués a UF en

español. Source file muestra la fuente o las

fuentes del corpus.

En el menú principal UTILITIES, la opción

SEARCH FOR AND HIGHLIGHT abre la ventana que se

puede apreciar en la figura 38. Ésta da al

usuario la opción de, al hacer doble click en

cada unidad fraseológica, verla en negrita en

todo los casos en que aparece en el corpus. A

diferencia de otras búsquedas que el sistema

proporciona, ésta no nos indica las

repeticiones de las UFs, solo de uno de los

casos en los que se aprecia.


296

Figura 38. Search for and highlight for all UFs.

También en el menú principal, UTILITIES, la

opción HIGHLIGHT UFs abre la ventana que se

puede apreciar en la figura 39. Ésta da al

usuario la opción de, haciendo doble click en

cada unidad fraseológica, verlas en negrita en

el contexto que aparece. A diferencia del

anterior, éste no muestra las repeticiones,

solo el contexto de la UF en negrita.


297

Figura 39. Search and highlight each phraseological

unit.

Finalmente, en éste menú, la opción MULTIPLE

SEARCH abre la ventana que se puede apreciar en

la figura 40. Ésta da al usuario tres opciones

para la recuperación de las unidades fraseo-

lógicas extraídas del corpus: any of these

words hace la búsqueda de cualquiera de las

palabras insertadas por el usuario; none of

these words hace la búsqueda de las frases que


298

no tengan ninguna de las palabras insertadas

por el usuario y exact match hace la búsqueda

de la frase exacta.

Figura 40. Multiple search.

PhraseNet es un sistema informático compuesto

por un conjunto de instrucciones, ejecutadas en

un ambiente físico denominado Hardware. Estas

instrucciones están organizadas en estructuras

de datos que permiten la detección y extracción

de unidades fraseológicas. Esta herramienta se

creó con el objetivo principal de obtener


299

resultados sobre la calidad del algoritmo de

detección y extracción de UFs. Para obtener un

rendimiento óptimo y verificar que se ceñía a

las necesidades de nuestros objetivos, fue

necesario experimentar con una muestra sacada

de un corpus de entrenamiento y así verificar

manualmente el ‘silencio’ y el ‘ruido’ de los

resultados y comprobar cuáles eran los

problemas y errores inherentes a la propia

metodología experimental. Por silencio documen-

tal nos referimos al conjunto de documentos

almacenados en la base de datos que no han sido

recuperados, cuando se han extraído los

resultados. Esto se debe a que la estrategia de

búsqueda ha sido demasiado genérica.

Respecto al ruido documental, es el conjunto de

documentos recuperados por la búsqueda que no

son relevantes. En una base de datos muy

grande, suele darse una cierta desorientación

en la búsqueda automatizada de datos debido a

la información, lo que conduce a resultados no

deseados (ruido o silencio documental según sea

el caso). En concreto, nosotros buscamos

construir un sistema de búsqueda automatizado


300

muy refinado para tratar de solventar estas

dificultades, pues la pertinencia de los

resultados está en función de la calidad de las

técnicas utilizadas en la búsqueda automa-

tizada.

8.2. Los experimentos de PhraseNet

Respecto al tamaño de un corpus, no representa

ningún obstáculo para la tecnología informá-

tica, ya que la teoría del muestreo nos permite

trabajar con una muestra con alto grado de

representatividad. La teoría del muestreo es

una selección adecuada de la cantidad y calidad

de los individuos que forman parte de un grupo

de observación. Se determina el grado de

representatividad de una muestra en la medida

que las características del muestro se apro-

ximan bastante a las de la población.

Existen varios métodos de muestreo. El empleo

de uno o de otro se hace para sacar mejor

provecho de ciertas características de la

población que es objetivo del estudio para


301

conseguir una mayor precisión en las estima-

ciones, sin incrementar el tamaño muestral. El

muestreo aleatorio simple que usamos en nuestra

investigación es el más simple, pero el más

adecuado a las características de esta investi-

gación.

Además, no hay un consenso sobre el tamaño

ideal de un corpus. Por lo tanto, el muestreo

debe ser lo suficientemente representativo como

para poder realizar un análisis exhaustivo del

nivel de ruido y silencio obtenido por el

sistema. Al mismo tiempo éste debe tener un

tamaño suficientemente grande (el máximo

posible en la teoría del muestreo) para

garantizar que el corpus tiene una base digna

de confianza para poder así extraer

conclusiones sobre el desempeño de nuestra

herramienta informática.

Como se explicó en el capítulo 7, nuestro

corpus se basa en un muestro con un nivel de

confianza del 95% y un margen de error del 1%.

Esto significa que, del total de 251.399 frases

o 3,5 millones de palabras de nuestro corpus de


302

entrenamiento, hemos trabajado con tan sólo

9.250 frases o 132.281 palabras.

En relación a las fuentes recogidas, hemos

considerado cada autor, diario o revista, sin

tener en consideración las distintas ediciones

de diarios o revistas. En el caso de los

autores con más de una obra y las subsecuentes

publicaciones, hemos obtenido 266 fuentes

distintas. Con respecto a las distintas

ediciones de los diarios, revistas y obras

literarias, recopilamos 5.974 de un total de

9.250 registros del muestreo. Obtuvimos una

media de 34,8 frases por cada fuente para el

primer caso y, para el segundo, una media de

1,5 frase por cada fuente. Esto nos lleva a

concluir que utilizamos un número adecuado de

frases para cada fuente, evitando así la

influencia de una determinada obra sobre el

total del muestreo. Esto significa que las

características de nuestro muestreo tiene un

alto grado de representatividad, aproximandose

con nitidez a las de la población.

Entre las cuatro medidas de evaluación

existentes, Precision, Recall, Medida F y


303

Fallout, hemos optado por trabajar sólo con las

dos primeras: Precision y Recall. El sistema

fue sometido a un procesamiento estadístico de

muestreo aleatorio para determinar su

precisión. De este modo, concluimos que, de las

9.250 frases, el sistema ha reconocido y

extraído 705, una parte de las cuales se puede

apreciar en el Anejo I. No ha extraído 194, de

las cuales seleccionamos una parte que también

hemos incluido en el Anejo I. Estas 194 no

fueron extraídas por no haberes sido incluidas

en la base de datos.

De los 705 tokens, es decir, unidades fraseo-

lógicas reconocidas y extraídas, 308 de éstas

representan los tipos que en términos porcen-

tuales es del 43,69%. Las locuciones adver-

biales son las que poseen la mayor frecuencia,

47,2%. El siguiente son las locuciones

verbales, con 18,8%. En tercer lugar, las

locuciones prepositivas, con 10,9%. Las

locuciones interjectivas, las paremias y las

locuciones conjuntivas tienen una representa-

tividad escasa, solo 1,4%, 8,3% y 10,4%

respectivamente. Se puede observar en la figura


304

41 una composición de la frecuencia de las

unidades fraseológicas.

Figura 41. Frecuencia de las UFs.

Frecuencia de las unidades fraseológicas extraídas del corpus de entrenamiento

Loc. adverbial

Loc. conjuntiva

Loc. interjectiva

Loc. prepositiva

Loc. verbal

Paremias

En nuestro estudio hemos considerado locuciones

adverbiales (‘de algún modo’, ‘de rato en

rato’, ‘más adelante’, ‘patas arriba’);

locuciones conjuntivas (‘mientras más’, ‘con

todo’, ‘por lo menos’); locuciones

interjectivas (‘menos mal que’, ‘paso

adelante’); locuciones prepositivas (‘en

función de’, ‘a causa de’, ‘por otra parte’,

‘frente a’); locuciones verbales (‘dormir como

un tronco’, ‘atar cabos’, ‘echar de menos’,


305

‘poner en marcha’); paremias (‘a velas

desplegadas’, ‘como todo el mundo’, ‘sentido

común’, ‘punto de vista’).

El silencio fue bastante representativo, pero

no por el sistema; se debe, en cambio, a una

laguna en la base de datos del sistema. Si

aplicamos la fórmula del coeficiente de

cobertura o Recall y Precision, obtenemos los

resultados descritos a continuación, los cuales

se detallaron en el capítulo 5 sobre métricas

de evaluación. En concreto, en la tabla 28 se

han podido apreciar los resultados del

muestreo.

A continuación se presenta la fórmula para el

cálculo del Recall y de la de Precision. En el

Recall se ha obtenido un alto índice de

aciertos (78,3%) con una Precision de 99,9%

Informaciones correctamente extraídas

Recall=____________________________________

Informaciones relevantes en el texto

Recall = 704 / 899 = 78,3%

Informaciones correctamente extraídas


306

Precisión = _________________________________ Total de informaciones extraídas

Precision = 705 / 704 = 99,9%

Estos números implican que el 78,3% de la

información relevante fue correctamente

extraída (Recall). Por otro lado el 99,9% de

las informaciones extraídas fueron correctas

(Precision), como se puede apreciar a

continuación en la tabla 30.

Tabla 30. Evaluación de PhraseNET.

Podemos ver que los resultados han sido

prometedores, para aumentar la eficacia, se

precisa ampliar la base de datos para que

aumente el valor de Recall. Cuanto más UFs

introduzcamos en nuestra base da datos, más

cerca estaremos de una evaluación exacta y

amplia (Tabla 31).


307

Tabla 31. Evaluación de PhraseNET con el corpus de entrenamiento.

EVALUACIÓN DESCRIPCIÓN EJEMPLOS Excelente La UF candidata es

semánticamente equivalente a encontrada en el texto

Al cabo de/ Al cabo de

Bueno La UF candidata pertenece al segmento de texto encontrado, mas solamente parcialmente identificado

Al cabo de/ Cabo

Débil La UF no es exactamente lo que se buscaba

Al cabo de/ Al cabo del

Mala La UF candidata aunque tenga los mismos términos no está en la misma orden

Al cabo de/ Cabo de Almería

Este grado de precisión refleja la fiabilidad

del método, lo que significa que estamos

procediendo adecuadamente, pues la calidad de

los resultados depende del modelo de detección

y extracción de UFs. En la siguiente frase

encontramos el único error en la extracción de

las UFs de nuestro muestreo, extraído del

corpus de entrenamiento:

Tal es el caso de Nuevo Laredo: como el

primer Laredo quedó del lado de EE.UU.

(fileid=1404)

En este caso, se debe a un error de

interpretación. La locución ‘de nuevo’ existe y

está recogida por el diccionario de

fraseologismos de Manuel Seco. Pero después de


308

la preposición ‘de’, el sistema ha interpretado

‘Nuevo’, como si fuera un adjetivo, cuando es

un nombre propio. No hemos encontrado ningún

caso de inversión de morfemas de las UFs, como

se puede ver en el Anejo I. El sistema ha

conseguido distinguir casos como, por ejemplo,

‘entorno’ de ‘en torno’, es decir, el

sustantivo de la locución prepositiva. No ha

permitido que la preposición ‘del’ ocupase el

lugar de la preposición ‘de’, como en ‘a causa

del’, como en el ejemplo: “Su tatarabuelo había

recibido el nombre pérsico Zurqum a causa del

color”.

En este caso ha sabido distinguir perfectamente

cuando se trata de la preposición ‘a’ del

artículo ‘la’. De este modo no ha confundido ‘a

causa de’ por ‘la causa de’ como en la

siguiente frase: “Resulta que en el primer

diagnóstico aparece que la causa de la

atracción son los gigantescos senos, el

trasero, la boca o algún otro ingrediente

físico digno de tomar en cuenta”.

El sistema ha distinguido el fin y el inicio de

la UF, no permitiendo extracciones en las que


309

podría ser la locución ‘a la par’ cuando en

realidad se trataba de ‘a la pared’, o la

locución ‘a la que’ cuando se trataba de ‘a la

querencia’, la locución ‘a manera de’, cuando

se trataba de alguna manera deberás o por fin,

la locución ‘a menos que’, cuando se trataba de

‘nada menos que él’, como se puede apreciar en

estos ejemplos:

“En el balcón no quedaba nadie; don Fermín

salió del portal, arrimado a la pared, y se

alejó a buen paso”.

“Quedó don Cirilo caviloso, tratando de

acordarse en qué circunstancias podría haberlo

perdido, y sobre todo, de adivinar por qué

casualidad podía haber vuelto a la querencia un

buey de esa edad, que seguramente faltaba del

rodeo desde ternero”.

“De este modo quizá no seas un escritor de tu

tiempito, pero serás un artista de tu Tiempo,

Apocalipsis del que de alguna manera deberás

dejar tu testimonio, para salvar tu alma”.

“Las ingenuidades que había cometido el propio

Fernando, nada menos que él”.


310

Después de que el sistema detectó y extrajo las

unidades fraseológicas de nuestro muestreo,

realizamos un chequeo manual, frase por frase,

cotejando con el diccionario fraseológico de

Seco et al. (2005) y otras fuentes encontradas

mediante búsquedas en Google, para comprobar si

en las frases en las que el sistema no había

detectado ninguna UF, había o no alguna unidad

fraseológica.


311

9. CONCLUSIONES


312


313

Cada aplicación informática tiene rasgos

diferentes y comunes al resto de las

herramientas que existen. En este caso,

PhraseNET reúne características innovadoras

que, entre otras, pueden satisfacer parte de

las dificultades de los traductores

automáticos, pues aunque no sea este tipo de

herramienta, tiene rasgos que la hacen un

extractor de UFs en español que busca el

equivalente en portugués o, en un caso

hipotético, en otra lengua. Aunque se ha

desarrollado la herramienta con corpus escritos

en español, se puede aplicar el sistema de

extracción de la información a corpus escritos

en otras lenguas.

A modo de conclusión, vamos a destacar las

aportaciones principales de esta tesis

doctoral. En este trabajo hemos analizado la

eficacia de PhraseNET, la aplicación informá-

tica desarrollada para la detección y la

extracción de unidades fraseológicas de un

corpus elegido por el usuario, describiendo las

posibilidades de esta herramienta a través de

la interfaz y de los rasgos lingüísticos.


314

También hemos descrito los recursos informá-

ticos asociados al resultado de los

experimentos a los que sometimos a la

herramienta para comprobar su eficacia, desde

la perspectiva del Procesamiento del Lenguaje

Natural. Su representación se ha hecho según el

modelo del espacio vectorial. Para la

construcción de los vectores, se seleccionaron

las UFs candidatas siguiendo criterios lingüís-

ticos y estadísticos. En concreto, se eligieron

las unidades fraseológicas como entidades y se

calculó su relevancia según la Norma Frobenius.

Se presentó una aplicación implementada bajo el

planteamiento de la extracción de la informa-

ción, con esto creemos haber proporcionado las

bases para contestar a los dos objetivos

generales de esta tesis doctoral, planteados en

el capítulo 5: “Realizar una herramienta que

ayude a solucionar las lagunas existentes en el

campo de la fraseología” y “Crear una

herramienta informá-tica que, conjuntamente con

una base de datos sólida, pueda permitir la

detección y extracción de las UFs en un corpus

específico”. Así mismo, el sistema fue sometido


315

a un procesamiento estadístico de muestreo

aleatorio para determinar su precisión, en el

que se estimó que el 78,3% de la información

relevante fue correctamente extraída (Recall).

Por otro lado, el 99,9% de los datos extraídos

fueron correctos (Precision). Es decir, los

objetivos específicos planteados en el capítulo

5 se han logrado con la construcción de

PhraseNET y una base de datos bilingüe junto

con el diccionario de patrones.

En relación a los objetivos específicos,

planteados en el mismo capítulo:

1. “Desarrollar un sistema informático que

permita detectar una unidad fraseológica en

castellano con su equivalencia en portugués, lo

cual no se puede realizar con los traductores

automáticos en la actualidad”.

2. “Ayudar a identificar las UFs para que

sirvan de apoyo a estudiantes y traductores. No

basta con incluir las UFs en un diccionario

electrónico junto con su equivalencia, es

preciso que el sistema sepa cómo reconocerlas


316

en el corpus, sea cual sea su forma de

aparición”.

3. “Sistematizar el tratamiento de la

información fraseológica en una base de datos

bilingüe onomasiológica que permita ver la

variación que existe en las UFs”.

Respecto al primer objetivo específico, en esta

tesis doctoral hemos diseñado un programa

informático, PhraseNET, que permite detectar

unidades fraseológicas en castellano con sus

equivalentes en portugués. Este programa fue

también comparado, como vimos antes, con los

sistemas actuales existentes para la extracción

de la información: ConcGrams, Colex, ElexBI,

Termight y LExTER. Así mismo, hemos evaluado

estas herramientas para comprobar su eficacia

en comparación con PhraseNet en la sección 4.5

de esta tesis doctoral, siendo ésta última la

que extrae paremias y locuciones, además de

presentar los datos en forma de colocaciones,

como lo hacen los sistemas Colex y ConcGram.

Además, PhraseNET tiene una interfaz con

múltiples formatos de archivo: archivo de texto


317

ASCII ‘texto plano’ (txt), archivo de texto con

formato (RTF), archivo de texto con formato de

Microsoft Word (DOC), archivo en formato

portátil para documentos (PDF), archivo con el

lenguaje en el que se elaboran la mayoría de

páginas web accesibles desde Internet (.html).

Esta característica entendemos que es relevan-

te, puesto que los otros sistemas analizados

(ConcGrams, Colex, ElexBI, Termight y LExTER)

no la tienen. PhraseNet es la única herramienta

que trabaja solo con una base de datos, por

esto tiene una mayor sencillez en el manejo de

datos.

En relación al segundo objetivo específico,

creemos haber logrado también el objetivo

propuesto, pues al detectar una unidad

fraseológica en español, el sistema suministra

al usuario su equivalente en otra lengua. En

esta tesis doctoral hemos elegido el portugués,

pero puede ser cualquier otra lengua, como se

observa en la figura 37, y que hemos comentado

en el capítulo de Resultados.

El tercero objetivo específico era construir

una herramienta que pudiera sistematizar el


318

tratamiento de la información fraseológica en

una base de datos bilingüe onomasiológica que

permita ver la variación que existe en las UFs.

Este objetivo se ha logrado en la medida en que

la información obtenida es procesada en una

base de datos bilingüe que formaliza dicha

información en un fichero que se puede utilizar

en el momento en que el usuario lo desee. De

este modo, el sistema genera una base de datos

bilingüe basada en el corpus introducido por el

usuario en el sistema. En concreto, se han

establecido equivalentes de traducción de un

término en una lengua de origen para un

contexto determinado a través de la presencia

de palabras y frases que aparecen en la

estructura del texto que rodea al término de la

lengua de origen. Así, la información se queda

menos fragmentada, a diferencia de como se

presenta en muchos diccionarios y bases de

datos, incluyendo más información contextuali-

zada en el entorno extraído del corpus.

Otra característica a destacar son los recursos

que componen PhraseNET, como por ejemplo: la

búsqueda basada en palabras simples o


319

compuestas en un contexto, como un

concordancer, también es posible ver la co-

ocurrencia de las unidades fraseológicas

alineadas o la base de datos que se usa para el

almacenamiento de información.

En lo que respecta a la evaluación de nuestra

aplicación, pudimos concluir que el método de

la extracción de unidades fraseológicas que se

propuso alcanzó resultados de precision y

Recall similares a otros sistemas de extracción

semejantes. Esta eficacia nos ha permitido

constatar que los objetivos generales y

específicos de la investigación se cumplieron

de forma satisfactoria.

Podemos concluir que PhraseNET suele extraer

sin dificultad las siguientes variaciones de

las UFs: morfológicas (léxica, por derivación,

de género, etc.), morfosintácticas (en el uso

de la preposición, en el uso del artículo,

etc.), sintácticas, léxicas, diatópicas,

diastráticas y diafásicas, las modificaciones

internas (como suele ser la reducción de las

UFs mediante la eliminación o inclusión de


320

alguno de sus componentes) y las externas, en

la periferia.

Con ello, podemos concretar que los criterios

de construcción del diccionario de patrones de

PhraseNET se pueden aplicar a varias lenguas,

siempre que se realice un diccionario de

patrones como se hizo para el español y el

portugués. Como consecuencia, es lógico pensar

que la elección del corpus y la amplitud de la

base de datos (diccionario de unidades

fraseológicas) tienen un papel clave en el

funcionamiento de la metodología y en el futuro

del proyecto.

Sin embargo, hemos de ser conscientes de que

existen algunos tipos de variaciones que no ha

sido posible su identificación. Nuestro

diccionario de patrones consigue detectar la

mayoría de las variaciones fraseológicas

excepto las originadas por la desautoma-

tización. Para solucionar este problema, somos

conocedores que se ha de realizar un cambio en

los algoritmos de la Extracción de la

Información para que se pueda detectar en el

corpus el núcleo fraseológico permanente de


321

dichas UFs. En este momento no se ha realizado

este cambio, puesto que nuestro objetivo

primordial era diseñar y llevar a cabo la

herramienta.

En estos momentos, PhraseNET posee algunas

limitaciones que hemos detectado cuando

probábamos el corpus. Entre las variaciones

internas, es posible detectar y extraer las que

se crean por adición o reducción, siempre que

la periferia de la UF se mantenga. Sin embargo,

las modificaciones por desautomatización,

alusión, figurativas, por sustitución y grama-

ticales necesitan de un algoritmo diferente

para detectar y extraer las UFs que presentan

tales modificaciones. Sin embargo, en estos

momentos consideramos que no existe un número

relevante de variaciones que no hemos

identificado de las UFs que justifique cambios

en los algoritmos.

A continuación, y ya para finalizar con este

capítulo, vamos a resumir las aplicaciones de

PhraseNET que se utilizan para diversas

finalidades y que nos gustaría resaltar, puesto

que consideramos que son las aplicaciones


322

fundamentales de la herramienta que presentamos

en esta tesis doctoral:

Respecto al nivel léxico, PhraseNET

detecta las unidades fraseológicas

encontradas en textos y las presenta junto

con las frases donde aparecen como

ejemplos auténticos del uso real de la

escritura en lengua española y su

equivalente en portugués.

Respecto a las variaciones en las UFs,

detecta aquellas que aparecen en el

corpus, indicando la evolución e

incorporación de nuevos registros que se

realizan en las UFs. Mediante la detección

de variaciones podemos diseñar patrones

que nos indiquen los cambios que sufre la

lengua.

Se proporciona con esta herramienta un

módulo de filtrado para el área de la

traducción automática, lo que puede

funcionar como un asistente para la

traducción asistida.


323

Medinate PhraseNET tambien se puede

elaborar una propuesta pedagógica que

ayude a los alumnos a ser conscientes de

los usos idiomáticos de la lengua. Desde

el punto de vista docente, PhraseNET

presenta, entre otros beneficios, el de

obtener de manera rápida y fiable ejemplos

de todo tipo de unidades fraseológicas con

los que ilustrar las explicaciones

lingüísticas y gramaticales en el aula,

sin tener que recurrir a ejemplos no

contrastados o que no sean actuales.

Somo conscientes de que no todas las posibili-

dades de la herramienta se han explotado, por

ello, continuamos con este proyecto, mejorando

la imagen y funciones de la herramienta.

Actualmente hemos variado su interfaz y estamos

trabajando en otros aspectos que nos gustaría

incluir en futuras investigaciones. A

continuación, la figura 42 muestra la interfaz

actual de la herramienta:


324

Figura 42. Interfaz de la Herramienta en octubre 2011.

Como se observa, hemos incorporado nuevos

aspectos y una interfaz más interactiva para

ayudar al usuario en la detección de

variaciones. Con estas aportaciones vamos

incorporando otros aspectos que creemos

relevantes para esta herramienta.


325

10. BIBLIOGRAFÍA


326


327

Abakumov, S. I. (1936). Устойчивые сочeтaния слов.

Русский яэык в школе, 6.

Afanasiev, A. N. (1850). Narodnye russkie Skazki.

Moscow: Izdvo Nauka.

Alegria, A., Gurrutxaga, P., Lizaso, X., Saralegi,

S., Ugartetxea, S. y Urizar, R. (2003). A Xml-

Based Term Extraction Tool for Basque. Lisboa:

LREC.

Alegria, I., Gurrutxaga, A., Saralegi, X.,

Ugartetxea, S. (2006). ELexBI, A Basic Tool

for Bilingual Term Extraction from Spanish-

Basque Parallel Corpora. 12th EURALEX

International Congress: 159-165.

http://ixa.si.ehu.es/Ixa/ Argital penak/

Artikuluak/1177085533/publikoak/pdf. (Acceso:

10/02/2009).

Alexandrova, O. y Ter-Minasova, S. (1987). English

Syntax (Collocation, Colligation and Discour-

se). Moscú: Universidad de Moscú.

Arnold, I. V. (1973). The English Word. Leksikolo-

gija sovremennogo anglijskogo jazyka. Moscú:

Naukowe.

Ashish, N., Knoblock, C. A. y Levy, A. (1997).

Information Gathering Plans with Sensing

Actions. European Conference on Planning, ECP-

97. Toulouse.


328

Azorín Poch, F. (1969). Curso de muestreo y

aplicaciones. Madrid: Aguilar.

Baeza-Yates, R. y Ribeiro-Neto, B. (1999). Modern

Information Retrieval. Nueva York: Addison-

Wesley.

Bally, C. (1905). Précis de stylistique. Esquisse

d’une méthode fondée sur l’étude du français

moderne. Genève: Chapitre.

Barz, I. (1992). Phraseologische Varianten: Begriff

und Probleme. En Foldes, C. (ed.) Deutsche

Phraseologie in Sprachsystem und Sprachver-

wendung. Viena: Praesens: 25-47.

Bathe, W. (1617) Ianua linguarum quadrilinguis:

Latine, Anglice, Gallice, & Hispanice Siue

modus maximè accommodatus, quo patefit aditus

ad omnes linguas intelligendas: in qua totius

linguæ vocabula, quæ frequentiora, &

fundamentalia sunt, continentur, nullo

repetito: cum indice vocabulorum. Londres:

Richard.

Ben Amor, T. (2008). Défigement et traduction

intralinguale et interlinguale. Meta, 53, 2:

443-455.

Benson, M. et el. (1986). The BBI combinatory

dictionary of English: A guide to word

combinations. Amsterdam: John Benjamins.


329

Bikel, D. M., Miller, S., Schwartz, R. y

Weischedel, R. (1997). Nymble: a high

performance learning name-finder. Proceedings

of the Fifth Conference on Applied Natural

Language Processing, ANLP’97. Washington DC:

194–201.

Blank, I. (1998). Computer-aided analysis of

multilingual patent documentation. Proceedings

of First International Conference on Language

Resources and Evaluation (LREC). Granada:

Universidad de Granada: 765-774.

Bödiker, J. (1746) Grundsäze Der Teutschen Sprache

Mit Dessen eigenen und Johann Leonhard

Frischens vollständigen Anmterkungen. Berlin:

Nicolai.

Borkar, V. R., Deshmukh, K. y Sarawagi, S. (2001).

Automatic segmentation of text into structured

records. SIGMOD Conference: 175-186.

Bourigault, D. (1994). LEXTER, un Logiciel

d´Extraction de TERminologie. Application à

l´acquisition de connaissances à partir de

texts. Tesis doctoral inédita. Paris.

Bourigault, D. (1996). Lexter, a Natural Language

Processing Tool for Terminology Extraction.

7th EURALEX International Congress.

Bourigault, D. y Jacquemin, C. (1999). Term

extraction + term clustering: an integrated


330

platform for computer-aided terminology.

Proceedings of the 8th Conference of the

European Chapter of the Association for

Computational Linguistics, Bergen: 15-22.

Bréal, M. (1897 [1982]). Essai de sémantique.

Monfort: Brionne.

Bragança Junior, A. F. (2007). Os provérbios

medievais em latim e a apropriação da cultura

laica pelo discurso religioso – algumas

palabras. Revista Mirabilia, 6.

Briscoe, T. (1991). Lexical Issues in Natural

Language Processing. En E. Klein & F. Veltman

(eds.), Natural Language and Speech. Berlin:

Spinger-Verlag: 39-68.

Burger, H. (1973). Idiomatik des Deutschen.

Tubingia: Maz Niemeyer.

Burger, H., Buhofer, A. y Sialm, A. (1982) Handbuch

der Phraseologie. Berlín: Gruyter.

Bürli-Storz, C. (1980). Deliberate Ambiguity in

Advertising. Zürich: Verlag Bern.

Bush, Vannevar (1945). As We May Think. The

Atlantic Monthly.

Califf, M. E. y Mooney, R. (1997). Relational

learning of pattern matching rules for

information extraction. Working Papers of the

ACL-97 Workshop on Natural Language Learning:

9-15.


331

Califf, M. R. y Mooney, R. J. (2003). Bottom-Up

Relational Learning of Pattern Matching Rules

for Information Extraction. JMLR, 4: 177-210.

Carneado Moré, Z. (1983). Consideraciones sobre la

fraseografía. En Z. Carneado y A. M. Tristá

(eds.). Estudios de fraseología. La Habana:

Academia de Ciencias de Cuba: 39-46.

Carneado Moré, Z. (1985) Notas sobre las variantes

fraseológicas. Anuario L/L, 16: 269-277.

Carter, R. (1987). Vocabulary: Applied Linguistic

Perspectives. Londres: Allen & Unwin.

Carvalho Rios y Xatara (2005). A elaboração de um

dicionário de idiomatismos: da teoria à

prática. Estudos Lingüísticos XXXIV: 165-170.

Casares, J. (1950). Introducción a la lexicografía

moderna. Madrid: C.S.I.C.

Carvalho Rios, T. H. C. y Xatara, C. M. (2005). A

elaboração de um dicionário de idiomatismos:

da teoria à prática. Estudos Lingüísticos, 34:

165-170.

Cats, J. (1632). Spiegel van den ouden en nieuwen

tyt. Graven-Hage: Isaac Burchoorn.

Cermak, F. (1988). On the Substance of Idioms.

Folia lingüística, 22, 3-4: 413-438.

Chomsky, N. (1980). Rules and Representations. New

York: Columbia University Press.


332

Cohen, W. y Singer, Y. (1996). Context Sensitive

Learning Methods for Text Categorization.

Proceedings of the 19th Annual Inter. ACM

Conference on Research and Development in

Information Retrieval. Nueva York.

Combet, L. (1971). Recherches sur le refranero

castillan. París: Les Belles Lettres.

Conca, M. (1985). Paremiologia i teoria del text.

Tesi de llicenciatura. Universitat de Valèn-

cia.

Connan, J. y Omlin, C. W. (2000). Bibliography

Extraction with Hidden Markov Models.

Technical Report US-CS-TR-00-6. University of

Stellenbosch.

Cordier, Mathurin. (1541) Commentarius puerorum de

quotidiana Sermone. Paris: Exofficina Rob

Stephani typographi Regii.

Corpas Pastor, G. (1995). Un estudio paralelo de

los sistemas fraseológicos del inglés y del

español. (Tesis doctoral inédita). Madrid:

Universidad Complutense de Madrid.

Corpas Pastor, G. (1997). Manual de fraseología

española. Gredos: Madrid.

Corpas Pastor, G. (2001). Compilación de un corpus

ad hoc para la enseñanza de la traducción

inversa especializada. Revista de

Traductología, 5: 155-184.


333

Corpas Pastor, G. y Mena Martínez, F. (2003).

Aproximación a la variabilidad fraseológica de

las lenguas alemana, inglesa y española.

Estudios Lingüísticos, 17: 181-201.

Coseriu, E. (1981). Lecciones de lingüística

general. Gredos: Madrid.

Coulmas, F. (1979). On the sociolinguistic

relevance of routine formulae. Journal of

Pragmatics, 3: 239–66.

Cowie, J. y Lehnert, W. (1996). Information

Extraction. Communications of the ACM, 39, 1:

80–91.

Cumming, I., Wong, F., y Raney, R. K. (1992). A SAR

processing algorithm with no interpolation.

Proc. of IGARSS’92. Huston: 376–379.

Cussens, J. y Džeroski, S. (Eds.) (2000). Learning

Language in Logic. Berlin: Springer.

Dagan, I. (1994). Termight: Identifying and

Translating Technical Terminology. 4th

Conference on Applied Natural Language

Processing.

Dagan, I. y Church K. (1995). Termight: Identifying

and translating technical terminology. Proc.

7th Conference of the European Chapter of the

association for Computational Linguistics: 34-

40.http://u.cs.biu.ac.il/~dagan /publications/

Termight_A94-1006.pdf (Acceso: 31/05/2010).


334

Dal, Vladimir. (1862). Poslovitsy russkago naroda

(Proverbs of the Russian People). Sbornik:

Nabu Press.

Deane, P. (2005). A Nonparametric Method for

Extraction of Candidate Phrasal Terms. Procee-

dings of the 43rd Annual Meeting of the ACL:

605–613.

De Lucca, J. L., Nunes, M.G.V. (2002). Uma análise

introdutória de ferramentas para produção de

dicionários em ambiente MS Windows. Relatórios

Técnicos do ICMC-USP, 46 (NILC-TR-02-20).

Dias, H. G., Kaalep, H-J., Muischnek, K. (2001).

Automatic Extraction of Verb Phrases from

Annotated Corpora: A Linguistic Evaluation for

Estonian. ACL 39th Annual Meeting and 10th

Conference of the European Computational

Extraction, Analysis and Exploitation.

Toulouse: Institut de Recherche en

Informatique de Toulouse and Universite des

Sciences Sociales.

Dias, H. G. & Pereira Lopes, J. G. (2005).

Extracção Automática de Unidades Polilexicais

para o Português. En T. Beber Sardinha (ed.) A

Língua Portuguesa no Computador. Lisboa:

Mercado de Letras.

DRAE (Diccionario de la Real Academia Española).

(1985, 1995, 2001). Madrid: Espasa Calpe.


335

Dobrov, B., Loukachevitch, N., Nevzorova, O.

(2003). An Approach to New Ontologies

Development: Main Ideas and Simulation

Results. International Journal Information

Theories & Applications, 10.

Dobrovol'skij, D. O. (1988). Phraseologie als

Objekt der Universalienlinguistik. Leipzig :

Universidad de Leipzig.

Dobrovol'skij, D. O. (1990). Tipologija idiom.

Veronika N. Telija (ed.) Frazeografija v

Masinnom fonde russkogo jazyka. Moskva :

Nauka: 48-67.

Dobrovol'skij, D. O. (1999). Kontrastive

Phraseologie in Theorie und Wörterbuch.

Baur/Chlosta: Wörter in Bildern.

Duan, J., Lu, R., Wu, W., Hu, Y. y Tian, Y. (2006).

A Bio-inspired Approach for Multi-Word

Expression Extraction. Proceedings of the

COLING/ACL. Sydney.

Dubois, J. (1973). Dictionnaire de linguistique.

Paris: Larousse.

Efimov, A. I. (1954). О яэыке художественных

произведений. Москва.

Eikvil, L. (1999). Information extraction from the

world wide web - a survey. Technical Report

945. Oslo : Norweigan Computing Center.


336

Fernández Sevilla, R. (1985). Paremiología y

lexicografía. Algunas precisions

terminológicas y conceptuales. Philologica

Hispaniensia, 2: 191-203.

Ferreira, A. B. H. (1999). Dicionário Aurélio

Eletrônico – Século XXI. Rio de Janeiro: Nova

Fronteira.

Fillmore, L. (1979). Individual differences in

second language acquisition. En C. Fillmore,

D. Kempler y W. Wang, (eds.) Individual

Differences in Language Ability and Language

Behaviour. Nueva York: Academic Press.

Flavian, E. y Fernández, G. E. (1994).

Minidicionário Español-Portugués, Portugués-

Espanhol. Sao Paulo: Atica.

Fleischer, W. (1982). Wortbildung der deutschen

Gegenwartssprache. Tübingen: Niemeyer.

Fraser, N. (1970). Idioms within a Transformational

Grammar. Foundations of Languaje, 6: 22-42.

Freitag, D. y McCallum, A. (1999). Information

extraction using HMMs and shrinakge.

Proceedings AAAI-99 Workshop on Machine

Learning for Information Extraction. AAAI

Technical Report WS-99-11.

Freitag, D. y Kushmerick, N. (2000). Boosted

wrapper induction. Proceedings of the American

Nat. Conf. Artificial Intelligence.


337

Gabelentz, G. von der (1901). Die

Sprachwissenschaft, durchgesehener Nachdruck

der dritten Auflage von 1901. Tubinga : Narr.

Gallego Barnés, A. (1997). Refranes concordados

(bilingües, trilingües, cuadrilingües) en las

obras impresas de los siglos XVI y XVII.

Madrid: Paremia 6.

García, E. (2006). Cosine Similarity and Term

Weight Tutorial. http://www.miislita.com/

information-retrievaltutorial/cosinesimilarity

-tutorial.html (Acceso:27/04/2009).

García, E. (2008). A Linear Algebra Approach to the

Vector Space Model A Fast Track Tutorial.

http://www.miislita.com/information-retrieval-

tutorial/term-vector-linear-algebra.pdf

(Acceso: 27/04/2009).

García Benito, A. B. (1997). Expresiones

Idiomáticas: el Ploblema de las variantes.

Interlingüística, 6.

García-Page, M. (1989). Sobre los procesos de

deslexicalización en las expresiones fijas.

E.A., 52: 59-81.

García-Page, M. (2008). Introducción a la

fraseología Española. Barcelona: Anthropos.

Gatzauskas, R. & Wilks, Y. (1998). Information

Extraction: Beyond document retrieval. Journal

of Documentation, 54, 1: 70-105.


338

Geor, H. (1616) Teütsche Sprach und Weissheit.

Ausburg: Thesaurus Linguae et Sapientiae

Germanicae.

Glässer, R. (1984). Terminological Problems in

Linguistics, with Special Refrence to

Neologisms. En R. R. K. Hartmann (ed).

LEXeter´83 Proceedings. LEXICOGRAPHICA series

Maior 1: 345-351.

Glickman, O. y Jones, R. (1999). Examining Machine

Learning for Adaptable End-to-End Information

Extraction Systems. AAAI-99. Workshop on

Machine Learning for Information Extraction.

USA.

Goldberg, A. (1995). Constructions, a Construction

Grammar Approach to Argument Structure.

Chicago-London: The University of Chicago

Press.

González Grueso, F. D. (2006). Las colocaciones en

la enseñanza del español de los negocios.

MarcoELE, Revista de didáctica ELE, 2.

Grant, L. E. (2003). A Corpus-based investigation

of Idiomatic of Multiword. http://research

archive.vuw.ac.nz/bitstream/handle/10063

/327/thesis.pdf. (Acceso: 12/01/2008).

Grassegger, H. (1989). Redensarten in der

Fernsehwerbung. En G. Gréciano (ed.).


339

Europhras 88. Estrasburgo: Phraséologie

contrastive: 141-154.

Greaves, C. y Warren, M. (2007). Concgramming: A

computer driven approach to learning the

phraseology of English. ReCALL, 19: 287-306.

Gross, G. (1996). Les expressions figées en

français. Paris : Ophrys.

Guilbert, L. (1975). La créativité lexicale.

Paris : Larousse.

Haensch, G. et al. (1982). La Lexicografía. De la

lingüística teórica a la lexicografía

práctica. Madrid: Gredos.

Hobbs, J. R., Appelt, D. E., Bear, J., Israel, D.,

Kameyama, M., Stickel, M. y Tyson, M. (1997).

FASTUS: a cascaded finite-state transducer for

extracting Information from Natural-Language

Text. En E. Roche and Y. Schabes, (eds.)

Finite State Devices for Natural Language

Processing, Cambridge: MIT Press: 383-406.

Hockett, C. (1958). A course in modern linguistics.

Nueva York: Macmillan.

Houaiss, A. (2001). Dicionário Houaiss da língua

portuguesa. Rio de Janeiro: Objetiva.

Hund, C. (1993). Expressões idiomática: estáveis e

variávies. Actas del IV Congresso da

Associação Internacional de Lusitanistas.


340

Lisboa: Instituto Camões/Fundação Calouste

Gulbenkian: 157-166.

Hutchins, W. J. y Somers H. L. (1992). An

Introduction to Machine Translation. Nueva

York: Academic Press.

Iliná, N. (2001). Literatura comparada Enseñanza de

lenguas. http://hispanismo.cervantes.es/

documentos/Ilina.pdf. (Acceso: 10/03/2009).

Insa Alba, J. R. (2006). Crespillos de borraja y

otras delicias. http://www.hotelselbadansils

.com/ spip.php?article11 (Acceso: 20/11/2008).

Iñesta, E.M. & Pamies B. A. (2002). Fraseología y

metáfora: aspectos tipológicos y cognitivos.

Granada: Método.

Iribarren, J. M. (1974). El porqué de los dichos:

Sentido, origen y anécdota de los dichos,

modismos y frases proverbiales de España, con

otras muchas curiosidades. Madrid: Aguilar.

Isachenko, A. V. (1948). Morphologie, syntaxe et

phraséologie. Cahiers Ferdinand de Saussure,

7: 17-32.

Jaccard, P. (1900). Contribution au problame de

l’immigration post-glaciaire de la flore

alpine. Bulletin Societas Vaudoise Sci. Nat.,

36: 87-130.

Jakobson, R. (1921). Novejsaja russkaja poezija

/Neueste russische Dichtung. W.-D. Stempel


341

(ed.). Texte der russischen Formalisten, II,

Múnich: 18-135

Junker, M., Sintek, M. y Rinck, M. (1999). Learning

for Text Categorization and Information

Extraction with ILP. Workshop on Learning

Language in Logic, Bled, Slovenia.

Jurafsky, D. y Martin, J. H. (2000). Speech and

Language Processing: An Introduction to

Natural Language Processing. Computational

Linguistics, and Speech Recognition.

Http://www-npl.cs.umass.edu/nlgroup/nlpie.html

(Acceso: 15/04/2009)

Karcevski, S. (1923). Etudes sur le système verbal

du russe comtemporain. Slavia.

Kim y Moldovan, D. (1995). Acquisition of

linguistic patterns for knowledge-based

information extraction. IEEE Transactions on

KDE, 7, 5: 713-724.

Kaspars Stieler (1691). Der teutschen Sprache

Stammbaum und Fortwachs oder Teutscher

Sprachschatz. Nürnberg.

Koller, W. (1977). Redensarten: linguistische-

Aspecte, Vorkommensanalysen. Sprachspiel.

Tübingen: Niemeyer.

Kótova, M., Ruiz Nogueira, E. L. (1998). Madera X

Ferro. En X. Ferro Ruibal (coord.) Actas do I

Coloquio Galego de Fraseoloxía. Santiago de


342

Compostela: Centro Ramón Piñeiro para a

Investigación en Humanidades: 313-325.

Kubarth, H. (1998). Elaboración de un diccionario

fraseológico del español hablado moderno. En

G. Wotjak (ed.): 323-341.

Lesk, M. E. (1964). The SMART automatic text

processing and document retrieval system.

Report ISR-8, sec II. Cambridge: Harvard

Computation Laboratory.

Levenstein, A. (1966). Binary codes capable of

correcting deletions, insertions and

reversals. Moscú: Soviet Physics-Doklandy.

Lewicki, A. M. (1976). Wprowadzenie do frazeologii

syntaktycznej. Teoria zwrotu frazeologicznego.

Katowice: Uniwersytet Slaski.

Lewis, D. Schapire, R. E., Callan, J.P. y Papka, P.

(1996). Training Algorithms for Linear Text

Classiers. Proceedings of the 19th

International Conference on Research and

Development in Information Retrieval, SIGIR:

298-306.

Lipka, L. (1983). A multi-level Approach to Word-

Formation: Complex Lexemes and Word Semantics.

Proceedings of the XIIIth International

Congress of Linguists: 926-928.

Lesk, M. E. (1964). The SMART automatic text

processing and document retrieval system.


343

Report ISR-8, sec. II. Cambridge: Harvard

Computation Laboratory.

Levenstein, V. I. (1966). Binary codes capable of

correcting deletions, insertions, and

reversals. Soviet Physics Doklady 10: 707–710.

Lewis, D., Schapire, R. E., Callan, J. P. y Papka,

P. (1996). Training Algorithms for Linear Text

Classiers. En Proceedings of the 19th

International Conference on Research and

Development in Information Retrieval, SIGIR:

298-306.

Lipka, L. (1983). A multi-Level Approach to Word-

Formation: Complex Lexemes and Word Semantics.

En S. Hattori y K. Inoue (eds). Proceedings of

the XIIIth International Congress of

Linguistics: 926-928.

Lopes, A. A. y Brazdil, P. (1998). Redundant

Covering with Global Evaluation in the RC1

Inductive Learner. SBIA: 111-120.

López Roig, C. (2002). Aspectos de fraseología

contrastiva (alemán-español) en el sistema y

en el texto. Frankfurt am Main: Peter Lang.

Luján, N. (1993). Cuento de cuentos: origen y

aventura de ciertas palabras y frases

proverbiales. Barcelona: Círculo de Lectores.

Lyons, J. (1977). Semantics 1. Cambridge: Cambridge

University Press.


344

Magisero, H. (1605). Paroemiologia polyglottos.

Leipzig.

Makkai, A. (1965). Idiom Structure in English. The

Hague/Paris: Mouton.

Martínez Marín, J. (1996). Estudios de fraseología

española. Málaga: Librería Agora.

Martínez Méndez, F. J. y Rodríguez Muñoz, J. V.

(2004). Reflexiones sobre la evolución de los

sistemas de recuperación de información:

necesidad, utilidad y viabilidad.

http://revistas.um.es/analesdoc/article/view/1

651/1701. (Acceso:25/01/2008).

Mazon, A. (1920). Lexique de la guerre et de la

Révolution en Russie (1914-1918). Paris:

Champion.

Medrano Herrero, P. (2000). Refranes y Frases

Proverbiales en un místico manchego: San Juan

Bautista de la Concepción. Actas del Congreso

Trinitario Internacional San Juan Bautista de

la Concepción: su figura y su obra (1561-

1613): 407-476. http://bc.inter.edu/facultad/

pmedrano/Articulos/Refranes.rtf. (Acceso: 11/

01/2009).

Mel’čuk, I. A. (1963). Several types of linguistic

meanings. O. S. Akhmanova et al. (Eds.) Exact

Methods in Linguistic Research. Berkeley–Los

Angeles: Univ. of California Press: 36–43.


345

Mel’čuk, I. (1998). Collocations and Lexical

Functions. En A. P. Cowie (Ed.), Phraseology.

Theory, Analysis, and Applications. Oxford:

Oxford University Press: 23-53.

Mena Martínez, F. M. (2003). En torno al concepto

de desautomatización fraseológica: aspectos

básicos. Tonos. Revista electrónica de

estudios filológicos, 5.

Mendivil, J. L. (1999). Las palabras disgregadas.

Sintaxis de las expresiones idiomáticas y los

predicados complejos. Zaragoza: Prensas

Universitarias de Zaragoza.

Meurier, G. (1568). Recueil de sentences notables,

dicts et dictions comuns ne (sic) adages,

proverbes & refrans, traduits la plus part de

Latin, Italien & Espagnol, & reduit selon

l´ordre alphabetique. Anvers: Jean Waesberghe.

Mieder, W. (1997). The politics of proverbs: From

traditional wisdom to proverbial stereotypes.

Madison: University of Wisconsin Press.

Mokienko, V. (2000). Fraseoloxía eslava. Santiago

de Compostela: Centro Ramón Piñeiro para a

Investigación en Humanidades.

Moliner, M. (1996). Diccionario de uso del español.

Gredos: Madrid.

Montero Martínez, S., García de Quesada, M. y

Fuertes-Olivera, P. (2002). Terminological


346

phrasemes in OntoTerm®: A new theoretical and

practical approach. Terminology, 8, 2: 177–

206.

Montoro del Arco, E. T. (2003). La fraseología en

la gramática española del siglo XX antes de

Casares. Actas del IV Congreso Internacional

de la Sociedad Española de Historiografía

Linguistica.

Montoro Del Arco, E. T. (2005). Aproximación a la

historia del pensamiento fraseológico español:

las locuciones con valor gramatical y su norma

culta. Tesis doctoral inédita. Depto. de

Lengua española, Universidad de Granada.

http://hera.ugr.es/tesisugr/15476893.pdf.

(Acesso: 10/01/2008).

Montoro Del Arco, E. T. (2006). Teoría fraseológica

de las locuciones particulares. Las locuciones

prepositivas, conjuntivas y marcadoras en

español. Frankfurt am Main: Peter Lang.

Moon, R. (1998). Fixed Expressions and Idioms in

English: a corpus-based approach. Oxford:

Clarendon Press.

Morvay, K. (1996). Aspectos lexicográficos y

didácticos de la paremiotogía y fraseología.

Actas del 1er Congreso Internacional de

Paremiología: 423-432.


347

Mouzinho Ferraro, R. G. (2000). Análisis

contrastivo español/portugués de unidades

fraseológicas. Tesis doctoral inédita.

Universidad de Cádiz.

Muggleton, S. y Feng, C. (1992). Efficient

induction of logic programs. En S. Muggleton

(ed.), Inductive Logic Programming. Londres:

Academic Press.

Muggleton, S. (1995). Inverse entailment and

PROGOL. New Gen. Comput., 13: 245–286.

Navarro, Carmen (2005). La fraseología en los

diccionarios bilingües español/italiano.

Aisipi: Actas XXIII.

Nunberg, G., Sag I. A. y Wasow, T. (1994). Idioms.

Language, 70: 491–538.

Nunes, Z. C. y Nunes, R. C. (1982). Dicionário de

regionalismos do Rio Grande do Sul. Lisboa:

Martins Livreiro.

Orliac, B. y Dillinger, M. (2003). Collocation

extraction for machine translation. Nueva

Orleans: MT Summit IX: 292-298.

Orliac, B. (2008). Extracting specialized

collocations using lexical functions. En S.

Granger y F. Meunier. Phraseology: An

interdisciplinary perspective. Amsterdam: John

Benjamins.


348

Ortega Cavero, D. (1975). Diccionario Portugués-

Español. Espanhol-Português. Barcelona: Ramon

Sopena.

Ortíz Alvarez, M. L. (2000). Expressões Idiomáticas

do Português do Brasil e do Espanhol de Cuba:

Estudo Contrastivo e Implicações para o Ensino

de Português como Língua Estrangeira. Tesis

doctoral inédita. UNICAMP.

Otto Jespersen (1924). The Philosophy of Grammar.

Nueva York: Holt.

Paczolay, G. (1998). European Proverbs. Berlin:

Eismann: 605-618.

Pape, W. (1985). Zwischen Spraschpiel und

Sprachkritik. Zum literarischen Spiel mit der

wörtlichen Bedeutung von Idiomen. Sprache und

Literatur in Wissenschaft und Unterricht, 56:

2-13.

Paul, H. (1880). Prinzipien der Sprachgeschichte.

Halle: Niemeyer.

Pedicone de Parellada, E. (2004). El refranero

hispánico. Pervivencia y circulación en la

prensa gráfica, hoy. Tucuman: Fac. Filosofía y

Letras.

Penadés Martínez, I. (1999). La enseñanza de las

unidades fraseológicas. Cuadernos de didáctica

del español/LE. Madrid: Edinumen.


349

Penadés Martínez, I. (2005). Diccionario de

locuciones adverbiales para la enseñanza del

español. Madrid: Arco/Libros.

Polivanov, E. D. (1927). Specifičeskie osobennosti

poslednego desjatiletija 1917–1927 v istorii

nashej lingvističeskoi mysli (vmesto

predislovija). En E. Polivanov (Ed.), Statii

po obščemu jazykoznaniju. Izbrannye raboty:

51–56.

Polivanov, E. D. (1931). La perception des sons

d'une langue étrangère. Travaux du Cercle

Linguistique de Prague 4. Paris : Le Cercle de

Prague: 111-14.

Pöppel, L. (2007). The Rhetoric of Pravda

editorials. Acta Universitatis Stockholmi-

ensis. Stockholm Slavic Studies 33.

Profantová, Z. (1998). Proverbial Tradition as

Cultural-Historical and Social Phenomenon. En:

Peter Dæ určo (ed.), Europhras’97. Phraseology

and Paremiology. Bratislava: Akadémia PZ: 302–

307.

Qin, H. (1996). A review of clustering algorithms

as applied in IR. UIUCLIS. Champaign:

University of Illinois at Urbana-Champaign.

Rajman, M., Besançon, E. (1997). Natural Language

Techniques for Text Mining Applications. DS-7.


350

Rigsbergen, C. J. van (1979). Information

Retrieval. Londres: Butterworths.

Riloff, E. (1993). Automatically Constructing a

Dictionary for Information Extraction Tasks.

Proceedings of the Eleventh National

Conference on Artificial Intelligence: 811–

816.

Riloff, E. (1996). Automatically Generating

Extraction Patterns from Untagged Text.

Proceedings of the Thirteenth National

Conference on Artificial Intelligence (AAAI-

96: 1044-1049.

Ruiz Gurillo, L. (1997). Aspectos de fraseología

teórica española. Cuadernos de Filología,

XXIV, València: Universitat de València.

Ruiz Gurillo, L. (1998). La fraseología del español

coloquial. Barcelona: Ariel.

Ruiz Gurillo, L. (1999). Un enfoque didáctico de la

fraseología española para extranjeros. En M.

J. Coperías y J. Sanmartín (coord.). Quaderns

de Filologia. http://www.ucm.es/info/ especulo

/ele/fraseolo.html (Acceso 11/01/2009).

Salton, G. (1964). Flexible automatic system for

the organization, storage, and retrieval of

language data (SMART). Report ISR-5, sec. 1.

Massachusetts: Harvard Computation Laboratory.


351

Salton, G. (1968). Search and retrieval experiments

in real-time information retrieval. IFIP

Congress: 1082-1093.

Salton, G. (1971). The SMART retrieval system.

Experiments in automatic document processing.

Englewood Cliffs, Prentice Hall: New Jersey.

Salton, G. (1980). Automatic term class

construction using relevance. A summary of

work in automatic pseudoclassification. Inf.

Process. Manage. 16 (1): 1-15.

Salton, G. y McGill, M. J. (1983). Introduction to

Modern Information Retrieval. Nueva York: Mc

Graw-Hill Computer Series.

Sánchez Corral, J. (1990). Análisis del discurso

publicitario. Tesis doctoral inédita.

Universidad de Málaga.

Sancho Cremades, P. (1999). Análisis contrastivo de

la fraseología: la expresión del rechazo del

discurso precio en catalán y español. En J.

Fernández Fonzález, et al. (eds.). Lingüística

para el siglo XXI, Salamanca: Ediciones

Universidad: 1455-1482.

Sattler, H. R. (1607). Teutsche Orthographey und

Phraseologey. Basel: Olms.

Schulze-Busacker, E. (1997). La place du proverbe

dans la mentalité médiévale. Paremia, 6: 565-

576.


352

Saussure, F. (1916). Cours de linguistique

générale. París: Payot.

Seco, M., Andrés, O. y Ramos, G. (1999).

Diccionario del Espanol actual. Madrid:

Aguilar.

Seco, M., Andrés, O. y Ramos, G. (2005).

Diccionario fraseológico documentado del

español actual. Locuciones y modismos

españoles. Madrid: Aguilar.

Selishchev, A. (1928). Iazyk revoliutsionnoi

epokhi. Iz nabliudenii nad russkim iazykom

poslednikh let (1917-1926). Moscú: Rabotnik

prosvesheniia.

Serey Leiva, M. J. (2000). Lexicologia e

lexicografia: a questão das expressões

idiomáticas em espanhol - variante chilena.

Tesis doctoral inédita. Universidade de Sao

Paulo.

Sevilla Muñoz, J. (1992). Fuentes paremiológicas

francesas y españolas en el siglo XVI. Revista

de Filología Románica, 9: 103-123.

Sevilla Muñoz, J. (1993). Paremias españolas:

Clasificación, Definición y correspondencia

francesa. Paremia, 2: 15-20.

Sevilla Muñoz, J. (1994). Fuentes paremiológicas

francesas y españolas en el siglo XVIII.

Revista de Filología Francesa, 5: 299-311.


353

Sevilla Muñoz, J. (2000). Pour une saisie

plurilingue des proverbes à partir de la

langue espagnole. En G. Gréciano (ed.), Micro-

et macrolexèmes et leur figement discursif.

Actes du colloque internacional Langue-

Discourse-Cognition : 77-90.

Sevilla Muñoz, J (2002). El refrán: síntesis de

experiencia. Salamanca: Centro de Cultura

Tradicional. Diputación de Salamanca.

Sevilla Muñoz, J. y Cantera, O. U. (2002). Pocas

palabras bastan. Vida e interculturalidad del

refrán. Salamanca: Centro de Cultura

Tradicional.

Seymore, K., McCallum, A. y Rosenfeld, R. (1999).

Learning hidden markov model structure for

information extraction. En Proceedings of the

AAAI’99 Workshop on Machine Learning for

Information Extraction.

Sinclair, J. (1991). Corpus, Concordance,

Collocation. Oxford: Oxford University Press.

Sinclair, J. y Moon, R. (1995). Collins COBUILD

Dictionary of Idioms. Londres: Harper Collins

Publishers.

Soderland, S., Fisher, D., Aseltine, J. y Lehnert,

W. (1995). Crystal: Inducing a Conceptual

Dictionary. Proceedings of the

14thInternational Joint Conference on


354

Artificial Intelligence (IJCAI-1995): 1314-

1319.

Soderland, S. (1999). Learning information extrac-

tion rules for semi-structured and free text.

Machine Learning, 34: 233-272.

Sosiński, M. (2006). Fraseología comparada del

polaco y del español: su tratamiento en los

diccionarios bilingües. Tesis doctoral

inédita. Universidad de Granada.

Soto de Matulovich, E. (2008). Unidades

fraseológicas en la prensa escrita de Salta.

Actas del 10º Congreso REDCOM “Conectados,

Hipersegmentados y Desinformados en la Era de

la Globalización. http://www.ucasal.net/

novedades/archivos/redcom-ponencia/Eje5/Mesa5-

6/Soto-E.pdf (Acceso: 11/01/2009).

Sundheim, B. (1992). Overview of the Fourth Message

Understanding Evaluation and Conference. En

Proceedings of the Fourth Message

Understanding Conference (MUC-4), San Mateo:

Morgan Kaufmann: 3–21.

Sypnicki, J. (1991). Quelques remarques sur le

modifications comiques des structures

lexicales et phraséologiques. Studi italiani

di linguistica teorica ed applicata, 1: 151-

163.


355

Takasu, A. (2003). Bibliographic attribute

extraction from erroneous references based on

a statistical model. JCDL ’03: Proceedings of

the 3rd ACM/IEEE-CS joint conference on

Digital libraries.

Thun, H. (1978). Probleme der Phraseologie.

Tübingen: Niemeyer.

Thurmair, G. (2003). Making Term Extraction Tools

Usable. Proceedings EAMT-CLAW.

Tristá Pérez, A. M. (1976). La fraseología como

disciplina lingüística. Anuario. L/L, 7-8:

155-161.

Tristá Pérez, A. M. (1988). Fraseología y contexto.

Habana: Editorial de Ciencias Sociales.

Tristá Pérez, A. M. (1998). La fraseología y la

fraseografía. En G. Wotjak (ed.), Estudios de

fraseología y fraseografía del español actual:

297-305.

Uspenskii, L. (1931). Russkii iazk posle

revoliutsii. Slavia, 10, 2: 252-87.

Vinogradov, V. V. (1938 [1947]). Ocerki po istorii

russkogo literaturnogo jazyka XVIII-XIX vekov.

Moskva: Ucpedgiz.

Vinokur, G. O. (1925). Kul'tura jazyka. Ocherki

lingvisticheskoj texnologii. Moscú: Rabotnik

prosveschenija.


356

Weinrich, U. (1969). Problems in the Analysis of

Idioms. En J. Puhvel (ed.), Structure and

Substance of Language. Los Angeles: University

of California Press: 23-81.

Weisstein, E. W. (2009). L2-Norm. En MathWorld--A

Wolfram Web Resource. http://mathworld.

wolfram.com/ L2-Norm.html (Acceso 27/04/2009).

Widom, J. (1995). Research Problems in Data

Warehousing. Proceedings of the 4th

International Conference on Information and

Knowledge Management.

Wissemann, H. (1961). Das Wortgruppenlexem und

seine léxicographische Erfassung. En XVI int.

Kongre/9 für Psychologie: 225-258.

Wotjak, G. (1983). En torno a la traducción de

unidades fraseológicas (con ejemplos tomados

del español y el alemán). Linguistische

Arbeitsberichte, 40: 56-80.

Wotjak, G. (1988). Uso y abuso de unidades

fraseológicas. En Homenaje a A. Zamora

Vicente. Historia de la lengua. El español

contemporáneo. Madrid: Editorial Castalia:

535-548.

Wotjak, G. (1991). Kommunikatives Wissen in

interlingualer und inter-kulturellerSicht.

Zeitschrift für Phonetik, Sprachwissenschaft

undKommunikationsforschung, 44, 1: 111-125.


357

Wotjak B. (1992). Verbale Phraseolexeme in System

und Text. Tübingen: Max Niemeyer.

Yolis, E. (2003). Algoritmos genéticos aplicados a

la categorización automática de documentos.

Tesis doctoral. Universidad de Buenos Aires.

www.fi.uba.ar/laboratorios/lsi/yolistesisingen

ieriainformatica.pdf (Acceso: 27/04/2009).

Zamora Muñoz, P. (2000). Desautomatización y

traducción de expresiones fijas italianas en

español. Cahier du P.R.O.H.E.M.I.O, III: 425-

440.

Zareba, L. (1976). Zu la méthode d'élaboration des

dictionnaires phraseologiques. Terminologies

76: Colloque international. Paris : Maison du

dictionnaire: 1125-1135.

Zelle, J. M. y Mooney, R. J. (1994). Combining top-

down and bottom-up methods in inductive logic

programming. Proceedings of the Eleventh

International Conference on Machine Learning :

343-351.

Zuluaga, A. (1975). La fijación fraseológica.

Thesaurus, Boletín del Instituto Caro y

Cuervo, XXX, 2: 225-248.

Zuluaga, A. (1980). Introducción al estudio de las

expresiones fijas. Frankfurt am Main: Peter D.

Lang.


358

Zuluaga, A. (1997). Sobre las funciones de unidades

fraseológicas en textos literarios. Paremia,

6: 631-640.

Zuluaga, A. (1998). Sobre fraseoloxismos e

fenómenos colindantes. En Actas do I Colóquio

Galego de Fraseología. Santiago de Compostela:

Xunta de Galicia: 15-29.


359

ANEJO I


360


361

ANEJO I. MUESTRAS DEL ANÁLISIS REALIZADO MEDIANTE PHRASENET. CORPUS ESPAÑOL/PORTUGUÉS CON EQUIVALENCIAS DEL LENGUAJE. fileid Spanish Portuguese PUs Contents filesource 221005 a buen

paso a buen

paso En el balcón no quedaba nadie; don Fermín salió del portal, arrimado a la pared, y se alejó a buen paso.

[LACn,E,1,300]

211720 a cada rato

A toda hora

a cada rato

El niño Humberto era malo y pegaba pronto, a cada rato. En la calle. En el corredor también. Y en la escalera. Y también en la cocina, delante su mamá y delante la patrona.

[Cvjo,P,2,46]

15252 a causa de

por causa de

a causa de

En un principio, quizás a causa de dolores de parto, el capitalismo fue humanizado por la democracia promulgando normas para hacerlo más tolerable y evitar el renacer de la esclavitud.

[Esez,V,1,c23:XVIII]

22307 a causa de

por causa de

a causa de

"La lesión quedó atrás y la única

[Enal,Ccs,62,B:D|2]


362

preocupación es su brazo, a causa de la inactividad", dijo el piloto de los Orioles, Mike Hargrove... Hay 11 nipones en el spring training

16494 a eso de

por volta de

a eso de

La bulliciosa caravana llegó a sus puertas a eso de las 9:00 pm y con la entrada de los novios, la animación no hizo más que plantar banderas en cada palmo del de la sala para hacer saber que aquello era coto de su propiedad.

[Enal,Ccs,60,B|:10]

13682 a la cabeza

À frente no comando

a la cabeza

Durante dos años, nadie decidió con firmeza a la cabeza del Estado.

[Mgna,A,1,O:25]

217960 a la cabeza


a la cabeza

Por fin Trabuco, dispuesto a jugar el todo por el todo, se puso de pie en medio de la sala y cogió bruscamente el diccionario

[LACn,E,1,129]


363

de manos de Orgaz, que creyó que iba a arrojárselo a la cabeza.

91140 a la cabeza


a la cabeza

Asturias, «a la cabeza de España» en la puesta en marcha de programas de desarrollo rural

[DECD,E,141,L:As]

202892 a la medida

sob medida a la medida

Un resort a la medida Desde el año 1992, Allegro adelanta estrategias para consolidar sus propiedades, especialmente en el área del Caribe.

[Enal,Ccs,10,F|T:3]

188557 a la par

ao mesmo tempo; ao mesmo nível

a la par

La mujer trabajó a la par de los hombres.

[JLBs,A,3,50]

9447 a la puerta

muito próximo

a la puerta

En aquel momento sonaron dos fuertes y ejecutivos golpes aplicados a la puerta grande del molino.

[PAAn,E,1,XV:66]

10116 a la puerta

muito próximo

a la puerta

Juan López en su mula, y los dos Alguaciles andando, llegaron a la puerta del Corregimiento.

[PAAn,E,1,XXVIII:107]


364

19358 a la puerta

muito próximo

a la puerta

En esto se oyeron dos golpes recios a la puerta de la habitación, y la voz de Luisa que decía: - ¡Que nos vamos!...

[JMDP,E,2,130]

105359 a la puerta

muito próximo

a la puerta

Ella aprovechó que Gerard estaba en el extremo de la sala para irse acercando a la puerta.

[HLZa,M,1,puerto]

223253 a la puerta

muito próximo

a la puerta

Por fin, una mulata decrépita asomó a la puerta de la cocina, enjugándose las manos con el ruedo de las enaguas.

[JERa,Co,1,26]

233844 a la que

a la que

Ahora bien, la unión es difícil de sostener en la actualidad por la imprescindible especialización a la que el matemático ha de acogerse si quiere no ya crear algo original, sino dominar la parcela a la que se dedica.

[Jlzo,E,1,28]

1840 a la ao mesmo a la La búsqueda [RDSs,A,1,


365

vez tempo vez del método drástico y eficaz a la vez para reparar el sistema dañado se convirtió así en un desafío, pero cuyas respuestas inmovilizaron o, por lo menos, condicionaron, el accionar de las élites.

V]

1978 a la vez

ao mesmo tempo

a la vez

Sintiéndose sin ganas de comer, ni menos de conversar con nadie, tendió su recado entre dos cortaderas altas que le brindaron a la vez colchón blando y confortable reparo, y envolviéndose en la manta se acostó.

[Gdux,A,2,p0000001.htm#5]

2116 a la vez

ao mesmo tempo

a la vez

Las doscientas hectáreas habían cambiado de aspecto; no quedaba más rastro de lo que eran antes que una gran mata de

[Gdux,A,2,p0000001.htm#7]


366

paja cortadera con sus hermosos penachos plateados, dejada adrede como recuerdo a la vez y adorno.

139122 a la vez

ao mesmo tempo

a la vez

Fallece la mujer más anciana del mundo con 137 años El humorista `Quino' publica una nueva antología sin Mafalda2.600 personas botan balones a la vez en BadalonaKusturica y su banda arman una fiesta «loca» en ChileLos `elefantes asesinos' de Vietnam ser

[ENDC,E,18,Val]

190584 a la vez

ao mesmo tempo

a la vez

No lo olvida nunca, y escogió tan bien, que por el marido que adora en secreto mi cruz y mi enseña le he dado a la vez.

[Emna,E,1,358]

192047 a la vez

ao mesmo tempo

a la vez

«¡No quería dejarme ir!», dijo Pablo, sin aliento y a la vez encantado con

[Jeds,Ch,1,22]


367

la conversación presidencial.

199136 a la vez

ao mesmo tempo

a la vez

Eso provocará que nosotros podamos influir más y que a la vez seamos más influenciados por lo que está sucediendo en el mundo.

[Enal,Ccs,21,B|F:8]

211625 a la vez

ao mesmo tempo

a la vez

Paco estaba también atolondrado porque en el campo no oyó nunca sonar tantas voces de personas a la vez.

[Cvjo,P,2,40]

30691 a largo plazo

a longo prazo

a largo plazo

Hay hechos que no cambian, apuntó, como los que se derivan de la condición de frontera entre la región y Estados Unidos, y aseguran a largo plazo un lugar relevante en la agenda norteamericana.

[Enal,Ccs,63,A:I|7]

53578 a largo plazo

a longo prazo

a largo plazo

Valor a buen precio y a largo plazo

[ENDC,E,31,D&N]

57334 a largo plazo

a longo prazo

a largo plazo

Nokia, una apuesta a largo plazo

[ENDC,E,51,D&N]

16727 a las muito a las Ángel Arias [Enal,Ccs,


368

puertas próximo, muito perto

puertas

recalcó que los tomistas no participaron en los hechos violentos, porque a esa misma hora estaban frente a las puertas del Jardín Botánico.

60,C|Inf:2]

56485 a las puertas

muito próximo, muito perto

a las puertas

Los guerrilleros antitalibán detienen su fulgurante avance a las puertas de Kabul

[ENDC,E,47,I]

130070 a las puertas

muito próximo, muito perto

a las puertas

La alcaldesa y una concejala de su grupo se enzarzan en una pelea a las puertas del Ayuntamiento

[ENDC,E,109,Pal]

69133 a lo grande

em grande estilo

a lo grande

Semana a lo grande tribuna asturiana Alberto Piquero

[DECD,E,25,O]

34331 a lo mejor

talvez a lo mejor

Estamos comprando petróleo a terceros, desarrollando o manteniendo la producción de otros países, que a lo mejor forman parte de la OPEP, para mantener

[Enal,Ccs,63,A:I|9]


369

mercados que son nuestros.

98886 a lo mejor

talvez A lo mejor

- A lo mejor sí y a lo mejor no.

[Fazi,A,4]

100223 a lo mejor

talvez A lo mejor

A lo mejor en ese gesto estabas descubriendo tu propia historia, y tratabas de comprender lo que vendría después.

[Fazi,A,5,Laura]

100244 a lo mejor

talvez a lo mejor

Pero a lo mejor las podías mostrar.

[Fazi,A,5,Laura]

212410 a lo mejor

talvez A lo mejor

- A mí me clijieron que por ai por Isla_Verde tan orbanisando y han sacao un montón de negros arrimaos. A lo mejor son desos.

[JLGz,SD,1,122]

23454 a lo sumo

no máximo; quando muito

a lo sumo

Oswaldo Cancino mostró la cara oculta del chavismo cuando afirmó: "El hombre que ajusta sus actos a la ley podrá ser a lo sumo un animal domesticado, pero no un revolucionario.

[Enal,Ccs,62,D:P|2]

26202 a lo no máximo; a lo Lo hacía todo [Dmos,A,1,


370

sumo quando muito

sumo él mismo, desde el principio hasta el fin, dejando a lo sumo ciertas operaciones secundarias en manos de algún aprendiz pero manteniendo siempre un control absoluto sobre la totalidad del proceso.

Capitulo08]

218819 a lo sumo

no máximo; quando muito

A lo sumo

A lo sumo concedían que comería cañamones.

[LACn,E,1,172]

103268 a manera de

a título de

a manera de

Era de este grado y por eso se trasquilaba el pelo a manera de otomíes.

[MLPa,M,1,cap11]

125646 a manera de

a título de

a manera de

Las serpientes estornudaban azufre, eran interminables intestinos subterráneos que salían a flor de tierra a manera de fauces abiertas.

[MAAs,G,2,ast12]

31519 a más no poder

até não poder mais; até dizer chega

a más no poder

La fiesta quedó estupenda, los anfitriones, felices a más no poder,

[Enal,Ccs,63,B:Soc|14]


371

desplegaron las mil y una atenciones de manera que todo quedara "de mil maravillas", como en efecto fue.

195444 a más tardar

no mais tardar

a más tardar

Según estimaron los directivos del grupo, a más tardar para agosto estarían comenzando los cursos de carpintería, herrería, panadería y costura de ropa.

[Lrca,Mvd,2,S:20]

12483 a partir de

a partir de

a partir de

Pero como todas las leyes de su tipo, establecía que solamente se titulaba hasta una fecha y a partir de allí estaban prohibidas las invasiones.

[Enal,CCs,61,E:E|2]

35370 a partir de

a partir de

a partir de

La Dirección Nacional de la Vertiente Artiguista se reunirá hoy a partir de la hora 10 en la sede del Club Húngaro (Garibaldi 2631).

[Lrca,Mvd,5,P:6]

74131 a a partir a El autobús [DECD,E,51


372

partir de

de partir de

recogerá a partir de hoy a los alumnos de La Piñera

,L:Or]

79829 a partir de

a partir de

a partir de

Corvera: Enrique Bueno y el aparejador municipal dirimen sus diferencias a partir de hoy en el juzgado de Las Vegas

[DECD,E,80,L:Av]

91934 a partir de

a partir de

a partir de

El pueblo de Asiegu podría disponer a partir de este verano de un aula sobre el picu Urriellu

[DECD,E,145,L:Or]

132395 a partir de

a partir de

a partir de

«Me niego a hacer retratos a partir de fotografías»

[ENDC,E,124,Pal]

192314 a partir de

a partir de

a partir de

A veces se denomina censo muestral a una muestra a partir de la cual quieren obtenerse resultados globales.

[FAPh,V,1,12]

194043 a partir de

a partir de

a partir de

El problema adquirió relevancia y motivó la preocupación de los productores a partir de la cosecha de finales del año pasado y principios

[Lrca,Mvd,4,E:30]


373

del presente.198213 a

partir de

a partir de

a partir de

Planeamos convertirnos en la primera compañía que ofrecer en México tecnología XDSL, a partir de junio", dijo su presidente ejecutivo, Giancarlo Pecchioni.

[Enal,Ccs,23,E|E:1]

232296 a partir de

a partir de

a partir de

El mercado común creció a partir de tres pilares: monedas estables, amplios plazos de crédito y producción de libros en una lengua en la que los matices locales eran tolerables para todos los lectores.

[Sate,M,1,10]

236104 a partir de

a partir de

a partir de

De hecho, como ya ha sido señalado, la propia producción de Menéndez Pelayo a partir de la muerte de Laverde toma otro giro, abandonando el toque filosófico que la

[GBSz,E,1,49-85]


374

animaba por otro más literario.

24929 a partir de

a partir de

a partir de

Es a partir de esta única, sola y singular célula que se construye poco a poco todo el organismo, con su hígado, su corazón, su sistema nervioso, su aparato circulatorio; cada uno de ellos con sus células diferenciadas y especializadas.

[Dmos,A,1,Capitulo01]

31083 a partir de

a partir de

A partir de

"A partir de este momento, si mantiene su salud en cada aparición y es capaz de volver a tomar la bola en su próxima aparición, estará metido allí".

[Enal,Ccs,63,B:D|2]

81579 a patadas

aos montes; aos pontapés

A patadas

A patadas Toni Rodero

[DECD,E,91,O]

82015 a punto pronto, em ordem

A punto

A punto de cerrarse un acuerdo para el nuevo albergue de perros

[DECD,E,94,L:Av]


375

24951 a su vez

a su vez

Lo que un organismo es está determinado por la particularidad de su estructura la cual le permitirá, a su vez, un determinado comportamiento.


26383 a su vez

a su vez

Esto nos ha llevado ciertamente a construir una sociedad hedonista pero, a su vez, el hedonismo ha actuado como una venda impidiéndonos ver la tremenda lucha por el Poder subyacente.


185332 a su vez

a su vez

Y ese éxito a su vez, ayuda a consolidar la identificación de la colectividad, encarnada en el partido del impulso, de la iniciativa, del cambio hacia el progreso.

[Epis,Mvd,2,Ed:6]

234417 a su vez

a su vez

- Hay otro tipo de reliquias

[Gbno,E,2,5-16]


376

que, a su vez, se nos presentan, ellas mismas, como relatos.

24813 a su vez

a su vez

Por de pronto, todo parece estar en movimiento: la Tierra gira alrededor del Sol, que a su vez se mueve en el apex solar, que a su vez acompaña los movimientos de traslación y rotación de la Vía Láctea....


126737 a su vez

A su vez

A su vez el predicado COMIBLE puede expresarsecon COMER() e INSALUBRE() que se consideran más simples:.

[SNGH,M,1,tesisfinal]

203880 a su vez

a su vez

"La educación y el desarrollo tecnológico, que a su vez contribuyen al desarrollo de vías de comunicación, son indispensables para el progreso de un país", señaló.

[Enal,Ccs,3,F|EyN:1]

232804 a su a su Esto puede [Igch,E,1,


377

vez vez considerarse como un crecimiento de la especie vegetal; pero si los nuevos protoplasmas así formados se separan, se aislan, pueden considerarse como hijos del primero y a su vez darán origen a nuevos individuos.

III:4]

237833 a su vez

a su vez

De otro modo, las democracias parlamentarias no garantizan por sí mismas la eutaxia de las sociedades políticas que no reúnan a su vez las condiciones mínimas cuanto a los problemas económicos, jurídicos, religiosos, &c.

[Gbno,E,5,3-36]

34033 a su vez

A su vez

A su vez, estará comunicado con el Nivel Planta Baja por medio de uno de los anfiteatros para espectáculos.

[Enal,Ccs,63,G:MC|3]


378

31062 a sus anchas

à vontade a sus anchas

Giambi es un jugador que parece sentirse a sus anchas en la Gran Manzana.

[Enal,Ccs,63,B:D|2]

225568 a todo à toda A todo A todo trapo [Enal,Ccs,28,B:Soc|7]

11379 a través de

através de a través de

"La idea es rescatar el boxeo a través de estos programas en el interior del país", expresó Ramón Cotúa, uno de los promotores del evento quien aseguró que harán cuatro o cinco jornadas más en la provincia.

[Enal,CCs,61,B:D|4]

12535 a través de


La información la dio a conocer la directiva de la Confederación Nacional de Asociaciones de Productores Agropecuarios (Fedeagro) a través de una nota de prensa.

[Enal,CCs,61,E:E|2]

13596 a través de


El debate individual a través de la

[IFSa,E,1,§150,V]


379

libertad de imprenta dejaba por tanto de ser el mecanismo de formación-transmisión de la opinión pública, para resultar sustituido por el debate interpartidista.

30117 a través de


Nos estamos refiriendo a la circunstancia de que, a través de la etología, las operaciones de los animales entran a formar parte, como términos, del campo de la biología evolucionista.

[Daez,E,1,3-46]

33417 a través de


Usted lo puede llamar por la frecuencia VHF 16 o contactarlo a través de la recepción del hotel Tamarind Beach.

[Enal,Ccs,63,F:Tur|9]

34383 a través de


Superamos esas barreras a través de PDV Finance y la calificación

[Enal,Ccs,63,B:D|4]


380

de la compañía mejoró.

35719 a través de


Genta negó que estos fenómenos pudieran ser originados por modificación del medio ambiente a través de la actividad humana.

[Lrca,Mvd,5,S:17]

36750 a través de

através de A través de

La sentencia se llevó a cabo el 17 de febrero de 1600. A través de los siglos ha continuado habiendo filósofos y pensadores que conjeturaron sobre la posibilidad de la existencia de vida extraterrestre.

[LFRz,M,1,XIII:SEC_17.html]

37259 a través de


Actualmente podemos hacer uso de la información, en su formato original, desde cualquier parte del mundo a través de la computadora.

[MRAM,M,1,capitulo1.html]

38734 a través

através de a través

«Sólo mando tarjetas a

[ENDC,E,96,Pal]


381

de de través de internet»

54479 a través de


La Junta promocionará el turismo en el País Vasco a través de la gastronomía

[ENDC,E,36,CyL]

146432 a través de


El ayuntamiento comenzará la recaudación ejecutiva de las multas a través de la Diputación

[ENDC,E,65,Seg]

177194 a través de


Como si ciertos sentimientos quisieran resurgir desde alguna parte de su espíritu, en esa forma indirecta en que suelen hacerlo a través de lugares que uno se siente inclinado a recorrer sin exacta y clara conciencia de lo que está en juego.

[Esto,A,3,14]

180122 a través de


En parte, por la índole oscura de ese continente, que quizá entrevea nuestra alma como a través de un vidrio sucio, por la

[Esto,A,3,161]


382

imperfecta desencarnación.

186828 a través de


Pero las abordaron a través de "una reestructuración y la incorporación de nuevos socios", señalaron didácticos.

[Crin,Bue,8,E:19]

194987 a través de


La prevención se refiere a los comicios legislativos de octubre, puesto que en el escenario del balotaje --donde se estima que Vázquez será uno de los dos contendientes--, según las fuentes, "es lógico que haya un debate a través de la televisión".

[Lrca,Mvd,3,P:3]


383

RESUM

Aquesta tesi doctoral se centra en el camp de l’Extracció de la Informació (EI), en el qual s’investiga l’efectivitat de PhraseNET, és a dir, una aplicació informàtica desenvolupada per a detectar i extraure unitats fraseològiques d’un corpus determinat. Presentem en aquesta tesi la interfície, les característiques lingüístiques i els recursos informàtics associats a l’avaluació dels resultats mitjançant un corpus d’entrenament. Per a això, ens basem en la classificació proposada per Carrió Pastor (1997) de les unitats fraseològiques i les locucions. Presentem un sistema que ha de poder extraure la informació més rellevant des de les unitats fraseològiques que s’han proposat amb anterioritat, partint des d’un corpus en portugués i en castellà.

El tema que abordem en aquesta tesi doctoral és un fet que preocupa traductors i lingüistes, ja que no és senzill poder realitzar les equivalències lingüístiques de les unitats fraseològiques de dues llengües. Considerem que, encara que en els diccionaris es contemplen les traduccions de les unitats fraseològiques, ha d’existir una eina capaç de detectar les seues possibles variacions en la llengua, és a dir, quan s’expressen amb temps verbals distints, en plural, etc. L'eina que proposem extrau les unitats fraseològiques d’un corpus textual, siga quin siga la seua forma i mostra els seus equivalents en altres llengües.

El nucli del sistema automàtic d’extracció de les unitats fraseològiques és un algoritme basat en un corpus de què s’obté una llista de totes les frases que es troben després de comparar-les amb un diccionari de patrons lèxics. L’avantatge d’aquest mètode, comparat amb altres ja existents, és que no es requereix un coneixement molt especialitzat de la Fraseologia per a poder realitzar la recerca.

No obstant això, aquest procés comporta dificultats en adaptar-lo a l’extracció d’unitats d’altres llengües, dificultats que estan inherents en la mateixa naturalesa


384

de la metodologia de l’Extracció de la Informació. Per això, PhraseNET està en constant evolució i contínuament hem canviat aspectes per a millorar-ne el funcionament.

Els objectius que plantem en aquest estudi són, d’una banda, poder dissenyar una eina que ens permeta reconéixer unitats fraseològiques (UFs) sense tindre en compte la seua forma, d’una altra, detectar-les en el seu entorn amb exemples que identifiquen la seua ubicació en el corpus i, finalment, poder identificar els mateixos patrons en diverses llengües.

Una vegada dissenyada l'eina i descrites les distintes parts que la componen i les seues utilitats, finalitzem aquest estudi concloent que PhraseNET sol extraure sense dificultats les següents variacions de les UFs: morfològiques, sintàctiques, lèxiques, de caselles buides, diatòpiques, diastràtiques i diafàsiques, les modificacions internes (com sol ser la reducció de les UFs mitjançant l’eliminació o l'addició d’algun dels seus components) i les externes, en la perifèria. Som conscients que aquest estudi posseeix certs aspectes que podem incorporar, però hem aconseguit delimitar la base de l'eina per a poder millorar-ne el funcionament en el futur.


385

RESUMEN Esta tesis doctoral se centra en el campo de la Extracción de la Información (EI), en el que se investiga la efectividad de PhraseNET, es decir, una aplicación informática desarrollada para detectar y extraer unidades fraseológicas de un corpus determinado. Presentamos en esta tesis la interfaz, las características lingüísticas y los recursos informáticos asociados a la evaluación de los resultados mediante un corpus de entrenamiento. Para ello, nos basamos en la clasificación propuesta por Corpas Pastor (1997) de las unidades fraseológicas y las locuciones. Presentamos un sistema que ha de poder extraer la información más relevante desde las unidades fraseológicas que se han propuesto con anterioridad, partiendo desde un corpus en portugués y en castellano.

El tema que abordamos en esta tesis doctoral es un hecho que preocupa a traductores y lingüistas, puesto que no es sencillo poder realizar las equivalencias lingüís-ticas de las unidades fraseológicas de dos lenguas. Consideramos que, aunque en los diccionarios se contem-plan las traducciones de las unidades fraseológicas, ha de existir una herramienta capaz de detectar sus posibles variaciones en la lengua, es decir, cuando se expresan con tiempos verbales distintos, en plural, etc. La herramienta que proponemos extrae las unidades fraseológicas de un corpus textual, sea cual sea su forma y muestra sus equivalentes en otras lenguas.

El núcleo del sistema automático de extracción de las unidades fraseológicas es un algoritmo basado en un corpus del que se obtiene una lista de todas las unidades que se encuentran después de compararlas con un diccionario de patrones léxicos. La ventaja de este método, comparado con otros ya existentes, es que no se requiere un conocimiento muy especializado de la Fraseología para poder realizar la búsqueda.

Sin embargo, este proceso conlleva dificultades al adaptarlo a la extracción de unidades de otras lenguas, dificultades que están inherentes en la misma naturaleza de la metodología de la Extracción de la Información.


386

Por ello, PhraseNET está en constante evolución y continuamente hemos cambiado aspectos para mejorar su funcionamiento.

Los objetivos que plantemos en este estudio son, por un lado, poder diseñar una herramienta que nos permita reconocer unidades fraseológicas (UFs) sin tener en cuenta su forma, por otro, detectarlas en su entorno con ejemplos que identifiquen su ubicación en el corpus y finalmente, poder identificarlos mismos patrones en varias lenguas.

Una vez diseñada la herramienta y descritas las distintas partes que la componen y sus utilidades, finalizamos este estudio concluyendo que PhraseNET suele extraer sin dificultades las siguientes variaciones de las UFs: morfológicas, sintácticas, léxicas, de casillas vacías, diatópicas, diastráticas y diafásicas, las modificaciones internas (como suele ser la reducción de las UFs mediante la eliminación o adición de alguno de sus componentes) y las externas (en la periferia). Somos conscientes de que este estudio posee ciertos aspectos que no hemos imcluido como parte del estudio, pero hemos conseguido los objetivos marcados desde el principio y, con ello, delimitar la base de la herramienta para poder mejorar su funcionamiento en el futuro.


387

ABSTRACT

The present thesis lies within the area of Information Extraction (IE). We investigate the effectiveness of PhraseNET, that is, the software developed for the detection and the extraction of phraseological units of a corpus. We present the tools of this software through the interface, the linguistic features and the computer resources associated to the evaluation results obtained using a training corpus. Our main interest is focused on the locutions and phraseological units according to the classifications proposed by Corpas Pastor (1997).

The main topic of this doctoral dissertation is a fact that worries translators and linguists. It is not an easy task to look for the linguistic equivalences of the phraseological units of two languages. We consider a very relevant fact to design and implement a tool able to detect variations in language, i.e. changes due to verabl tenses, plural, gender, etc. The tool that we propose identifies the phraseological units of a textual corpus and look for their equivalent in other languages; the novelty of the tool we have designed is that it detects the units even when they vary their representation in the text.

The core of the authomatic system of the phraseological unit extraction is an algorithm based on a corpus which provides a list of all the units after a constrative analysis with a dictionary of lexical patterns. The main advantage of this method, compared with others, is that it does not require a very specialized knowledge of Phraseology.

Nevertheless, this process entails some difficulties when adapted to the extraction of units from other languages, difficulties that are inherent to the methodology of IE. As a consequence, PhraseNET is constlantly evolving and we are regurlarly implementing some aspects.

The objectives that we consider in this study are, on the one hand, to design a tool that allows us to detect


388

phraseological units not taking into account their linguistic expression. On the other hand, to detect the phraseological units in the texts with examples that can identify their location in the corpus. Finally, to identify the same patterns in other languages.

Once designed the tool and described its different parts and its utilities, we finish this study concluding that PhraseNET can extract the following variations of the phraseological units: morphologic, syntactic, lexical, diatopic, diastratic and diafasic, internal modifications (as the reduction of the phraseological units with the elimination or addition of the components) and the external, in the periphery. We are conscious that this study could include some asdpects that we have not mentioned, but we have, at the moment, delimitated the basic aspects of the tool in order to improve its characteristics in the future.


389

TESIS DOCTORAL · 2015-10-06 · espacio vectorial, y ya en el capítulo 8 se muestra las partes de...

Documents

Transcript of TESIS DOCTORAL · 2015-10-06 · espacio vectorial, y ya en el capítulo 8 se muestra las partes de...