TESIS DOCTORAL · 2015-10-06 · espacio vectorial, y ya en el capítulo 8 se muestra las partes de...
Transcript of TESIS DOCTORAL · 2015-10-06 · espacio vectorial, y ya en el capítulo 8 se muestra las partes de...
TESIS DOCTORAL
PhraseNET: Detección y extracción
automatizada de unidades
fraseológicas
Realizada por: José Luiz De Lucca
Dirigido por: Dra. María Luisa Carrió Pastor
Octubre 2011
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
2
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
3
ÍNDICE
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
4
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
5
ÍNDICE DE FIGURAS.............................9
ÍNDICE DE TABLAS.............................13
1. INTRODUCCIÓN..............................17
2. LA FRASEOLOGÍA............................29
2.1. El concepto de Fraseología........43
2.2. Definición de las unidades fraseo- lógicas............................51
2.3. Características de las unidades fraseológicas......................54
2.4. Tipología y clasificación de las unidades fraseológicas.............63
2.5. Las corrientes investigadoras de la Fraseología........................77
3. VARIACIÓN Y VARIANTE. HACIA UNA CLASIFICA- CIÓN DE LAS VARIACIONES Y VARIANTES....103
3.1. La definición de variación y variante..........................105
3.2. La tipología de las variantes.....117
3.2.1. Variante fónica............119
3.2.2. Variante morfológica.......120
3.2.3. Variante morfosintáctica...124
3.2.4. Variante sintáctica........126
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
6
3.2.5. Variante léxica...........127
3.2.6. Modificación y desautomati- zación......................133
3.2.7. Variantes lingüísticas y socioculturales.............140
4. LA EXTRACCIÓN DE LA INFORMACIÓN.........145
4.1. Evaluación de los sistemas de extracción de la información.....158
4.2. Métricas de evaluación...........162
4.3. Los métodos......................165
4.4. Tipos de aproximaciones..........168
4.5. Sistemas informáticos de extrac- ción de las unidades fraseo- lógicas..........................176
5. OBJETIVOS...............................191
6. ARQUITECTURA............................197
6.1. Módulo de Acceso.................208
6.2. Módulo de Extracción de la Información......................211
6.3. Módulo Base de Datos.............220
6.3.1. La base de datos del sistema.....................223
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
7
6.3.2. El diccionario de patrones.....................231
6.4. El corpus de entrenamiento........245
6.4.1. El muestreo aleatorio
simple.......................250
6.4.2. Procesamiento del corpus...256
7. EL MODELO DEL ESPACIO VECTORIAL..........263
7.1. El Sistema SMART..................265
7.2. Medidas de similitud..............266
7.3. El cálculo vectorial..............271
8. LOS RESULTADOS DE PHRASENET..............285
8.1. La interfaz del usuario...........287
8.2. Los experimentos de PhraseNET.....300
9. CONCLUSIONES.............................311
10. BIBLIOGRAFÍA............................325
11. ANEJO I.................................359
12. RESÚMENES...............................383
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
8
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
9
ÍNDICE DE FIGURAS
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
10
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
11
Figura 1. Enunciados fraseológico............72 Figura 2. Modelo de Casares..................94 Figura 3. Modelo de Zuluaga..................96 Figura 4. Modelo de Corpas Pastor............97 Figura 5. Modelo de Moon....................101 Figura 6. Dominios de extracción utilizados en las MUC........................161 Figura 7. Mejores resultados reportados en las MUC........................161 Figura 8. Aprendizaje de reglas.............171 Figura 9. Interfaz monolingüe del Termight..178 Figura 10. Interfaz bilingüe del Termight...179 Figura 11. Interfaz de LExTER...............183 Figura 12. Resultado de una búsqueda en ConcGram.......................187 Figura 13. Interfaz con el usuario (ELexBI).189 Figura 14. Diagrama del módulo de acceso....210 Figura 15. Matrix de vectores de documentos.216 Figura 16. Diagrama de flujo de la extracción
de UFs............................218 Figura 17. Diagrama de flujo abreviado de
PhraseNET.........................219 Figura 18. Ficha de entrada de unidades
fraseológicas.....................227 Figura 19. Ficha de salida de unidades
fraseológicas.....................229 Figura 20. Fórmula final del desvío
estándar..........................238 Figura 21. Fórmula de la media aritmética...240 Figura 22. Fórmula del cálculo de la
varianza..........................241 Figura 23. Fórmula del cálculo del desvío
estándar..........................241 Figura 24. Distribución del corpus..........249 Figura 25. Tamaño de la muestra.............252 Figura 26. Ficha terminológica..............257 Figura 27. Matrix de vectores de documentos.267
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
12
Figura 28. Medidas de similitud entre dos vectores de términos en el modelo vectorial.........................268 Figura 29. Matrix de vectores de
documentos........................273 Figura 30. Matrix de similitud término-
término...........................274 Figura 31. La similitud del coseno entre
pregunta y docu-mentos............276 Figura 32. Matriz de vectores de UFs candi- datas x Matriz de la UF canónica..280 Figura 33. La Norma Frobenius...............281 Figura 34. Pantalla principal...............288 Figura 35. Ayuda............................291 Figura 36. Menú para importación de
ficheros..........................292 Figura 37. Menú View........................294 Figura 38. Search for and highlight for all
UFs...............................296 Figura 39. Search and highlight each
phraseological unit...............297 Figura 40. Multiple search..................298 Figura 41. Frecuencia de las UFs............304
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
13
ÍNDICE DE TABLAS
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
14
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
15
Tabla 1. Comparación entre las expresiones idiomáticas y paremias................76 Tabla 2. Modelo de Efimov.......................81 Tabla 3. Dicotomias de Mokienko.................83 Tabla 4. Modelo de Gross (1996).................87 Tabla 5. Variante fónica.......................119 Tabla 6. Otro tipo de variante fónica..........120 Tabla 7. Variante morfológica flexiva..........121 Tabla 8. Variante morfológica por derivación...121 Tabla 9. Variante morfológica de género........122 Tabla 10. Variante morfológica de número.......123 Tabla 11. Variante sintáctica..................127 Tabla 12. Variante léxica diatrópica...........128 Tabla 13. Variante por sinonímia...............129 Tabla 14. Variante del componente nominal......131 Tabla 15. Variante del componente verbal.......132 Tabla 16. Desautomatización de refranes........139 Tabla 17. Variante diatrópica..................142 Tabla 18. Aprendizaje automático...............169 Tabla 19. Ejemplo de etiquetado................180 Tabla 20. Sistemas de extracción...............203 Tabla 21. Generación de la plantilla...........217 Tabla 22. Aplicación del desvío estándar.......238 Tabla 23. Comodines............................243 Tabla 24. Margen de error......................255 Tabla 25. Matriz de las UFs canónicas y candi- datas a UFs..........................277 Tabla 26. Matriz de vectores de UFs
candidatas...........................279 Tabla 27. Vectores Unitarios...................281 Tabla 28. Matriz de similitud (elementos del
vector x longitud)...................282 Tabla 29. Frases clasificadas..................283 Tabla 30. Evaluación de PhraseNET..............306 Tabla 31. Evaluación de PhraseNET con el corpus de Entrenamiento..............307
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
16
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
17
1. INTRODUCCIÓN
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
18
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
19
La comunicación no está formada solamente de
palabras aisladas en el discurso, sino que
muchas veces nos encontramos con unidades
fraseológicas como locuciones, refranes,
dichos, expresiones idiomáticas, etc. Es un
hecho que los hablantes de la lengua española
en la Península Ibérica utilizan expresiones
coloquiales como ‘contra las cuerdas’, ‘tirar
del carro en la misma dirección’, ‘tomar las de
Villadiego’, ‘enseñar los dientes’, ‘hincarse
de rodillas’, ‘traer entre manos’, ‘dar rienda
suelta’, etc. Por medio de ellas, los hablantes
hacen referencia a su realidad cultural como
recurso de la función comunicativa.
Cada hablante reconoce ciertas construcciones
fraseológicas que están refrendadas por la
comunidad lingüística local, pero muchas veces
desconocidas por los hablantes no nativos de
esa lengua. Por ello, es imprescindible el
conocimiento de las unidades fraseológicas
(UFs) para poder entenderse y comunicarse con
los hablantes de una misma lengua, como es el
caso de los hablantes de Latinoamérica.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
20
La dificultad estriba, a veces, en que para un
mismo sentido existen distintas unidades
fraseológicas. Por ejemplo, con el sentido de
enfrentarse a una situación o a alguien se dice
‘plantar cara a algo’ o ‘a alguien’ en España,
pero se expresa como ‘dar la cara’ en América,
o también con el sentido de gozar de la
protección de alguien se dice ‘tener enchufe’
en España, mientras que en América se expresa
como ‘tener palanca’.
Actualmente, la abundancia de datos que
encontramos en Internet y la necesidad de
información que tienen las empresas, institu-
ciones e investigadores, hacen que exista un
entorno caracterizado por niveles crecientes de
complejidad y cambios rápidos y profundos, como
resultado del acelerado avance tecnológico.
Esto hace que sea necesaria la creación
constante de herramientas informáticas para
poder procesar la información.
Para llevar a cabo la formulación e
investigación de mecanismos que utilicen
lenguajes naturales, buscamos apoyo en el
Procesamiento del Lenguaje Natural (PLN). El
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
21
PLN trata del diseño de mecanismos
computacionales que se realizan por medio de
herramientas de software que ejecutan o simulan
la comunicación. Para la extracción fraseo-
lógica, que es el caso que nos ocupa, es preci-
so construir una herramienta capaz de detectar
y extraer las unidades fraseológicas. Las
unidades fraseológicas suelen ser una de las
tareas más difíciles para la traducción
automática, puesto que su equivalencia lingüís-
tica no se deduce del significado de sus
componentes ni de las reglas gramaticales que
parecen combinarlas.
Tal dificultad hace que los traductores
automáticos suelan fracasar estrepitosamente
ante las locuciones, pues son sistemas
rudimentarios, por lo que es siempre necesaria
la aportación humana para obtener una
traducción inteligible. Las unidades fraseoló-
gicas, así cómo el lenguaje coloquial y litera-
rio, incumplen las reglas habituales de la
gramática y de la semántica, siendo en muchas
ocasiones imposible una traducción automática.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
22
En los estudios de lingüística, la variación
fraseológica no ha recibido la importancia que
merece, así como tampoco en los estudios del
Procesamiento del Lenguaje Natural. En los
pocos trabajos existentes sobre el tema, le
dedican unas páginas, que en realidad son
recopilaciones de otras investigaciones,
exceptuando los trabajos de García-Page (2008)
y Mena Martínez (2003). El estudio de la
variación de las unidades fraseológicas fomenta
divergencias semánticas y terminológicas entre
los fraseólogos; en cambio, para el
procesamiento informático de las UFs, esta
variación plantea un problema de difícil
solución. Por ello, en este estudio hemos
dedicado escasa atención a la fijación
fraseológica, pues consideramos que ésta no
conlleva muchos problemas para el PLN.
La investigación de esta tesis doctoral se ha
centrado, en primer lugar, (capítulos 2, 3 y 4)
en la descripción y comportamiento de las
variantes fraseológicas, analizando y contras-
tando los distintos enfoques aportados por los
estudiosos de este tema. Hemos querido aportar
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
23
una perspectiva global del concepto de las
unidades fraseológicas y lo que se entiende
como tales, ya que componen el corpus de este
estudio. También se ha incluido una parte
dedicada a la extracción de la información,
aspecto fundamental en esta tesis doctoral.
A continuación, en el capítulo 5, establecemos
los objetivos que nos proponemos en esta tesis
doctoral, tanto generales como específicos. En
los capítulos 6 y 7 presentamos la metodología
que se ha seguido para diseñar la herramienta
que presentamos, el corpus y el modelo del
espacio vectorial, y ya en el capítulo 8 se
muestra las partes de la herramienta,
PhraseNET. La aportación de esta tesis doctoral
se basa en una herramienta, es decir, una
aplicación informática desarrollada para la
detección y la extracción de unidades fraseo-
lógicas de un corpus elegido por el usuario.
Presentamos las potencialidades de esta
herramienta a través de la interfaz y de los
rasgos lingüísticos y recursos informáticos
asociados al resultado de las pruebas a las que
fue sometida mediante un corpus de entre-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
24
namiento. El corpus de la base de datos está
compuesto de 1386 UFs.
El sistema informático que presentamos es capaz
de extraer correctamente la información
relevante a partir de unas unidades fraseoló-
gicas introducidas previamente. El núcleo de
este sistema de extracción automatizada de UFs
es un algoritmo que, basándose en un texto,
obtiene una lista ordenada de todas las frases
halladas tras su comparación con un diccionario
de patrones. La ventaja de nuestro método, a
diferencia de otros anteriores, es que no
precisamos contar con un experto externo en el
dominio de la fraseología o con sólidos
conocimientos lingüísticos.
A partir de la base de datos bilingüe español y
portugués, construimos un diccionario de
patrones. No basta con incluir las unidades
fraseológicas en una base de datos junto con su
equivalencia, también es preciso que el sistema
sepa reconocerlas como tales en el corpus, sin
tener en cuenta su forma de aparición, sea
simple o compuesta.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
25
De esta forma, nuestro sistema es más
productivo en la medida que se logre
incrementar la base de datos a corto, medio y
largo plazo. Son muchos los beneficios que
conlleva; el principal es que puede solucionar
los problemas de la traducción automática de
unidades fraseológicas, puesto que los traduc-
tores automáticos no son capaces de tradu-
cirlas. Además, no existe otra herramienta que
realice las mismas funciones. Sí que existen
herramientas informáticas desarrolladas para la
extracción de términos técnicos, asociaciones
de palabras, pero el usuario ha de introducir
la UF buscada cada vez que desee encontrarla.
El corpus de entrenamiento utilizado como base
para este proyecto es un corpus hispano-
americano del español (CHADES). Actualmente,
este corpus posee más de 3,5 millones de
palabras. Empezó a ser recopilado en la mitad
de la última década como parte de una
investigación llevada a cabo por el autor de
esta tesis. La mayor parte del corpus se basa
en publicaciones periodísticas. Este corpus ha
servido para realizar el experimento que
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
26
llevamos a cabo al final del proyecto con el
fin de extraer las unidades fraseológicas con
PhraseNET.
La función del lenguaje de programación fue muy
importante en la planificación, el análisis, el
diseño, la codificación y las pruebas del
proyecto. Una vez establecidos los requisitos
del software, las características del lenguaje
de programación jugaron un papel decisivo para
llevar a cabo esta investigación. Algunas
características sirven de base a sofisticadas
estructuras de datos, otras dependen de la
eficiencia de la memoria y de la velocidad, por
ello, es crucial elegir las adecuadas.
Para este estudio, hemos elegido el lenguaje de
programación Visual Fox Pro 9.0, que nos
permitió desarrollar una interfaz compatible,
implementando los modelos de análisis y diseño
creados mediante el análisis orientado a
objetos y diseño, con el Windows XP como
sistema operativo, y el propio Visual Fox Pro
9.0 para Windows como gestor de la base de
datos.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
27
Nuestros criterios para la selección de las
unidades fraseológicas se han basado en los
criterios establecidos por diversos autores,
entre ellos Haensch (1982), que establece que
los materiales que un lexicógrafo dispone para
recoger datos pueden ser procedentes de fuentes
escritas u orales, primarias o secundarias.
Para este autor, las fuentes primarias, serían
los textos y las fuentes secundarias, los
diccionarios que contienen descripciones
metalingüísticas.
En este estudio nos vamos a centrar en los
textos escritos, puesto que el proyecto que
presentamos se basa en la detección de unidades
fraseológicas en este tipo de textos. Para
ello, n uestro corpus se ha centrado en el
vaciado de una serie de diccionarios, de tesis
y también de algunas fuentes primarias (nativos
de Brasil y de España).
En resumen, esta tesis doctoral se centra en
presentar una herramienta informática que no
solo detecta unidades fraseológicas, sino que
incluso detecta aquellas que han variado por
los cambios de la lengua o por el uso que se
hace de ellas. A continuación vamos a detallar
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
28
los fundamentos teóricos de este estudio que
han dado pie a los objetivos que nos planteamos
antes de diseñar esta herramienta.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
29
2. LA FRASEOLOGÍA
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
30
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
31
Las primeras unidades fraseológicas (UFs)
fueron realizadas en el antiguo Egipto y
Mesopotamia, donde existen ejemplos de
paremias. Las paremias también se incluyen en
los libros clásicos chinos y sánscritos según
Paczolay (1998). En Occidente, la Biblia es la
mayor fuente paremiológica, como se puede
observar en los libros Proverbios, Eclesiastés
y el Cantar de los Cantares, atribuidos al rey
Salomón y de donde proceden muchos de los
proverbios occidentales más difundidos
(Schulze-Busacker, 1997).
En el Medievo, los proverbios escritos en latín
tenían una función didáctico-persuasiva dentro
de la sociedad medieval. Los animales
representaban los modelos de conducta humana
(virtudes y vicitudes) ideales para los
intereses de la iglesia. Las paremias
representaban un retorno de los antiguos
valores del catolicismo transmitiendo, por
medio de metáforas asociadas a los animales,
prácticas del comportamiento del propio hombre.
Como nos indica Bragança Junior (2007: 132):
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
32
[…] animales como metáforas del comporta-miento humano y el legado cultural de la Antigüedad Clásica presente en personajes reales y mitológicos cargados de una nueva simbología, determinan, en líneas generales, algunas de las principales temáticas de los proverbios medievales rimados, reflejos incontestables de una sociedad, que aún tenía en la palabra de Dios, y en la escritura de la Iglesia, los sustentáculos morales de su propia supervivencia.
Poco después, en el siglo XVI, se publicaron
por toda Europa colecciones multilingües de
proverbios y refranes, que incluían tra-
ducciones de paremias al latín o a otras
lenguas vulgares, junto con glosas sobre su
origen, sentido, uso, etc. (Iñesta y Pamies,
2002). En Francia aparecen en Cordier (1541) y
Meurier (1568); en Alemania, las podemos
observar en Hidrónimo Magisero (1605) con su
Paroemiologia Polyglottos; en Inglaterra se
observan en la publicación de “Ianua Linguarum,
quadrilinguis or a Messe of Tongues; Latine,
English, French and Spanish, Reatly served up
together, for a wholesome reparst, to the
worthy curiosity of the studious”1 (1617); en
1 Una colección de proverbios en latin, compilada originalmente por William Bathe con la equivalencia al español y al inglés. El prólogo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
33
Holanda las podemos ver en Jacobus Cats (1632)
y en Italia en la obra trilingüe de Gallego
Barnés (1997).
Corpas Pastor (1997: 166) nos resume el caso de
España:
En el caso del español, el uso de paremias lleva aparejado connotaciones de diverso tipo, por más que éstas no suelan recogerse en los diccionarios. En primer lugar, y en cuanto a las conotaciones estilísticas se refiere, gran parte de las paremias (no así las citas y algunos tipos de enunciados de valor específico) se asocian con niveles culturales bajos y con inferioridad social.
Como bien explica Combet (1971) en su obra
monográfica sobre el refranero castellano, esta
situación proviene de tiempos antiguos. Ya en
el siglo XVI, se detecta cierta reticencia a
usar refranes vulgares por influencia del
pensamiento humanista. La crítica abierta al
uso de refranes comienza en el siglo XVII con
Baltasar Graciá y se agudiza en el XVIII, con
el padre Feijoo. Durante el siglo XIX se
produce cierta revitalización por influencia
está firmado por el traductor de francés "Io. Barbier", probablemente un seudónimo de Isaac Habrecht.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
34
del romanticismo y el interés de los fol-
kloristas.
En Alemania, durante el periodo de la Reforma
(siglo XVI) se prestó atención especial al
registro del habla y de los dialectos. Como
evidencia de esta producción lexicográfica, en
el entorno de la fraseología podemos observar a
Sattler (1607) en Teutsche Orthographey und
Phraseologey y más tarde, en 1746, Bödiker
publica Grundsäsen der Teutschen Sprache.
Así mismo, los diccionarios alemanes del siglo
XVII de Geor Henisch (1616) y Kaspars Stieler
(1691) son una prolífera fuente lexicográfica
para investigar la fraseología histórica del
alemán, valiosa no solamente desde la
perspectiva lingüística, sino también como
fuente de referencia del control ejercido por
las autoridades.
En Rusia, en el siglo XVIII, la emperatriz
Catalina II fomentó un importante trabajo de
producción y compilación del folklore que
enriquecería el tesoro de paremias rusas. Como
consecuencia, aparece en 1770 una antología
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
35
anónima editada por Brasov y en 1769 una
Antología de refranes incluida en la Gramática
rusa de Kurganov. El diccionario de la Academia
Rusa (1789-1794) también registra proverbios y
refranes. El apogeo de las publicaciones sobre
paremias se da en el siglo XIX, por las
aportaciones de Snegirev (1831-1834), Afanasiev
(1850), Buslaiev (1854-1861) y Vladimir Dal
(1862), entre otros (Iñesta y Pamies, 2002).
Vladimir Dal fue uno de los precursores, quizás
el principal, del registro de proverbios en
diccionarios, según vemos en su obra: The
Dictionary of the Living Russian Language
(1863–6), que incluye proverbios de la lengua
rusa.
Por otro lado, Snegirev (1831-1834) escribió
uno de los clásicos del folklore ruso, Russkie
narodnye poslovitsy i pritchi (Parábolas y
proverbios del folklore ruso). Este libro fue
publicado de nuevo en 1999 por Evgenii
Alekseevich Kostiukhin en Moscú, que también
publicó en 1997 junto con otro colegas en
Pushkin House Narodnye russkie skazki ne dlia
pechati, zavetnye poslovitsy I pogovorki,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
36
sobrannye i obrabotannye Afanas’evym (Cuentos,
proverbios y dichos secretos rusos no
publicados, recopilados y editados por
Afanas’ev, 1857-1862).
Respecto a la teoría fraseológica, podemos
afirmar que no empieza hasta el siglo XX,
impulsada por Bally. Discípulo de Saussure,
“Bally trata las expresiones fijas dentro del
análisis estilístico en el précis de
stylistique (1905) y en el Traité de
Stylistique Française (1909). Sin embargo, sus
observaciones pasaron desapercibidas en su
entorno, siendo reconocidas solamente en los
años treinta y cuarenta, cuando Vinográdov lo
ha redescubierto” (Iñesta y Pamies, 2002: 16-
17).
Estos autores continuan definiendo el concepto
expresado por Bally de la siguiente forma:
“Bally llama locuciones fraseológicas
(locutions phraséologiques) a los grupos
consagrados por el uso, distinguiendo, en
función de la cohesión o fijación, entre UFs
(unités phraséologiques o grupes aglutinés),
cuando la cohesión es completa, y series
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
37
fraseológicas (séries phraséologiques ou
groupements usuels) cuando es parcial”.
Al mismo tiempo, el formalismo ruso estaba
constituido por investigadores de Moscú y
Leningrado entre 1915 y 1930. El grupo estaba
formado por una docena de formalistas que
rechazaban considerar la literatura como la
transposición de cualquier otro tipo de género
literario. Sus investigadores, liderados por
Jacobson, se concentran en las estructuras
narrativas (Shklovski, Tomashevski, Propp), en
las estilísticas (Eichenbaum, Tinianov, Vino-
gradov, Bashtin, Voloshinov), en las rítmicas
(Brik, Tomashevski), en las sonoras (Brik,
Jakobson), e incluso en la evolución literaria
(Shklovski, Tinianov) así como en la relación
entre literatura y sociedad (Tinianov,
Voloshinov).
El lenguaje político de la Revolución
Bolchevique, en aquel entonces URSS (1917),
llamó la atención de los lingüistas rusos en
los años 20, poco después de la Revolución.
Entre los autores más destacados, podemos
nombrar a Mazon (1920), Jakobson (1921) y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
38
Karcevski (1923), seguidos más tarde, en el
inicio de los años 30, por Vinokur (1925),
Polivanov (1927 y 1931) y Selishchev (1928).
André Mazon, según Pöppel (2007), publicó el
libro Lexique de la guerre et de la révolution
en Russie (1914-1918), donde analiza los
cambios ocurridos en este periodo en las
siglas, fraseologismos y vocabulario bajo el
impacto de la Primera Grande Guerra y de la
Revolución Bolchevique. Vinokur (1925) citado
en Pöppel (2007: 53), revisaba varios temas,
entre ellos, el purismo, las siglas, los
neologismos y la fraseología en el contexto
cultural. Presta especial atención al lenguaje
político, demostrando su contenido con ejemplos
extraídos del Pravda. Respecto a la
fraseología, comenta:
Almost all elements of our phraseology are hackneyed clichés; coins worn so smooth it´s impossible to tell their value, the worthless currency of 1917-1921. The very cobblestones cry out the devaluation and denomination of this tender. These are words devoid of any function except the nominative.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
39
Vinokur (1925: 84) llega en sus estudios a la
siguiente conclusión: “Shouldn´t we begin out
struggle with bureaucracy and vulgarity by
renewing phraseology? This would not be such a
bad idea”.
En la Rusia de la posrevolución se realizaron
varios estudios sobre el neologismo y la
fraseología (Vinokur, 1925; Polivanov, 1931;
Uspenskii, 1931). Poco después, durante la
primera mitad de 1941 hasta la invasión alemana
de la URSS, existió un avance considerable en
la producción lingüística y, consecuentemente,
de la Fraseología.
Se ha de resaltar la figura del lingüista
soviético Vinogradov (1947) que formula el
objetivo de la fraseología como disciplina
científica, es decir, el estudio de las leyes
que condicionan la falta de libertad de las
palabras para combinarse y la descripción,
sobre esta base, de las combinaciones fijas de
palabras según su tipología, tanto en su
desarrollo actual como histórico. Establece una
primera clasificación sincrónica de las UFs,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
40
desde el punto de vista de su cohesión
semántica, aunque no recoge las paremias.
Otro de los países que destaca por sus estudios
de la fraseología es Gran Bretaña. Las más
tempranas adaptaciones inglesas de la Fraseo-
logía se realizan a través de Weinreich (1969)
(dentro del enfoque de la Gramática
Transformacional), Arnold (1973) y Lipka
(1983). En Gran Bretaña, así como en otros
países de la Europa Occidental, la fraseología
se ha desarrollado considerablemente durante
los últimos veinte años. Siguiendo las
afirmaciones de González Grueso (2006: 3), “El
avance de la Fraseología se ha fundamentado en
el sustento recibido desde el Contextualismo
Británico, y disciplinas como el Análisis del
Discurso, la Lingüística del Texto, la
Lingüística del Corpus y la Psicolingüística”.
Los estudios angloamericanos sobre la
Fraseología han dedicado especial atención a la
investigación sobre la idiomaticidad (idiom),
destinando gran parte de sus publicaciones para
desarrollar diccionarios idiomáticos. De hecho,
su dedicación ha sido tan plena que hasta hoy
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
41
no existe ninguna corriente anglosajona o
norteamericana involucrada en estudios de
Fraseología, sino que han preferido dedicarse a
la idiomaticidad. Sin embargo, no hemos de
olvidar que los autores anglosajones estudian
los phrasal verbs como expresiones idiomáticas.
Los phrasal verbs son unidades constituidas de,
por lo menos, dos palabras: por ejemplo, un
verbo más una preposición (take back), que
suelen ser unidades fraseológicas desde el
punto de vista de la Fraseología española,
aunque los anglosajones, así como otras
escuelas fraseológicas, no los traten como tal.
Hemos de mencionar también la diferencia de
interpretación de lo que es la idiomaticidad
entre los anglosajones y el resto de escuelas.
Para los primeros, las expresiones idiomáticas
o idiomaticidad deben tener un homónimo lite-
ral, que conduzca a la ambigüedad, así el
significado literal permanece, a la vez que el
idiomático es el que está realmente
actualizado. Sin embargo, para otras escuelas,
como la rusa, la alemana y la española, la
existencia o no de un homónimo literal no
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
42
influye en el rasgo distintivo de fijación
fraseológica e idiomaticidad.
En el ámbito de la lengua castellana, en
concreto en España, Casares (1950) dedicó un
capítulo de su manual Introducción a la
Lexicografía Moderna a la locución, a la frase
proverbial, al refrán y al modismo, que fue la
primera clasificación de las expresiones fijas
en español. Después aparecieron los libros
Porqué de los dichos de Iribarren (1974) y
Cuento de cuentos de Luján (1993) que tratan
del problema del origen histórico de diversas
expresiones idiomáticas españolas, incluyendo
todo tipo de fraseologismos, incluso los
proverbios.
A partir de la década de 1980, surgen otras
obras importantes sobre el español, como la de
Zuluaga (1980) Introducción al estudio de las
expresiones fijas, la de Tristá Pérez (1988)
Fraseología y contexto, la de Corpas Pastor
(1997) Manual de Fraseología Española, la de
Ruiz (1998) La Fraseología del Español Actual y
la de Mendivil (1999) Las palabras desagregadas
(Antonio Pamies y Iñesta, 2002).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
43
Una vez vista la importancia de la Fraseología
en distintos periodos y países, vamos a
comentar el concepto de Fraseología, es decir,
qué definiciones han surgido a través de la
historia.
2.1. El concepto de Fraseología
El término Fraseología designa la disciplina
científica que se ocupa de los estudios del
léxico, teniendo en cuenta la contextualización
de las UFs que la componen. El término
Fraseología o unidad fraseológica contiene
combinaciones de carácter general de diversa
índole léxica. Esto sucede porque los lingüis-
tas lo designan de distinto modo, generando
diversas teorizaciones o elocubraciones léxicas
en el intento de buscar una definición
diferente.
Sin embargo, todos coinciden en que, sea cual
sea su escuela o línea metodológica, las
combinaciones sintagmáticas y paradigmáticas de
la Fraseología son de una gran flexibilidad y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
44
capacidad de absorción. La unidad fraseológica
se representa en términos de sus relaciones con
el léxico y en el binomio semántico-conceptual.
Debido a una variación gradual, la Fraseología
presenta los siguientes rasgos distintivos:
alta frecuencia de aparición y de coaparición,
institucionalización decurrente de su repro-
ducción o reutilización, estabilidad (fijación
morfológica o especialización semántica) e
idiomaticidad y variación potenciales.
El deseo de investigar este fenómeno ha dado
lugar al nacimiento de una nueva disciplina
lingüística, la Fraseología, que luchó durante
muchos años por su propia identidad, finalmente
logrando su autonomía. A pesar de esto, el
término Fraseología no ha sido definitivamente
aceptado por los lingüistas que continúan
discutiendo sobre un término general que pueda
abarcar tales fenómenos y, sobre todo, acerca
de su clasificación (Iliná, 2001: 2).
En este estudio, vamos a considerar la
definición de Corpas Pastor (1997), en la que
las UFs engloban las colocaciones, las
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
45
locuciones, y los enunciados fraseológicos.
Partiendo de esta clasificación, nos
centraremos en las locuciones y en los
enunciados como base teórica de este estudio.
El concepto que Saussure (1916) acuñó como
aglutinación ha sido utilizado por Casares
(1950) como expresión pluriverbal o, más
recientemente, como expresión fija por Zuluaga
(1980), término consensuado en la actualidad
por la mayoría de los estudiosos de este tema.
La Fraseología representa, de este modo, la
disciplina lingüística que estudia las UFs. El
concepto de fraseología puede abarcar desde
expresiones fijas (idiomáticas), hasta aquellas
combinaciones usuales, pero que no son fijas,
dentro de la lengua. También se considera que
la fraseología incluye dichos, proverbios y
refranes (García-Page, 2008). Por ello, Ruiz
Gurillo (1998: 12) afirma:
[…] existen dos concepciones de la Fraseología: la concepción estrecha, según la cual esa disciplina abarca las locuciones y frases proverbiales y la concepción amplia, de acuerdo con la cual la fraseología incluye, además, los refranes, dialogismos, aforismos, vocabulario técnico y fórmulas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
46
Lo cierto es que el concepto de Fraseología
tiene muchas acepciones, dependiendo en ocasio-
nes de la orientación de cada investigador.
Podemos decir que dicho concepto puede abarcar
desde expresiones fijas (Dubois et al., 1973)
hasta aquellas combinaciones usuales pero no
fijas dentro de la lengua (Benson, 1986) como
se puede observar cuando Beneviste se refiere a
sinapse, Martinet a frasema y Dubois a unidad
sintagmática.
Así mismo, algunos investigadores consideran
que la Fraseología debe incluir proverbios y
dichos (Zareba, 1976) aduciendo como motivo que
todas estas denominaciones tratan de la misma
realidad, es decir, grupos de palabras sinté-
ticamente conectadas que tienen solamente un
significado en un determinado contexto. Por
ello, si tenemos en cuenta este concepto en
sentido amplio, podemos afirmar que comprende
todas las UFs que tengan el rasgo de la
estabilidad y de la fijación y que, por consi-
guiente, están limitadas a una estructura
sintagmática u oracional, incluyendo tanto el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
47
centro como la periferia. Así, son considerados
dentro de este ámbito los refranes, las frases
proverbiales, los aforismos y las citas, además
de las combinaciones fijas más simples, por
ejemplo, ‘mosquita muerta’.
Zuluaga (1975), Tristá Pérez (1976, 1998),
Martínez Marín (1996) y Navarro (2005) argumen-
tan que los refranes deben ser estudiados
mediante el criterio amplio de la fraseología,
puesto que, aunque equivalgan a un sintagma,
pertenecen al discurso oral y escrito. Zuluaga
incluso argumenta que los refranes, las frases
proverbiales, las máximas y las citas tienen el
rasgo distintivo de la fijación.
La primera división que se realizó,
especialmente en el ámbito de la fraseología
castellana, se debió fundamentalmente a su
concepto; en concreto, a la concepción amplia y
a la concepción restringida de la Fraseología
(Corpas Pastor, 1995; Ruiz Gurillo, 1997 y
Zuluaga, 1998). Como nos comentan Kótova et al.
(1998: 225):
Hay quien intenta disminuir las distancias entre las dos opiniones con argumentos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
48
fraseográficos y afirma la validez de las dos posiciones declarando que la fraseología (conjunto de UFs) en un sentido amplio tendría que ser recogida en los diccionarios generales (monolingües y bilingües) y la fraseología en un sentido restringido, tendría que aparecer en los diccionarios fraseológicos.
Por otro lado, Morvay (1996: 720) afirma:
“Otros creen que se debería crear una nueva
disciplina nombrándola de combinatoria para dar
cabida a estas divergencia semánticas”. Debido
a la disparidad de opiniones a continuación
vamos a enumerar los distintos conceptos de la
fraseología y sus definiciones.
1. Concepción basada en el sentido estrecho. La
fraseología comprende las combinaciones de
palabras que presentan una cierta estabilidad.
Quedan excluidas de la fraseología, por consi-
guiente, los refranes, proverbios, citas, colo-
caciones, etc. Casares (1950), Wotjak (1983),
Fernández Sevilla (1985), Conca (1985) y
Sevilla Muñoz (1992, 1994, 2000) señalan que,
por razones formales y semánticas, los refranes
deberían estudiarse mediante la paremiología,
pues constituyen textos autónomos.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
49
2. Modelos de centro y periferia. En la
Fraseología, el modelo de centro y periferia
fue creado por la Escuela de Praga para
establecer sus límites. Fleischer (1982),
publicó una monografía que se considera la
pionera en este tipo de estudios. Este concepto
fue creado para separar los fraseologismos
fijos e idiomáticos (el centro), de aquellos
que sólo presentan fijación (la periferia).
3. Concepción amplia y una concepción restrin-
gida. (Corpas Pastor, 1995 y Ruiz Gurillo,
1997). Estas son dos posturas antagónicas en
relación a la Fraseología. La concepción
estrecha o restringida de la Fraseología
considera al fraseologismo como una combinación
fija de, por lo menos, dos palabras
ortográficas separadas por un espacio, con un
cierto grado de lexicalización e institucio-
nalización, con una alta frecuencia de coa-
parición en la lengua y que funciona como parte
integrante de una oración, lo cual es la
rectificación de la teoría de las locuciones de
Casares (1950) o, mas exactamente, de sus ante-
cesores. La distinción entre ambos se puede
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
50
medir por el tamaño de su estructura, es decir,
en el centro estarían las unidades próximas a
la palabra simple o al sintagma, o sea, menores
que el sintagma, con un alto grado de fijación
e idiomaticidad y entre ellas se situarían las
locuciones. Koller (1977) y Burger et al.
(1982) defienden la ‘teoría del centro’ y la
‘teoría de la periferia’, que significa que
algunos fraseologismos tienen hard core (un
alto grado de fijación).
Las unidades cuya estructura equivalga o supere
al sintagma, y que tengan como rasgo distintivo
una cierta estabilidad, se sitúan en la peri-
feria, como las paremias (refranes, ada-gios,
frases proverbiales). Sin embargo, hemos de
destacar que “[…] los estudios anglo-nortea-
mericanos sobre idiomaticidad las han situado
fuera de la fraseología, o, como mucho, en el
extrarradio” (Corpas Pastor, 2001: 91).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
51
2.2. Definición de las unidades fraseo-
lógicas
El primer concepto de unidad fraseológica (UF)
surgió con Saussure (1916 [1980]), que habla de
un concepto de aglutinación: “[...] dos o más
palabras, originariamente autónomas y dife-
rentes, que se unen, constituyendo una nueva
unidad absoluta, o dificilmente analizable”. En
español, la primera definición de UF fue dada
por Casares (1950: 170), que es una: "[...]
combinación estable de dos o más términos, que
funcionan como elemento oracional y cuyo
sentido unitario consabido no se justifica, sin
más, como una suma del significado normal de
los componentes". Por otro lado, Tristá Pérez
(1976: 156) define las UFs del siguiente modo:
Aquellas combinaciones pluriverbales en las que el significado de la palabra se oscurece y sólo se hace comprensible dentro de la combinación. Tenemos que incluir dentro de la fraseología los refranes, proverbios, aforismos, citas de autores, términos científicos compuestos, etc.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
52
El origen de las UFs se sitúa en la tradición
del habla, lo que hace que sus constituyentes
estén previamente establecidos en la memoria
discursiva, siendo un reflejo de la cultura y
de la idiosincrasia de los hablantes de una
comunidad lingüística, como nos explica Pedi-
cone de Parellada (2004, citado en Soto de
Matulovich, 2008: 6):
La unidad fraseológica es un discurso social de soporte lingüístico oral ya existente que se materializa en un texto producido, paremia –prensa, y nos sitúa frente a una nueva discursividad, el sincretismo que se da entre el soporte gráfico y el enunciado fra-seológico.
Siguiendo a Glässer (1984: 348), “Unidad fra-
seológica es un término superordinado para
designar ítems léxicos de dos o más palabras”.
También la denominación de Lyons (1977: 23)
Phrasal lexeme se refiere a los mismos ítems
léxicos, pero con la denominación de expre-
siones idiomáticas o idioms. Otros autores como
Carter (1987) y Moon (1998) designan estos
mismos ítems léxicos como ‘expresión fija’ o
fixed expression, incluyendo las colocaciones,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
53
los proverbios, fórmulas rutinarias, dichos y
símiles. Zuluaga (1980) las ha denominado
expresiones fijas y Corpas Pastor (1997),
unidades fraseológicas. Montero Martínez et al.
(2002) las describen así:
El término idiom, por ejemplo, es usado por los estudiosos de la fraseología de Gran Bretaña y Norteamérica desde Hockett, para describir de forma genérica las combinaciones de palabras que funcionan como un todo, sin tener en cuenta sus características semánticas. En contraposición, en el conti-nente europeo se utiliza el término phraseological unit como genérico mientras que el idiom se entiende como prototipo y subgrupo de las Unidades fraseológicas en función de una determinada característica semántica como es la opacidad.
El término estable significa que se han fijado
en una comunidad lingüística, no que la unidad
fraseológica sea fija e imutable, es decir, las
UFs se caracterizan por un alto grado de
cohesión, la naturaleza sintáctica de la
relación entre sus elementos y la posibilidad
de expansión o reducción. En nuestra opinión,
las unidades fraseológicas, no tienen un orden
fijo, aunque puedan estar fijadas en una
comunidad lingüística.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
54
2.3. Características de las unidades
fraseológicas
La institucionalización de las UFs se realiza
por uso, repetición, cristalización morfológica
y semántica y la frecuencia de aparición. Estos
factores que permiten el paso de las
expresiones neológicas del discurso a la
lengua, como nos explica Guilbert (1975: 33,
citado en Corpas Pastor, 1997: 21). La
institucionalización y convencionalismo se da
por la repetición o uso constante de una unidad
fraseológica en el discurso (Coulmas, 1979;
Alexandrova y Ter-Minasova, 1987). El proceso
de institucionalización está relacionado
directamente con el de fijación (estabilidad
formal) y lexicalización (especialización se-
mántica), como indica García-Page (2008: 218):
La institucionalización no sólo favorece o consigue así la preservación y supervivencia de la estructura original ante cualquier agresión formal, sino que, contradic-toriamente, propicia su manipulación lúdica a sabiendas de la naturaleza fugaz de la nueva forma, de su existencia provisional, de su ineficacia como elemento sustituyente.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
55
La institucionalización contiene los rasgos
básicos de la fijación y la idiomaticidad. A
continuación vamos a detallar sus rasgos:
1. Fijación o Estabilidad. La teoría fraseo-
lógica ha dado lugar al establecimiento de los
principios teóricos de la fijación fraseológica
y la idiomaticidad, según Martínez Marín
(1996). Existe una distinción clara entre
fijación y estabilidad: la fijación formal es
el rasgo distintivo sintáctico, léxico,
morfológico y semántico de las UFs, mientras
que la estabilidad existe en el modo en que la
unidad fraseológica se fija en el discurso y en
la memoria de la comunidad lingüística, es
decir, es independiente de las variaciones o
modificaciones que la forma canónica de una UF
suele sufrir.
El significado puede cambiar, como en el caso
de las modificaciones (desautomatización,
desviación o variantes), pero éstas también se
estabilizan posteriormente en el discurso de
una comunidad lingüística. Se fijan morfo-
lógicamente, lexicalmente, sintácticamente y
semánticamente, lo que les confiere el rasgo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
56
distintivo de estabilidad y fijación, de forma
canónica o variante. La fijación no es
absoluta, pero sí existen algunas locuciones
que no admiten cualquier tipo de modificación,
conocidas también como fósiles. Existen
también, por otro lado, locuciones comple-
tamente variables. Para Corpas Pastor (1997:
66-76) sería “[…] el grado de fijación lo que
distinguiría una colocación de una locución”,
mientras que Kubarth (1998: 328) y Ruiz Gurillo
(1999: 206) las distinguen “[…] por el criterio
del grado de idiomaticidad”.
La primera definición de unidad fraseológica en
España fue realizada por Casares (1950: 170).
Esta definición se refiere a las locuciones
que, por extensión, pasó también a designar la
expresión idiomática. Por antonomasia, todas
las UFs, consideradas como tal, contienen dos o
más términos.
Respecto a la fijación formal o fijación
léxico-morfosintáctica, el uso repetido a
través de generaciones de hablantes da como
resultado que las UFs se vuelvan estables en
una determinada comunidad lingüística. La
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
57
fijación formal o léxico-morfosintáctica se
desencadena por ese uso repetido y arbitrario,
convirtiéndose en un rasgo distintivo básico de
las UFs.
De acuerdo con Zuluaga (1980), por un lado, hay
distintos grados de fijación de los componentes
que permiten delimitar dichas estructuras, y
por otro, desde la perspectiva funcional, la
fijación fraseológica es arbitraria, pues desde
el punto de vista sintáctico y semántico, no
hay explicación para la estabilidad de una UF.
No obstante, la fijación en verdad es relativa,
pues hay UFs que pueden sufrir variaciones,
especialmente las locuciones pluriverbales.
2. Idiomaticidad o fijación semántica. El idiom
es “[…] un sintagma fijo y estable de elementos
donde al menos uno de ellos, en relación con
los demás (al menos con uno) es miembro de un
paradigma rigurosamente restringido y cerrado
(siempre en cuanto a la forma, aunque a menudo
también semánticamente)” (Cermak, 1988: 15).
La fijación semántica o idiomaticidad es otro
rasgo distintivo de las UFs. Su significado
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
58
sintagmático no se logra desde el significado
aislado de cada uno de sus elementos
constituyentes, sino que una UF es idiomática
cuando se obtiene su sentido a partir del
significado conjunto de sus componentes, por
ello, pierden su autonomía e identidad
semántica, constituyendo una unidad única de
comunicación.
En las expresiones idiomáticas hay siempre un
componente en el sintagma que cambia el sentido
usual del mismo, caracterizándose así la
expresión idiomática. Por ejemplo ‘meterse a
alguien en el bolsillo’. El verbo ‘meterse’
tiene un sentido figurado, lo que conlleva al
sintagma la característica de expresión idio-
mática.
Aunque presenten ciertas diferencias, todas las
UFs comparten estas características; de modo
que, de acuerdo con el rasgo de idioma-ticidad,
podemos encontrar, concretamente, tres grandes
grupos de UFs (Corpas Pastor, 1997), existen
las colocaciones, locuciones y enunciados
fraseológicos, que van desde un menor a un
mayor grado de idiomaticidad. Mientras que las
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
59
locuciones y las colocaciones se encuentren
bajo el dominio suboracional, los enunciados
fraseológicos así como los refranes y las
fórmulas rutinarias corresponden al dominio
oracional.
Los componentes pueden ser morfemas, monemas o
simple secuencia de palabras. Según Ruiz
Gurillo (1997) ‘agua de borrajas’, es un
ejemplo de expresión fraseológica fija y
estable con significado idiomático que
constituye el núcleo de la fraseología. Sin
embargo, según Insa Alba (2006: 1), ‘agua de
borrajas’ tiene su origen en ‘agua de
cerrajas’: “El mal dicho “agua de borrajas” en
realidad y en origen es “agua de cerrajas”, una
hierba de la que se utilizaba su caldo de
cocción como remedio medicinal hasta que se
comprobó que, menos calentar, todo lo demás era
fantasía. Y por los caprichos de la similitud
sonora, la borraja cargó con el descrédito”.
Los estudios sobre las expresiones idiomáticas
o idioms empezaron en la década de los 50 y
fueron fomentados por la gramática generativa
como observamos en Hockett (1958), Weinreich
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
60
(1969), Fraser (1970) y Chomsky (1980). Estos
autores enfocan las expresiones idiomáticas
desde la morfología y la gramática generativa.
Es un modelo de gramática que usa reglas
transformacionales u otros mecanismos para
representar el desplazamiento de constituyentes
y otros fenómenos del lenguaje natural.
Hockett (1958) definió que las expresiones
idiomáticas son como cualquier clase de
expresiones no compositivas (comparativas).
Según Hockett un morfema es un idiom si es un
constituyente de otro idiom más amplio, es
decir, de otro idiom compuesto. Por ejemplo
head es un idiom en la frase to have a head
start (have an advantage over others), pero no
lo es en la frase A group of engineers have
developed an extremely accurate and sensitive
head control device, en la que es un componente
léxico. La definición de Hockett se asemeja a
la definición de construcción sintáctica dada
por Goldberg (1995: 4):
C is a construction if and only if C constitutes a couple form-direction such as there exists an aspect of Fi or of If which is not to be strictly prédictible starting
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
61
from the components of C or other beforehand established constructions.
Como también afirma Corpas Pastor (1997: 26-
27):
El término idiomaticidad se viene reservando para denominar una especialización o lexicalización semántica en su grado más alto. Las Unidades fraseológicas pueden tener dos tipos de significado denotativo: significado denotativo literal y significado denotativo figurado o traslaticio (idiomá-tico). Es precisamente el segundo (trasla-ticio), el responsable de la idiomaticidad y, entre ambos, lo que representan la mayor parte de estas unidades.
Zuluaga (1980), así como Wotjak (1988) se basan
en los mismos criterios semánticos para hacer
un subgrupo de expresiones idiomáticas en su
clasificación de las expresiones fijas dentro
de enunciados fraseológicos. Para ellos, basta
con que haya un elemento idiomático para que
toda la expresión lo sea; como comenta Zuluaga
(1980: 126):
La idiomaticidad de una expresión fija no depende propiamente de la cantidad de componentes con funcionamiento idiomático (figuras) existentes en ellas, expresiones
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
62
como por si las moscas 'por si acaso', a mí plin 'a mí qué me importa', son idiomáticas aunque en cada una de ellas solamente un elemento componente funciona idiomáticamente. Con esta observación nos distanciamos de la diferenciación hecha por Weinrigh entre "phraseological units" e "idiom"; para nosotros, basta con que un sólo elemento funcione idiomáticamente en una combinación fija para que se presente, en ésta, el fenómeno de la idiomaticidad.
El rasgo principal de la idiomaticidad es la
ausencia de contenido semántico en los
elementos que la componen. Esta es la
diferencia fundamental entre una expresión
idiomática y otras paremias o UFs. A juicio de
Penadés Martínez (1999: 18), “[…] entre la
fijación formal y la semántica existe una
ordenación jerárquica: la semántica va
acompañada de la formal, pero no sucede así a
la inversa, lo que quiere decir que todas las
UFs son fijas, en mayor o menor grado, pero no
todas son idiomáticas”.
Las definiciones más recientes buscan formas
diferentes de enmarcarlas. Nunberg, Sag y Wasow
(1994) y Dobrovol'skij (1999) prestan una
especial atención a la fijación y a la opacidad
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
63
semántica de los idioms, describiéndolos como
convencionales, inflexibles, figurados, prover-
biales, informales y afectivos. Por otro lado,
Moon (1998) apunta que los idioms están
típicamente institucionalizados por la
fijación, el léxico y la gramática, por lo que
no son expresiones compositivas, como afirmaba
Hockett (1958).
2.4. Tipología y clasificación de las
unidades fraseológicas
Las unidades fraseológicas se clasifican en:
unidades fraseológicas separables (UFsS) y
unidades fraseológicas no separables (UFsN). En
general, las unidades fraseológicas formadas de
dos o tres constituyentes no se separan; sin
embargo, las unidades fraseológicas con más de
tres constituyentes se suelen separar.
Como ejemplo de unidades fraseológicas
separables podemos citar ‘tener mala leche’. En
este caso se puede separar el verbo principal
del objeto directo. Los ejemplos son muchos:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
64
‘tener la mala leche’, ‘tener muy mala leche’,
‘tener tan mala leche’, etc. Como ejemplo de
unidades fraseológicas no separables tenemos a
‘al cabo de’, donde no es posible insertar
ningún otro componente en esta locución
prepositiva.
Las UFs incluyen un elenco de diversas
combinaciones que frecuentemente se denominan
de forma distinta: expresión fija, unidad
fraseológica, modismo, locución, expresión
idiomática, unidad de texto repetido, frase
proverbial, dicho, refrán, expresión poliléxica
o fórmula pragmática. Recientemente encontramos
otras expresiones como: colocaciones, unidades
pluriverbales, unidades de texto repetido y
expresiones poliléxicas, estas dos últimas
acuñadas por Martínez Martín (1996). Esta
variedad de términos demuestra la cantidad de
autores que las han tratado y la falta de
consenso entre ellos, además de la
inestabilidad del concepto de fraseología.
Las unidades fraseológicas se incorporan a los
textos y se reproducen en el habla de forma
unitaria. Estas unidades tienen características
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
65
propias, tanto en su composición como dentro
del discurso. Para delimitar estas unidades hay
que tener en cuenta la estructura interna, la
semántica y la gramatical. En este estudio
consideramos el concepto y clasificación de las
UFs aportado por Corpas Pastor (1997: 20):
UFs son combinaciones estables formadas por al menos dos palabras y cuyo límite superior se sitúa en la oración compuesta. Se carac-terizan por la alta frecuencia de aparición en la lengua y de coaparición de sus ele-mentos integrantes, así como la institucio-nalización, la estabilidad, la idiomaticidad y la variación potencial que dichas unidades presentan en diverso grado.
Esta investigadora establece una tipología de
las UFs en cuanto a su clasificación,
caracterización y sistematización de los
distintos tipos y subtipos de UFs. Lo realiza
mediante criterios de tipo semántico,
sintáctico, pragmático y denominativo. Propone
una división del sistema fraseológico español
en tres esferas: colocaciones, locuciones y
enunciados fraseológicos.
Tanto las locuciones como las colocaciones no
constituyen enunciados completos. Las coloca-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
66
ciones están fijadas en la norma y las
locuciones en el sistema. Los enunciados
fraseológicos constituyen enunciados completos
y están fijados en el habla. Estas dos últimas
son en las que nos vamos a centrar en nuestra
investigación, por lo que no vamos a incluir
las colocaciones, pues son sintagmas comple-
tamente libres que “[…] presentan cierto grado
de restricción combinatoria determinada por el
uso” (Corpas Pastor, 1997: 53). Del mismo modo,
no haremos distinción entre locuciones y
enunciados fraseológicos, considerándolos sim-
plemente como UFs.
A continuación vamos a definir los conceptos de
locuciones y enunciados fraseológicos:
1. Las locuciones. Existe una maraña concep-
tual a la hora de clasificar las locuciones,
así como ocurre con las paremias y las unidades
fraseológicas. Esto ocurre debido a diferencias
en las definiciones del término locución y los
distintos tipos de locuciones.
El término locución en la filología española
fue introducido por Casares (1950: 170), quien
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
67
la definió como la "[…] combinación estable de
dos o más términos, que funcionan como elemento
oracional y cuyo sentido unitario consabido no
se justifica, sin más, como una suma del
significado normal de los componentes".
Respecto a los rasgos distintivos apunta lo
siguiente:
Las unidades fraseológicas del sistema de la lengua tienen los siguientes rasgos distintivos: fijación interna, unidad de significado y fijación externa. Estas unidades no constituyen enunciados completos, y, generalmente, funcionan como elementos oracionales.
Casares hace una distinción sintáctico-
funcional entre locuciones ‘conceptuales o
significantes’ y ‘conexivas’. Las locuciones
‘conceptuales o significantes’ son aquéllas a
las que corresponde una representación mental,
una idea o un concepto, aunque no sea el mismo
que tiene fuera de las locuciones citadas. Las
locuciones ‘conexivas’, según Casares (1950:
170) son aquéllas en que "[…] su humilde oficio
se reduce a establecer un nexo sintáctico".
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
68
El primer grupo comprende las locuciones
nominales, adjetivas, verbales, adverbiales,
pronominales y exclamativas. El segundo grupo
se compone de las palabras sin contenido semán-
tico, como las locuciones conjuntivas y prepo-
sitivas. Las locuciones nominales se subdividen
en locuciones nominales denominativas (por
ejemplo, ‘buque escuela’, ‘coche cama’),
locuciones nominales singulares (por ejemplo,
‘el cuento de nunca acabar’, ‘la purga de
Benito’), y locuciones nominales infinitivas
(por ejemplo, ‘coser y cantar’, ‘repicar y
andar en la procesión’).
Las locuciones adjetivas son, por ejemplo, ‘de
tomo y lomo’, ‘de pacotilla’; locuciones
adverbiales son ‘de repente’, ‘a tontas y a
locas’; respecto a las locuciones conjuntivas
podemos enumerar ‘por consiguiente’, ‘con tal
que’; las locuciones interjectivas son tales
como ‘¡ay de mí!’, ‘¡válgame Dios!’; las
locuciones prepositivas son, por ejemplo, ‘en
torno a’, ‘en pos de’ y por último, en las
locuciones verbales tenemos, por ejemplo,
‘beber los vientos’, ‘mandar a tomar viento
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
69
fresco’, ‘cantarle a uno las cuarenta’ y
‘llover a cántaros’.
Posteriormente, Zuluaga (1980) divide las locu-
ciones según un criterio gramatical (categoría
y función) y semántico. La locución, como
instrumento gramatical, se subdivide en: locu-
ción prepositiva (por ejemplo, ‘a ras de’;
conjuntiva ‘como quiera que’) y elativa (por
ejemplo, ‘rezar más oraciones que un ciego’,
‘más viejo que Matusalén’). Las locuciones
elativas son locuciones comparativas verbales o
adjetivas que, como unidad léxica se subdivide
en:
nominal (por ejemplo, ‘palabra de grueso
calibre’)
adnominal (por ejemplo, ‘de escasas
luces’)
adverbial (por ejemplo, ‘por si las
moscas’) y verbal (por ejemplo, ‘llegar a
buen puerto’).
Otra clasificación es la de Corpas Pastor
(1997) que establece la siguiente división de
las locuciones:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
70
Locuciones nominales: ‘mosquita muerta’,
‘paño de lágrimas’, ‘el qué dirán’.
Locuciones adjetivas: ‘corriente y
moliente’, ‘más papista que el Papa’, ‘de
rompe y rasga’.
Locuciones adverbiales: ‘gota a gota’, ‘de
tapadillo’, ‘a raudales’.
Locuciones verbales: ‘llevar y traer’,
‘nadar y guardar la ropa’, ‘meterse en
camisa de once varas’.
Locuciones prepositivas: ‘gracias a’,
‘lugar de’.
Locuciones conjuntivas: ‘antes bien’,
‘como si’.
Locuciones causales: ‘salirle a alguien el
tiro por la culata’, ‘como quien oye
llover’.
Más recientemente, García-Page (2008: 83)
distingue:
Las locuciones verbales ‘tomar el portante
y meter la pata’ “[…] porque sus
estructuras estén constituidas por
sintagmas verbales cuyo núcleo es un verbo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
71
predicativo”; las locuciones adjetivas
‘mondo y lirondo’, ‘amigo de lo ajeno’
“[…] porque representan sintagmas
adjetivales con núcleo adjetivo”.
Las locuciones nominales ‘conejillo de
Indias’, ‘el garbanzo negro del cocido’
“[…] porque son, formalmente, sintagmas
nominales, con la estructura de núcleo
sustantivo + adyacente adjetivo o
preposicional”.
Las locuciones adverbiales ‘hoy día, aquí
y ahora’ “[…] porque el núcleo (o los
núcleos) de la construcción son un
adverbio”.
2. Los enunciados fraseológicos. En los enun-
ciados fraseológicos, de acuerdo con Corpas
Pastor (1997: 270-271), se incluyen las UF que
constituyen actos de habla completos, paremias
y fórmulas rutinarias, que pertenecen a la
herencia sociocultural de una comunidad
lingüística. Esta autora clasifica los enun-
ciados fraseológicos, como se observa en la
figura 1:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
72
Figura 1. Enunciados fraseológicos. Corpas (1997: 271).
P aremias
1. Enunc iados de va lor especí fico: las pa redes oyen; Ahí le due le 2. C ita s: el homb re e s un lobo para e l hom bre 3. R efrane s: por la boc a mu ere el p ez; un día e s un día
F órm ulas ruti naria s
F órmu las di scursiva s
1. Fórm. de ape rt ura y ci erre : ¿Q ué hay?; Hasta luego 2. Fórm. de transi ción: A e so voy.
F órmu las psi co-soc ia les
1. Fórm. expresivas: -d e disculpa : Lo s ient o -d e c onsenti miento: Ya lo cre o -d e recusación: Ni hablar. -d e a gradec imi ento: Di os se l o pag ue -d e desea r s uerte : Y ust ed que lo vea -d e soli daridad: Q ué se le va a hac er -d e insol aridad: ¡A m í, plin!
2. Fórm. comisi vas: (de p romesa y amenaz a ): Ya t e apañaré
3. Fórm. dire cti vas: -d e e xh ortac ión: La rgo de aquí -d e informac ión: T ú dirás -d e á nimo: N o es para t anto
4. Fórm. a ser ti vas: -d e a seve raci ón: Por m is m ue rtos -emoc iona les: No te digo
5. Fórm. ritua le s: -d e sa ludo: ¿Q ué es de tu vi da? -d e despedida : L e sal uda atent amente -m iscelá nea : Pe lill os a la m ar
Las paremias populares o clásicas sirven para
establecer normas y valores en una sociedad y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
73
engloban los refranes y los proverbios. Tienen
una función educacional y un contenido
moralizante, con un significado metafóricamente
motivado. Son distintas, tanto en relación a la
construcción sintáctica como en relación a la
articulación entre la forma y el contenido.
También se destacan por la función comunicativa
que realizan poseyendo una estructura de ora-
ción. Funcionan como una base para hacer ana-
logías entre hechos ocurridos y la propia pare-
mia, por ejemplo ‘Ellos son blancos y se en-
tienden’, ‘No es oro todo lo que reluce’. Según
Sevilla Muñoz y Cantera (2002: 19):
[…] refrán es una paremia que se caracteriza por los siguientes rasgos: es popular, repetitiva, célebre, universal; posee temática general, de frecuente estructura binaria y sentido idiomático; se basa en la experiencia y se sirve de elementos mnemotécnicos. Por ejemplo: A buen entendedor, pocas palabras bastan; a falta de pan, buenas son tortas.
Las paremias, es decir, los proverbios,
máximas, citas y refranes, fueron las UFs que
primero despertaron el interés de los estudios
en este campo (Profantová, 1998) porque
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
74
conectan normas e ideales con la realidad
cotidiana como resultado de la experiencia
repetida.
Según Sevilla Muñoz (1993: 17): “Los proverbios
son paremias desprovistas de elementos
mnemotécnicos y a menudo de una elaboración
formal que implica en ocasiones fórmulas
exhortativas o de prohibición”. Por ejemplo:
‘El hambre echa al lobo del bosque’ o ‘hay que
contar con la gallina antes de poner el huevo’.
Para Paczolay (1998) el proverbio se distingue
de los demás fraseologismos por su completa
autonomía, tanto formal como semántica.
Mieder (1997) define los proverbios como la
afirmación corta de la sabiduría y principios
morales y tradicionales que ha circulado
verbalmente entre la gente. Casares (1950: 192)
define así los refranes:
Frase completa e independiente, que en sentido directo o alegórico, y por lo general en forma sentenciosa y elíptica, expresa un pensamiento -hecho de experiencia, enseñanza, admonición, etc.- a manera de juicio, en el que se relacionan por lo menos dos ideas.
Y las frases proverbiales (ibid: 190) como:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
75
La frase proverbial es una entidad léxica autónoma que no se sometería sin violencia a servir de elemento sintáctico en el esquema de la oración. Es siempre algo que se dijo o se escribió, y su uso en la lengua tiene el carácter de una cita, de una recordación, de algo que se trae a cuento ante una situación que en algún modo se asemeja a la que dio origen al dicho. Su valor expresivo no está en las imágenes que puede contener, coso que es esencial en las locuciones significantes, sino en el paralelismo que se establece entre el momento actual y otro pretérito, evocado con determinadas palabras.
De la misma forma en que existe mucha contro-
versia para definir unidad fraseológica o
fraseología, la paremiología no se queda fuera
de esta maraña conceptual: paremia, adagio,
aforismo, apotegma, axioma, máxima, expresiones
idiomáticas, modismos, clichés, giros, dicho,
principio, proverbio, refrán, sentencia, etc. A
continuación, incluimos en la tabla 1 una
comparación de las características de las
expresiones idiomáticas y las paremias:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
76
Tabla 1. Comparación entre las expresiones idiomáticas y paremias.
Expresiones idiomáticas Paremias
Se mantienen inalterables a través del tiempo
Se mantienen inalterables a través del tiempo
Están limitadas a una estructura sintagmática u oracional
Su estructura equivale o supera el sintagma
Tienen una fuerte estabilidad y fijación
Tienen una cierta fijación y estabilidad
No tienen complejidad sintáctica
Complejidad sintáctica
Otro enunciado fraseológico son las fórmulas
rutinarias que manifiestan actos de habla. Su
aparición viene determinada, en mayor o menor
medida, por situaciones comunicativas precisas
(saludos, disculpas, felicitaciones, sorpresa,
indignación, entusiasmo, etc.) expresadas por
medio de enunciados preconstruidos que pueden
pertenecer al registro de la lengua familiar
coloquial (incluso vulgar) o al registro de la
lengua formal: por ejemplo, ‘Buenos días’,
‘Hola’, ‘Disculpe’.
El escaso uso de estas fórmulas puede ser
interpretado como falta de educación o
respecto, o como decía un político en relación
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
77
a los italianos manca finezza. En la
teorización propuesta por Corpas Pastor (1997),
las fórmulas rutinarias están situadas en la
tercera esfera en su clasificación
fraseológica, denominada enunciados fraseoló-
gicos. Según la autora, “se caracterizan por
constituir actos de habla, y por presentar
fijación interna y externa, es decir,
constituyen cadenas autónomas del habla y se
formulan con entonación independiente, como
corresponde a su carácter de unidades mínimas
de comunicación” (Corpas Pastor, 1997: 132).
2.5 Las corrientes investigadoras de la
Fraseología
A continuación definiremos aquellas corrientes
de investigadores que se han dedicado al
estudio de la fraseología para tener una Idea
general de este concepto. Generalmente se trata
de corrientes o escuelas situadas geográ-
ficamente por países: la Escuela Rusa, la
Francesa, la Alemana, la Eslava, la Española y
la Angloamericana.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
78
a) La Escuela Rusa: El desarrollo de los
estudios fraseológicos en Rusia tuvo sus
inicios en el siglo XVIII. Lomonosov fue el
precursor de las primeras reflexiones teóricas.
Fue uno de los primeros en estudiar las
paremias y los modismos, haciendo de su
gramática rusa (1757) un vehículo para la
difusión de las paremias y de los modismos. El
autor examinó la semejanza existente entre los
idiomatismos y las locuciones, resaltando la
importancia de conocerlos por el buen
conocimiento de la lengua, sugiriendo su
registro en los diccionarios. Polivanov (1931)
por otro lado, no hace distinción entre la
fraseología y la idiomaticidad, tratándolas
como una disciplina especial, que en relación
al léxico, ocupa la misma posición que la
fonética, la morfología, la sintaxis, el
vocabulario o el léxico. (Tristá Pérez, 1988;
Minoresko, 1997, citado en Iñesta y Pamies,
2002).
Abakumov (1936) posteriormente, establece una
diferenciación entre la idiomaticidad y la
fraseología. Según él, los rasgos distintivos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
79
de la idiomaticidad son la integridad semán-
tica, la no traducción, indivisibilidad sintác-
tica y léxica, la invariabilidad parcial de la
forma gramatical y la invariabilidad en el or-
den de las palabras. Según el autor, las UFs
pierden, en menor grado, la significación
independiente de las palabras. Para Abakumov,
la fraseología es la ciencia de la expresión
del pensamiento valorizada por los seres huma-
nos. En su artículo La composición estable de
las palabras en 1936, pretende hacer una clasi-
ficación de las UFs incorporando las distintas
etimologías, aunque de forma bastante incom-
pleta.
Respecto a Vinogradov (1938), aunque su teoría
tenga algunas imprecisiones, fue el primero en
clasificar sincrónicamente las UFs desde el
punto de vista funcional. La estrecha relación
que hay entre la fraseología (idiomática) y la
lexicología está condicionada no sólo por el
acercamiento estructural de los conceptos de
las palabras e idiomatismos, sino también por
el movimiento constante de las palabras a los
idiomatismos y de los idiomatismos a las pala-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
80
bras. Por ejemplo, la palabra “pico”, aislada
no es ningún idiomatismo, pero junto con
determinadas palabras forma una UF idiomática,
como en “darle al pico”. Vinogradov introdujo
así un cambio en el estudio de la fraseología,
pasando del plano descriptivo hacía el plano de
la combinatoria de las palabras.
En lo que concierne a Isachenko (1948) éste
explica los fundamentos de la fraseología como
disciplina lingüística. Destaca la contribución
del Círculo de Praga para la formación de esa
nueva disciplina y este autor presenta una
nueva clasificación de las UFs, ampliando la ya
elaborada por Vinogradov (Groupes phraséolo-
giques soudés) formados por grupos de palabras
cuyo sentido global es independiente del
sentido de sus constituyentes léxicos.
Posteriormente, Efimov (1954) en su libro titu-
lado "Sobre la lengua en las obras literarias"
(1954), hizo un estudio minucioso del estilo
utilizado en algunas obras literarias. En uno
de sus capítulos analiza las UFs que aparecen
en textos literarios y ofrece una clasificación
de las mismas desde el punto de vista
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
81
estilístico. Este análisis de la fraseología en
las obras literarias fue muy novedoso, ya que
Efimov fue el primero que hizo un estudio
específico sobre este tema. En la tabla 2 se
puede observar una comparación entre palabra y
fraseologismo:
Tabla 2. Modelo de Efimov. Palabra FraseologismoSignificado semántico léxico
Significado especial fraseológico, más expresivo y generalizado
Composición morfémica constante
Componentes constantes
Unidad fonética con acento único
Divisibilidad fonética con dos o más acentos
Reproducción de formas hechas Reproducción de correlaciones con una parte del discurso Constancia de funciones sintácticas Expresión libre Fraseologismo Se construye cada vez de nuevo
Reproducción de composición constante
Motivación completa del significado por la semântica de los componentes
Inmotivación parcial o completa del significado por la semántica de los componentes
Imposibilidad absoluta de sustitución de alguno de los componentes sin cambiar el significado
Posibilidad relativa de omisión o sustitución de uno de los componentes conservando el significado general
Independencia de funciones sintácticas de cada palabra
Unidad en la función sintáctica de todo el giro
Composición de dos o más palabras
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
82
Posteriormente, Mel´cuk (1963) centra sus
investigaciones sobre la fijación, la
idiomaticidad y las combinaciones. Éstas se
basaban en un criterio matemático-estadístico.
Según Mel´cuk (citado en Zuluaga, 1980: 66)
"[…] la fijación de una expresión se mide según
el grado de probabilidad con que alguno de sus
componentes puede predecir la presencia de los
demás componentes (en un orden determinado en
relación con dicho componente)”. La fijación,
según Mel´cuk, es una característica de la
lexicología, la fonología y la sintaxis. En
otras palabras, las combinaciones de fonemas,
de morfemas y de frases pueden ser combina-
ciones fijas.
Más recientemente, Dobrovol'skij (1990) consi-
dera la idiomaticidad como una parte de la
fraseología en la cual, de manera muy
particular, se distingue un alejamiento (o
desligamiento) de las palabras componentes de
una unidad fraseológica de sus significados
iniciales. La idiomaticidad está ligada a los
textos sobre folklore y, por esa razón, está
relacionada con las imágenes ingenuas del
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
83
mundo, de la cultura, de la vida espiritual y
de las fantasías de una determinada comunidad.
Ya en el siglo XXI, Mokienko (2000) investiga
las locuciones verbales y ha escrito dos libros
sobre Fraseología; Fraseología eslava (2000) e
Imágenes de la lengua rusa (2000). Mokienko
introduce un nuevo enfoque de la Fraseología,
ya que a diferencia del enfoque sobre la
fijación, evidencia la movilidad existente en
las UFs, que divide en seis dicotomías como se
aprecia en la tabla 3:
Tabla 3. Dicotomías de Mokienko. Estabilidad Inestabilidad Modelabilidad Inmodelabilidad Implicidad Explicitad Imagibilidad Inimagibilidad Expresividad Neutralidad Sincronía Diacronía
b) Respecto a la Escuela Francesa, podemos
destacar primero a Michel Bréal (1897), que
publicó Éssai de sémantique en 1897, en el cual
habla con frecuencia de fórmulas, locuciones y
grupos articulados. La definición de grupos
articulados se puede aplicar a la de expre-
siones fijas: “Comme les pièces d´un engrenage,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
84
que nous sommes si habitués à voir s´adapter
l´une Dans l´autre que nous ne songeons pas à
nous figurer séparées, le langage présente des
mots que l´usage a reunís si longtemps qu´ils
n´existent plus pour notre intelligense à
l´état isolé” (citado en Zuluaga, 1980: 35).
A continuación, no podemos dejar de mencionar a
Ferdinand de Saussure, que fue el fundador del
estructuralismo lingüístico. El Cours de
linguistique générale ha sido la piedra angular
para muchos estudios de la lengua. Entre sus
contribuciones más importantes, se puede citar
el estudio del significado y las interco-
nexiones entre parole (expresiones particulares
lingüísticas) y langue (el sistema de conven-
ciones lingüísticas, compartido por hablantes y
oyentes).
Saussure no llega a ocuparse de las expresiones
fraseológicas, sin embargo, destaca que las
expresiones fraseológicas no son hechas del
habla, sino de la lengua, pues son combina-
ciones sintagmáticas determinadas por el uso
colectivo. “El concepto saussureano de aglu-
tinación consiste en que dos o más palabras,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
85
originariamente autónomas y diferentes, se unen
constituyendo una nueva unidad absoluta o
difícilmente analizable” (Zuluaga, 1980: 37).
Además, hemos que destacar que aporta también
las relaciones sintagmáticas y paradigmáticas
en la constitución de los agrupamientos.
Bally (1905), discípulo de Saussure y fundador
de la estilística francesa moderna, trata, en
parte, sobre la fraseología desde el punto de
vista estilístico en sus publicaciones Précis
de stylistique (1905) y Traité de stylistique
(1909 [1951]). Aporta, por primera vez, los
fenómenos sintácticos y semánticos que
caracterizan las series fraseológicas o
groupements usuels y, por otra, las unités
phraséologiques. En Traité de stylistique
plantea una teoría de la fraseología,
introduciendo este término y esbozando los
conceptos fraseológicos que empleamos.
Bally esboza la mayoría de los conceptos que se
han convertido en la base de la discusión
teórica en torno al fenómeno fraseológico
actual; es decir, la estabilidad y la fijación.
Además, introduce la noción de los índices
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
86
exteriores e interiores. Los índices exteriores
representan la fijación de las UFs (esta-
bilidad, imposibilidad de inserción o susti-
tución). Los índices interiores se refieren al
sentido global de los constituyentes y no al
sentido aislado de algún componente. Hace
también una distinción entre unidades
fraseológicas y séries fraseológicas o agru-
paciones usuales.
Posteriormente, Greimas, investigador y lin-
güista francés, nacido en la Rusia prerre-
volucionaria, realizó importantes contribu-
ciones a la teoría de la semiótica y de la
Fraseología, así mismo creó la semiótica
estructural inspirada en Saussure y Hjelmslev,
por la cual es internacionalmente conocido. Sus
investigaciones en la fraseología se centraron
en el estudio sobre expresiones idiomáticas,
proverbios, dichos y en el análisis de
combinabilidad.
Respecto a Gaston Gross, en los años 70 fundó
el Laboratorio de Automática y de Lingüística
en la Universidad París VII (LADL), cuyo
objetivo era el estudio sistemático del léxico
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
87
sobre la base de las propiedades sintácticas.
Fue el creador de la noción de clase de
objetos, fundamentada en la teoría
transformacional de Harris, apoyándose en las
propiedades sintácticas del léxico que deben
ser analizadas en el marco de la frase simple
constituida por un predicado y sus argumentos.
Dedicó la mayor parte de su investigación a los
verbos soporte en francés, llegando a
establecer cinco clases de verbos, según su
comportamiento sintáctico: predicativos,
locuciones verbales, auxiliares temporales:
“ser y haber”, auxiliares aspectuales: “acabar
de”, “estar a punto de”, etc. y soportes.
Más recientemente, Gross (1996) propuso cinco
criterios diferentes para caracterizar las
expresiones fijas, como se observa en la tabla
4:
Tabla 4. Modelo de Gross (1996).
Criterios Definición Ejemplos
1 Opacité sémantique
Una expresión fija corresponde a una secuencia de palabras dónde cada una debe tener una existencia autónoma.
L´écolier a effacé le tableau L´écolier a effacé les graffitti
2 Blocage des Una expresión fija no A partir de la frase :
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
88
propriétés transformationnelles
sostiene las transformaciones sintácticas. “Les constructions libres ont des propriétés transformationnelles qui dépendent de leur organisation interne. Ainsi, la relation entre un verbe transitif direct et son complément peut faire l´objet de certains changements de structures appelés«transformations».
L´enfant a lu ce livre Podemos obtener las siguientes phrases : Ce livre a été lu par l´enfant L´enfant l´a lu Ce livre, l ´enfant l´a lu C´est ce livre que l´enfant a lu Le livre que l´enfant a lu
3 Non-actualisation des éléments constitutifs de l’expression
Los elementos de una expresión fija no son susceptibles de actualización
Para poner esta propiedad en evidencia añadimos a título de ilustración, la locución prepositiva avec le désir de, que es paralela a la preposición simple pour: Paul nous a dit cela avec le désir de nous convaincre. Paul nous a dit cela pour nous convaincre
4 Substitution synonymique impossible (blocage des paradigmes synonymiques)
En una expresión fija, es imposible reemplazar un elemento por uno de sus sinónimos
Dada la locución: Une caisse Notre Es imposible decir/escribir: Une caisse sombre
5 Non-insertion d’éléments nouveaux
En una expresión fija es imposible insertar elementos suplementarios En las secuencias libres, en ciertos casos determinados, es posible insertar elementos, como un
Dada la locución: Une bonne pomme de terre No es posible escribir: Une pomme bonne de terre Sin embargo, sería imposible hacer cualquiera inserción
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
89
adjetivo o un pronombre relativo en el grupo nominal: j’ai lu un libre: j’ai lu un beau libre.
entre el nombre y el adjetivo: Dada la locución: Col-vert Sería imposible la siguiente construcción: Un col très vert, un col très bleu.
c) Respecto a la Escuela Rumana, podemos
destacar a Coseriu (1981). Según este
investigador, el sistema fraseológico está
compuesto por norma-habla y se divide en tres
grandes áreas: locuciones, colocaciones y
enunciados fraseológicos. Éste último lo divide
en paremias y fórmulas rutinarias. Coseriu
introduce la teoría del discurso repetido, que
fue una de las aportaciones más importantes de
sus investigaciones, que se caracteriza por una
combinación más o menos fija de sus constitu-
yentes.
d) En la Escuela Alemana, Hermann Paul (1880)
fue el precursor de la fraseología entre los
alemanes, pertenece al grupo de los
neogramáticos (Brugmann, Hermann Paul, Rask,
etc.). Su contribución a la fraseología se debe
a su obra Prinzipien der Sprachgeschichte
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
90
(1880), en la cual hace importantes aporta-
ciones sobre el reconocimiento y carac-
terización de las expresiones fijas. Hermann
Paul habla de la fijación o formas fijas, así
como de la idiomaticidad.
Así mismo, Georg von der Gabelentz (1901) fue
el autor de la gramática china Chinesische
Grammatik, aún en uso. Fue una de las figuras
más importantes de la segunda generación de
pioneros en la enseñanza de las lenguas
orientales en Europa. En su libro das
lautsymbolische Gefühl, se refiere a las
expresiones fraseológicas con el nombre de
stehende Redensarten donde explica los factores
de constitución y fijación como propios del
sentimiento lingüístico. La relación semántica
se da por afinidad y por contraste.
Wissemann (1961), dentro de la concepción
creada por Hermann Paul, Saussure y Bally,
presentó una serie de observaciones sobre las
expresiones fijas o grupo lexemático de
palabras. Para él, “[…] tanto un lexema simple
cuanto un grupo lexemático pueden cumplir la
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
91
misma función comunicativa” (Zuluaga, 1980:
70).
Algunos años después, según Weinreich (1969:
229-260) la diferencia semántica entre expre-
siones idiomáticas y otras formas literarias es
arbitraria. Esto significa que la relación
entre el sentido figurado de las expresiones
idiomáticas y sus componentes es completamente
ad hoc. Sin embargo, los sentidos figurados no
son arbitrarios, sino están determinados por el
uso.
Más tarde, Burger (1973) es autor de numerosos
libros sobre la fraseología y explora en sus
estudios la variación, la variabilidad
fraseológica, las modificaciones y la desauto-
matización de las UFs, basándose en el
periodismo y en la literatura.
A continuación, Thun (1978) se especializó en
investigar la Fraseología en las lenguas
romances (Corpas Pastor, 1997: 23) y diferencia
cuatro tipos de fijación externa:
1. Fijación situacional: Es la que se da como
consecuencia del uso de ciertas unidades
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
92
lingüísticas en situaciones sociales deter-
minadas.
2. Fijación analítica: Es la que se da como
consecuencia del uso de determinadas unidades
lingüísticas para el análisis ya establecido
del mundo.
3. Fijación pasemática: Es la originada en el
empleo de unidades lingüísticas según el papel
del hablante en el acto comunicativo.
4. Fijación posicional: Es la preferencia de
uso de ciertas unidades lingüísticas en
determinadas posiciones en la formación de
textos.
Posteriormente, Wotjak (1983) presenta una
tipología de las UFs clasificadas según una
estructura formal. La autora ha estudiado
distintos aspectos de las UFs, desde su
significado y potencial significativo hasta la
variación y el tratamiento lexicográfico.
Distingue las paremias de las UFs, reservando
éstas útimas al estudio de la paremiología.
e) En la Escuela Eslava, tenemos que destacar
a Lewicki (Polonia), que publicó dos estudios
sobre combinatoria sintáctica (1976) y uno
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
93
sobre la estabilidad y la variabilidad de las
UFs (1982). En Yuguslavia, Bugarsky contribuyó
al estudio de las relaciones entre gramática y
léxico. En la fraseología señala una serie de
procedimientos que permiten reconocer y
diferenciar las construcciones libres y las
fijas o idiomáticas.
f) En la Escuela Danesa destacamos a Otto
Jespersen (1924) que publicó la Filosofía de la
Gramática (1924), en la cual establece la
distinción entre expresiones libres (libertad
combinatoria) y el fijamiento (fórmulas o
unidades formulísticas) y define así el
carácter de inalterabilidad o fijación de los
aspectos formales de una expresión.
g) Respecto a la Escuela Española, Casares
(1950) fue el primero en hacer una clasifi-
cación de las expresiones idiomáticas en su
célebre Introducción a la Lexicografía Moderna
(1950). Su concepción de fraseología ha ayudado
a realizar el registro de éstas en el
Diccionario de la Real Academia Española
(DRAE). En una gran parte de su obra, dedica
mucha atención a la locución, a la frase
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
94
proverbial, al refrán y al modismo. El autor
formula las bases de lo que sería la
fraseología española, influyendo en los futuros
estudios de las UFs en lengua española. Define
los distintos grados de fijación y presenta la
primera clasificación de locuciones en español,
como vemos en la figura 2:
Figura 2. Modelo de Casares (1950).
Zuluaga (1975: 2), por otra, parte señala las
cuatro formas características de la fijación
fraseológica:
[…] inalterabilidad del orden de los componentes, invariabilidad de alguna categoría gramatical; inmodificabilidad del inventario de los componentes; insustitui-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
95
bilidad de los elementos componentes. Sin embargo, he señalado que la fijación no es una propiedad absoluta, hay distintos grados de fijación en las expresiones fijas (fijación formal y la semántica).
Para Zuluaga (1975: 230) la propiedad de
fijación consiste en la suspensión, semántica y
sintácticamente inmotivada, de la aplicación de
alguna regla de la combinación de los elementos
del discurso. Clasifica las UFs en dos grupos:
[…] enunciados fraseológicos y locuciones. El primero se caracteriza por dispensar el contexto verbal para construir una expresión en el discurso de sentido completo. El segundo, exige contexto verbal inmediato.
También Zuluaga (1980), bajo la caracterización
de expresiones fijas o UFs, las estudia desde
combinaciones como mínimo de dos palabras hasta
combinaciones constituidas por oraciones com-
pletas. Zuluaga no contempla la inclusión de
las colocaciones como parte integrante de la
Fraseología. Las UFs pueden ser fijas y no
idiomáticas. La clasificación de las UFs según
Zuluaga (1980: 121-134) “se queda reducida a 2
clases: locuciones y enunciados, divididos en
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
96
frases (clichés, fórmulas, dichos) y textos
(refranes)”. El modelo de Zuluaga se puede
observar en la figura 3.
Figura 3. Modelo de Zuluaga (1980).
Las UFs pueden presentar fijación interna o
fijación externa, estableciendo los siguientes
grados de fijación interna o formal según
Zuluaga (1980):
1. Fijación del orden de los componentes.
2. Fijación de categorías gramaticales (de
tiempo, persona, número y género).
3. Fijación en el inventario de los componen-
tes, llegando así a la imposibilidad de
suprimir, sustituir o insertar.
4. Fijación transformacional.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
97
5. Sustitución de un componente por otro.
Otra lingüista que estudia las UFs es Corpas
Pastor (1997: 18), definiéndolas como:
Combinaciones estables formadas por al menos dos palabras y cuyo límite superior se sitúa en la oración compuesta. Se caracterizan por la alta frecuencia de aparición en la lengua y de coaparición de sus elementos inte-grantes, así como la institucionalización, la estabilidad, la idiomaticidad y la variación potencial que dichas unidades presentan en diverso grado.
Se puede observar en la figura 4 una represen-
tación de su modelo:
Figura 4. Modelo de Corpas Pastor (1997).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
98
Las locuciones son las UFs que están fijadas en
el sistema, pero no pueden funcionar como
enunciados. Las colocaciones están fijadas en
la norma, pero las UFs no pueden funcionar como
enunciados y los enunciados fraseológicos son
aquellos que están fijados en el habla y
también pueden constituir enunciados. Así,
obtenemos una clasificación genérica de tres
conjuntos amplios que, aplicándose posterior-
mente diferentes criterios, se irán subdivi-
diendo para reflejar de forma satisfactoria
todos los tipos de UFs existentes en español.
Corpas Pastor (1997: 51) añade que en
[…] el segundo grupo se encuadran aquellas UFs que pertenecen exclusivamente al acervo socio-cultural de la comunidad hablante (unidades del habla). En esta esfera III ponemos el resto de las UFs, a las cuales denominaremos enunciados fraseológicos (paremias y fórmulas situalizadas). Estas unidades se caracterizan por estar fijadas en el habla y por constituir actos de habla realizados por enunciados completos, dependientes o no de una situación especí-fica.
h) Respecto a la Escuela Angloamericana,
Fillmore (1979) estudia la construcción fija,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
99
incluyendo las frases fijas, dichos, proverbios
y fórmulas rutinarias. Después, Hockett (1958),
estructuralista postbloomfieldeano, en su libro
A Course in Modern Linguistics reivindica que
toda forma gramatical cuyo sentido de sus
componentes no se puede inferir del conjunto de
sus constituyentes es una expresión idiomática.
De acuerdo con la definición de Hockett, cada
morfema es un idiom, excepto si es
constituyente de un idiom más amplio, es decir,
de otro idiom constituído por una forma
compuesta. Por ejemplo, head es un idiom en la
frase to have a head start (=have an advantage
over others), pero no lo es en la frase A group
of engineers have developed an extremely
accurate and sensitive head control device, en
la que es un componente lexical. Establece así
la concepción de idiomaticidad más citada desde
entonces, en un periodo en que discutían mucho
sobre el tema.
Entre los anglosajones y los norteamericanos,
la idiomaticidad puede estar presente también
en construcciones sintácticas, como en las
metáforas y en los phrasal idioms.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
100
Posteriormente Makkai (1965) dedica su tesis al
estudio de los idiomatismos, que es una impor-
tante contribución al dividir las Multiword
Units en un conjunto heterógeneo de sintagmas,
frases y las expresiones idiomáticas lexémicas
como se detalla a continuación:
a) Phrasal verbs: make up, turn out, bring
up, etc.
b) Tournures (‘turn of phrase’): fly off the
handle, rain cats and dogs, kick the
bucket, have it out with somebody, be
well-off, etc.
c) Irreversible binomials: pepper and salt
(sic), coffee and cream, etc.
d) Phrasal compounds: hot dog, blackmail,
high-handed, etc.
e) Incorporating verbs: eavesdrop, manhandle,
boot-lick, etc.
f) Pseudo-idioms: kith and kin, spic and
span, to and fro, etc. (Makkai, 1972: 135-
172, citado en Grant, 2003: 24).
Después, Lyons (1977) trata los fraseologismos
como expresiones idiomáticas y, como tal, los
caracteriza como enunciados estereotipados.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
101
Más recientemente, Moon (1998) designa las UFs
como phrasal lexeme o fixed expression
ofreciendo una macroclasificación en torno a
tres unidades de acuerdo con la figura 5:
Figura 5. Modelo de Moon: Categorías de expresiones fijas y expresiones idiomáticas (1998).
En primer lugar, las colocaciones anómalas, en
segundo, las fórmulas y en tercer lugar, las
metáforas. Las colocaciones anómalas se carac-
terizan, según la autora, por estar léxicogra-
maticalmente marcadas y son también conocidas
como clichés. Las fórmulas están pragmá-
ticamente marcadas, compuestas por dichos,
proverbios y símiles. Las metáforas comprenden
los idioms o locuciones idiomáticas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
102
Moon realiza una investigación con un corpus de
6.700 multiword expressions extraídas del
corpus HECTOR, llegando a la conclusión que más
de un 70% tienen una frecuencia de aparición
insignificante. Además, confirma que las
expresiones idiomáticas también tienen una
frecuencia muy baja en los textos. Las
colocaciones gramaticales predominan en el
corpus y las colocaciones léxicas, las más
representativas, presentan algún tipo de
variación.
Una vez enumeradas todas las escuelas de la
Fraseología, con el fin de tener una idea
general sobre las diversas corrientes, a
continuación vamos a diferenciar entre los
términos variación y variante. Estos términos
han de estar diferenciados, puesto que la
herramienta que proponemos en esta tesis
doctoral localiza las variaciones de las UFs.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
103
3. VARIACIÓN Y VARIANTE: HACIA UNA
CLASIFICACIÓN DE LAS VARIACIONES
Y VARIANTES
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
104
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
105
3.1. Definición de variación y variante
La lengua es social y los cambios sufridos por
las UFs reflejan los procesos sociales. Por
eso, la lengua requiere una investigación sobre
la variación lingüística en los diferentes
estratos sociales, teniendo como objeto de
estudio la variación fraseológica como fenómeno
inseparable del lenguaje natural y de las
implicaciones de esta variabilidad (geográfica,
social e histórica) tanto para la comprensión
de los cambios de diferente índole y niveles
lingüísticos (fonología, sintaxis, semántica y
pragmática) como para la mejora de la inte-
racción comunicativa del diseño de aplicaciones
lingüísticas.
Sin embargo, los cambios formales y semánticos
en la Fraseología no son tratados con el rigor
con que son tratados los sufridos por la
lengua. Las UFs de la lengua española presentan
una variación fraseológica muy significativa,
debido a su extensión geográfica, teniendo así
una importante variación fraseológica, tanto en
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
106
el español de la Península Ibérica como en el
español de América.
Entre las variantes fraseológicas, la
sustitución es la variación más común, aunque
no haya ningún estudio específico sobre la
frecuencia. La variación por adición, sus-
tracción o interpolación es la segunda más
frecuente y la tercera más frecuente es el
cambio por orden sintáctico. La estructura de
la variante fraseológica se compone de dos
partes:
Un paradigma invariable, en el que sus
componentes están siempre presentes en la
estructura.
Un paradigma variable, donde los componen-
tes se cambian, por la naturaleza foné-
tica, sintáctica, morfológica o léxica,
añadiendo, quitando o reduciendo los
constituyentes de la unidad fraseológica.
En la fraseología hispánica, Zuluaga (1980:
106-110) introdujo la distinción entre
variaciones consideradas en sentido estricto, y
variaciones en el sentido amplio. Para este
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
107
autor, las variaciones fraseológicas (en
sentido estricto) pueden ser producto de una
variación morfológica, sintáctica o léxica,
pero no presentan cambios de significado y se
caracterizan por ser variaciones por transfor-
mación o modificación. De este modo, hace la
siguiente delimitación entre ambas:
Las variantes en sentido estricto, deben
ocurrir dentro de una misma lengua
funcional, no pueden presentar diferencias
de sentido, deben ser independientes de
los contextos, deben ser parcialmente
idénticas en su estructura y en sus
componentes, (o sea ella se torna una
variante por sustitución de uno de sus
componentes), la sustitución de los
constituyentes (sustituyente y sustituido)
debe ser fija y estable.
Las variaciones en el sentido amplio
consisten en transformaciones reales o mo-
dificaciones de las UFs ‘tomar el pelo’
/’tomadura de pelo’; ‘echar una cana al
aire’/’echar una canita al aire’; los
miembros de las llamadas series: ‘ofrecer
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
108
la mano’/’brindar ayuda’, deben ser
consideradas distintas, pues tienen un
significado léxico diferente; UFs aparen-
temente semejantes, pero con significados
antagónicos ‘hacer [algo] de buena/mala
fe’, pues sus componentes son distintos,
aunque dichas unidades puedan ser
intercambiables ocasionalmente, a causa de
la sinonímia. Así, por ejemplo ‘tomar las
de Villadiego’ y ‘poner pies en polvorosa’
son sinónimos tal como lo son huir y
escapar; UFs con estructura e componentes
distintos, no obstante con significados
idénticos ‘tomar las de Villadiego’,
‘poner pies en polvorosa’; las UFs
socioculturales motivadas por variaciones
léxicas (diatópicas, diafásicas y
socioculturales) deben ser consideradas
variantes en sentido estricto. Hay que
tener en cuenta las distinciones entre las
diferentes lenguas funcionales; las UFs
con casillas vacías tampoco deben ser
consideradas como variantes, en sentido
estricto. Deben ser tratadas como
alteraciones libres, dentro de ciertos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
109
límites léxico-gramaticales de una misma
expresión fija.
Por otro lado, el concepto de variante de
Carneado Moré (1985) contiene todas las
variaciones que puede experimentar un
fraseologismo, sin alterar su sentido o violar
la norma. De este modo agrupa las variantes en
tres tipos:
a) Variantes morfológicas: Se trata de cambios
gramaticales en la UF que afectan los
siguientes elementos: el género ‘lanzarse como
un león’/’lanzarse como una leona’, alternan en
el uso de los determinantes como la preposición
‘tener a alguien en ascuas’/’tener a alguien
sobre ascuas’ o en la inclusión u omisión de un
artículo (Pegarse el/un tortazo).
b) Variantes léxicas: Consisten en el cambio de
un constituyente de las unidades léxicas en un
nivel de la lengua. Puede ser sinonímica,
antonimita, metonímica, etc. Ejemplo de
variante léxica sinonímica: ‘A caballo regalado
no le mires el diente’/’A caballo regalado no
se le mira el diente’.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
110
c) Variantes por extensión: Se trata de la
supresión de una parte de la unidad
fraseológica o de la interpolación de algún
elemento facultativo. Por ejemplo: ‘tener
(buen) ángel’.
Las variantes son fruto de los cambios en el
lenguaje, sin intención, y que generalmente se
dan en el habla, establecidas en los sistemas
de la lengua, y por lo tanto, institucio-
nalizadas (Corpas Pastor y Mena Martínez, 2003:
186). Estas autoras adoptan la definición de
institucionalización de Zuluaga (1997: 17)
“Institucionalización significa, pues, difusión
generalizada, uso común y corriente".
Posteriormente, Sancho Cremades (1999: 30-33)
destaca tres tipos de variación:
a) Variación motivada por las reglas
morfosintácticas que interactúan en la
lengua (ej.: ‘salir (salió, saldrá) el
tiro por la culata’).
b) Variantes de una misma unidad fraseológica
(Zuluaga, 1980), como por ejemplo,
tomar/coger las de Villadiego.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
111
c) Variación por procesos de desautoma-
tización o deslexicalización con intención
estilística o expresiva (ej. ‘¡Sálvese, si
puede el tonto/que yo ni salvarlo puedo!’)
Somos de la misma opinión que Montoro del Arco
(2005: 115) que afirma que una UF puede
presentar diversos rasgos de fijación, pero los
rasgos de variación son más numerosos que los
de fijación.
Un análisis más detallado nos muestra que una unidad fraseológica puede manifestar distin-tos rasgos de fijación como los citados, pero que, por el contrario, los rasgos de variación pueden ser bastante más numerosos que los de fijación. Así, ante una unidad con pocos componentes como hilar fino, podemos decir que está fijada por la invariabilidad de la unidad fino (hilar* finamente). Sin embargo, en oposición al único rasgo de fijación que encontramos vemos que presenta al menos dos posibles variaciones: hilar (muy) fino y posible sustitución de los elementos componentes: hilar delgado.
Por otro lado, desde el punto de vista
lingüístico, hay muchas opiniones divergentes
sobre el alcance y cobertura de las variantes.
García-Page (2008: 219) aporta una de las más
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
112
lúcidas definiciones de lo que es la variante
fraseológica:
Hablamos de variantes fraseológicas cuando las modulaciones formales que presenta una misma expresión fija estén codificadas o institucionalizadas; las variaciones lúdicas o estructuras desautomatizadas no constituyen variantes, salvo en el caso de que con el tiempo, su uso se generalice y sean sancio-nadas por la comunidad.
Hund (1993), como comenta García Benito (1997:
47), define así las variantes: “[…] variantes
son formas coexistentes de una misma expresión,
que funcionan paralelamente en el lenguaje con
un significado invariable”. Mena Martínez
(2003: 1), más específicamente las define así:
Las variantes, por otro lado, no deben ser confundidas con las Unidades fraseológicas sinónimas. Estas últimas son unidades que comparten el mismo significado pero nada más. Sin embargo, las variantes, además de poseer el mismo significado, comparten también elementos léxicos.
Nosotros consideramos que lo son cuando sucede
cualquier cambio léxico, sintáctico, morfoló-
gico, aunque sea un sinónimo o una variante.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
113
Cuando ocurre un cambio en la estructura, sea
en la periferia o en el centro es una variación
y, por lo tanto, se convierte en una variante.
En relación a las variantes, Corpas Pastor y
Mena Martínez (2003: 186), puntualizan:
Utilizando criterios formales podemos localizar cambios léxicos, sintácticos y estructurales que dan lugar a las variantes léxicas, variantes estructurales y variantes perspectivas; categorías todas ellas presentes en dos de las esferas fraseológicas: las locuciones y los enun-ciados fraseológicos.
También Barz (1992) distingue tres tipos de
variaciones en el sentido amplio; es decir,
variaciones que no son variantes de acuerdo con
el concepto de Zuluaga (1980):
a) Los cambios regulares de la gramática.
b) Los cambios ocasionales o modificaciones.
c) Los cambios por sinonimia.
Éste coincide con Zuluaga (1980) en relación
con las variaciones motivadas por las distintas
variaciones socioculturales que pueden ser
diatópicas, diastráticas, y diafásicas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
114
En cambio, Barz (1992), así como Burger,
Buhofer y Sialm (1982) divergen de Zuluaga
(1980) cuando distinguen las formas variantes
(gramaticales y léxicas) de las formas
flexionales de un paradigma. Bajo la
perspectiva de Barz, en relación a la flexión
normal del verbo ésta es considerada una
restricción morfológica y no una variante. Las
variantes consisten en la sustitución fija de
un elemento de la unidad fraseológica por otro
de características equiparables, formales y
funcionales. Como se puede apreciar en los
ejemplos: “Hacer su santa voluntad”/“Hacer su
santísima voluntad”, “Mover montañas”/“Remover
montañas”.
Lo que para Sancho Cremades (1999), sería un
caso de variación motivada por las reglas
morfosintácticas, sin embargo, para Montoro del
Arco (2006) son variantes léxicas. Este autor
dice que no había encontrado ninguna referencia
a ellas. En cambio, nosotros hemos encontrado
dos referencias, "agua de borrajas" y “tomar
las de Villadiego” según Insa Alba (2006:1).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
115
Corpas Pastor (1997) elige el concepto de
variantes fraseológicas para designar una gran
cantidad de variaciones que, a diferencia de
Carneado Moré (1983), no las considera léxicas.
Corpas Pastor distingue solamente entre
variantes y modificaciones, siendo ésta última
lo que para otros autores se llama deslexica-
lización.
Corpas Pastor (1997) y Barz (1992) coinciden en
el concepto y designación de modificaciones
como cambios de orden creativo que están
producidos en el discurso para obtener efectos
expresivos. Dobrovol’skij (1988: 163), a su
vez, llama variantes estructurales a la
variación sintáctica que incluye el uso de los
conectores2, resultando en formas acortadas o
en la reducción de sus constituyentes. Un
ejemplo de variante por acortamiento es ‘Por
obra (y gracia)’, un ejemplo de variante por
alternativas estructurales, ‘irse de/a picos
pardos’ y un ejemplo de variante léxica
sinonímica: ‘A caballo regalado no le mires el
2 Una palabra o un conjunto de palabras que une partes de un mensaje y establece una relación lógica entre ellas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
116
diente’/‘A caballo regalado no le mires el
dentado’.
De acuerdo con Sosiński (2006: 39),
Zuluaga incurre en una contradicción al afirmar que las UFs con casillas vacías no constituyen variantes ya que entre los ejemplos aportados para las variantes, nos encontramos con expresiones “de punta a punta”, “de pe a pe”, “de cabo a cabo” que, también aparecen en la lista de esquemas fraseológicos, es decir, expresiones que antes había definido como un tipo de UF con casillas libres.
Sin embargo, para García-Page (2008), a dife-
rencia de Zuluaga, las unidades fraseológicas
con casillas vacías y las series fraseológicas
constituyen el mismo fenómeno.
Wotjak (1992) distingue dos tipos de
variaciones: Modificaciones textuales y
variantes convencionales sistemáticas. Las
variantes convenciones sistemáticas representan
lo mismo que las variantes léxicas para Montoro
del Arco (2006). Es decir, variaciones
diatópicas, diastráticas y diafásicas. Las
modificaciones textuales de Wotjak coinciden
con la modificación de Corpas Pastor (1997) y
la desautomatización bajo la perspectiva de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
117
Mena Martinez (2003), Ruiz Gurillo (1997),
Zuluaga (1997; 2001) y Zamora Muñoz (2000).
Corpas Pastor y Mena Martínez (2003) hacen una
separación de las variaciones fraseológicas en
variantes sistemáticas, usuales y modifica-
ciones. Según estas autoras, cuando la varia-
ción de la UF tiene como origen la intenciona-
lidad de los hablantes, tenemos un caso de
modificación, sin embargo, si los cambios
percibidos en la UF son motivados por el
sistema lingüístico, tendremos entonces las
variantes institucionalizadas. Las diferencias
motivacionales entre ambas se refieren a
aspectos pragmáticos, estilísticos y socio-
lingüísticos.
3.2. La tipología de las variantes
Las variantes pueden tener una naturaleza
lingüística diversa y, por ello, creemos que es
pertinente una clasificación de las variantes
fraseológicas. Entendemos como variantes todas
aquellas UFs que sufren alteraciones en sus
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
118
constituyentes (alteración interna o externa),
tanto desde el punto de vista léxico y
morfosintáctico como desde el semántico, sin
perder el significado básico de la UF. Por lo
tanto, el concepto de variante que utilizamos
abarca todas las variaciones posibles que puede
experimentar una unidad fraseológica, sin
violar su sentido. Es decir, variante será “[…]
cada una de las diferentes formas con que se
presenta una unidad lingüística de cualquier
nivel” (DRAE, 2001).
En esta tesis doctoral, una unidad fraseológica
de cualquier nivel y variación será considerada
como la acción y efecto de variar. Este
concepto sigue la terminología de Corpas Pastor
(1997), considerando como variantes de las UFs
las variaciones que afectan a las locuciones y
a las paremias. La investigación nos lleva a
recoger los siguientes cambios que se producen
en las UFs: léxicos, semánticos, morfosin-
tácticos y pragmáticos, incluyendo también las
modificaciones y desautomatizaciones, de acuer-
do con los investigadores de la Escuela Espa-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
119
ñola. A continuación vamos a detallar los
distintos tipos de variantes:
3.2.1. Variante fónica
El rango de las variantes fónicas es poco
representativo cuando lo comparamos con el
número de otras variantes (léxicas, sintác-
ticas, etc.) acarreando consigo un cambio
gráfico junto al cambio fónico. Según García-
Page (2008: 228):
Las variantes fónicas pueden producirse bien por la sustracción de un sonido, (por ejemplo, “al redropelo”/“al redropelo, no hay atutía”/“no hay tutía”, “por amor de”/“por mor de”), bien por la adición de un sonido (por ejemplo “de buces”/“de bruces”, “en un pis pas”/“en un plis plas”).
De acuerdo con este autor, se consideran un
cambio fónico por sustracción de sonido los
siguientes casos de la tabla 5.
Tabla 5. Variante fónica.
palabra simple LocuciónMansalva A mano salva Salvamano A salva mano Mandoble A mano doble
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
120
De acuerdo con el mismo autor, otro tipo de
variante fónica puede conseguirse por medio de
una sustitución, como se aprecia en la tabla 6:
Tabla 6. Otro tipo de variante fónica.
Locución – forma canónica Locución – forma variante Así así Así asá De aquí allá De acá allá A trochemoche A troche moche
3.2.2. Variante morfológica
La variante morfológica afecta a la estructura
interna de las UFs (morfología flexiva) en la
variación por derivación (como en el ejemplo,
‘ser un culillo (culo) de mal asiento’, ‘contar
batallitas’) o en la variación en el número
gramatical de los constituyentes (como por
ejemplo ‘ahuecar el ala/las alas’, ‘criar a
alguien entre algodón/algodones’; en la flexión
de los verbos andar, andado, andando, anduvo,
anduve). Existen otras variantes derivadas de
la morfológica:
a. Variante morfológica flexiva. Aunque el
verbo experimente un cambio flexivo, no deja de
ser una variante, como también han postulado
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
121
Zuluaga (1980) y García-Page (2008). Se da en
la flexión de los verbos, como en los ejemplos
siguientes de la tabla 7:
Tabla 7. Variante morfológica flexiva.
Mirar a otro lado Mirando a otro lado, Miró a otro lado Miramos a otro lado, Se ha mirado a otro lado
Jugar a la baja Jugando a la baja, jugó a la baja, jugamos a la baja
Lanzar la toalla Lanzarse la toalla, se ha lanzado la toalla
b. Variante morfológica por derivación. El
cambio se puede dar por la adición de un sufijo
a la base léxica o por prefijación (adición de
un prefijo a la base léxica) como se ve en la
tabla 8:
Tabla 8. Variante morfológica por derivación.
Forma canónica Forma derivadaPico de oro Piquito de oro Rascarse el bolso Rascarse el bolsillo Más delgado que un palo Más delgado que un
palillo Pegar el petardo Pegar el petardazo Decir alguna cosa con la boca chica
Decir alguna cosa con la boca chiquita
Mover montañas Remover montañas Sentar la cabeza Asentar la cabeza
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
122
El número de opciones es limitado (chica o
chiquita, pico o piquito, etc.), los demás
componentes son fijos (en número, género y
grado). Del mismo modo, García-Page (2008: 231)
confirma que “[…] la derivación puede afectar a
los componentes opcionales (generalmente,
intensi-ficadores)”, pero solamente a éstos, de
acuerdo con el valor enfático que esta variante
ofrece en los ejemplos: ‘De puta pena’/‘de
putísima pena’ y ‘hacer su santa volun-tad’/
‘Hacer su santísima voluntad’.
En la variante por derivación, la forma
primitiva se queda fija, lo que cambia es el
afijo, por ejemplo: ‘a redopelo’/‘a pospelo’,
‘a contrapelo’ y ‘a trasmano’/ ‘a contramano’.
c. Variante morfológica de género. El cambio
explícito se da en uno de los constituyentes,
masculino/femenino o femenino/masculino. Como
se aprecia en la tabla 9:
Tabla 9. Variante morfológica de género
Correr parejos Correr parejas Lanzarse como un león Lanzarse como una leona
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
123
d. Variante morfológica de número. En el
primer ejemplo, el cambio de número se da tanto
en el nombre como en el adjetivo. En el segundo
ejemplo, las balas o la bala no se refieren a
ningún sintagma nominal, no deben concordar más
que el nombre con el determinante o artículo,
como se aprecia en la tabla 10:
Tabla 10. Variante morfológica de número.
A pie juntillas A pies juntillas Ir como una bala Ir como las balas
e. Variante morfológica de género y número.
En el tercer caso, ser ‘ligero de cascos’ ser
refiere a tener ‘los cascos’ ligeros, como si
se dijera que es ‘rápido de pies’. No diríamos
‘rápido de pie’ porque cada persona tiene dos
pies y por eso pies va en plural, como se ve en
el ejemplo siguiente. Por ejemplo: ‘Ligero de
cascos’/‘Ligera de cascos’, ‘ligeras de cascos’
y ‘ligeros de cascos’.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
124
3.2.3. Variante morfosintáctica
Las variantes morfosintácticas, estructurales
de acuerdo con Corpas Pastor y Mena Martínez,
(2003: 186) o gramaticales según García-Page
(2008: 233), representan las variantes más
institucionalizadas de las UFs. Algunos
ejemplos son: ‘Bravo como león’/‘Bravo como un
león’ y ‘Bravo como el perro’/‘Bravo como el
perro de Bush’.
Los cambios ocurren en las palabras funcionales
o stop words (preposiciones, conjunciones,
artículos, pronombres, etc.), en el número y en
el orden de los constituyentes, acarreando
cambios estructurales por su naturaleza
morfosintáctica, pero no semántica o funcional.
Como indica García-Page (2008: 233):
Hablamos de variantes gramaticales cuando se produce la conmutación de alguna de las llamadas palabras gramaticales o no léxicas (artículo, preposición, conjunción…), o la adición o supresión del determinante, o bien, ocasionalmente, de una preposición sin repercusión sintáctica.
A continuación pasamos a detallar los distintos
tipos de variantes morfosintácticas:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
125
a. Variante morfosintáctica en el uso de la
preposición. La preposiciones son variables,
pero imprescindibles, se puedem sustituir por
otras, siempre en la misma posición dentro del
sintagma. Por lo tanto, las variantes están
predeterminadas por el uso facultativo, pero
indispensable, de la preposición, como se
aprecia en los ejemplos siguientes: ‘decir para
sí’/‘decir entre sí’, ‘poner en las nubes’/
‘poner sobre las nubes’; ‘poner por las nubes’,
‘tener a alguien en ascuas’/‘tener a alguien
sobre ascuas’.
b. Variante morfosintáctica en el uso
facultativo de la preposición. El uso de la
preposición es facultativo y variable, como se
aprecia en los ejemplos que mostramos a
continuación, pero los demás componentes son
fijos. Es decir, las variantes están
determinadas: ‘A punta pala’/‘apunta de pala’,
‘Punta pala’/‘punta de la pala’.
c. Variante morfosintáctica en el uso del
artículo. El pronombre está pospuesto al verbo
y, por ello, señala una especificación que
restringe el número del sustantivo. El artículo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
126
es variable como en ‘dar (un) plantón a
alguien’ y en algunos casos, imprescindible
‘pegarse el/un tortazo’. Las variantes también
están predeterminadas en los ejemplos, ‘Dar
(un) plantón a alguien’ y ‘Pegarse el/un
tortazo’.
3.2.4. Variante sintáctica
La variación sintáctica se realiza cuando hay
una modificación en las relaciones sintagmá-
ticas de las palabras, alteración en el orden
de los constituyentes, el cambio en la estruc-
tura sintáctica y la formación de unidades
superiores a éstos, como los sintagmas y ora-
ciones, pero no influyen en la lexicalización
de la UF, como se aprecia en la tabla 11.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
127
Tabla 11. Variante sintáctica. UF Variante Cambiolevantarse de con el pie
izquierdo cambio de preposición
No dar el su brazo a torcer cambio de determinante
ser uña y carne ser carne y uña cambio en el orden de constituyentes
hablar (hasta) por los codos
hablar por los codos
cambio en el número de constituyentes
No caber (ni) un alfiler
no caber un alfiler
cambio en el número de constituyentes
hacer la vista gorda
Hacerse de la vista gorda
cambio en la estructura sintáctica
3.2.5. Variante léxica
La variante léxica consiste en el cambio de un
constituyente de las unidades léxicas por otro
o por un sintagma, manteniendo las relaciones
semánticas preexistentes y ocupando la misma
posición dentro de la unidad fraseológica. En
el primer caso, no existen cambios en el número
de constituyentes. Ambos forman parte de una
unidad fraseológica en el nivel de la lengua,
suelen ser sinonímicas, antonímicas, metoní-
micas y diatrópicas, las cuales pasamos a
describir:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
128
a. Las variantes léxicas diatrópicas son
formas fraseológicas que se establecen en la
lengua por medio del contacto de hablantes de
la misma lengua, procedentes de sitios
distintos. Al establecerse estas variantes
léxicas en las lenguas, ellas se vuelven
nacionalizadas, lo que se realiza por
sustitución léxica de uno o más componentes.
Estas variantes, sin embargo, mantienen una
relación semántica de sinonimia o de antonimia
o incluso de metonimia con las formas que
tenían antes del intercambio. El intercambio y
la institucionalización pueden afectar a uno o
más componentes, como se puede ver en la tabla
12:
Tabla 12. Variante léxica diatrópica. UF Variación Regiónser uña y carne ser uña y diente República
Dominicana ser uña y mugre Méx, Honduras,
Panamá, Colombia, Venezuela, Bolivia, Chile
cortar el bacalao corta r el queque Chile coger con las manos en la masa
Agarrar con las manos en la masa
América
comer como una lima
comer como pelón de hospicio
México
comer como lima Puerto Rico,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
129
nueva Venezuela, Argentina
comer como un sabañón
Chile
dormir como un leño
dormir como un tronco
sinonímia
A caballo regalado no le mires el diente
A caballo regalado no le mires el dentado.
sinonímia
poner buena cara poner mala cara
b. La variante léxica por sinonímia se
caracteriza por la similitud estructural y los
rasgos parciales del componente léxico, como se
puede ver en la tabla 13. Por supuesto, si el
cambio formal no comporta ningún cambio
semántico, en este caso estaríamos ante un caso
de sinónimos estructurales partiendo de la
concepción de Dobrovol´skij (1988: 163) y Barz
(1992: 37-41), no de variantes.
Tabla 13. Variante por sinonímia. A caballo regalado no le mires el diente
A caballo regalado no se le mira el diente
dormir como un leño dormir como un tronco A perro ladrador no le mires el dentado
Al perro flaco no le mires el diente
dormir como un rey dormir como un bebé A toda carrera A toda hostia A toda mecha A toda pastilla cagando hostias cagando leches echando hostias echando leches Con todo gusto a toda satisfacción
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
130
La distinción entre sinónimo y locución con
variantes no siempre es tan clara (García-Page
2008: 220). El caso más común es el de las
locuciones que tienen un inventario extenso de
variantes, como por ejemplo: ‘en un instante’,
‘en un momento’, ‘en un suspiro’. La distinción
entre variante y sinónimo es más difícil cuando
las alternativas dejan de ser estrictamente
léxicas y tienen otro tipo de alteración, como
la morfológica, la gramatical o la fónica, como
apreciamos en el ejemplo: ‘tomar el olivo’ y
‘tomar las de Villadiego’.
Este criterio es bastante polémico entre los
fraseólogos. Algunos estudiosos defienden la
concepción de sinonimia, aunque otros hablan de
variante estructural. En términos de fraseo-
logía española, García-Page (2008: 220)
pertenece a los que entienden que se trata de
variantes estructurales.
c. La variante léxica del componente nominal
consiste en el cambio de un constituyente
nominal por otro. Como se puede ver en la tabla
14, en los cuatro ejemplos se puede emplear o
bien el nombre ‘castañuelas’ o bien ‘pascuas’,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
131
en el primer ejemplo; en el segundo ejemplo, el
cambio se da con ‘rabo’ por ‘toro’; en el
tercer ejemplo, el cambio se da con ‘carácter’
por ‘armas’ y en el último ejemplo, el cambio
se da con ‘calle’ por ‘casa’. La fijación no es
absoluta pero las variantes están predeter-
minadas.
Tabla 14. Variante del componente nominal.
estar más alegre que unas castañuelas
Estar más alegre que unas pascuas
Ir al rabo Ir al toro Hombre de carácter Hombre de armas Hombre de la calle Hombre de la casa
d. La variante léxica del componente verbal
consiste en el cambio de un constituyente
verbal por otro. El verbo queda sustituido por
otro (coger, ganar, levar, tomar), siempre
antepuesto al pronombre (la) y en algunos
casos, al artículo (uno, una). La flexión del
verbo es variable (llevar, lleva, llevó,
llevaba, llevando). La fijación no es absoluta,
pero las variantes están predeterminadas, como
se aprecia en la tabla 15.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
132
Tabla 15. Variante del componente verbal.
Coger la delantera
Cogió la delantera
Ganar la delantera
Ganó la delantera
Llevar la delantera
Lleva la delantera Llevó la delantera Llevaba la delantera Llevando la delantera
Tomar la delantera tomar una delantera tomaba la delantera ha.tomado la delantera tomarle la delantera tomaron la delantera
e. La variante léxica del componente adjetivo
consiste en el cambio de un constituyente adje-
tival por otro. El adjetivo queda sustituido
por otro (moradas o negras), siempre antepuesto
al artículo (las), la flexión del verbo es
variable (pasar, pasó, pasado). La fijación no
es absoluta, pero las variantes están
predeterminadas. Como por ejemplo, en ‘Pasar
las moradas o pasarlas moradas’/‘Pasar las
negras o pasarlas negras’, ‘Pasó las moradas’/
‘Pasó las negras’.
f. La variante léxica del componente
adverbial consiste en el cambio de un
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
133
constituyente adverbial por otro. El adjetivo
queda sustituido por otro. En este ejemplo,
poco o casi nunca está en la misma posición del
sintagma. Por lo tanto, las variantes están
predeterminadas. Como por ejemplo en: ‘No ser
alguien poco diablo’/‘No ser alguien muy
diablo’.
3.2.6. Modificación y desautomatización
Entre las posibles variaciones de las UFs se
encuentra la desautomatización, que puede
modificar o destruir la naturaleza semántica,
estilística y pragmática de una unidad fraseo-
lógica. La desautomatización es un término que
ha entrado en la Fraseología española de la
mano de Zuluaga, que lo ha tomado de los
formalistas rusos y ha sido, de acuerdo con
Mena Martínez (2003: 1), utilizado por "[…]
fraseólogos de la talla de, además del propio
Zuluaga, de Corpas Pastor, Ruiz Gurillo y
Zamora Muñoz". Según esta autora (ibid), la
desautomatización es un acto "[…] aplicado de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
134
forma intencionada de manipulación o modifi-
cación creativa". Su origen está en la:
[…] intención del emisor que realiza esas operaciones creativas impulsado por una determinada finalidad, y culmina en el momento en el que la nueva UF despliega toda una serie de efectos especiales y llamativos (Ibid).
Corpas Pastor y Mena Martínez (2003: 188), por
su parte, afirman que: “[…] las modificaciones
ocupan la parte más inestable, pero también más
creativa, de la variabilidad”.
Las investigaciones tienen su foco espe-
cialmente en el periodismo y en la literatura,
de donde sacan muchos y valiosos ejemplos. Los
que aparecen en Corpas Pastor (1997), Martínez
Marín (1996), Moon (1998), Burger et al. (1982)
siguen, en líneas generales, esta misma
tendencia, y provienen del lenguaje perio-
dístico, publicitario y literario. Según
Sypnicki (1991: 6) citado en Corpas Pastor
(1997: 233), “[…] éste es el recurso profundo
del periodismo satírico”. Koller (1977),
Grassegger (1989) y Wotjak (1991) han confir-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
135
mado lo mismo, así como Búrli-Storz (1980) y
Sánchez Corral (1990), que han encontrado con
gran frecuencia modificaciones de UFs en los
textos literarios y en la publicidad.
Según Corpas Pastor (1997), estas alteraciones
están consideradas como manipulación creativa.
Ellas corresponden a la desautomatización de
acuerdo con los investigadores Ruiz Gurillo
(1997), Zuluaga (1997: 2001) y Mena Martinez
(2003), o a la deslexicalización de acuerdo con
Garcia-Page (1989), la modificación de acuerdo
con Barz (1986) y la propia Corpas Pastor, la
manipulación como Montoro Del Arco (2003) lo
denomina, y défigement bajo la perspectiva de
Gross (1996: 20) y Ben Amor (2008). Estas
modificaciones:
[…] además de constituir un uso caracterís-tico de las UFs, no está reñida con la estabilidad (semántica y formal) de la que gozan estas unidades, es más, precisamente depende de ésta y del conocimiento previo de las unidades originales que les sirven de base. (Corpas Pastor, 1997: 233).
Más recientemente, Mena Martínez (2003) ha
hecho un estudio específico sobre las modifica-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
136
ciones o desautomatización en el concepto de
esta autora, comparándola con las desviaciones
y las variantes, reforzando la idea de que la
desautomatización es la aplicación de forma
intencionada de cualquier alteración creativa y
ocasional, llevada a cabo con una finalidad
específica. Según García-Page (2008: 208),
Las manipulaciones arbitrarias son por lo general de vida efímera. Como otros tipos de objetos de naturaleza fungible, una vez cumplida su misión en el discurso en que es empleada, la expresión novedosa deja de tener relevancia y muere o se olvida; nunca sustituye, salvo en ese instante de su enunciación, a la expresión genuina que, no obstante, actúa in absentia.
En este proceso, la forma canónica de la unidad
fraseológica puede ocasionalmente ser modifi-
cada, formalmente, no compartiendo los elemen-
tos léxicos con la forma usual registrada en el
discurso y en los diccionarios. La modificación
o desautomatización va más allá de la simple
variación. Este cambio es intencional y tiene
como objeto efectos estilísticos en el texto
según López Roig (2001).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
137
Siguiendo a Corpas Pastor (1997), hay un amplio
abanico de modificaciones de las UFs; se las
puede dividir en modificaciones externas y
modificaciones internas o sea, modificaciones
que no aceptan a su estructura formal y
modificaciones que afectan a la estabilidad y
estructura de sus componentes individuales.
Según Corpas Pastor (1997) debido a su
ambigüedad potencial, muchas de estas expre-
siones constituyen secuencias de palabras
altamente polisémicas en contexto.
Según esta autora, las modificaciones textuales
suelen ser por expansión, reducción o
sustitución de las UFs. La adición o expansión
consiste en añadir nuevos elementos externos a
una UF, aumentando el número de componentes,
adjetivos, sustan-tivos, preposiciones que mo-
difican a algún componente de la UF. Como por
ejemplo, en: ‘Portales de coartadas para echar
una cana al aire’ y ‘echar de cuando en cuando
una cana al aire’.
La reducción por acortamiento consiste en la
eliminación de uno o más componentes de una UF
determinada. Se refiere al sentido de la unidad
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
138
entera, usándose solo algunos de los compo-
nentes. Como por ejemplo en ‘matar la gallina
de los huevos de oro’/‘permitiendo estas
situaciones estamos matando nuestra gallina de
oro’. La sustitución se da por el cambio de
alguno(s) de sus componentes por otro(s)
equivalentes, teniendo en cuenta su relación
semántica o de su relevancia textual.
Hemos encontrado ejemplos de formación
neológica, como por ejemplo, ‘huevos’ y
‘huecos’ (Corpas Pastor 1997: 246) en: ‘Matar
la gallina de los huevos de oro’ y ‘¿Quién va a
matar a la gallina de los huecos de oro?’.
Desde el punto de vista de las modificaciones y
también de las variaciones ocasionales de las
UFs, hay que tener en cuenta que se trata de un
área lingüística de inestabilidad objetiva,
pues dependen de la finalidad con que estas
manipulaciones creativas se llevan a cabo.
La investigación de Medrano Herrero (2000)
sobre la desautomatización de refranes, se basa
en las obras de San Juan Bautista de la
Concepción, nacido en el siglo XVI en la villa
manchega de Almodóvar del Campo (Ciudad Real).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
139
Las variantes de refranes encontradas en sus
investigaciones son variantes léxicas, con
cambio de hasta cuatro componentes. Los cambios
se dan en los adjetivos, nombres o verbos.
Además, la variación no ha afectado a la
fijación del refrán en la comunidad
lingüística, como se aprecia en los ejemplos de
la tabla 16.
Tabla 16. Desautomatización de refranes. Nº Forma canónica Desautomatización Tipos de
cambios 1 “A buena
hambre no hay pan malo”
“A buena hambre no hay pan duro”
A veces el cambio es mínimo, representando una variación sinonímica. “malo” por “duro” o “ignorantes” por “obstinados” y “cuerda” por “soga” y “romper” por “quebrar”
2 “De hombres es errar y de ignorantes perseverar”
“De hombres es el errar y de obstinados el perseverar”
3 “La cuerda siempre se rompe por lo más delgado”
“La soga quiebra por lo más delgado”
4 “Dime con quién andas y te diré quién eres”;
“Dime con quién andas, diréte quién eres”
Con el uso enclítico o proclítico del pronombre.
5 “El pie en el lecho y el brazo en el pecho”.
“El brazo en el pecho y la pierna en el lecho”
Con la inversión de las dos partes de la paremia, además de algún sinónimo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
140
6 “Como el perro del hortelano, que ni come las berzas ni las deja comer”.
“Como los perros del hortelano, que no comen las berzas porque no son de su manjar, ni las dejan comer para quien son”
Variantes con dos cambios. En este refrán, aparte del plural “perros”, se añade nuevos elementos, explicándolo por qué los perros comen y dejan de comer las berzas.
3.2.7. Variantes lingüísticas y socio-
culturales
En una lengua se encuentran, normalmente, tres
categorias de variaciones lingüísticas, cada
una estudiada por una disciplina. Las variantes
lingüísticas se definen como una forma de habla
que presenta diferencias estructurales y
léxicas en comparación con otras variantes de
la misma agrupación lingüística, por ejemplo,
la pragmática y la dialectología. Las variantes
socioculturales implican una diferencia de la
identidad sociolingüística entre los usuarios
de distintas comunidades lingüísticas. Incluyen
los fenómenos lingüísticos del nivel fonético
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
141
del español de América y de la Península,
considerando las variaciones diatópicas,
diastráticas y diafásicas.
Las variantes lingüísticas y socioculturales
son denominadas variantes externas léxicas por
Montoro del Arco (2005: 125) y se dividen en:
Variedad diatópica, que es estudiada por
la dialectología.
Variedad diastrática, que es estudiada por
la sociolingüística.
Variedad diafásica que es estudiada por la
pragmática.
A continuación vamos a detallarlas, puesto que
son relevantes para esta tesis doctoral:
a. Las variantes diatópicas son las variantes
encontradas en las diferentes zonas geográficas
donde se habla una lengua. Representa la
pluralidad lingüística de una lengua. En el
caso del español son las variedades dialectales
del español: castellano, leonés, aragonés,
andaluz, extremeño, murciano, canario,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
142
valenciano, balear e hispanoamericanos como se
puede ver en la tabla 17:
Tabla 17. Variante diatrópica.
Variantes diatópicas Forma canónica Local Variante Local plantarle la cara a alguien
España dar la cara
América
casarse de penalti España casarse apurado América írsele el santo al cielo
España írsele la onda América
Meter baza España Meter cuchara América
b. Las variantes diafásicas son las
diferencias de modos de habla o registros
determinadas por el contexto social o situación
comunicativa en que se produce la comunicación.
Se distinguen dos variedades de variantes
diafásicas: un registro formal o culto
(requiere una selección de los recursos
lingüísticos y el uso del lenguaje de forma
cuidada, como en conferencias y discursos) y un
registro informal o coloquial (propio de la
comunicación interpersonal), como se aprecia en
los ejemplos: ‘me importa un culo’/‘me importa
un chorizo’, ‘estar en el quinto pino’/‘estar
algo en el quinto coño’.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
143
c. Las variantes diastráticas caracterizan el
hablante de un determinado grupo social que
posee una fraseología propia. Así, los grupos
sociales como los estudiantes, políticos,
delincuentes o médicos, poseen una argot o
jerga propia, como se aprecia en los ejemplos:
‘Tener mucha cara’/‘tener mucho morro’.
Una vez delimitados los distintos tipos de
variantes, vamos a centrarnos en esta tesis
doctoral en la parte de la Extracción de la
Información para poder completar todos los
aspectos de los fundamentos teóricos que nos
conciernen en este estudio.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
144
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
145
4. LA EXTRACCIÓN DE LA INFORMACIÓN
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
146
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
147
La gran proliferación de textos existentes en
formato electrónico en los últimos tiempos
sobrepasa la capacidad de una persona para
leer, comprender y sintetizar la gran cantidad
de información contenida en ellos. Para ordenar
el manejo de esta información, se han
desarrollado dos estrategias: la Recuperación
de la Información (RI) y la Extracción de la
Información (EI).
Los inicios de la Extracción y Recuperación de
la Información se ubican en la década de 1940
cuando Vannevar Bush (1945) publicó un artículo
que tenía como reto la idea de crear una
máquina, MEMEX, en la cual podría residir una
masa sustancial de conocimientos útiles y
organizados. Los primeros sistemas de Recupera-
ción de la Información empiezan a ser implan-
tados a finales de los años cincuenta e inicio
de los sesenta. Sin embargo, solamente a
finales de la década de 1980 esta tecnología
empieza a ganar relevancia.
La Extracción de la Información (EI) no debe
ser confundida con la Recuperación de la
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
148
Información (RI), que selecciona, de una gran
colección, un subconjunto de documentos
relevantes basados en una consulta del usuario.
La diferencia entre los objetivos de los
sistemas de la Extracción de la Información y
de la Recuperación de la Información se puede
sintetizar de la siguiente forma: la
Recuperación de la Información recupera
documentos relevantes de una colección,
mientras que la Extracción de la Información
extrae informaciones relevantes de los
documentos. Por consiguiente, las dos técnicas
son complementarias y, cuando se combinan,
pueden producir herramientas interesantes para
el procesamiento de textos (Gatzauskas y Wilks,
1998).
En otros términos, se puede decir que mientras
la Recuperación de la Información recoge
material útil de grandes cantidades de textos
con la finalidad de recuperar únicamente los
que sean relevantes ante una consulta determi-
nada, la Extracción de la Información, por el
contrario, a partir de estos textos, busca
extraer la información relevante que satisfaga
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
149
las necesidades de información del usuario ante
una solicitud de búsqueda.
Para muchos autores, la Extracción de la
Información es una etapa posterior a la
Recuperación de la Información. La principal
diferencia entre ambas es que la primera
proporciona la información que se busca,
mientras que la segunda proporciona los textos
en los que aparece dicha información.
Los sistemas de Extracción de la Información
escanean una serie de documentos escritos en
una lengua buscando y enlazando la información
concreta en colecciones o flujo de documentos.
Detectan, extraen y presentan la información
relevante e ignoran la extraña e irrelevante de
datos no estructurados, transformándola en
información susceptible de ser tratada automá-
ticamente de forma estructurada al rellenar una
base de datos con la información extraída. Esta
información se clasifica en eventos y
entidades. En el ámbito de esta investigación
trabajamos con dos clases de información: la
fuente de las unidades fraseológicas que es el
corpus y las unidades fraseológicas propiamente
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
150
dichas. Esta información contiene entidades y
eventos. Las entidades se designan como las
unidades fraseológicas y los eventos se carac-
terizan como los distintos tipos de unidades
fraseológicas consideradas en esta investiga-
ción: locuciones y paremias.
Estos documentos suelen contener información
estructurada, semiestructurada o no estructu-
rada. Inicialmente, los primeros sistemas
tenían como objetivo la identificación de
nombres de personas, organizaciones, lugares,
ciertas expresiones numéricas e incluso sintag-
mas nominales, especialmente para la compren-
sión de mensajes.
EI es una tecnología del Procesamiento de
Lenguaje Natural (PLN) cuya función es procesar
textos no estructurados, localizar partes
específicas de información, o hechos, en el
texto para conformar con éstos una base de
datos. Su meta es extraer de los documentos los
hechos sobresalientes sobre datos de eventos y
entidades. Estos hechos se introducen en una
base de datos que puede usarse en el proceso
más adelante de modo automático. Los sistemas
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
151
de Extracción de la Información no intentan
entender el texto en el documento de entrada,
sino que analizan porciones de cada documento
que contienen la información pertinente. El
sistema de Extracción de la Información intenta
convertir el texto no estructurado en entradas
de la base de datos codificadas.
Para poder crear un sistema de la Extracción de
la Información, primero se tiene que desarro-
llar un sistema de la Recuperación de la
Información que obtiene documentos con informa-
ción significativa respecto a la solicitud de
búsqueda y, a continuación, generar un sistema
que encuentre y relacione información rele-
vante.
El área de Extracción de la Información, a
diferencia de la de Recuperación de la Informa-
ción, ha tenido un crecimiento acelerado en las
dos últimas décadas. El desarrollo computa-
cional y el gran número de información textual
existente en formato electrónico, unido a la
intervención de la Agencia de Defensa de los
Estados Unidos, hicieron que esta tecnología
alcanzase su auge en la década de los 90,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
152
cuando diferentes técnicas se probaron en
pequeñas colecciones de textos (corpus).
La Recuperación de la Información es el proceso
utilizado por las aplicaciones más populares de
Internet (Google, Yahoo, Lycos, etc.)
patrocinados por el gobierno norteamericano.
Estos sistemas se construyeron para realizar
una tarea específica, en función del tipo de
información a extraer en cada caso.
Lo que es relevante se determina mediante guías
predefinidas de un escenario particular,
llamado dominio de extracción, especificadas
con la mayor precisión posible. Desde la
perspectiva del Procesamiento del Lenguaje
Natural (PLN), los sistemas de Extracción de la
Información deben trabajar en distintos
niveles, desde el reconocimiento de palabras
hasta el análisis de oraciones, y desde el
entendimiento a nivel de oración sobre el
análisis del discurso hasta el del texto
completo.
Un ejemplo podría ser un sistema de Extracción
de la Información orientado a la extracción de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
153
las unidades fraseológicas que aparecen en
textos literarios o científicos. Este sistema
evidentemente precisaría tener una base de
datos relacional donde estarían almacenadas las
unidades fraseológicas, y operaría de forma que
automáticamente buscaría en el texto todas las
UFs existentes en la base de datos, extrayendo
la información correspondiente y la incorpo-
raría a otra base de datos o tesauro creado
para tal efecto que haría de output. Desde este
punto de vista, la Extracción de la Información
se puede ver como una tarea de clasificación
según distintos patrones. La unidad de la
información que es candidata a ser extraída o
clasificada semánticamente es descrita por un
conjunto de atributos que atienden a distintos
patrones léxicos, sintácticos, semánticos y del
discurso.
La característica del texto donde se hace la
Extracción de la Información tiene gran
influencia sobre la elección de la técnica
utilizada en la construcción de sistemas
Extracción de la Información. A continuación se
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
154
da una breve descripción de los posibles tipos
de textos que podemos encontrar:
a. Texto estructurado: Un texto se considera
estructurado cuando presenta una semántica
definida, altamente regular, con estructuras
homogéneas, que puede ser procesada automá-
ticamente por los sistemas para Extracción de
la Información. Como ejemplos, se pueden citar
las bases de datos, las hojas de cálculo, etc.
b. Texto semi-estructurado: Los textos semi-
estructurados son aquellos que presentan una
información heterogénea y esparcida con alguna
regularidad en la disposición de los datos.
Como ejemplo de este tipo de texto, se puede
citar una página en XML.
c. Texto no estructurado: Los textos no
estructurados (libres) son aquellos en los que
la información está codificada y no permiten el
procesamiento automático inmediato. Como
ejemplo de este tipo de texto, se puede citar
una página Web o grabación radiofónica.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
155
Las técnicas de Procesamiento del Lenguaje
Natural3 han sido bastante utilizadas en el
proceso de Extracción de la Información de
documentos semi-estructurados y libres (Soder-
land, 1999; Cowie y Lehnert, 1996). El objetivo
del uso de esas técnicas de PLN en el contexto
de Extracción de la Información es intentar
comprender textos en alguna lengua natural, a
fin de encontrar información relevante para
extraerla. Los sistemas de extracción basados
en PLN han sido definidos para diferentes
dominios, contando con etapas de procesamiento
comunes a los sistemas de PLN en general y
algunos módulos específicos para la Extracción
de la Información (Rajman y Besançon, 1997).
Diversos trabajos relacionados con la tarea de
Extracción de la Información se encuentran en
la literatura. En general, esos métodos
utilizan reconocedores de estado-finito (Hobbs
et al., 1997). La creación de un diccionario de
reglas de acuerdo con el tipo de texto
analizado emplea técnicas de Aprendizaje de
3 Las técnicas se realizan a través de distintos niveles de análisis como el morfológico y el sintáctico.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
156
Máquina para que el ordenador ejecute las
reglas predeterminadas por el autor
automáticamente y así minimizar la partici-
pación humana (Glickman y Jones, 1999).
Las técnicas estadísticas de aprendizaje de la
máquina, por ejemplo, los Modelos Ocultos de
Markov (Hidden Markov Model (HMM)), están
siendo aplicadas en la Extracción de la
Información, especialmente en tareas como el
aprendizaje del modelo de una estructura a
partir de los datos y cómo hacer mejor uso de
datos etiquetados como lo prueban los estudios
de Freitag y McCallum (1999); Seymore, McCallum
y Rosenfeld (1999) y Connan y Omlin (2000).
Otro punto de vista utilizado es la inducción
de Wrappers. Los sistemas Wrappers exploran la
regularidad presentada por textos estructurados
con el propósito de localizar información
relevante. Un Wrapper (Widom, 1995, Ashish et
al., 1997) es un sistema específico para una
clase de fuente de datos que se encarga de
traducir los datos del formato de la fuente de
origen al formato y modelo de los usados por el
Data Warehouse.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
157
En general, un Wrapper tiene como objetivo
principal el extraer información relevante
presente en documentos y exportar esa
información como parte de una estructura de
datos; por ejemplo, en una base de datos
(Freitag y Kushmerick, 2000). En el contexto de
la web, el propósito de un Wrapper es convertir
información implícita almacenada en páginas
HTML, en información explícita estructurada,
para un posterior procesamiento (Eikvil, 1999).
En cuanto a la técnica de implementación, esos
sistemas pueden estar construidos de forma
automática, semi-automática o completamente
manual (Freitag y Kushmerick, 2000).
Otros trabajos utilizan conceptos de la
Programación Lógica Inductiva para la
resolución de problemas en PLN como los de
Lopes y Brazdil (1998); Junker y Sintek y Rinck
(1999). Algunas tareas de lenguaje natural que
emplean el aprendizaje relacional incluyen el
aprendizaje de etiquetado categorial (part-of-
speech tagging), el aprendizaje de relaciones
semánticas y el aprendizaje en el contexto de
traducción de la máquina (Cussens y Džeroski,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
158
2000). He aquí algunas de las principales
ventajas de la utilización del aprendizaje
relacional en PLN:
a. Las reglas inducidas por sistemas rela-
cionales son comprensibles por lingüistas.
b. Los sistemas relacionales permiten fácil-
mente integrar algún conocimiento lingüístico
de fondo en la definición del problema.
c. La utilización de una representación más
expresiva (basada en lenguaje de primer orden)
para el lenguaje de hipótesis y del conoci-
miento de fondo.
A continuación vamos a detallar algunos de los
aspectos más destacados en este capítulo.
4.1 Evaluación de Sistemas de Extracción
de la Información
Los Sistemas de Extracción de la Información
(SEI) están compuestos por un conjunto de
textos en lenguaje natural de donde se extraen
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
159
determinados conceptos, elegidos por nosotros,
para una aplicación específica. El método es
distinto al de la Recuperación de la
Información, pero la complementa. Los sistemas
de la Recuperación de la Información buscan
documentos con información significativa, como
son los casos de los motores de búsqueda, donde
se puede buscar cualquier palabra de cualquier
tema.
Sin embargo, un SEI rastrea la información
relevante y específica en los documentos, la
extrae y la organiza rellenando una base de
datos. La información requerida está
previamente definida por un diccionario de
patrones. Este proceso es diferente al de la
Recuperación de la Información, cuya informa-
ción es buscada por el usuario en un campo
específico.
El campo de la extracción automática de la
información fue creado a finales de la década
de los 80 por DARPA (Defense Advanced Research
Projects Agency), y fue pensado para extraer
información específica. Se desarrollaron diver-
sas conferencias para desarrollar el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
160
entendimiento de mensajes, conocidas como MUCs
(Message Understanding Conference), centradas
en la Extracción de la Información. El
principal objetivo de las mismas fue la
evaluación de sistemas de la Extracción de la
Información desarrollados en diferentes centros
de investigación, proponiéndose en cada uno de
ellos un dominio distinto y nuevo.
Las conferencias sirvieron para presentar
sistemas nuevos de Extracción de la Información
para observar cuál lograba mejores resultados,
de acuerdo con las especificaciones determi-
nadas en cada MUC para la tarea de Extracción
de la Información. Los dominios presentados en
los MUCs hasta 1998 se pueden ver en la figura
6, mientras que el nivel de evaluación aparece
en la figura 7.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
161
Figura 6. Dominios de extracción utilizados en las
MUC´s.
Figura 7. Mejores resultados reportados en las MUC´s.
A partir de los MUCs fueron confeccionados
varios sistemas, como por ejemplo: Autoslog
Riloff (1993), PALKA Kim y Moldovan (1995),
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
162
Crystal Soderland et al. (1995), Rapier (Califf
y Mooney, 1997), Nymble (BBN) Bikel et al.
(1997).
4.2. Métricas de evaluación
Las métricas de evaluación para la Extracción
de la Información fueron definidas durante las
MUCs (Conferencias de Entendimiento de
Mensajes). El estudio realizado por medio de
las cuatro primeras MUCs (Sundhelm, 1992)
suministraron la base para la definición de las
medidas de evaluación existentes.
Los sistemas de Extracción de la Información
fueron evaluados en función de la Precisión, la
Cobertura, la medida F y el Fallout. Para la
evaluación de los sistemas de Extracción de la
Información se suelen utilizar las mismas
medidas de precisión y cobertura utilizadas en
los sistemas de Recuperación de la Información,
teniendo en cuenta la similitud de los
resultados que se quieren obtener.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
163
En la tarea de Extracción de la Información, la
cobertura (Recall), es definida como la
cantidad de datos correctamente extraídos sobre
la información relevante existente en los
textos. La precisión es definida como la
cantidad de información correctamente extraída
en relación con el total de las mismas. La
Medida-F combina la cobertura y la precisión.
La Tasa de fallo (Fallout), indica la habilidad
del sistema para ignorar la información
errónea.
Resumiendo, la cobertura se refiere a la
cantidad de información relevante que se ha
extraido correctamente, aunque la precision se
refiere a la confianza de la información
extraída o la capacidad para extraer todos los
registros correctos. En función de la plantilla
de la extracción, la precisión (P) y la
cobertura (C) son definidas, respectivamente,
en las ecuaciones:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
164
En estas ecuaciones, N1 es el número de
extracciones correctas realizadas y N2 el
número de extracciones posibles existentes en
el texto. Estas medidas están inversamente
relacionadas, o sea, cuando ocurre un aumento
en la cobertura, la precisión tiende a
disminuir y viceversa.
En la tentativa de valorar un sistema de
Extracción de la Información teniendo en cuenta
la cobertura y la precisión, se puede utilizar
otra medida llamada medida F (F-measure), que
combina las medidas anteriores, presentadas en
la siguiente ecuación:
En esta ecuación, el parámetro ß cuantifica la
preferencia de la cobertura sobre la precisión.
Frecuentemente es usado ß=1. La ecuación de
abajo tiene el propósito de valorar sistemas de
Extracción de la Información ponderando las 2
medidas:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
165
La tasa de fallo o fallout representa la
porción de los documentos no relevantes que son
extraídos:
En esta ecuación, A equivale a las respuestas
incorrectas devueltas y R son las oraciones con
información falsa. El uso práctico de estas
medidas de evaluación se verá en más detalle en
el capítulo de los resultados de esta tesis
doctoral.
4.3. Los métodos
La ingeniería del conocimiento se basa en
estructuras lingüísticas que conforman sistemas
conceptuales variables que ofrecen respuestas
probables. Siguiendo a Hutchins y Somers (1992:
417-422), “Esta visión cognitiva se está
aplicando en muchos de los retos asociados al
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
166
procesamiento del lenguaje natural. De esta
forma, las memorias de traducción, o córpora
textual paralelo, están siendo utilizados para
la construcción de sistemas de traducción
automatizada, los cuales se indizan utilizando
bases de conocimiento”.
Las gramáticas se construyen manualmente y el
experto tiene la tarea de refinamiento de los
sistemas, a través del estudio del corpus. A
nivel técnico, requiere que el diseñador del
sistema de Extracción de la Información esté
familiarizado con los recursos lingüísticos
existentes y los requerimientos del dominio,
para fijar las reglas que deben aplicar y las
gramáticas de extracción que requiere el
sistema. El desarrollo de las reglas se produce
por medio del conocimiento general, la intuí-
ción o las heurísticas. Dentro de la Ingeniería
del conocimiento hay dos formas de extraer los
patrones:
a. La aproximación molecular. El experto,
después de haber identificado los principales
patrones de los textos en cuanto a su estruc-
tura, construye las reglas para generalizar
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
167
esos patrones. Posteriormente, busca los
patrones que no fueron abarcados por las
primeras reglas, construyendo otras nuevas,
cuyo objetivo es la búsqueda para una mayor
precisión.
b. La aproximación atómica. La idea es que la
información que se desea extraer se centra en
las frases nominales y en los verbos de una
determinada clase, pues se asume que ahí está
toda la información de interés expresada en
sucesos o relaciones. De este modo, se obtienen
todas las descripciones posibles de los sucesos
y de las relaciones en el texto. Luego, los
resultados se combinan para obtener una
estructura completa. Al final esas estructuras
se filtran según criterios predefinidos, lo que
es posible cuando las entidades en el dominio
se identifican fácilmente, es decir, las
unidades fraseológicas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
168
4.4. Tipos de aproximaciones
Los sistemas de Extracción de la Información
suelen utilizar las aproximaciones de la
Ingeniería del Conocimiento, los Separadores
Lineares, el Aprendizaje Estadístico y el
Aprendizaje Automático (Baeza-Yates et al.,
1999 y Jurafsky y Martín, 2000).
Para que un sistema de la Extracción de la
Información pueda reconocer las unidades
fraseológicas en un corpus, se hace necesaria
la construcción de un diccionario de patrones.
A diferencia de un sistema de la Recuperación
de la Información, donde a partir de una o más
palabras, el sistema retorna un conjunto de
documentos que las contienen, un sistema de la
Extracción de la Información retorna exclusi-
vamente la información requerida, generando de
forma automática los patrones de la informa-
ción.
Existen dos aproximaciones que intentan
resolver esta tarea de forma automática,
tomando como referencia datos extraídos de los
corpus textuales de entrenamiento como suelen
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
169
ser los datos de procesamiento: el método
supervisado y el método no-supervisado. La
diferencia entre ambos es que el primero se
basa en un corpus previamente etiquetado y el
segundo en patrones sintácticos.
El método supervisado de clasificación consta
del aprendizaje de reglas, el aprendizaje
estadístico y los separadores lineales, como se
expresa en la tabla 18.
Tabla 18. Aprendizaje automático. Nombre del sistema
Clase Modelo Textos Fragmento Exacto
AutoSlog Crystal
Aprendizaje De Reglas
Aprendizaje proporcional
NE No
SRV Aprendizaje Relacional
SE Sí
RAPIER WHISK NE,
SE, E TEXTTRACTOR
Separadores Lineales
Clasificadores SE
SNOW-IE COA NE y
SE LHMM Aprendizaje
Estadístico Modelo Oculto de Markov
SI HMM
TC
La primera columna indica el nombre del
sistema. En la columna textos, NE representa
textos no estructurados, SE textos semies-
tructurados y E textos estructurados.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
170
A continuación vamos a detallar los distintos
tipos de aprendizaje automático. Los modelos de
aprendizaje automático y las técnicas estadís-
ticas sirven para extraer regularidades del
lenguaje que se puede utilizar en la implemen-
tación de los Sistemas de Procesamiento de
Textos:
a. Aprendizaje de Reglas. Es un auxiliar en
la construcción de sistemas de Extracción de la
Información. Esta aproximación utiliza la
programación lógica inductiva. El contexto en
el cual trabajan puede ser por aprendizaje
proposicional o relacional. Ambos requieren
marcaje a priori de ejemplos en el corpus de
entrenamiento, lo que hace que el proceso sea
muy laborioso, como se puede ver en la figura
8.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
171
Figura 8. Aprendizaje de reglas4.
La representación del aprendizaje proposicional
se basa en los ejemplos de un concepto en
términos de la lógica de proposiciones. Autos-
log y Crystal son ejemplos de sistemas
desarrollados mediante el aprendizaje proposi-
cional.
Autoslog (Riloff, 1993) prescinde de la
supervisión. La intervención humana se limita a
clasificar como relevante o irrelevante el
texto que se incorpora al proceso de
aprendizaje. Crea un diccionario de patrones de
extracción especializado poseyendo un conjunto
de patrones sintácticos generales y asume que
4 http://www.iula.upf.edu/materials/041110rodriguez.pdf.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
172
posteriormente un especialista filtre los
patrones producidos.
Crystal (Soderland et al., 1995) es un sistema
que utiliza técnicas de formación de conceptos
(Concept Induction Learning Michalski), y usa
un corpus anotado para el aprendizaje (anali-
zado sintácticamente). Así mismo, crea un
diccionario de patrones de extracción genera-
lizando patrones identificados en el texto por
un especialista.
Palka desarrolla patrones de extracción contan-
do con un concepto de jerarquía para guiar las
generalizaciones y especializaciones. Esos
sistemas han contado anteriormente con una
etapa de análisis de frases para identificar
elementos sintácticos y sus relaciones, y
necesitan de un procesamiento adicional para
completar las plantillas.
Rapher (Califf y Money, 2003) (Robust Automated
Production of Information Extraction Rules), es
otro sistema que, a diferencia de los
anteriores, aprende reglas para hacer la tarea
completa de Extracción de la Información. Éstas
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
173
extraen automáticamente la información relevan-
te de los documentos sin necesitar un análisis
sintáctico previo de las oraciones ni realizar
algún tipo de post-procesamiento. Su algoritmo
de aprendizaje incorpora varias técnicas de
sistemas de Programación Lógica Inductiva y
consiste básicamente en una busca (bottom-up)
por patrones que caracterizan el texto. El
sistema RAPHER se ha basado en los siguientes
sistemas: GLEM (Muggleton y Feng, 1992),
CHILLIN (Zelle y Mooney, 1994) y PROGOL
(Muggleton, 1995).
b. Aprendizaje estadístico de aprendizaje.
Comprende un conjunto de técnicas, desde el
simple cálculo de medias hasta la construcción
de modelos complejos como las redes bayesianas
o las redes neuronales. Los sistemas basados en
Modelos Ocultos de Markov o HMMs como el
DATABOLD (Borkar, Deshmukh y Sarawagi, 2001) o
el DVHMM (Takasu, 2003), son sistemas
determinísticos de aprendizaje estadístico que
representan el conocimiento necesario para
extraer los fragmentos relevantes de los
textos, es decir, los patrones de extracción
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
174
son representados por HMMs. En los textos, este
modelo se lleva a cabo identificando los grupos
de caracteres separados por signos de
puntuación (tokens), espacios en blanco o las
combinaciones entre ellos. Este modelo extrae
información de textos desestructurados, gene-
rando, en contrapartida, un registro estruc-
turado.
La precisión obtenida es generalmente alta en
la extracción de la información. Sin embargo,
los sistemas que usan los Modelos Ocultos de
Markov consumen mucho tiempo en su
procesamiento.
c. Separadores lineales. Es una técnica más
rápida para crear los patrones de extracción
requeridos. No requiere la intervención de un
experto en el proceso de aprendizaje, empleando
algoritmos de aprendizaje automático para
inducir el conocimiento necesario a partir de
un conjunto de corpus de entrenamiento. Algunos
métodos basados en separadores lineales han
sido aplicados en tareas asociadas a la
Recuperación de la Información y al
procesamiento de documentos textuales, logrando
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
175
resultados competitivos en la tarea de la
categorización de documentos. Cohen y Singer
(1996) y Lewis et al. (1996).
A diferencia de los patrones de extracción, que
requieren la intervención de un experto en el
proceso de aprendizaje (sistemas de aprendizaje
de reglas y aprendizaje estadístico), esta
técnica emplea algoritmos de aprendizaje
automático, creando de forma más rápida los
patrones de extracción requeridos. Esta meto-
dología se basa en el aprendizaje automático,
buscando inducir el conocimiento necesario
desde un conjunto de documentos de
entrenamiento previamente etiquetado. La téc-
nica incluye ejemplos negativos de extrac-ción.
Las entidades relevantes y las irrelevantes son
separables linealmente, tras-formando así el
problema de extracción en un problema de
clasificación. Ejemplos de esta aproximación
son los sistemas: Textractor, SNoW-IE y CoA.
Esta técnica presenta una exacta extracción de
los fragmentos de textos revelantes,
especialmente cuando se emplea en textos
semiestructurados y desestructurados.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
176
4.5. Sistemas informáticos de extracción
de las unidades fraseológicas
La Lingüística de Corpus, haciendo uso de las
técnicas facilitadas por el Procesamiento del
Lenguaje Natural, ha fomentado la aparición de
varias herramientas como la traducción automá-
tica, la extracción y Recuperación de la
Información enfocadas para la descripción y el
análisis lingüístico. Se pueden dividir entre
las que se centraron en el desarrollo de
sistemas para la extracción automática de
terminología y los sistemas para la extracción
de colocaciones. Los campos de aplicación de
estas herramientas se pueden dividir en dos
grupos: extracción de terminología, extracción
de fraseología. La norma ISO 1087 (1990) define
el término como “La designación de un concepto
definido en una lenguaje especializado mediante
una expresión lingüística.”
Dado que esta tesis doctoral se centra en las
herramientas desarrolladas para la extracción
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
177
terminológica, vamos a realizar un breve de
este tema.
Las primeras investigaciones desarrolladas con
el objetivo de extraer unidades fraseológicas,
enfocaban el problema desde la perspectiva de
las regularidades sintácticas o similitud
lexical (Dagan, 1994, Dagan y Church, 1995,
Bourigault, 1996, Blank, 1998, Bourigault y
Jacquemin, 1999). Dagan y Church (1995),
trabajaron para los laboratorios ATyT Bell y
construyeron una herramienta semi-automática
(Termight) para ayudar a los traductores
profesionales y a los terminólogos a identi-
ficar términos técnicos en sus traducciones.
Esta herramienta hace uso de un marcaje de las
partes de la oración (part-of-speech) y está
basada en algoritmos para el alineamiento de
palabras y la extracción de términos candidatos
y sus traducciones.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
178
Figura 9. Interfaz monolingüe del Termight.
En la figura 9 se puede ver la interfaz del
usuario que consiste en 3 ventanas: (1) Listado
de entrada de términos candidatos (arriba a la
derecha), (2) Listado de salida de términos,
como construido por el usuario (arriba a la
izquierda) y (3) Las líneas de concordancia
asociadas con el término corriente, indicado
por la posición del cursor en la pantalla.
En la figura 10 se pueden apreciar dos
pantallas. En la primera, las traducciones
candidatas con sus frecuencias y una
concordancia bilingüe para cada candidata. En
la segunda el glosario construido en base a la
traducción semiautomática hecha por Termight.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
179
Figura 10. Interfaz bilingüe del Termight.
Para llevar a cabo un estudio sobre la
extracción basada en las regularidades
sintácticas, se realiza un análisis de la frase
para que se pueda determinar qué papel juegan
las palabras que componen los diferentes casos
gramaticales y por qué puede ser de poca
eficacia en otras lenguas. La frase está
dividida en constituyentes sintácticos (sujeto,
forma verbal, complemento directo, complementos
indirectos y complementos circunstanciales).
Los términos constituyentes de una frase suelen
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
180
representarse en un marco cuyo elemento
fundamental es el verbo.
Este enfoque, sin embargo, exige un
conocimiento profundo de la lengua en estudio,
siendo de poca escalabilidad para otras
lenguas. Para este sistema, el patrón
sintáctico más usado es el Part-of-speech (POS)
de una palabra, o sea, las categorías
gramaticales de la lengua: sustantivo, verbo,
adjetivo, adverbio, artículo, etc. Este proceso
se realiza con un marcaje de POS en el corpus,
asignándose la categoría gramatical a cada
palabra encontrada, teniéndose en cuenta las
características morfológicas y sintácticas del
lenguaje.
Al final del proceso de reconocimiento de
patrones, se obtiene un etiquetado, como se
puede apreciar en la tabla 19:
Tabla 19. Ejemplo de etiquetado
POS Variación morfológica Etiquetado
verbo en indicativo VIN verbo en condicional VCO verbo en subjuntivo VSJ grupo verbal finito VP objeto directo del verbo finito
VP DOBJ
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
181
Verbo
grupo del verbo en infinitivo para no auxiliares
VP_INF
objeto directo del infinitivo VP_INF_DOBJ
secuencia de otros objetos del infinitivo
VP_INF_OBJS
modificador del verbo VP_MODS
secuencia otros objetos del verbo finito
VP_OBJS
núcleo del grupo verbal VP_V núcleo del grupo del infinitivo
V_INF
Posteriormente, en un nuevo enfoque tiene lugar
la identificación de nombres compuestos a
partir de simple filtros lingüísticos,
aplicando medidas estadísticas de asociación
para elegir UFs entre las candidatas a unidades
fraseológicas. Sin embargo, en este sistema no
se incluyeron las locuciones y las paremias.
Las técnicas de extracción estaban restringidas
a la estructura y tamaño de las frases y
teniendo en cuenta esta técnica, fue construido
el sistema Alethlp o Erli.
El sistema LExTER (Logiciel d'EXtraction de
TERminologie), realizado por Bourigault (1994),
es un software para extraer terminología semi-
automáticamente a partir del alineamiento de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
182
palabras. Su arquitectura es muy similar al de
Termight. A diferencia de Termight, LExTER
extrae términos candidatos de documentos mono-
lingües. A partir de la entrada de un docu-
mento, el software hace un análisis sintáctico
y produce una red de candidatas a unidades
terminológicas a partir del que ha sido
introducido por el usuario, cuyo resultado es
sometido a un experto para ser validado. Los
términos pueden ser simples o compuestos.
Para identificar las unidades terminológicas,
LExTER procede en dos etapas principales: En el
primero estadio, LExTER usa un diccionario de
reglas para categorizar todas las palabras
(sustantivos, adjetivos, verbos, etc.)
identificándolas por la forma que tienen en el
diccionario. En un segundo estadio, LExTER
analiza sintácticamente estas frases buscando
extraer subgrupos de palabras que son
candidatas a unidades terminológicas. LExTER
detecta solamente los nombres compuestos
“canónicos”, sin tener en cuentas las
variantes. Se puede apreciar en la figura 11 la
interfaz de LExTER.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
183
Figura 11. Interfaz de LExTER.
En cambio, los estudios más recientes buscan
identificar las unidades fraseológicas inclu-
yendo sus variantes, pues no siempre la forma
canónica de las UFs se encuentra como tal en el
corpus, siendo necesario detectar las palabras
existentes en la periferia o en el interior de
la UF. Por ello, los sistemas actuales intentan
detectar y extraer, además de las UFs
canónicas, sus variantes. Ese tipo de
variaciones se pueden observar en los ejemplos
‘como meter cerveza de contrabando a cualquier
sitio’, ‘me cago en tu puta madre y en el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
184
cornudo de tu padre’, ‘no pude pegar ni un
ojo’, ‘nunca nos van a quitar de la boca
nuestro pan’, ‘tener una cabeza muy bien
amueblada’.
Estos modelos se basan en medidas estadísticas
y lingüísticas de asociaciones que existen
entre los componentes de cada UF. De este modo,
es posible detectar y extraer las unidades
fraseológicas a partir de regularidades esta-
dísticas. La principal ventaja que presentan es
su flexibilidad respecto al alto grado de
extracción de todos los tipos de UFs. Son
modelos propuestos de esta tercera generación
de algoritmos creados por Thurmair (2003),
Dobrov et al. (2003), Alegria et al. (2003),
Dias y Pereira Lopes (2005) y Duan et al.
(2006). Esta corriente incluye diversos
proyectos que consideramos relevantes en esta
tesis doctoral. Duan et al (2006) proponen una
nueva perspectiva para la extracción de
unidades fraseológicas (equivalente en inglés a
Multi-word Expression), basada en el alinea-
miento de los genes que, según los autores,
tienen una secuencia similar a la secuencia
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
185
textual. La técnica utilizada es la de la
teoría informática (Theory of Longest Common
Subsequence o LCS), cuyo método se basa en los
n-grams.
Deane (2005), por su parte, propone un nuevo
método para identificación de multiword units,
equivalentes a las unidades fraseológicas en
español. Este método no paramétrico usa una
medida heurística basada en el ranking. El
método enfoca el alineamiento de secuencia
múltiple para la extracción de unidades
fraseológicas. Esa técnica de MSA se combina
con una técnica conocida como reglas guiadas
por el error que junto a la eficiencia mejorada
de métodos tradicionales, lo que le garantiza
la obtención de resultados satisfactorios para
la extracción de las MWE.
Por otro lado, Dias et al. (2001) utilizan una
herramienta estadística, SENVA (Software for
Extracting N-ary Verbal Associations), y una
versión personalizada de SENTA (Software for
Extracting N-ary Textual Associations) con el
propósito de extraer paráfrasis verbales del
estonio. SENVA utiliza una fórmula matemática y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
186
un algoritmo para calcular el grado de
coherencia entre las palabras de un texto. Se
define un modelo matemático para describir el
grado de coherencia que existe en las palabras
constituyentes de un n-gram. Se define la
Expectativa Normalizada que existe entre n
palabras como la expectativa media de la
presencia de una palabra en una posición dada,
reconociendo la presencia de otras palabras (n-
1) por sus posiciones.
Además de las investigaciones antes mencio-
nadas, hay una infinidad de trabajos que
enfocan la extracción de unidades fraseológicas
bajo una perspectiva del Procesamiento del
Lenguaje Natural, especialmente para el inglés.
Por ejemplo, desde un enfoque basado en el uso
del ordenador para la enseñanza de la
fraseología, Greaves y Warren (2007) han
desarrollado una metodología de Recuperación de
la Información que denominaron Concgram, una
máquina de búsqueda de asociaciones de 2 hasta
5 palabras. Compara n-grams en un texto en
busca de patrones fraseológicos, recuperando
las co-ocurrencias existentes.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
187
El usuario puede usar ConcGram para encontrar
todas las asociaciones de palabras en un texto,
tanto gramatical como semántico. La plantilla
de salida cataloga los resultados por la
frecuencia de ocurrencia y hace la asociación
de 2 a 5 palabras que co-ocurren dentro de un
rango de hasta 12 palabras. El usuario
introduce el texto para que el sistema haga el
análisis. Tiene además otros recursos, como
listado de palabras, concordancia, etc. Como
ejemplo de la recuperación de asociaciones de
palabras hecha por ConcGram, se pueden apreciar
en la figura 12 los resultados de una búsqueda
de las palabras Asia, world y city, es decir un
ConcGram de 3 palabras.
Figura 12. Resultado de una búsqueda en ConcGram.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
188
Otra herramienta conocida es Colex,
desarrollada por Orliac y Dillinger (2003). Se
trata, como ConcGram, de un sistema híbrido
para extracción de colocaciones del tipo verbo
+sustantivos que combina métodos lingüís-ticos
y estadísticos para extraer colocaciones de
textos automáticamente.
La extracción basada en sintaxis es limitada y
no hace diferenciación entre colocaciones del
tipo to make money y combinaciones libres del
tipo to make a table. Según Orliac (2008), el
sistema hace un análisis lingüístico de las
colocaciones cuyo modelo fue elaborado dentro
del Meaning-Text Theory (Mel’cuk 1998, 2003)
para representar las colocaciones, basándose en
tres gramáticas artificiales con relaciones
gramaticales distintas: sujeto+verbo, verbo+
objeto directo y verbo+objeto indirecto. En los
experimentos a que fue sometido Colex alcanzó
un nivel de Precision del 71% en dos pruebas
estadísticas, según Orliac y Dillinger (2003).
En España, más recientemente Alegria et al.
(2006) presentaron ELexBI, un sistema para
extraer automáticamente pares de términos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
189
equivalentes de memorias de traducción del
español y el vasco. El enfoque se basa en la
extracción monolingüe de candidatos a términos
en cada lengua, la creación de bigramas
candidatos para las traducciones de ambas
lenguas y, por último, la selección de los
mejores pares de candidatos. Se puede apreciar
su interfaz en la figura 13.
Figura 13. Interfaz de ElexBI.
La estructura del proceso se puede resumir en
dos etapas, primero se identifican los términos
candidatos de cada lengua mediante técnicas
lingüísticas y después se emparejan dichos
términos mediante técnicas estadísticas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
190
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
191
5. OBJETIVOS
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
192
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
193
La estrategia de trabajo que seguimos se sitúa
en el ámbito de la fraseología aplicada,
partiendo de la observación directa de los
datos lingüísticos obtenidos de un corpus de
entrenamiento. Esta aportación pretende
explicitar los criterios y presentar una
herramienta informática para la detección y
extracción automática de las UFs desde la
perspectiva del Procesamiento del Lenguaje
Natural.
A continuación pasamos a exponer la hipótesis
que se plantea en esta tesis doctoral. Las UFs,
aunque son expresiones fijas, son grupos
sintagmáticos con flexibilidad sintáctica. Los
verbos se conjugan, se cambia el tiempo verbal,
se puede cambiar el género de los nombres, los
sustantivos, los adjetivos e incluso insertarse
palabras entre las UFs o en la periferia de
éstas. La variación dentro de las UFs plantea
serias dificultades léxicas, sintácticas y
morfológicas para realizar sistemas informá-
ticos que las detecten y extraigan. Si el
sistema informático no advierte su presencia en
el texto debido a su variación, puede que no se
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
194
detecten todas las UFs que aparecen en el
mismo.
Como consecuencia de esta hipótesis, los
objetivos generales que se plantean en este
estudio son, por un lado, realizar una
investigación que ayude a solucionar las
lagunas existentes en el campo de la
fraseología. Por otro, crear una herramienta
informática que, conjuntamente con una base de
datos sólida, pueda permitir la detección y
extracción de las UFs en un corpus específico.
Para lograr estos objetivos generales,
proponemos los siguientes objetivos especí-
ficos:
a. Desarrollar un sistema informático que
permita detectar una unidad fraseológica
en castellano con su equivalencia en
portugués, lo cual no se puede realizar
con los traductores automáticos en la
actualidad. Ello nos servirá para ver las
equivalencias lingüísticas de dos lenguas
y así ayudar a los traductores.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
195
b. Ayudar a identificar las UFs para que
sirvan de apoyo a estudiantes y traduc-
tores. No basta con incluir las UFs en un
diccionario electrónico junto con su
equivalencia, es preciso que el sistema
sepa cómo reconocerlas en el corpus, sea
cual sea su forma de aparición. Las ha de
distinguir de otras unidades sintagmáticas
y extraerlas automáticamente a partir de
un corpus textual, mostrando ejemplos de
las UFs en el texto. Esta herramienta,
además de servir para el área de
traducción, se puede utilizar también para
la elaboración de diccionarios fraseo-
lógicos.
c. Sistematizar el tratamiento de la
información fraseológica en una base de
datos bilingüe onomasiológica que permita
ver la variación que existe en las UFs.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
196
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
197
6. ARQUITECTURA
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
198
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
199
Un programa informático dista bastante de ser
un software. Un software se desarrolla, no se
fabrica en el sentido clásico. De hecho, un
software es la combinación del programa
ejecutable para una plataforma específica, el
código ejecutable, su configuración, la
descripción de la arquitectura y la documen-
tación.
La construcción de un software requiere
mantenibilidad, es decir, la capacidad del
software para ser cambiado, para poder cumplir
con las necesidades de cambios, de ser seguro e
integro para no dañar la información, causando
pérdidas económicas. También necesita eficien-
cia para utilizar los recursos de una manera
óptima, así como usabilidad, es decir, pro-
porcionar una interfaz de usuario amigable con
una documentación fácil de entender.
Desde la perspectiva del producto, el proceso
tecnológico empieza con la identificación de
una necesidad o el planteamiento de un
problema. En general, se parte de los recursos
disponibles en el entorno junto con los
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
200
conocimientos y, mediante el seguimiento de un
método, se intenta desarrollar un conjunto de
procesos para obtener un producto tecnológico
que satisfaga la demanda.
A continuación vamos a detallar las distintas
fases que hemos seguido en la elaboración del
sistema informático que presentamos en esta
tesis doctoral.
Primer paso: La identificación del problema.
Entre las unidades lingüísticas, las unidades
fraseológicas están caracterizadas por ser las
unidades de significado que ofrecen una difi-
cultad mayor a la hora de encontrar una unidad
equivalente en el texto meta. Los traductores
automáticos se enfrentan a muchas dificultades
al traducir los fenómenos lingüísticos y
especialmente, los lexemas complejos, la
ambigüedad semántica y estructural y los signos
lingüísticos como la polisemia y la homonimia.
Los resultados de la traducción automática de
las unidades fraseológicas (dichos, refranes,
frases proverbiales, etc.), no han sido muy
satisfactorios hasta el momento. Las UFs tienen
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
201
peculiaridades que se muestran, a veces,
extremamente difíciles en la traducción automá-
tica.
Para el desarrollo de esta hemos tenido en
cuenta que, además de incluir las unidades
fraseológicas en un diccionario electrónico
(junto con su explicación y/o su equivalencia),
es preciso que el sistema sepa cómo
reconocerlas como tales en el corpus. A este
hecho hemos de añadir la necesidad de que esté
etiquetado o lematizado, orientado hacia
usuarios de una lengua concreta, pero fácil-
mente reconvertible a otras lenguas.
En esta fase se recogió toda la información
disponible para el análisis del problema. Se
utilizó la investigación documental en varias
fuentes bibliográficas especializadas en
fraseología, Extracción de la Información y
Procesamiento del Lenguaje Natural, además se
buscó información proveniente de proyectos
enfocados en la extracción de terminología,
colocaciones y sentencias. Utilizamos también
Internet, visitando varios sitios web a través
de buscadores como Google e Yahoo, localizando
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
202
información relacionada con el tema de la
investigación. Se pudo determinar la necesidad
de contar con una herramienta distinta a las
tradicionales para la extracción de unidades
fraseológicas, ya que las existentes no
atendían nuestras necesidades.
Aunque muchas clasificaciones de las unidades
fraseológicas pensadas por diferentes autores
incluyen las colocaciones como integrantes del
sistema de unidades fraseológicas, decidimos
que nuestro sistema de extracción de UFs
detectaría y extraería solamente las locuciones
y los enunciados fraseológicos. En la tabla 20
se pueden apreciar las características más
importantes de las diferentes herramientas que
hemos detallado en el capítulo 4 de esta tesis
doctoral. Esta comparación nos aportó una
visión general de las herramientas más
comunmente utilizadas en el campo de la
extracción de la fraseología y lo comparamos
con las expectativas de la herramienta
informática que deseábamos desarrollar,
PhraseNET.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
203
Tabla 20. Sistemas de extracción.
Características
PhraseNET
ConcGrams Colex ElexBI Termight LExTER
Año 2009 2009 2000 2009 1994 1992 Lengua- jes
Bilin- güe
Monolin- güe
monolingüe Bilingüe Bilingüe Monolin- güe
base estadís- tica
Análi- sis Vecto- rial
- filtros estadísti-cos
Frecuencia y mutual informa- tion
Frequency Frecuen- cia
tipo de corpus
Cual- quier uno
Cualquier uno
Especiali-zado
Especiali-zado
Especializado
Especializado
type of Extraction
Locu cio nes y pare- mias
Coloca- ciones
Colocacio-nes
términos Términos Términos
Méto- dos
no alinea- miento
no alinea- miento
no alinea-miento
alineamiento
Alineamien- to
Alineamiento
corpus etique- tado
No no ? sí Sí Sí
área de aplica- ción
Unida- des fraseo- lógicas
Coloca- ciones
Colocacio-nes
Terminología
Terminolo- gía
Termi- nolo- gía
Valida- ción
Automá- tica
? Semiautom. semiautom. Semiautom. Semiautomático
Preci- sión
99% ? 71% 100% ? ?
Si observamos la tabla, cuatro de los sistemas
se basan en un corpus especializado, es decir
Colex, ElexBI, LExTER y Termight, aunque los
tres últimos extraen terminología propiamente
dicho, quedándose Termight como único entre los
cuatro que extrae terminología monolingüe.
PhraseNET, por su parte es el único que extrae
locuciones y paremias, es decir, unidades
fraseológicas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
204
Colex y ConcGram extraen colocaciones y se
distinguen del resto por basarse en el método
vectorial de análisis de similitud entre
unidades fraseológicas canónicas y candidatas.
Los demás se basan en algún método estadístico.
Si compararmos PhraseNET y ConcGram, observamos
que PhraseNET es un sistema de extracción de
locuciones y paremias grosso modo, aunque
ConcGram es un sistema de recuperación de
colocaciones. Es decir, en ambos, el usuario
importa algún archivo para ser procesado por el
sistema. Las diferencias empiezan en este
punto.
PhraseNET posee un rango de conexiones externas
mucho más amplia que ConcGram. Como ejemplo,
podemos citar el caso de MSWORD©. En ConcGram
el usuario necesita salvar el archivo hecho en
MSWORD en formato .txt, y solamente después
importar al ConcGram, manualmente. En PhraseNET
el propio sistema importa, directamente de
MSWORD, convertiéndolo en base de datos, sin
que el usuario tenga que hacerlo manualmente.
El sistema ConcGram permite al usuario
introducir una o más palabras para que éste
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
205
haga la búsqueda en el corpus, presentando las
asociaciones de palabras que existan entorno de
la palabra buscada. Sino hay asociaciones, él
la(s) presenta tal y cual parecen en el texto.
PhraseNET extrae automáticamente todas las UFs
que puedan existir en el corpus, desde que
suelen ser reconocidas por su base de datos
interna. En verdad ConcGram se asemeja más al
aplicativo WordSmith Tools, cuyos rasgos
principales se puede ver en De Lucca y Nunes
(2002).
Segundo paso: El lenguaje de programación.
Desde hace años se está trabajando con la
programación orientada a objetos y con sistemas
de gestión de bases de datos (DbaseIII,
Clipper, FoxPro). La programación orientada a
objetos es un paradigma de programación que usa
objetos y sus interacciones para diseñar
aplicaciones y programas de computadora.
En relación a los sistemas de gestión de base
de datos, dBASE fue el primer sistema de
gestión de base de datos usado durante mucho
tiempo para microcomputadoras, publicado por
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
206
Ashton-Tate. Clipper es un lenguaje de
programación procedural e imperativo creado en
1985 por Nantucket Corporation. Clipper fue
creado como un compilador para el sistema
gestor intérprete de bases de datos dBase III.
FoxPro es un lenguaje de programación orientado
a objetos, y también un Sistema Gestor de Bases
de Datos o Database Management System (DBMS),
publicado originalmente por Fox Software y
posteriormente por Microsoft.
De este modo, decidimos trabajar con el
lenguaje Visual Fox Pro 9.0. Es un lenguaje de
programación orientado a objetos y procedural,
un Sistema Gestor de Bases de y desde la
versión 7.0, un Sistema administrador de bases
de datos relacionales. Una de las ventajas del
Visual Fox Pro es que comparte la base
sintáctica y la gestión del formato DBF de
fichero de base de datos, aunque difiere en la
gestión de los campos MEMO y los archivos de
índices.
Se configuró el software para trabajar a través
de una plataforma de 32 bits en el sistema
operativo Windows 98/Me/2000/XP. Aparte, nos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
207
decidimos por la versión Windows XP
Professional, que proporciona una interfaz
sencilla para el usuario y facilita su uso. La
versión XP Pro es más avanzada en lo referente
a las conexiones de red, está hecha también
para servir como servidor de otros ordenadores.
Hemos de resaltar que el proceso de extracción
de unidades fraseológicas realizado por el
sistema es totalmente transparente para el
usuario por lo que no se necesitan conocer los
detalles para poder operar el sistema, se puede
utilizar de forma intuitiva. Hemos diseñado que
el sistema ha de tener una estructura que
empiece por el usuario y acabe con la creación
de una base de datos que extraiga las unidades
fraseológicas correctamente.
La arquitectura del sistema se dividió en
varios módulos o subsistemas, cada uno de los
cuales tenía una funcionalidad específica y
también cada uno tenía una interfaz que
proporcionaba la funcionalidad propia de dicho
módulo. Además, estos módulos proporcionaban
otras interfaces para ofrecer funcionalidades
más genéricas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
208
A continuación, vamos a describir brevemente el
diseño de los módulos que forman el sistema
para explicar todo el proceso de formación del
programa informático que presentamos en esta
tesis doctoral.
6.1. Módulo de Acceso
Posee referencias a todos los módulos, ya que
es la fachada de cara a los recursos que
existen en el sistema. Todas las ventanas
acceden a las funcionalidades del resto de los
módulos a través de éste.
La secuencia de este módulo guía al usuario con
el fin de que abra la aplicación para el
procesamiento de textos. Bajo el menú FILE, en
la opción OPEN, se abre un archivo que contiene
las UFs extraídas. En CREATE y ADD el usuario
es direccionado a otra pantalla en la que
importar los ficheros de corpus para un
posterior procesamiento. En CREATE se crea una
base de datos nueva con el corpus que va a
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
209
introducir, en ADD añade un nuevo corpus a la
base de datos.
En FILE REPORT y PRINT REPORT se puede grabar
en un fichero o imprimir los resultados de la
extracción de las UFs. En SAVE y EXIT, se
graban los cambios hechos en la base de datos y
se sale del sistema. En el segundo menú
UTILITIES, en la opción VIEW el usuario puede
ver los resultados de la extracción de las UFs.
En SEARCH FOR AND HIGHLIGHT se pueden ver todos
los casos en el corpus de una misma UF, a la
ver que se pueden contrastar. En HIGHLIGHT UFs
se pueden ver todas las UFs en negrita en la
oración donde aparecen. En SEARCH ENGINE se
pueden buscar las UFs, insertando una o más
palabras al mismo tiempo. En COLLOCATIONS
también se puede insertar, una palabra o más y
ver el resultado en forma de Keyword in context
(KWIC).
Las últimas tres opciones son informes sobre la
frecuencia. En FREQUENCY FILES, la frecuencia
de los archivos en la base de datos; en
FREQUENCY, la frecuencia acumulada de las
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
210
unidades fraseológicas y en SORT podrá ver la
base de datos indexada por cualquier columna.
Por último, hemos creado un tercero menú,
justamente para el auxilio al usuario. El
módulo de ayuda al usuario ofrece información
sobre los módulos y los comandos del sistema.
El diagrama de actividades del módulo de acceso
se queda representado en la figura 14.
Figura 14. Diagrama del módulo de acceso.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
211
6.2. Módulo de Extracción de la
Información
Este módulo ofrece la posibilidad de enriquecer
de manera automática la base de datos
fraseológica del sistema. Abarca las tareas de
extracción de UFs procedentes del texto
insertadas en el sistema por el usuario
mediante un modelo algebraico, y nos aporta el
cálculo de las similitudes entre unidades
fraseológicas canónicas y las candidatas, a
partir de la base de datos.
El proceso de Extracción de la Información
consta de dos etapas principales. En la primera
etapa, el sistema extrae los datos del texto de
un documento por medio del análisis local del
texto. En la segunda etapa, el sistema integra
y combina esos datos produciendo datos mayores
o nuevos datos. Finalmente, los hechos
considerados relevantes al dominio se estruc-
turan para dar paso al patrón de salida.
Para estructurar la información en el patrón de
salida creamos una plantilla estructurada por
campos que se complementan con los datos
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
212
extraídos del corpus. La arquitectura de
nuestro sistema de Extracción de la Información
posee siete módulos principales:
1. Filtrado: Nivel del texto. Consiste en seg-
mentar un texto en zonas basándose en deter-
minados patrones. Estas zonas suelen estar
delimitadas por marcas de puntuación en oración
y párrafos. De este modo, el corpus que se
encuentra en el lenguaje natural se divide
automáticamente en frases. Entendemos por texto
segmentado en oraciones aquellos segmentos del
texto separados por punto final o signo de
interrogación. En la secuencia, es sometido a
un procesamiento de más de siete etapas que
minimizan el tiempo de detección y extracción
de UFs.
2. Etiquetado léxico: Nivel de la palabra
(proce-sador léxico-morfológico). Hemos dividi-
do esta parte en tres segmentos:
2.1. Tokenización, consiste en el análisis
léxico-morfológico de los tokens para
determinar su clase morfosintáctica (artículo,
sustantivo, verbo, etc.) y sus características
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
213
de flexión (género y número). Este segmento
identifica y separa cadenas de unidades mínimas
de información o unidades léxicas y cada grupo
de caracteres obtenido se llama token.
2.2. Lematización, realiza una extracción
automática de los términos a partir de las
formas flexionadas o derivadas del verbo, así
como del número de los adjetivos y sustantivos
reduciéndolos a su forma canónica o lema.
2.3. Se eliminan las stop words (palabras
funcionales) tales como pronombres, numerales y
artículos. Este proceso empieza por un listado
predefinido de palabras candidatas a ser
eliminadas. Las stop words son palabras no
representativas del texto.
3. Análisis sintáctico y morfológico: Nivel de
la oración. El análisis sintáctico toma como
entrada una oración y trata de descubrir la
estructura sintáctica que explica las rela-
ciones entre las palabras de esa oración. El
análisis es definido por una gramática, a
partir de la cual, un conjunto de algoritmos de
aprendizaje automático determina cuál es el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
214
árbol sintáctico de la oración mediante una
estrategia de búsqueda mostrando las relaciones
entre dichos sintagmas.
El análisis morfológico debe identificar los
lexemas y morfemas presentes en los tokens.
Cada palabra debe ser analizada para
identificar las palabras derivativas por número
o desinencia verbal.
4. Análisis del discurso: Nivel de la inter-
oración. Superpone y mezcla las estructuras
producidas por el analizador reconociendo y
unificando las expresiones de referencia.
Consiste en resolver aspectos semánticos de la
información extraída en los pasos anteriores.
5. La indexación es el proceso mediante el
cual, el algoritmo de la Extracción de la
Información va rastreando el corpus. Tiene como
propósito la elaboración de un índice que
contiene de forma ordenada los constituyentes
de las unidades fraseológicas. La indexación
puede realizarse desde el enfoque estadístico o
lingüístico. En el primer caso, se utilizan
técnicas estadísticas como análisis de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
215
frecuencias, probabilidades, agrupamiento
(clustering) y ponderación de los términos. En
el segundo, se utilizan técnicas del
Procesamiento del Lenguaje Natural (PLN).
6. El siguiente paso es la creación de la
matriz de vectores de frases, constituida por
oraciones y unidades fraseológicas canónicas.
Las filas de la matriz, es decir, los vectores
en términos algebraicos, son representadas por
los términos de las frases, las columnas, son
representadas por los términos de la base de
datos, que se expresa en función de las
apariciones de cada término. En esta etapa, el
modelo toma en consideración las oraciones que
contienen las unidades fraseológicas, asignando
pesos5 a los términos índice de las frases y de
las UFs almacenadas en la base de datos. De ese
modo el emparejamiento resulta más preciso,
como se aprecia en la figura 15.
5 Aplicar un peso (valor) a cada un de los términos índice de los documentos.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
216
Figura 15. Matrix de vectores de documentos.
7. Generación de la plantilla de salida. Nivel
plantilla. El proceso finaliza con la
generación de plantillas, como se puede
apreciar en la tabla 21, que contiene la
información relevante, extraída de manera
estructurada en una forma predefinida. El
módulo de extracción del sistema se refleja en
la figura 16, más delante.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
217
Tabla 21. Generación de la plantilla.
Información UFs Contexto Información relevante
a buen paso En el balcón no quedaba nadie; don Fermín salió del portal, arrimado a la pared, y se alejó a buen paso.
a cada rato El niño Humberto era malo y pegaba pronto, a cada rato. En la calle. En el corredor también. Y en la escalera. Y también en la cocina, delante su mamá y delante la patrona.
a causa de En un principio, quizás a causa de dolores de parto, el capitalismo fue humanizado por la democracia promulgando normas para hacerlo más tolerable y evitar el renacer de la esclavitud.
a causa de "La lesión quedó atrás y la única preocupación es su brazo, a causa de la inactividad", dijo el piloto de los Orioles, Mike Hargrove... Hay 11 nipones en el spring training
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
218
Figura 16. Diagrama de flujo de la extracción de UFs.
Así mismo, en la figura 17 se puede apreciar el
diagrama de flujo desde el usuario hasta la
extracción.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
219
Figura 17. Diagrama de flujo abreviado de PhraseNET.
En esta figura se pueden apreciar las cinco
etapas del proceso de extracción de las UFs. El
proceso empieza por el usuario que introduce un
corpus en el sistema por medio de la interfaz.
El sistema entonces se encarga de procesar la
información, como hemos visto antes en la
figura 16. Finalmente, el sistema presenta las
unidades fraseológicas en una plantilla.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
220
6.3 Módulo Base de Datos
Este módulo incorpora la base de datos bilingüe
de unidades fraseológicas del sistema, que se
genera a partir de las extracciones de las UFs
del corpus introducido en el sistema por el
usuario y la base de datos que denominamos
diccionario de patrones. Esta base de datos es
un conjunto de información estructurada y
almacenada en discos que permite el acceso
directo y un conjunto de programas que
manipulan ese conjunto de datos en tiempo real.
La información almacenada puede ser organizada
y visualizada de distintas formas. Las bases de
datos relacionales con las cuales trabajamos
son las más difundidas.
Los elementos de una base de datos de una clase
se organizan en una tabla de dos dimensiones
que consiste en filas y columnas. Cada fila es
un registro de datos y cada columna es un campo
de datos. A cada campo se le asigna un nombre y
se le adjudica un número a cada registro que se
introduce en la base de datos. Como resultado,
cualquier dato en una base de datos se puede
identificar por su número de registro y por el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
221
nombre del campo. La estructura de una base de
datos está constituida por las descripciones
detalladas de cada campo de datos de los
registros. Nombre del campo es un nombre
descriptivo para la identificación del campo de
datos que el usuario asigna a ese campo. El
nombre del campo puede variar también
dependiendo de la base de datos.
La denominación tipo del campo es un código de
un carácter que indica la clase del campo de
datos. Existen varios tipos de campos de datos,
dependiendo del gestor de la base de datos, que
almacenan diferentes datos de información. Los
cinco tipos de campos comunes a todos ellos
son:
C Campo de carácter/texto N Campo numérico D Campo de fecha L Campo lógico M Campo de datos memo
La longitud del campo carácter/texto es un
número siendo la cantidad máxima de un campo de
254 caracteres), que indica el tamaño del campo
de datos según el número de caracteres. La
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
222
longitud de un campo numérico es el número de
bytes utilizados para su almacenamiento y se
define de dos maneras. Primero, se definen los
números máximos de dígitos permitidos por el
valor, incluyendo el signo y el punto decimal.
Después, se determina el número de dígitos tras
el punto de decimal. Un entero no requiere de
lugares decimales definidos en la longitud de
campo. Un campo de fecha es siempre de ocho
caracteres y almacena los códigos numéricos del
día, mes y año y las barras que separan los
códigos. El formato de datos normalizado en
España es de dd/mm/aa.
Como un campo lógico acepta un carácter que
indica el valor verdad o falsedad, la longitud
de un campo lógico es siempre de un carácter.
El campo de tipo Memo se utiliza para almacenar
bloques de datos. El contenido de un campo memo
se guarda en un fichero externo al disco. Los
datos de campo Memo de una tabla se almacenan
en un archivo distinto con el mismo nombre que
la tabla y una extensión que varia de acuerdo
con la base de datos. En Visual Fox Pro, los
archivos suelen tener una extensión FPT. El
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
223
límite para el tamaño de los campos Memo es el
espacio en disco.
6.3.1. La base de datos del sistema
Nuestros criterios para la selección de las
unidades fraseológicas se han basado en los
criterios establecidos por diversos autores,
entre ellos Haensch (1982), que establece que
los materiales que un lexicógrafo dispone para
recoger datos pueden ser procedentes de fuentes
escritas u orales, primarias o secundarias.
Para este autor, las fuentes primarias, serían
los textos y las fuentes secundarias, los
diccionarios que contienen descripciones meta-
lingüísticas.
En este estudio nos vamos a centrar en los
textos escritos, puesto que el proyecto que
presentamos se basa en la detección de unidades
fraseológicas en textos escritos. A conti-
nuación vamos a describir las etapas realizadas
en la elaboración de una base de datos bilingüe
de las unidades fraseológicas. Lo más usual es
hacer un vaciado de una serie de diccionarios,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
224
como lo hizo Penadés Martínez (2005) y Carvalho
Rios y Xatara (2005).
La selección de las UFs incluidas en nuestra
base de datos se ha llevado a cabo de tres
modos: mediante el vaciado de una serie de
diccionarios, de tesis y también de algunas
fuentes primarias (nativos de Brasil y de
España).
El objeto de este corpus es suminis-trar las
unidades fraseológicas que van a ser insertadas
en nuestra base de datos. Ésta tiene una
macroestructura semasiológica6 bilingüe, que
aunque esté ordenada alfabéticamente, no es un
diccionario, sino una base de datos de lexemas
complejos, sin marcas que indican
características lingüísticas como familiar,
vulgar, jergalismo, o marcas que indiquen
connotaciones como peyorativo, coloquial,
eufemístico, etc.
Nuestro sistema de extracción de unidades
fraseológicas se centra en detectar y extraer
6 Semasiología es el estudio que parte del signo en busca de la determinación del concepto.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
225
solamente las locuciones y los enunciados
fraseológicos, siguiendo la clasificación de
unidades fraseológicas presentado por Corpas
Pastor (1997: 52). Para cada UF inventariada en
ambas lenguas, buscamos una segunda fuente para
comprobar la equivalencia de cada UF antes de
catalogarla. Si la primera fuente era un
diccionario monolíngüe, buscamos una segunda
fuente en un diccionario bilingüe y viceversa.
Las fuentes lexicográficas monolingües en
español fueron las siguientes: Moliner (1996),
DRAE (1995), Seco et al. (1999); en portugués
fueron Ferreira (1999) y Houaiss (2001), los
bilingües fueron Ortega y Cavero (1975),
Flavian et al. (1994) y Alcalá de Henares
(2001), de unidades fraseológicas Nunes y Nunes
(1982), Seco et al. (2005) y las tesis
doctorales fueron Mouzinho Ferraro (2000),
Serey Leiva (2000) y Ortíz Alvarez (2000). La
consulta en diccionarios monolingües no
especializados fue bastante importante para
establecer los términos equivalentes de las UFs
en español. Las definiciones encontradas en
estos diccionarios han permitido confirmar si
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
226
una UF era de hecho un equivalente inter-
lingüístico.
Decidimos incluir las unidades fraseológicas
del español junto con su explicación o equiva-
lencia con el portugués en una base de datos.
La próxima etapa fue la construcción de un
diccionario de patrones, un componente esencial
de un sistema de Extracción de la Información
para identificar la información relevante de un
documento. En la última etapa se realizó un
algoritmo para analizar la similitud entre las
unidades fraseológicas canónicas y las unidades
fraseológicas candidatas, que culminó con el
reconocimiento automático de las unidades
fraseológicas en un corpus textual digital.
Para facilitar el proceso, elaboramos unas
fichas en la que se incluyen las unidades
fraseológicas, las definiciones en español y en
portugués, y las fuentes en otras lenguas, de
fácil implementación en cualquier sistema de
almacenamiento electrónico compatible con
MSAccess, MSSQL y Visual FoxPro, como se puede
apreciar en la figura 18.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
227
Figura 18. Ficha de entrada de unidades fraselógicas.
A continuación, vamos a describir los campos
que componen la ficha de entrada de las unida-
des fraseológicas.
FILEID es el número de registro de cada unidad fraseológica.
SPANISH es el campo donde se rellena la UF de la lengua de partida.
PORTUGUESE es el campo donde se rellena con la UF de la lengua de llegada.
SOURCESPA en este campo se introduce la fuente bibliográfica de la lengua de partida. Las siglas que vemos en este campo se refieren a las siguientes obras: DRAE=REAL ACADEMIA ESPAÑOLA (1995); TEIPDC=Tesis: Expresiones idiomáticas del portugués de Brasil y del español de Cuba; TACEPUF=Tesis: Análisis Contras-tivo Español/Portugués de Unidades Fraseo-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
228
lógicas; DFDEA=Diccionario Fraseológico Documentado del Español Actual.
SOURCEPTG. Este campo se introduce la fuente bibliográfica de la lengua de llegada.
Las siglas que vemos en este campo se refieren
a las siguientes obras:
DHLP=Houaiss (2001); DALP=Ferreira (1999); MDLP=Flavian, E. y Fernández, G. E. (1994); TEIPDC=Tesis: Expressões idiomá-ticas do portugués do Brasil e do español de Cuba; TACEPUF=Tesis: Análisis Contras-tivo Español/Portugués de Unidades Fraseo-lógicas.
DEFINITION en este campo se rellena, eventualmente, con la definición de la UF en la lengua de llegada.
Ahora vamos a tratar de la ficha de salida de
los datos, después de haber extraído las
unidades fraseológicas. La ficha de salida es
rellenada automáticamente por el sistema. Nos
permite ver las unidades fraseológicas
extraídas y, también, las relaciones que hay
entre los campos de la tabla.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
229
Los registros de una base de datos se ordenan
de acuerdo con la indicación hecha por el
administrador del sistema a la hora de crearla.
A cada registro de datos el sistema se le
asigna un número cuando se añade a la base de
datos. Los usuarios pueden de esta forma
identificar estos registros de datos por sus
números de registro, como se puede apreciar en
la figura 19.
Figura 19. Ficha de salida de unidades fraseológicas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
230
Describimos a continuación los campos que
componen la ficha de salida de las unidades
fraseológicas:
FILEID. Es un campo de tipo entero autoincrementable, es decir, es un número generado por el sistema internamente, se inician en 1 y se incrementan en 1 automáticamente a cada nuevo registro de datos.
PORTUGUESE. Es un campo de tipo carácter reservado para el registro de las unidades fraseológicas en portugués.
ESPANOL. Es un campo de tipo carácter reservado para el registro de las unidades fraseológicas en español.
DEFINITION. Es también un campo de tipo carácter en el cual se registra la definición.
SENTENCE. Campo de tipo memo usado para almacenar gran cantidad de texto en una base de datos, en este caso cada oración en que fue dividido el corpus. Los campos Memo de PhraseNET pueden almacenar hasta 1 gigabyte de caracteres, o 2 gigabytes de almacenamiento (2 bytes por carácter), de los cuales se pueden mostrar 65.535 caracteres en un control de un formulario o informe.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
231
SOURCE Es un campo de tipo carácter reservado al almacenamiento del archivo (oración por oración) que originó el corpus.
UFs es un campo de tipo carácter que contiene la UF tal y como se encuentra en el corpus (flexión, número y género).
6.3.2. El diccionario de patrones
El diccionario de extracción de patrones suele
ser una de las tareas más difíciles que se
lleva a cabo en un sistema de Extracción de la
Información. Para resolver esta tarea varios
sistemas se han desarrollado buscando la
generación automática de diccionarios de
patrones, como CRYSTAL (Soderland et al.,
1995), AutoSlog (Riloff, 1996) y RAPHER (Califf
& Money, 2003).
El sistema AutoSlog no necesita un corpus de
entrenamiento anotado, pero sí informaciones
preclasificadas como relevantes o irrelevantes
en función del dominio de la extracción. El
sistema CRYSTAL utiliza técnicas de formación
de conceptos (Concept Induction Learning
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
232
Michalski) y un corpus anotado para el
aprendizaje, analizado sintácticamente. El sis-
tema RAPHER, a diferencia de los citados con
anterioridad, aprende reglas para hacer la
tarea completa de Extracción de la Información.
Estas reglas extraen automáticamente la
información relevante de los documentos sin un
análisis sintáctico previo de las oraciones y
un post-procesamiento.
A partir del SGML (Standar Generalize Mark-up
Language) es posible empadronar la información
del corpus en una base de datos lo que permite
clasificarla según los patrones lingüísticos
internos y particulares de cada texto en
distintos campos como, por ejemplo, autor,
título, tema, marcas diastráticas, número de
palabras, número de tokens y número de tipos.
Ello nos permite comparar distintos tipos de
córpora lingüísticos por su tamaño, origen o
tema.
Las bases de datos tienen un papel importante
en el área de text mining, information
retrieval e information extraction. En general,
las bases de datos contienen información sobre
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
233
la morfología y sintaxis de las palabras. En la
literatura del Procesamiento del Lenguaje
Natural se acostumbra denominar a estas bases
de datos diccionarios de patrones. Los
diccionarios de patrones son imprescindibles en
los ámbitos de aplicación de las tecnologías
lingüísticas. Según Briscoe (1991), los diccio-
narios de patrones tienen una estructura
similar a un diccionario que posee un voca-
bulario adecuado a una aplicación. El término
diccionario de patrones es una formalización
referente a un componente, implementado y es-
tructurado con el reto de suministrar informa-
ciones lingüísticas a un software.
En este estudio proponemos una nueva método-
logía para la construcción automática de
diccionarios de patrones a partir del cual se
hace la extracción de unidades fraseológicas de
córpora textuales sin anotación alguna. La base
fundamental de este sistema son los algoritmos
de búsqueda y los cálculos estadísticos. Aunque
existan sistemas para generar diccionarios de
patrones automáticamente, como hemos explicado
en el capítulo anterior, la estrategia pro-
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
234
puesta en nuestra investigación parte de un
corpus de entrenamiento sin etiquetado, sin los
patrones sintácticos y semánticos que suelen
ser anotados manualmente, y también de un
método estadístico; el método de truncamiento y
un conjunto de unidades fraseológicas ela-
boradas a partir de un corpus de diccionarios y
tesis. Para que estos patrones puedan extraer
correctamente el mismo rango de información,
añadimos al diccionario de patrones reglas
basadas en técnicas estadísticas.
Actualmente, en la investigación lingüística
hay diversas maneras de calcular el grado de
coherencia de las unidades fraseológicas y,
aunque la mayor parte de los estudios estén
relacionados con las colocaciones, estos
métodos suelen estar adaptados para otras
unidades fraseológicas. Los métodos están
basados en la comparación de frecuencia de
pares de palabras obtenidas desde un corpus
real de textos. Así, nuestro sistema no
detectará, ni extraerá, las colocaciones, pero
lo hará con las locuciones y los enunciados
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
235
fraseológicos alineados en contexto (KWIC), de
acuerdo con Sinclair (1991).
Así, como sucede con otros sistemas de
Extracción de la Información, éste también
tiene inconvenientes: el tiempo destinado a la
realización de las tareas manuales llevadas a
cabo por un experto, lo que significa reajustar
manualmente el conocimiento lingüístico, y la
dificultad de escalabilidad del sistema exis-
tente a nuevos dominios e idiomas, pues así,
como en las aproximaciones presentadas con
anterioridad, nuestra metodología para la
construcción de un diccionario de patrones no
necesita del trabajo de un experto humano
aunque se tenga que trabajar con miles de
unidades fraseológicas, dónde cada una tiene
una sintaxis distinta, lo que exige una regla
específica para cada una.
Por lo tanto, utilizamos el método del trunca-
miento Salton (1980), más las técnicas estadís-
ticas para determinar la distancia entre las
palabras. Conviene remarcar que partimos de un
corpus de diccionarios y tesis para elección de
las UFs. Sin embargo, utilizaremos para
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
236
validación de nuestro diccionario un corpus de
entrenamiento sin anotaciones.
Respecto a las reglas, hemos utilizado la
desviación estándar para el cálculo de la
distancia entre los constituyentes. Los
patrones son específicos para cada unidad
fraseológica, están determinados por la
colocación de los constituyentes de la UF. Las
medidas de similitud entre oraciones tienen un
papel cada vez más importante en la
investigación relacionada con el texto y usos
en áreas como la minería de texto, la
recuperación de página Web y la Extracción de
la Información.
Existen distintas medidas basadas en el cálculo
del grado de proximidad de palabras en un
texto: mutual information (MI), log-likelihood
y chi-square. La información mutua (mutual
information por su nombre en inglés) en teoría
de la probabilidad, de dos variables alea-
torias, es una cantidad que mide la dependencia
mutua de éstas. Log-likelihood es el logaritmo
de la función de verosimilitud. En la práctica,
se puede estimar la máxima verosimilitud entre
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
237
palabras de córpora distintos. Chi-square es un
test estadístico para evaluar la asociación
entre dos variables. Nosotros, sin embargo,
hemos optado por una fórmula alternativa el
cálculo de la desviación estándar entre las
palabras que constituyen las candidatas a
unidades fraseológicas. Este método tiene en
cuenta la colocación y el orden de las palabras
implícito en las oraciones. La desviación
estándar es una medida de dispersión para
variables de razón (ratio o cociente) y de
intervalo, muy usada en la estadística
descriptiva. La desviación estándar (σ) mide
cuánto se separan los datos, es decir, las
palabras en este caso.
La semejanza entre dos oraciones se calcula
usando la información de un diccionario de
patrones, cálculos estadísticos y el corpus de
entrenamiento. El empleo de un diccionario de
patrones permite a nuestro método modelar el
conocimiento de sentido común, y la incorpo-
ración de la estadística a comparar la posición
de cada palabra. La fórmula del desvío estándar
se puede apreciar en la figura 20.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
238
Figura 20. Fórmula final del desvío estándar.
A continuación, se ejemplifica como funciona el
cálculo del desvío estándar, como se puede
apreciar en la tabla 22.
Tabla 22. Aplicación del desvío estándar.
ID Forma Canónica
Contexto DP
1 Tener mala leche
Hay que tener muy mala leche.
1,527
2 Tener mala leche
La parodia debe tener un punto de mala leche
2,646
3 Tener mala leche
Hay que tener mala leche!
1
4 Tener mala leche
pero con la mala leche que tengo no tengo ganas de hacerlo
5 Tener mala leche
pero es que hay que tener mala leche)
1
6 Tener mala leche
¿Tendré mala leche de combustión rápida?
1
7 Tener mala leche
tendré leche fresca pero de mala calidad o sea que acabaré teniendo mala leche.
7,234
8 Tener mala leche
Es bajito, cabezón y tiene muy mala leche.
1,527
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
239
Las cuatro columnas de la tabla 22 están así
divididas en las siguientes partes que deta-
llamos a continuación. ID es la identificación
numérica de cada ejemplo. FORMA CANÓNICA, se
recoge aquí la forma en la que las UFs suelen
aparecer en los diccionarios. CONTEXTO, se
refiere a los ejemplos extraídos de Internet al
azar donde aparecen las unidades fraseológicas.
DP, es el desvío estándar calculado para las
palabras de cada unidad fraseológica. La
desviación estándar es una medida de
centralización o dispersión para determinar la
media de distancias que tienen los datos
respecto de su media aritmética.
En estos ejemplos vemos que las frases con ID=
1, 3, 4, 5, 6 y 8 presentan una desviación
estándar cerca de 1, por consiguiente tienen
una probabilidad mayor de similitud con la
forma canónica.
Supongamos que buscamos obtener el desvío
estándar de “Hay que tener muy mala leche. Los
términos que nos interesa son ‘tener’, ‘mala’ y
‘leche’ que a partir de ‘tener’ tienen los
siguientes valores: 1, 3, 4. De este modo
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
240
seguiríamos los siguientes pasos la averiguar
el desvío estándar:
Paso 1: Calcular la media aritmética de 1, 3,
4, cuya fórmula se puede apreciar en la figura
21:
Figura 21. Fórmula de la media aritmética.
1 + 3 + 4 = 2,67
3
Por tanto σ = 2,67 es el promedio.
Paso 2: encontrar la desviación de cada número
en relación a la media:
1 – 2,67= -1,67
3 – 2,67 = 0,33
4 – 2,67= 1,33
Paso 3: Encontrar el cuadrado de cada
desviación haciendo positivos los valores
negativos.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
241
(-1,67)2 = 2,789
(-0,33)2 = 0,109
(1,33)2 = 1,769
Paso 4: Encontrar la media de los cuadrados o
la varianza, de acuerdo con la figura 22:
Figura 22. Fórmula del cálculo de la varianza.
σ2 = 2,789 + 0,109 + 1,769 = 4,667 / 3 = 1,556 3
La varianza es igual a 1,556.
Paso 5: Encontrar la raíz no cuadrada del
cuociente o la desviación estándar, como se
puede apreciar en la figura 23:
Figura 23. Fórmula del cálculo del desvío estándar.
√1,556 = 1,247
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
242
Por lo tanto, la desviación estándar (σ) es
1,247, lo que se considera muy cerca de 1, y
por tanto, se trata de una unidad fraseológica.
El hecho de elevar cada diferencia al cuadrado
hace que todos los números sean positivos para
evitar que una diferencia negativa anule una
positiva reduciendo la varianza. Esto también
hace que las diferencias grandes destaquen, por
ejemplo, los ocho ejemplos arriba citados,
cinco están dentro de dos desviaciones
estándares de la media. Por así decirlo, hay
similitud entre las unidades fraseológicas
candidatas y las formas canónicas.
El método del truncamiento o método de
extracción de las raíces y sufijos de las
palabras es una técnica adaptada aquí para la
Extracción de la Información en sistemas que
utilizan el vocabulario natural para almacenar
información. La técnica de raíces y sufijos fue
primeramente utilizada por Salton (1980).
Para que el sistema en MSSQL pueda buscar una
familia de términos que se relacionen
morfológicamente hemos introducido operadores
de truncamiento, definiendo comodines o
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
243
wildcards y operadores MSSQL. Los primeros son
operadores que se les denota con símbolos
llamados comodines y cuya presencia puede
sustituir a un carácter o a un conjunto de
éstos, como se puede apreciar en la tabla 23.
Tabla 23. Comodines.
Wildcard (comodines)
Descripción
% Sustituido por cero o más caracteres $ Retorna verdadero si un carácter o una
substring esta contenida en otra, y falsosi no está
_ Sustituido por un carácter exactamente [charlist] Cualquier carácter simple en charlista [^charlist] or [!charlist]
Cualquier carácter simple no se encuentraen charlista
La sentencia SELECT es la encargada de la
recuperación de datos. Si, por ejemplo, tenemos
la sintaxis:
SELECT * FROM micórpora WHERE texto $ ‘est' AND
texto $ 'órbita'
Esto significa que SELECT retorna un conjunto
de resultados como los siguientes: ‘estar en
órbita’, ‘estamos en órbita’, ‘estuve en
órbita’. Tenemos así:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
244
SELECT * FROM micórpora WHERE texto $ 'llov%'
OR texto $ ‘cántaros’.
SELECT retornará los siguientes resultados:
‘llueve a cántaros’, ‘llovió a cántaros’.
Los truncamientos suelen ser por la derecha o
por la izquierda. La búsqueda de las unidades
fraseológicas, con base en los truncamientos
almacenados en el diccionario de patrones, se
hace a partir de la raíz y del sufijo del
mismo. La búsqueda distingue entre mayúsculas y
minúsculas. No es posible tener un fichero de
palabras vacías (stop words) como prepo-
siciones, artículos y pronombres. Las raíces y
sufijos se obtiene desde el diccionario de pa-
trones, que contiene dos campos específicos:
uno con raíces de palabras ordenadas alfabé-
ticamente que contiene, por ejemplo, ‘est-’, y
otro, con sufijos como ‘picota’, ‘brete’,
‘puño’, que se aplica para la descomposición de
unidades fraseológicas como ‘estar en la
picota’, ‘estar en un brete’ o ‘tener en un
puño’. Se introdujo también la posibilidad de
que fuera capaz de reconocer como equivalentes
una voz bien en singular o plural (‘firme como
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
245
una roca’ y ‘firmes como una roca’) y las
variaciones del verbo como (‘pues no se porque
yo creo que tendré una mala leche cuando vaya
de parto....’, ‘Es bajito, cabezón y tiene muy
mala leche’ y ‘La parodia debe tener un punto
de mala leche’) las cuales tendrían distintos
código de identificación.
6.4. El corpus de entrenamiento7
Gracias al avance de la tecnología y
especialmente de Internet, poseemos una
inagotable fuente de recursos lingüísticos,
accesibles en cualquier lugar. Ello ha hecho
posible la aparición de muchas herramientas
para el estudio y análisis de las lenguas. Las
informaciones de la Web proceden de publica-
ciones hechas por los medios de comunicación,
empresas e instituciones internacionales que
renuevan cada día o cada semana el contenido de
sus páginas.
7 Corpus de entrenamiento es un corpus reducido que se usa para evaluaciones.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
246
A diferencia de los recursos impresos o
digitalizados, y por tanto, estáticos, de las
obras impresas, los recursos de la Web son
dinámicos, requieren del investigador ciertas
precauciones a la hora de ficharlos. No basta
con copiar una página en el disco duro, pues
puede no existir en una búsqueda posterior. Hay
que señalar el día de acceso, además del
enlace, lo cual requiere un esfuerzo suple-
mentario para extraer la información.
A través del Procesamiento del Lenguaje Natural
es posible analizar las complejas estructuras
del lenguaje mediante el estudio de grandes
cantidades de textos en lenguaje natural,
denominados córpora. La utilización de estos
corpus requiere el uso de técnicas como la
estadística, el reconocimiento de patrones y la
Extracción de la Información. Para realizar
esta investigación de extracción automática de
unidades fraseológicas y evaluar el nivel de
precisión es imprescindible elaborar un corpus,
en este caso un córpora de entrenamiento.
La Lingüística de Corpus se basa, en gran
medida, en los recursos disponibles en línea,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
247
apoyándose en las herramientas creadas por el
Procesamiento del Lenguaje Natural (PLN), como
son la traducción automática, el desarrollo de
herramientas útiles para la lexicografía, la
terminografía y la enseñanza de segundas
lenguas, entre otras. Las técnicas de
tratamiento de córpora se usan para el
procesamiento de la información obtenida
creando múltiples herramientas: buscadores,
sistemas de indexación, extractores de
información, recuperadores de información, ge-
neradores de resúmenes, etc.
Nuestra aplicación depende del nivel de
anotación que tenga el corpus que se analiza
para que pueda identificar la variación
sociolingüística y el área a la que pertenece
una frase. En español, un corpus como el CREA o
el CORDE no proporcionan ningún tipo de
información adicional, sólo el texto plano. Por
otro lado, un corpus como el de las noticias de
la agencia española EFE de los años 1994 y
1995, contiene anotaciones sobre formato que
permiten identificar la información acerca de
la edición, los autores, las cabeceras de la
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
248
noticia y los párrafos en los que se subdivide
el corpus. Todos aportan un contenido con
ejemplos reales de uso de una lengua, ya sea
literaria, científica o periodística.
En cambio, nuestro corpus de entrenamiento
denominado CHADES (Corpus Hispanoamericano de
Español) es de uso general, como los citados
arriba. Es decir, contiene anotaciones sobre la
información que dispone: el nombre de los
autores, el título de la obra, la página, el
párrafo, el capítulo y la edición. La
elaboración de un corpus de lenguaje escrito
requere que se cumpla con los requisitos de
homogeneidad y representatividad.
La selección de un corpus representativo del
español se hace aún más difícil si tenemos en
cuenta que este corpus, desde el punto de vista
traductológico, deba ser relevante y reflejar
la realidad lingüística de una lengua bastante
heterogénea como la española. Aunque nuestro
corpus de entrenamiento tenga una diversidad de
temas, como cuentos gauchescos, literatura
histórica, publicaciones técnicas, etc., son
los textos obtenidos de los diarios
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
249
latinoamericanos y españoles los más
representativos del corpus (70%). Él permite un
contacto con la realidad lingüística asociada a
una muestra de varie-dades comunicativas
actuales y emergentes, recursos bastante
recurrentes en el corpus.
Como se puede apreciar en la página siguiente,
en la figura 24, la mayor parte del corpus se
constituye de los diarios españoles y
hispanoamericanos, 70,0%; los libros ocupan el
segundo lugar con apenas 25,6%. Las revistas
ocupan un modesto tercero lugar, quedándose
éstas con apenas 4,4%.
Figura 24. Distribución del corpus.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
250
Tiene cerca de tres millones y medio de
palabras (251.399 frases) del español de España
e Hispanoamérica, incluyendo fuentes literarias
y periodísticas. Las fuentes impresas
representan 76,90% del corpus y 23,10% las
fuentes electrónicas.
6.4.1. El muestreo aleatorio simple
Los estudios estadísticos se llevan a cabo con
el propósito de extraer conclusiones acerca de
la naturaleza de una población o de algunas de
sus características. Entiéndase aquí como
población el corpus de entrenamiento total, es
decir, las 251.399 frases.
Siendo el corpus de entrenamiento muy extenso,
las conclusiones obtenidas deben basarse en el
examen de una parte de ésta, que denominamos
muestreo. Por lo tanto, para saber con cuantas
frases deberíamos trabajar decidimos utilizar
un método estadístico para determinar cual
sería el muestreo, entre los existentes, más
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
251
apropiado para nuestra investigación, teniendo
en cuenta el número total de frases de nuestro
corpus.
Nos decantamos por el muestreo aleatorio simple
(MAS) sin reposición de los elementos (cada
elemento extraído se queda descartado para la
siguiente extracción). La ventaja del MAS es
precisamente su simplicidad. El MAS consiste en
la extracción de una muestra de una población
finita. El proceso de extracción garantiza a
cada uno de los elementos de la población la
misma probabilidad de ser incluidos en dicha
muestra. De acuerdo con Azorín Poch (1969: 49),
El muestreo aleatorio sin reemplazamiento de poblaciones finitas llamado también muestreo irrestrictamente aleatorio o, más sencillamente, muestreo aleatorio simple (cuando no existe posibilidad de confusión entre este y el muestreo con reemplaza-miento), consiste en la selección de n elementos entre los N que constituyen la población, de modo que todas las muestras posibles de tamaño n (tantas como combina-ciones de N elementos de n en n) tengan la misma probabilidad de ser obtenidas.
Para determinar el tamaño del muestreo recu-
rrimos al cálculo del intervalo de confianza y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
252
del nivel de confianza. Intervalo de confianza
(σ) o margen de error es la probabilidad de
equivocarnos. Cuanto más pequeño el margen de
error, más amplia deberá ser la muestra. El
margen de error sirve para medir la precisión
de nuestro informe estadístico de resultados.
El nivel de confianza (1- σ) es la probabilidad
de que el verdadero valor del parámetro se
encuentre en el intervalo construido. Por
ejemplo, el nivel de confianza del 95% quiere
decir que usted puede estar el 95% seguro; el
nivel de confianza del 99% quiere decir que
usted puede ser el 99% seguro. La mayor parte
de investigadores usan el nivel de confianza
del 95%. Los intervalos de confianza con (1- σ)
=95%, lo que es lo mismo que significancia un
margen de error del 5%. Para determinar los
diferentes tamaños de la muestra usamos la
siguiente fórmula, como se puede apreciar en la
figura 25.
Figura 25. Tamaño de la muestra.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
253
Donde:
N = Total de la población
Za2 = 1.962 (si la seguridad es del 95%)
p = proporción esperada (en este caso 5% =
0.05)
q = 1 – p (en este caso 1-0.05 = 0.95)
d = precisión (en este caso deseamos un (desde
1% hasta 5%).
Se puede estimar el tamaño de la muestra sin
necesidad de trabajar con el número total de
oraciones del corpus. Tan solo hay que tener en
consideración el nivel de precisión o la
cantidad de error que sea aceptable, en
relación al tamaño del muestreo.
En esta investigación nos basamos en el cálculo
del tamaño de la muestra, para poder así
responder a la pregunta: ¿Cuántas oraciones
debemos tomar como muestra para determinar el
nivel de Precision y Recall, con un error
máximo de 1% antes de avalar el nivel de
eficiencia de nuestro sistema de extracción de
unidades fraseológicas? Nuestro corpus
comprende 251.399 oraciones o frases.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
254
Por lo tanto, la población es finita, como
previamente se señaló. Para saber con cuantas
frases deberemos trabajar, tuvimos que cons-
truir una tabla con diferentes intervalos de
confianza, desde 1% hasta 5%, como se ha podido
ver en la tabla 20. Para llegar a la respuesta,
empezamos por testar el intervalo de confianza
(IC) en distintos niveles. Es decir si el IC
puede estar entre 1% y 5% (tabla 20), creemos
que con el Intervalo de Confianza de 4% y 5%
tendremos un muestreo poco representativo, 599
o 384 frases respectivamente.
Al mismo tiempo, pensamos que el IC de 2% y 3%
está muy por debajo de lo que se espera de una
investigación a nivel de doctorado. Así que
hemos optado por el Intervalo de Confianza (IC)
de 1% (el máximo) que representa cerca de 2%
del corpus y 4% de todas las UFs detectadas en
el corpus (población), como se ha podido
apreciar en la tabla 24. Con un nivel de
confianza del 95% y un intervalo de confianza
del 2%, para una población de 251.399
oraciones, necesitamos de un muestreo de 2.378
oraciones.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
255
Finalmente, con un margen de error de solo 1%
nos dará un muestreo en el orden de 1% del
total de las oraciones o 9.250 UFs, teniendo
así el máximo muestro posible con 95% de
seguridad, como se observa en la tabla 24. En
todo el corpus PhraseNET ha detectado 18.059
UFs.
Tabla 24. Margen de error.
Nivel de confianza
Margen de error (%)
Población Número deFrases obtenidas Con PhraseNET
Muestra calculada
- - 251.399 18.059 - 95% 1 251.399 710 9.250 95% 2 251.399 184 2.378 95% 3 251.399 95 1.063 95% 4 251.399 48 599 95% 5 251.399 27 384
Finalmente nos decidimos por una muestra de
9.250 frases con un intervalo de seguridad de
95% y un error muestral del orden del 25%. Lo
que representa cerca de 35 mil palabras o 1%
del total de 3,5 millones de palabras.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
256
6.4.2. Procesamiento del corpus
El corpus de entrenamiento está basado en
textos electrónicos y digitalizados. Por digi-
talizados se entiende aquellos escaneados y por
textos electrónicos se entiende aquellos obte-
nidos a partir de Internet.
Los textos del corpus fueron divididos en
oraciones con un máximo de 254 caracteres, pues
254 caracteres es el límite del campo de
caracteres en cualquier base de datos rela-
cional. No usamos el campo memo, que tiene una
capacidad de almacenamiento mucho más grande,
pero ocupa mucho espacio en el disco y
ralentiza el sistema. Usamos dos formas de
separarlas, interrogación y punto final. Las
oraciones con más de 254 caracteres fueron
automáticamente divididas por un algoritmo, en
dos o más partes, cada una en un registro
distinto. Las que tenían menos de 254
caracteres fueron agrupadas en un solo
registro.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
257
La ficha terminológica o de registro se realizó
en una base de datos que se ejecuta en MSDOS y
tiene el formato que se indica en la figura 26.
Figura 26. Ficha terminológica.
RECORD No. Representa el número del registro
del corpus. Es una información que proporciona
la base de datos automáticamente. El campo
EX_USO1 se refiere a la oración extraída del
corpus. El campo FECHA se destina a registrar
la fecha de acceso y se refiere sólo a aquellas
oraciones extraídas de los textos que se han
extraído de Internet. HTML contiene la URL
completa de la fuente (cuando la fuente es un
texto con origen en Internet).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
258
La FUENTE es la referencia bibliográfica en
código que se encuentra decodificado en otra
base de datos. Respecto a las citaciones o
frases, en el campo FUENTE, se ha utilizado el
siguiente código para ser identificadas: [Sigla
del Autor, Número de la Obra, País / Ciudad,
Página / Capítulo/ Cuaderno/ Párrafo, Sección
/Asunto, Año].
Las siglas de un autor están compuestas por las
iniciales de su nombre y apellidos. Por
ejemplo: José Vicente Rodríguez Cuenca = JVRC.
Si tiene i nombre y 1 apellido se añade la
última o las últimas letras del apellido. Así
el autor Pablo Neruda aparece como ‘Pnda’ y
Miguel Cervantes de Saavedra, aparece como
‘MCSa’.
Si hay más de un autor, aparece el nombre
abreviado de los autores. Después de la sigla
del autor viene la abreviatura del país, como
se puede apreciar en la figura 15. En el caso
de publicaciones periódicas, informamos la
abreviatura de la ciudad, no del país. El
número antes del último corchete se refiere al
número de la obra, es decir, identifica en el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
259
índice bibliográfico a que obra se refiere tal
cita. En las obras impresas, en general,
también se informa el número de la página y el
capítulo. En caso de no saberse el número de la
página y solo del capítulo, se inserta el
número de éste capítulo en guarismos romanos.
Para los casos de publicaciones electrónicas,
cuando se trata de documento PDF se coloca el
número de la página, mientras que se trate de
documento .html se coloca el número del
párrafo. Cuando nos referimos a un diario
impreso, se coloca el número del cuaderno.
En general, cada oración lleva el número de la
página donde aparece. Sin embargo, como el
corpus está basado en oraciones terminadas por
punto o interrogación, a veces no es posible
saber exactamente el contenido de cada página.
En nuestra metodología, consideramos el número
de la página a partir del inicio de la oración.
La SECCION es la parte del texto de donde fue
extraída la oración. En los periódicos,
colocamos el nombre de la sección, pero en el
resto de literatura el asunto.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
260
El DOMINIO hace referencia al tipo de
producción: Libro, revista o diario. El AÑO nos
indica el año en que fue publicado por vez
primera. El MEDIO puede ser online o impreso.
El AUTOR se refiere al autor de una obra o a la
publicación periodística. En relación al autor
no se ha incluido autores que no sean españoles
o castellanos aunque tengan conocimientos de la
lengua española. Todos los textos deben tener
el nombre y apellido del autor, país y ciudad o
el sitio de publicación de la obra. Se ha
incluido la siguiente información:
Nombre del autor.
Indicación de nacionalidad, residencia,
domicilio o trabajo en la fuente investi-
gada. Serán aceptados los autores hispano-
hablantes. Los autores de países de lengua
española, con apellidos en otra lengua, no
podrán ser incluidos, pues pueden no ser
españoles aunque viven en un país de habla
española. Si el nombre o apellido es
reconocido como de ascendencia castellana
podrá ser incluido.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
261
La fecha de publicación es esencial, ya
que sino el trabajo no puede incluirse en
el corpus.
Los TITULARES: Cuando se trate de un texto
periodístico y contenga titulares. La
PART_OF_PH. Muchas oraciones se recortaron
por tener más de 254 caracteres y se
refiere a la parte de la oración que se
queda en el registro.
Las notas de pie de página, así como las
notas finales y la bibliografía no se
incluyen en el corpus.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
262
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
263
7. EL MODELO DEL ESPACIO VECTORIAL
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
264
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
265
7.1. El Sistema SMART
El sistema SMART fue diseñado en 1964 por
Salton e inicialmente concebido como una
herramienta experimental para la evaluación de
la efectividad de tipos de análisis y
procedimientos de búsqueda. Se distingue de los
demás SRI convencionales por cuatro aspectos
fundamentales, según Martínez Méndez y
Rodríguez Muñoz (2004: 157):
(1) usa métodos de indización automática; (2) agrupa documentos relacionados dentro de clases comunes de materias; (3) identifica los documentos a recuperar por similitud con la pregunta realizada por el usuario y (4) incluye procedimientos automáticos para generar mejores ecuaciones de búsqueda.
SMART utiliza el modelo de espacio vectorial
para la clasificación temática de los
documentos así como la técnica de feedback de
relevancia para perfeccionar el proceso de
Recuperación de la Información. Este es el
modelo teórico más difundido en Recuperación de
la Información, el llamado modelo vectorial,
(Salton, 1983) formado por una matriz
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
266
término/documento que representa la base de
datos donde cada documento es representado por
un vector de n elementos, donde n es el número
de términos indexados en toda la colección de
documentos susceptibles de continuar en
cualquier elemento de la colección. A cada
elemento del vector es asignado un valor
numérico que corresponde a importancia del
término en el documento, desde 0 hasta 1 sí en
dicho documento no recoge el dicho término o sí
el valor del peso asignado al término no
existe. Actualmente muchos siguen utilizando
las técnicas de SMART para la gestión de
recuperación de documentos en las bases de
datos.
7.2 Medidas de similitud
Aunque nuestro sistema sea de la Extracción de
la Información, parte de la metodología se basa
en modelos de Recuperación de la Información.
En la Recuperación de la Información, cada
documento es representado a través de un vector
de n dimensiones. Los componentes de este
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
267
vector son representados por los términos que
aparecen en el texto, como se aprecia en la
figura 27.
Figura 27. Matrix de vectores de documentos.
El valor de cada componente se calcula a partir
de una frecuencia inversa del documento (IDF =
Inverse Document Frequency), de donde se
obtiene una comparación entre la representación
vectorial de las consultas y de los vectores de
los documentos.
Hay diversos métodos para el cálculo de la
similitud documental. Para poder evaluar la
similitud entre documentos es necesario definir
una medida cuantitativa de la similitud
existente de los mismos. Estes métodos se basan
en el modelo vectorial, asignando a cada
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
268
término de la consulta un peso (wi) que puede
ser cualquier valor positivo. Los coeficientes
binarios más utilizados como medida de
similitud entre una consulta y los documentos
en los sistemas de Recuperación de la
Información vectoriales son: Producto escalar,
coeficiente del coseno, coeficiente de Dice y
coeficiente de Jaccard, como se puede apreciar
en la figura 28.
Figura 28. Medidas de similitud entre dos vectores de términos en el modelo vectorial.
A continuación pasamos a detallar los
coeficientes binarios.
Producto escalar o interno. Bajo el modelo
vectorial, el producto escalar de los
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
269
vectores es el modelo más simple de
calcular la similitud entre una consulta
(query) y un documento. El resultado se
obtiene al multiplicar el producto de sus
módulos por el coseno del ángulo que ambos
forman.
El coeficiente de Dice es una medida de
similitud variante del índice de Jaccard.
Proporciona doble valor a los términos de
doble presencia. Tiene una estrecha
relación con la distancia de Levenstein
(1966: 707-710).
Coeficiente de Jaccard. El coeficiente de
Jaccard (1900), es una medida estadística
para el cálculo de la medida de similitud
de información asimétrica.
Coeficiente del coseno. La medida de
similitud está basada en el coseno del
ángulo que forman los dos vectores. Se usa
mucho en el área del procesamiento del
lenguaje natural y en especial en el campo
de la categorización automática de
documentos. Es el cálculo del producto
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
270
escalar de 2 vectores de oraciones (X, Y)
por la raíz cuadrada del sumatorio de los
componentes del vector X multiplicada por
la raíz cuadrada del sumatorio de los
componentes del vector Y. La medida más
utilizada para el cálculo de la similitud
de documentos es el coeficiente del coseno
extendido (Cumming et al. (1992), Qin
(1996)).
Aunque existan otros modelos como los de Dice y
Jaccard, debido a la dificultad de interpre-
tación que plantean, son menos usados en la
Recuperación de la Información. El modelo de
Salton es usado también en operaciones de
categorización automática, filtrado de
información, Extracción de la Información entre
otros.
Cálculo de la similitud documental. La
similitud documental es aquella que en
nuestro proyecto se entenderá como
similitud fraseológica: Las unidades
fraseológicas canónicas existentes en el
diccionario de patrones versus las
candidatas a unidades fraseológicas que
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
271
pueden o no existieren en las oraciones
extraídas del corpus.
7.3 El cálculo vectorial
El modelo del espacio vectorial fue definido
por Salton (1968) y posteriormente descrito por
Salton y McGill (1983) como aportación funda-
mental para el desarrollo de la Recuperación de
la Información. Desde entonces este modelo ha
sido utilizado como base para varios experi-
mentos de recuperación con ranking, como es el
caso de la serie de experimentos llevados a
cabo por Salton y sus asociados en el sistema
SMART. Los modelos alternativos de Recuperación
de la Información empezaron a desarrollarse
debido a las deficiencias del modelo booleano.
De esta forma, el Sistema SMART, desarrollado
primeramente en la Universidad de Harvard, se
basó en el modelo vectorial Lesk (1964) y
Salton (1964: 1971). Después, el modelo
continuó siendo desarrollado por Salton y sus
colaboradores en la Universidad de Cornell,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
272
manteniéndose en uso en los experimentos que se
realizan en la actualidad.
El modelo del espacio vectorial está compuesto
por el espacio vectorial de dimensión M
representando en él (cada dimensión equivale a
un término distinto del glosario), los
documentos, las consultas y las operaciones
algebraicas sobre los vectores de dicho
espacio. Concretamente, la función que obtiene
la similitud de un documento con respecto a una
consulta se basa en la medida del coseno de
acuerdo con Salton et al. (1983), la cual
devuelve el coseno del ángulo que forman ambos
vectores en el espacio vectorial.
El modelo vectorial permite explicar de manera
sencilla las operaciones matemáticas que
determinan la similitud entre documentos (en
nuestro caso, oraciones) a partir de las
palabras que las constituyen.
Después de almacenar un conjunto de oraciones
en una matriz de m filas por n columnas, donde
las columnas representan los términos
almacenados en estas oraciones, calculamos la
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
273
similitud entre las UFs almacenadas en el
diccionario de patrones que se convierte en el
vector UF, expresado en función de la aparición
de los n términos en las UFs y los m vectores
de las oraciones extraídas del corpus. Las más
similares son aquellas más cercanas al 1 y las
menos similares aquellas más distantes del 1.
Este modelo se basa en la construcción de una
matriz o tabla de términos y oraciones. Este
modelo busca recoger la relación de cada
oración Di de una colección de X oraciones,
extraídas de un corpus, con el conjunto de las
n características de la colección, como se
observa en la figura 29.
Figura 29. Matrix de vectores de documentos.
Dt -> d= Ct1,Ct2,….,Ctn)
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
274
Las filas representan las oraciones y las
columnas, los términos, denominados vectores.
Las filas de esta matriz se expresan en función
de la frecuencia de apariciones de cada término
en las oraciones.
Los valores representan el número de veces que
aparece cada término en el documento. De este
modo la longitud del vector de documentos sería
igual al total de términos de la matriz (el
número de columnas). Este modelo permite
demostrar de una manera sencilla las
operaciones matemáticas que permiten determinar
la similitud entre frases, a partir de las
palabras contenidas en ellas, como se observa
en la figura 30.
Figura 30. Matrix de similitud término-término.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
275
En nuestra investigación, a diferencia del uso
habitual del modelo del espacio vectorial, que
es la determinación de la similitud entre la
pregunta y los documentos, buscamos el cálculo
de la similitud entre oraciones, es decir, la
relación de cada oración Di, de una colección
de X oraciones, extraídas de un corpus, con el
conjunto de las n características del corpus.
Formalmente una frase puede considerarse como
un vector que expresa la relación de la oración
con cada una de esas características.
De esta forma el sistema puede calcular el
coseno del ángulo que forma el vector UFs
(consulta) con el resto, obteniendo un valor
que determinará la similitud entre las unidades
fraseológicas almacenadas en nuestro diccio-
nario de patrones y las candidatas a unidades
fraseológicas encontradas en la oraciones,
permitiendo al sistema detectar y extraer los
registros en función de esa similitud. La
fórmula del coseno se puede aplicar tanto para
determinar la similitud entre pregunta/oración,
como entre oraciones.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
276
En el modelo de recuperación vectorial, las
medidas de similitud están asociadas con la
idea de distancia, siguiendo la idea de que
cuanto más cercano esté el espacio vectorial o
la medida angular, más similares son los
documentos. Inicialmente, el sistema SMART usó
una medida angular, que después fue sustituida
por la vectorial. Ésta es la fórmula del Coseno
creada por Rigsbergen (1979), como se puede ver
en la figura 31.
Figura 31. La similitud del coseno entre pregunta y
documentos.
Podemos observar en la figura 31 que:
tdij = el término i en el vector para el
documento j.
tqik = el término i en el vector para la
consulta k.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
277
n = número de términos únicos en la base de
datos Lo que sería la pregunta, en un sistema
de Recuperación de la Información convencional,
en nuestro sistema de Extracción de la
Información, tenemos la unidad fraseológica
canónica. En lugar de los documentos,
tendremos, las oraciones, como observamos en la
tabla 25.
Tabla 25. Matriz de las UFs canónicas y candidatas a
UFs.
UFC8 Tener la cabeza bien amueblada F1 Me estoy quitando del café F2 Rento casa amueblada en Cancun por noche o
semana F3 Tener una cabeza muy bien amueblada F4 Lo asombroso del caso no es la operación, sino
el hecho de que la tuvo 12 años en la cabeza sin saberlo
F5 Cristiano tiene la cabeza muy bien amueblada
UFC= Unidades fraseológicas canónicas F1, F2,
F3, F4, F5 = Frases 1, Frases2, etc.
Estas oraciones sufren un pre-procesamiento
mediante el cual están son tokenizadas,
lematizadas y tienen las stop words cambiadas.
8 Unidades fraseológicas canónicas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
278
Los términos supervivientes (en negrita) se
usan para construir una matriz A término-
documento, conforme García (2006, 2008).
Esa matriz es populada con los términos
ponderados aij los cuáles son producto de local
(Lij), global (G), y normalización (Ni)
ponderados o: aij = Lij Gi Nj
En esta ecuación los términos se definen como
sigue:
a. Lij = fij, donde fij es la frecuencia del
término en la oración j. Es también
llamado modelo de frecuencia.
b. Gi = log(D/di), donde D es el tamaño de la
colección y di es el número de oraciones
que contienen el término i. Esto es
también llamado modelo IDF. IDF significa
Inverse Document Frequency.
c. Nj = 1; la extension del documento es
normalizado como 1.
Así tenemos que, aij = fij log(D/di)
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
279
Para cada unidad fraseológica almacenada en el
diccionario de patrones, el sistema calculará
el espacio vectorial para determinar el nivel
de similitud entre cada una de las UFs
almacenadas y las candidatas a UFs encontradas
en las oraciones. De esta forma para cada
unidad fraseológica canónica se hace necesario
construir una matriz, como podemos apreciar en
la tabla 26. La matriz de vectores de UFs
candidatas se multiplicará por la matriz de la
UF canónica, como se puede apreciar en la
figura 32, en la página siguiente:
Tabla 26. Matriz de vectores de UFs candidatas.
D1 D2 D3 D4 D5 Amueblada 0 4/3 4/3 0 4/3 años 0 0 0 4/1 0 Asombroso 0 0 0 4/1 0 Bien 0 0 4/2 0 4/2 Cabeza 0 0 4/3 4/3 4/3 Café 4/1 0 0 0 0 Cancun 0 4/1 0 0 0 Casa 0 4/1 0 0 0 caso 0 0 0 4/1 0 doce 0 0 0 4/1 0 Estoy 4/1 0 0 0 0 muy 0 0 4/2 0 4/2 Noche 0 4/1 0 0 0 Operación 0 0 0 4/1 0 Quitando 4/1 0 0 0 0 Rento 0 4/1 0 0 0 Saberlo 0 0 0 4/1 0 Semana 0 4/1 0 0 0 Tener 0 0 4/3 4/3 4/3
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
280
Figura 32. Matriz de vectores de las UFs candidatas x Matriz de la UF canónica.
La matriz de la UF canónica se origina en la
norma Frobenius9, que podemos ver en la figura
33. La norma también escrita como " norma"
es una norma vectorial definida como vector
complejo, como se puede apreciar en la figura
33, según Weisstein (2009).
9 La Norma Frobenius es una norma matricial no subor-dinada a ninguna norma vectorial.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
281
Figura 33. La Norma Frobenius.
Los vectores unitarios se obtienen dividiendo
las columnas de vectores por la norma Frobenius
(L2-norms) conforme García (2008). La tabla 27
pone de relieve los distintos niveles de
similitudes entre las UFs canónicas y
candidatas:
Tabla 27. Vectores Unitarios.
D1 D2 D3 D4 D5 UFC Vector lengths
1,0427 1,352 0,4775 1,4851 0,4775 2,0000
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
282
Cada elemento del vector es dividido ahora por
su correspondiente longitud (length). Las
siguientes matrices son así obtenidas:
Tabla 28. Matriz de similitud (elementos del vector x
longitud).
Las frases quedarían, como se puede observar en
la tabla 29, según su grado de similitud:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
283
Tabla 29. Frases clasificadas.
D1 D2 D3 D4 D5 Vector lengths
0 0,0462 0,7076 0,0841 0,7076
Por lo tanto, D3 = D5 > D4 > D2 > D1
El mismo proceso se efectúa para las restantes
UFs canónicas almacenadas en nuestra base de
datos, es decir, la búsqueda de candidatas a
UFs significativas entre las oraciones del
texto, para lo cual se recurren al denominado
diccionario de patrones. El sistema encuentra
frases y las convierte en candidatas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
284
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
285
8. LOS RESULTADOS DE PHRASENET
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
286
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
287
A continuación vamos a describir los resultados
obtenidos en el muestreo y en la construcción
de nuestra aplicación describiendo la interfaz
de usuario.
8.1. La interfaz del usuario
El objetivo del diseño de la interfaz de
PhraseNET es proporcionar al usuario que sea
capaz de extraer resultados óptimos de las
opciones que contiene el sistema. Es una
interfaz diseñada para los usuarios de Windows,
con una interacción totalmente estándar y fácil
de procesar.
La interfaz se basa en un sistema de menús,
barras de herramientas y cuadros de diálogo en
un área de trabajo que facilita la realización
del trabajo del usuario. Este sistema posee un
número de comandos limitado. El objetivo
principal del diseño de la interfaz del usuario
de PhraseNET es facilitar que se encuentre y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
288
utilice las características que proporciona
PhraseNET.
La interfaz del usuario de PhraseNET es una
interfaz de documento simple, es la parte de la
aplicación que el usuario ve y con la cual
interactúa, es decir, las ventanas, los
controles y los menús. Como observamos en la
figura 34, la ventana principal de PhraseNET
contiene los siguientes elementos:
Figura 34. Pantalla principal.
La barra de menús desplegables con opciones o
comandos de PhraseNET, contiene los siguientes
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
289
tres menús: Files, Utilities y Help. Files está
compuesto de las siguientes opciones: Create,
add, print report, file report, save y exit.
Se utiliza create para importar ficheros que
seleccionan el nuevo tipo de documento para
volcar el corpus y crear una base de datos. Add
es la ventana que importa ficheros y escoge el
tipo de documento a importar y lo agrega a los
ya existentes.
El usuario no añade ni quita registros de la
base datos. Esta opción no existe en el
sistema, se puede crear y añadir uno o varios
corpus a la base de datos, pero no se tiene
acceso a los campos individuales de la base de
datos. Por otra parte, print report imprime el
contenido del resultado de la extracción de las
unidades fraseológicas, mientras que file
report graba en el disco duro el contenido del
resultado de la extracción de las unidades
fraseológicas. Finalmente, save & exit, termina
la sesión de PhraseNET.
El menú utilities nos permite acceder a cuatro
formas distintas de visualizar los resultados:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
290
View, en el que se ve el resultado de la
extracción de las unidades fraseológicas y la
visualización de cada una junto con el contexto
(frase donde aparece), así como otros campos
del registro. Por ejempo, Search for and
highlight pone de relieve cada UF encontrada en
todo el corpus; en Highlight UFs se observa la
extracción de cada unidad fraseológica
destacada en rojo y en Multiple search busca y
recupera las UFs que se desea de las que han
sido extraídas.
En el menú principal, en HELP, la opción
MULTIPLE SEARCH abre la ventana que se puede
apreciar en la figura 35 y el módulo de ayuda
al usuario ofrece el ‘Manual de referencia de
PhraseNET’. En cualquier momento se puede
interrumpir el mensaje de ayuda pulsando la
tecla escape (esc) o pinchando el símbolo ‘x’
de la ventana.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
291
Figura 35. Ayuda.
Además, el usuario podrá saber donde fue
construido el sistema, su autor y cómo obtener
una copia del mismo. En ABOUT el usuario puede
obtener información acerca de la versión y el
copyright de PhraseNET.
Cuando seleccionamos la opción create o add del
menú files, se abre una nueva ventana como se
puede apreciar en la figura 36. En esta ventana
hay cinco opciones para seleccionar el tipo de
archivo que pretendemos importar. Se pueden
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
292
importar páginas de la Web (webpage to dbf), un
archivo html grabado en el disco duro (html to
dbf), un archivo de texto plano que esté
compuestos únicamente por texto sin formato
(text to dbf), un archivo en formato rtf
(siglas en inglés para Rich Text Format o
'Formato de texto enriquecido').
Figura 36. Menú para importación de ficheros.
Cabe señalar que para cada procesamiento de
archivos importados hay un tiempo asignado para
la conversión del formato original al formato
de la base de datos. Cuando el archivo se ha
importado, sea para crear una nueva base de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
293
datos o para añadirla a una ya existente, el
próximo paso será seleccionar la opción save o
exit. La última opción se utiliza en el caso de
haber desistido del intento y no se quiera
guardar.
El sistema procesará los datos buscando la
similitud entre las unidades fraseológicas
almacenadas en el sistema y las UFs candidatas
que puedan existir en las oraciones del corpus.
Aquí existe también un tiempo asignado para el
análisis vectorial de los datos. Después, el
sistema se encarga automáticamente de redi-
reccionar al usuario a la pantalla principal.
En el menú desplegable, la opción view abre la
ventana que se puede apreciar en la figura 37,
que contiene diversas opciones para manipular
los resultados de extracción de las unidades
fraseológicas: Main menu, frequency files,
frequency, sort, phs found, uf match corpus,
context, match, spanish, portuguese, source
file. Todas las opciones aparecen completas a
partir de que el usuario haga doble click sobre
la UF que aparece en UF match corpus.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
294
A partir del segundo menú, UTILITIES, cuando
seleccionamos la opción VIEW, se abre una nueva
ventana como se puede apreciar en la figura 37.
Figura 37. Menú View.
La opción MAIN MENU hace que volvamos a la
pantalla principal. FREQUENCY FILES obtiene la
frecuencia de frases o registros por cada autor
o corpus. Frequency nos muestra la frecuencia
de cada unidad fraseológica. SORT indexa el
fichero final por columna. Phs found muestra el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
295
número de unidades fraseológicas detectadas y
extraídas correctamente. UF match corpus
realiza un listado de las unidades fraseo-
lógicas extraídas. Context sitúa la frase donde
aparece la UF. Match nos señala la UF como
aparece en el corpus (en plural, con flexión
verbal, etc.). Spanich indica la unidad
fraseológica en español como aparece en nuestra
base de datos. Portuguese indica la unidad
fraseológica equivalente en portugués a UF en
español. Source file muestra la fuente o las
fuentes del corpus.
En el menú principal UTILITIES, la opción
SEARCH FOR AND HIGHLIGHT abre la ventana que se
puede apreciar en la figura 38. Ésta da al
usuario la opción de, al hacer doble click en
cada unidad fraseológica, verla en negrita en
todo los casos en que aparece en el corpus. A
diferencia de otras búsquedas que el sistema
proporciona, ésta no nos indica las
repeticiones de las UFs, solo de uno de los
casos en los que se aprecia.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
296
Figura 38. Search for and highlight for all UFs.
También en el menú principal, UTILITIES, la
opción HIGHLIGHT UFs abre la ventana que se
puede apreciar en la figura 39. Ésta da al
usuario la opción de, haciendo doble click en
cada unidad fraseológica, verlas en negrita en
el contexto que aparece. A diferencia del
anterior, éste no muestra las repeticiones,
solo el contexto de la UF en negrita.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
297
Figura 39. Search and highlight each phraseological
unit.
Finalmente, en éste menú, la opción MULTIPLE
SEARCH abre la ventana que se puede apreciar en
la figura 40. Ésta da al usuario tres opciones
para la recuperación de las unidades fraseo-
lógicas extraídas del corpus: any of these
words hace la búsqueda de cualquiera de las
palabras insertadas por el usuario; none of
these words hace la búsqueda de las frases que
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
298
no tengan ninguna de las palabras insertadas
por el usuario y exact match hace la búsqueda
de la frase exacta.
Figura 40. Multiple search.
PhraseNet es un sistema informático compuesto
por un conjunto de instrucciones, ejecutadas en
un ambiente físico denominado Hardware. Estas
instrucciones están organizadas en estructuras
de datos que permiten la detección y extracción
de unidades fraseológicas. Esta herramienta se
creó con el objetivo principal de obtener
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
299
resultados sobre la calidad del algoritmo de
detección y extracción de UFs. Para obtener un
rendimiento óptimo y verificar que se ceñía a
las necesidades de nuestros objetivos, fue
necesario experimentar con una muestra sacada
de un corpus de entrenamiento y así verificar
manualmente el ‘silencio’ y el ‘ruido’ de los
resultados y comprobar cuáles eran los
problemas y errores inherentes a la propia
metodología experimental. Por silencio documen-
tal nos referimos al conjunto de documentos
almacenados en la base de datos que no han sido
recuperados, cuando se han extraído los
resultados. Esto se debe a que la estrategia de
búsqueda ha sido demasiado genérica.
Respecto al ruido documental, es el conjunto de
documentos recuperados por la búsqueda que no
son relevantes. En una base de datos muy
grande, suele darse una cierta desorientación
en la búsqueda automatizada de datos debido a
la información, lo que conduce a resultados no
deseados (ruido o silencio documental según sea
el caso). En concreto, nosotros buscamos
construir un sistema de búsqueda automatizado
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
300
muy refinado para tratar de solventar estas
dificultades, pues la pertinencia de los
resultados está en función de la calidad de las
técnicas utilizadas en la búsqueda automa-
tizada.
8.2. Los experimentos de PhraseNet
Respecto al tamaño de un corpus, no representa
ningún obstáculo para la tecnología informá-
tica, ya que la teoría del muestreo nos permite
trabajar con una muestra con alto grado de
representatividad. La teoría del muestreo es
una selección adecuada de la cantidad y calidad
de los individuos que forman parte de un grupo
de observación. Se determina el grado de
representatividad de una muestra en la medida
que las características del muestro se apro-
ximan bastante a las de la población.
Existen varios métodos de muestreo. El empleo
de uno o de otro se hace para sacar mejor
provecho de ciertas características de la
población que es objetivo del estudio para
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
301
conseguir una mayor precisión en las estima-
ciones, sin incrementar el tamaño muestral. El
muestreo aleatorio simple que usamos en nuestra
investigación es el más simple, pero el más
adecuado a las características de esta investi-
gación.
Además, no hay un consenso sobre el tamaño
ideal de un corpus. Por lo tanto, el muestreo
debe ser lo suficientemente representativo como
para poder realizar un análisis exhaustivo del
nivel de ruido y silencio obtenido por el
sistema. Al mismo tiempo éste debe tener un
tamaño suficientemente grande (el máximo
posible en la teoría del muestreo) para
garantizar que el corpus tiene una base digna
de confianza para poder así extraer
conclusiones sobre el desempeño de nuestra
herramienta informática.
Como se explicó en el capítulo 7, nuestro
corpus se basa en un muestro con un nivel de
confianza del 95% y un margen de error del 1%.
Esto significa que, del total de 251.399 frases
o 3,5 millones de palabras de nuestro corpus de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
302
entrenamiento, hemos trabajado con tan sólo
9.250 frases o 132.281 palabras.
En relación a las fuentes recogidas, hemos
considerado cada autor, diario o revista, sin
tener en consideración las distintas ediciones
de diarios o revistas. En el caso de los
autores con más de una obra y las subsecuentes
publicaciones, hemos obtenido 266 fuentes
distintas. Con respecto a las distintas
ediciones de los diarios, revistas y obras
literarias, recopilamos 5.974 de un total de
9.250 registros del muestreo. Obtuvimos una
media de 34,8 frases por cada fuente para el
primer caso y, para el segundo, una media de
1,5 frase por cada fuente. Esto nos lleva a
concluir que utilizamos un número adecuado de
frases para cada fuente, evitando así la
influencia de una determinada obra sobre el
total del muestreo. Esto significa que las
características de nuestro muestreo tiene un
alto grado de representatividad, aproximandose
con nitidez a las de la población.
Entre las cuatro medidas de evaluación
existentes, Precision, Recall, Medida F y
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
303
Fallout, hemos optado por trabajar sólo con las
dos primeras: Precision y Recall. El sistema
fue sometido a un procesamiento estadístico de
muestreo aleatorio para determinar su
precisión. De este modo, concluimos que, de las
9.250 frases, el sistema ha reconocido y
extraído 705, una parte de las cuales se puede
apreciar en el Anejo I. No ha extraído 194, de
las cuales seleccionamos una parte que también
hemos incluido en el Anejo I. Estas 194 no
fueron extraídas por no haberes sido incluidas
en la base de datos.
De los 705 tokens, es decir, unidades fraseo-
lógicas reconocidas y extraídas, 308 de éstas
representan los tipos que en términos porcen-
tuales es del 43,69%. Las locuciones adver-
biales son las que poseen la mayor frecuencia,
47,2%. El siguiente son las locuciones
verbales, con 18,8%. En tercer lugar, las
locuciones prepositivas, con 10,9%. Las
locuciones interjectivas, las paremias y las
locuciones conjuntivas tienen una representa-
tividad escasa, solo 1,4%, 8,3% y 10,4%
respectivamente. Se puede observar en la figura
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
304
41 una composición de la frecuencia de las
unidades fraseológicas.
Figura 41. Frecuencia de las UFs.
Frecuencia de las unidades fraseológicas extraídas del corpus de entrenamiento
Loc. adverbial
Loc. conjuntiva
Loc. interjectiva
Loc. prepositiva
Loc. verbal
Paremias
En nuestro estudio hemos considerado locuciones
adverbiales (‘de algún modo’, ‘de rato en
rato’, ‘más adelante’, ‘patas arriba’);
locuciones conjuntivas (‘mientras más’, ‘con
todo’, ‘por lo menos’); locuciones
interjectivas (‘menos mal que’, ‘paso
adelante’); locuciones prepositivas (‘en
función de’, ‘a causa de’, ‘por otra parte’,
‘frente a’); locuciones verbales (‘dormir como
un tronco’, ‘atar cabos’, ‘echar de menos’,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
305
‘poner en marcha’); paremias (‘a velas
desplegadas’, ‘como todo el mundo’, ‘sentido
común’, ‘punto de vista’).
El silencio fue bastante representativo, pero
no por el sistema; se debe, en cambio, a una
laguna en la base de datos del sistema. Si
aplicamos la fórmula del coeficiente de
cobertura o Recall y Precision, obtenemos los
resultados descritos a continuación, los cuales
se detallaron en el capítulo 5 sobre métricas
de evaluación. En concreto, en la tabla 28 se
han podido apreciar los resultados del
muestreo.
A continuación se presenta la fórmula para el
cálculo del Recall y de la de Precision. En el
Recall se ha obtenido un alto índice de
aciertos (78,3%) con una Precision de 99,9%
Informaciones correctamente extraídas
Recall=____________________________________
Informaciones relevantes en el texto
Recall = 704 / 899 = 78,3%
Informaciones correctamente extraídas
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
306
Precisión = _________________________________ Total de informaciones extraídas
Precision = 705 / 704 = 99,9%
Estos números implican que el 78,3% de la
información relevante fue correctamente
extraída (Recall). Por otro lado el 99,9% de
las informaciones extraídas fueron correctas
(Precision), como se puede apreciar a
continuación en la tabla 30.
Tabla 30. Evaluación de PhraseNET.
Podemos ver que los resultados han sido
prometedores, para aumentar la eficacia, se
precisa ampliar la base de datos para que
aumente el valor de Recall. Cuanto más UFs
introduzcamos en nuestra base da datos, más
cerca estaremos de una evaluación exacta y
amplia (Tabla 31).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
307
Tabla 31. Evaluación de PhraseNET con el corpus de entrenamiento.
EVALUACIÓN DESCRIPCIÓN EJEMPLOS Excelente La UF candidata es
semánticamente equivalente a encontrada en el texto
Al cabo de/ Al cabo de
Bueno La UF candidata pertenece al segmento de texto encontrado, mas solamente parcialmente identificado
Al cabo de/ Cabo
Débil La UF no es exactamente lo que se buscaba
Al cabo de/ Al cabo del
Mala La UF candidata aunque tenga los mismos términos no está en la misma orden
Al cabo de/ Cabo de Almería
Este grado de precisión refleja la fiabilidad
del método, lo que significa que estamos
procediendo adecuadamente, pues la calidad de
los resultados depende del modelo de detección
y extracción de UFs. En la siguiente frase
encontramos el único error en la extracción de
las UFs de nuestro muestreo, extraído del
corpus de entrenamiento:
Tal es el caso de Nuevo Laredo: como el
primer Laredo quedó del lado de EE.UU.
(fileid=1404)
En este caso, se debe a un error de
interpretación. La locución ‘de nuevo’ existe y
está recogida por el diccionario de
fraseologismos de Manuel Seco. Pero después de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
308
la preposición ‘de’, el sistema ha interpretado
‘Nuevo’, como si fuera un adjetivo, cuando es
un nombre propio. No hemos encontrado ningún
caso de inversión de morfemas de las UFs, como
se puede ver en el Anejo I. El sistema ha
conseguido distinguir casos como, por ejemplo,
‘entorno’ de ‘en torno’, es decir, el
sustantivo de la locución prepositiva. No ha
permitido que la preposición ‘del’ ocupase el
lugar de la preposición ‘de’, como en ‘a causa
del’, como en el ejemplo: “Su tatarabuelo había
recibido el nombre pérsico Zurqum a causa del
color”.
En este caso ha sabido distinguir perfectamente
cuando se trata de la preposición ‘a’ del
artículo ‘la’. De este modo no ha confundido ‘a
causa de’ por ‘la causa de’ como en la
siguiente frase: “Resulta que en el primer
diagnóstico aparece que la causa de la
atracción son los gigantescos senos, el
trasero, la boca o algún otro ingrediente
físico digno de tomar en cuenta”.
El sistema ha distinguido el fin y el inicio de
la UF, no permitiendo extracciones en las que
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
309
podría ser la locución ‘a la par’ cuando en
realidad se trataba de ‘a la pared’, o la
locución ‘a la que’ cuando se trataba de ‘a la
querencia’, la locución ‘a manera de’, cuando
se trataba de alguna manera deberás o por fin,
la locución ‘a menos que’, cuando se trataba de
‘nada menos que él’, como se puede apreciar en
estos ejemplos:
“En el balcón no quedaba nadie; don Fermín
salió del portal, arrimado a la pared, y se
alejó a buen paso”.
“Quedó don Cirilo caviloso, tratando de
acordarse en qué circunstancias podría haberlo
perdido, y sobre todo, de adivinar por qué
casualidad podía haber vuelto a la querencia un
buey de esa edad, que seguramente faltaba del
rodeo desde ternero”.
“De este modo quizá no seas un escritor de tu
tiempito, pero serás un artista de tu Tiempo,
Apocalipsis del que de alguna manera deberás
dejar tu testimonio, para salvar tu alma”.
“Las ingenuidades que había cometido el propio
Fernando, nada menos que él”.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
310
Después de que el sistema detectó y extrajo las
unidades fraseológicas de nuestro muestreo,
realizamos un chequeo manual, frase por frase,
cotejando con el diccionario fraseológico de
Seco et al. (2005) y otras fuentes encontradas
mediante búsquedas en Google, para comprobar si
en las frases en las que el sistema no había
detectado ninguna UF, había o no alguna unidad
fraseológica.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
311
9. CONCLUSIONES
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
312
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
313
Cada aplicación informática tiene rasgos
diferentes y comunes al resto de las
herramientas que existen. En este caso,
PhraseNET reúne características innovadoras
que, entre otras, pueden satisfacer parte de
las dificultades de los traductores
automáticos, pues aunque no sea este tipo de
herramienta, tiene rasgos que la hacen un
extractor de UFs en español que busca el
equivalente en portugués o, en un caso
hipotético, en otra lengua. Aunque se ha
desarrollado la herramienta con corpus escritos
en español, se puede aplicar el sistema de
extracción de la información a corpus escritos
en otras lenguas.
A modo de conclusión, vamos a destacar las
aportaciones principales de esta tesis
doctoral. En este trabajo hemos analizado la
eficacia de PhraseNET, la aplicación informá-
tica desarrollada para la detección y la
extracción de unidades fraseológicas de un
corpus elegido por el usuario, describiendo las
posibilidades de esta herramienta a través de
la interfaz y de los rasgos lingüísticos.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
314
También hemos descrito los recursos informá-
ticos asociados al resultado de los
experimentos a los que sometimos a la
herramienta para comprobar su eficacia, desde
la perspectiva del Procesamiento del Lenguaje
Natural. Su representación se ha hecho según el
modelo del espacio vectorial. Para la
construcción de los vectores, se seleccionaron
las UFs candidatas siguiendo criterios lingüís-
ticos y estadísticos. En concreto, se eligieron
las unidades fraseológicas como entidades y se
calculó su relevancia según la Norma Frobenius.
Se presentó una aplicación implementada bajo el
planteamiento de la extracción de la informa-
ción, con esto creemos haber proporcionado las
bases para contestar a los dos objetivos
generales de esta tesis doctoral, planteados en
el capítulo 5: “Realizar una herramienta que
ayude a solucionar las lagunas existentes en el
campo de la fraseología” y “Crear una
herramienta informá-tica que, conjuntamente con
una base de datos sólida, pueda permitir la
detección y extracción de las UFs en un corpus
específico”. Así mismo, el sistema fue sometido
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
315
a un procesamiento estadístico de muestreo
aleatorio para determinar su precisión, en el
que se estimó que el 78,3% de la información
relevante fue correctamente extraída (Recall).
Por otro lado, el 99,9% de los datos extraídos
fueron correctos (Precision). Es decir, los
objetivos específicos planteados en el capítulo
5 se han logrado con la construcción de
PhraseNET y una base de datos bilingüe junto
con el diccionario de patrones.
En relación a los objetivos específicos,
planteados en el mismo capítulo:
1. “Desarrollar un sistema informático que
permita detectar una unidad fraseológica en
castellano con su equivalencia en portugués, lo
cual no se puede realizar con los traductores
automáticos en la actualidad”.
2. “Ayudar a identificar las UFs para que
sirvan de apoyo a estudiantes y traductores. No
basta con incluir las UFs en un diccionario
electrónico junto con su equivalencia, es
preciso que el sistema sepa cómo reconocerlas
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
316
en el corpus, sea cual sea su forma de
aparición”.
3. “Sistematizar el tratamiento de la
información fraseológica en una base de datos
bilingüe onomasiológica que permita ver la
variación que existe en las UFs”.
Respecto al primer objetivo específico, en esta
tesis doctoral hemos diseñado un programa
informático, PhraseNET, que permite detectar
unidades fraseológicas en castellano con sus
equivalentes en portugués. Este programa fue
también comparado, como vimos antes, con los
sistemas actuales existentes para la extracción
de la información: ConcGrams, Colex, ElexBI,
Termight y LExTER. Así mismo, hemos evaluado
estas herramientas para comprobar su eficacia
en comparación con PhraseNet en la sección 4.5
de esta tesis doctoral, siendo ésta última la
que extrae paremias y locuciones, además de
presentar los datos en forma de colocaciones,
como lo hacen los sistemas Colex y ConcGram.
Además, PhraseNET tiene una interfaz con
múltiples formatos de archivo: archivo de texto
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
317
ASCII ‘texto plano’ (txt), archivo de texto con
formato (RTF), archivo de texto con formato de
Microsoft Word (DOC), archivo en formato
portátil para documentos (PDF), archivo con el
lenguaje en el que se elaboran la mayoría de
páginas web accesibles desde Internet (.html).
Esta característica entendemos que es relevan-
te, puesto que los otros sistemas analizados
(ConcGrams, Colex, ElexBI, Termight y LExTER)
no la tienen. PhraseNet es la única herramienta
que trabaja solo con una base de datos, por
esto tiene una mayor sencillez en el manejo de
datos.
En relación al segundo objetivo específico,
creemos haber logrado también el objetivo
propuesto, pues al detectar una unidad
fraseológica en español, el sistema suministra
al usuario su equivalente en otra lengua. En
esta tesis doctoral hemos elegido el portugués,
pero puede ser cualquier otra lengua, como se
observa en la figura 37, y que hemos comentado
en el capítulo de Resultados.
El tercero objetivo específico era construir
una herramienta que pudiera sistematizar el
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
318
tratamiento de la información fraseológica en
una base de datos bilingüe onomasiológica que
permita ver la variación que existe en las UFs.
Este objetivo se ha logrado en la medida en que
la información obtenida es procesada en una
base de datos bilingüe que formaliza dicha
información en un fichero que se puede utilizar
en el momento en que el usuario lo desee. De
este modo, el sistema genera una base de datos
bilingüe basada en el corpus introducido por el
usuario en el sistema. En concreto, se han
establecido equivalentes de traducción de un
término en una lengua de origen para un
contexto determinado a través de la presencia
de palabras y frases que aparecen en la
estructura del texto que rodea al término de la
lengua de origen. Así, la información se queda
menos fragmentada, a diferencia de como se
presenta en muchos diccionarios y bases de
datos, incluyendo más información contextuali-
zada en el entorno extraído del corpus.
Otra característica a destacar son los recursos
que componen PhraseNET, como por ejemplo: la
búsqueda basada en palabras simples o
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
319
compuestas en un contexto, como un
concordancer, también es posible ver la co-
ocurrencia de las unidades fraseológicas
alineadas o la base de datos que se usa para el
almacenamiento de información.
En lo que respecta a la evaluación de nuestra
aplicación, pudimos concluir que el método de
la extracción de unidades fraseológicas que se
propuso alcanzó resultados de precision y
Recall similares a otros sistemas de extracción
semejantes. Esta eficacia nos ha permitido
constatar que los objetivos generales y
específicos de la investigación se cumplieron
de forma satisfactoria.
Podemos concluir que PhraseNET suele extraer
sin dificultad las siguientes variaciones de
las UFs: morfológicas (léxica, por derivación,
de género, etc.), morfosintácticas (en el uso
de la preposición, en el uso del artículo,
etc.), sintácticas, léxicas, diatópicas,
diastráticas y diafásicas, las modificaciones
internas (como suele ser la reducción de las
UFs mediante la eliminación o inclusión de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
320
alguno de sus componentes) y las externas, en
la periferia.
Con ello, podemos concretar que los criterios
de construcción del diccionario de patrones de
PhraseNET se pueden aplicar a varias lenguas,
siempre que se realice un diccionario de
patrones como se hizo para el español y el
portugués. Como consecuencia, es lógico pensar
que la elección del corpus y la amplitud de la
base de datos (diccionario de unidades
fraseológicas) tienen un papel clave en el
funcionamiento de la metodología y en el futuro
del proyecto.
Sin embargo, hemos de ser conscientes de que
existen algunos tipos de variaciones que no ha
sido posible su identificación. Nuestro
diccionario de patrones consigue detectar la
mayoría de las variaciones fraseológicas
excepto las originadas por la desautoma-
tización. Para solucionar este problema, somos
conocedores que se ha de realizar un cambio en
los algoritmos de la Extracción de la
Información para que se pueda detectar en el
corpus el núcleo fraseológico permanente de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
321
dichas UFs. En este momento no se ha realizado
este cambio, puesto que nuestro objetivo
primordial era diseñar y llevar a cabo la
herramienta.
En estos momentos, PhraseNET posee algunas
limitaciones que hemos detectado cuando
probábamos el corpus. Entre las variaciones
internas, es posible detectar y extraer las que
se crean por adición o reducción, siempre que
la periferia de la UF se mantenga. Sin embargo,
las modificaciones por desautomatización,
alusión, figurativas, por sustitución y grama-
ticales necesitan de un algoritmo diferente
para detectar y extraer las UFs que presentan
tales modificaciones. Sin embargo, en estos
momentos consideramos que no existe un número
relevante de variaciones que no hemos
identificado de las UFs que justifique cambios
en los algoritmos.
A continuación, y ya para finalizar con este
capítulo, vamos a resumir las aplicaciones de
PhraseNET que se utilizan para diversas
finalidades y que nos gustaría resaltar, puesto
que consideramos que son las aplicaciones
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
322
fundamentales de la herramienta que presentamos
en esta tesis doctoral:
Respecto al nivel léxico, PhraseNET
detecta las unidades fraseológicas
encontradas en textos y las presenta junto
con las frases donde aparecen como
ejemplos auténticos del uso real de la
escritura en lengua española y su
equivalente en portugués.
Respecto a las variaciones en las UFs,
detecta aquellas que aparecen en el
corpus, indicando la evolución e
incorporación de nuevos registros que se
realizan en las UFs. Mediante la detección
de variaciones podemos diseñar patrones
que nos indiquen los cambios que sufre la
lengua.
Se proporciona con esta herramienta un
módulo de filtrado para el área de la
traducción automática, lo que puede
funcionar como un asistente para la
traducción asistida.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
323
Medinate PhraseNET tambien se puede
elaborar una propuesta pedagógica que
ayude a los alumnos a ser conscientes de
los usos idiomáticos de la lengua. Desde
el punto de vista docente, PhraseNET
presenta, entre otros beneficios, el de
obtener de manera rápida y fiable ejemplos
de todo tipo de unidades fraseológicas con
los que ilustrar las explicaciones
lingüísticas y gramaticales en el aula,
sin tener que recurrir a ejemplos no
contrastados o que no sean actuales.
Somo conscientes de que no todas las posibili-
dades de la herramienta se han explotado, por
ello, continuamos con este proyecto, mejorando
la imagen y funciones de la herramienta.
Actualmente hemos variado su interfaz y estamos
trabajando en otros aspectos que nos gustaría
incluir en futuras investigaciones. A
continuación, la figura 42 muestra la interfaz
actual de la herramienta:
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
324
Figura 42. Interfaz de la Herramienta en octubre 2011.
Como se observa, hemos incorporado nuevos
aspectos y una interfaz más interactiva para
ayudar al usuario en la detección de
variaciones. Con estas aportaciones vamos
incorporando otros aspectos que creemos
relevantes para esta herramienta.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
325
10. BIBLIOGRAFÍA
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
326
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
327
Abakumov, S. I. (1936). Устойчивые сочeтaния слов.
Русский яэык в школе, 6.
Afanasiev, A. N. (1850). Narodnye russkie Skazki.
Moscow: Izdvo Nauka.
Alegria, A., Gurrutxaga, P., Lizaso, X., Saralegi,
S., Ugartetxea, S. y Urizar, R. (2003). A Xml-
Based Term Extraction Tool for Basque. Lisboa:
LREC.
Alegria, I., Gurrutxaga, A., Saralegi, X.,
Ugartetxea, S. (2006). ELexBI, A Basic Tool
for Bilingual Term Extraction from Spanish-
Basque Parallel Corpora. 12th EURALEX
International Congress: 159-165.
http://ixa.si.ehu.es/Ixa/ Argital penak/
Artikuluak/1177085533/publikoak/pdf. (Acceso:
10/02/2009).
Alexandrova, O. y Ter-Minasova, S. (1987). English
Syntax (Collocation, Colligation and Discour-
se). Moscú: Universidad de Moscú.
Arnold, I. V. (1973). The English Word. Leksikolo-
gija sovremennogo anglijskogo jazyka. Moscú:
Naukowe.
Ashish, N., Knoblock, C. A. y Levy, A. (1997).
Information Gathering Plans with Sensing
Actions. European Conference on Planning, ECP-
97. Toulouse.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
328
Azorín Poch, F. (1969). Curso de muestreo y
aplicaciones. Madrid: Aguilar.
Baeza-Yates, R. y Ribeiro-Neto, B. (1999). Modern
Information Retrieval. Nueva York: Addison-
Wesley.
Bally, C. (1905). Précis de stylistique. Esquisse
d’une méthode fondée sur l’étude du français
moderne. Genève: Chapitre.
Barz, I. (1992). Phraseologische Varianten: Begriff
und Probleme. En Foldes, C. (ed.) Deutsche
Phraseologie in Sprachsystem und Sprachver-
wendung. Viena: Praesens: 25-47.
Bathe, W. (1617) Ianua linguarum quadrilinguis:
Latine, Anglice, Gallice, & Hispanice Siue
modus maximè accommodatus, quo patefit aditus
ad omnes linguas intelligendas: in qua totius
linguæ vocabula, quæ frequentiora, &
fundamentalia sunt, continentur, nullo
repetito: cum indice vocabulorum. Londres:
Richard.
Ben Amor, T. (2008). Défigement et traduction
intralinguale et interlinguale. Meta, 53, 2:
443-455.
Benson, M. et el. (1986). The BBI combinatory
dictionary of English: A guide to word
combinations. Amsterdam: John Benjamins.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
329
Bikel, D. M., Miller, S., Schwartz, R. y
Weischedel, R. (1997). Nymble: a high
performance learning name-finder. Proceedings
of the Fifth Conference on Applied Natural
Language Processing, ANLP’97. Washington DC:
194–201.
Blank, I. (1998). Computer-aided analysis of
multilingual patent documentation. Proceedings
of First International Conference on Language
Resources and Evaluation (LREC). Granada:
Universidad de Granada: 765-774.
Bödiker, J. (1746) Grundsäze Der Teutschen Sprache
Mit Dessen eigenen und Johann Leonhard
Frischens vollständigen Anmterkungen. Berlin:
Nicolai.
Borkar, V. R., Deshmukh, K. y Sarawagi, S. (2001).
Automatic segmentation of text into structured
records. SIGMOD Conference: 175-186.
Bourigault, D. (1994). LEXTER, un Logiciel
d´Extraction de TERminologie. Application à
l´acquisition de connaissances à partir de
texts. Tesis doctoral inédita. Paris.
Bourigault, D. (1996). Lexter, a Natural Language
Processing Tool for Terminology Extraction.
7th EURALEX International Congress.
Bourigault, D. y Jacquemin, C. (1999). Term
extraction + term clustering: an integrated
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
330
platform for computer-aided terminology.
Proceedings of the 8th Conference of the
European Chapter of the Association for
Computational Linguistics, Bergen: 15-22.
Bréal, M. (1897 [1982]). Essai de sémantique.
Monfort: Brionne.
Bragança Junior, A. F. (2007). Os provérbios
medievais em latim e a apropriação da cultura
laica pelo discurso religioso – algumas
palabras. Revista Mirabilia, 6.
Briscoe, T. (1991). Lexical Issues in Natural
Language Processing. En E. Klein & F. Veltman
(eds.), Natural Language and Speech. Berlin:
Spinger-Verlag: 39-68.
Burger, H. (1973). Idiomatik des Deutschen.
Tubingia: Maz Niemeyer.
Burger, H., Buhofer, A. y Sialm, A. (1982) Handbuch
der Phraseologie. Berlín: Gruyter.
Bürli-Storz, C. (1980). Deliberate Ambiguity in
Advertising. Zürich: Verlag Bern.
Bush, Vannevar (1945). As We May Think. The
Atlantic Monthly.
Califf, M. E. y Mooney, R. (1997). Relational
learning of pattern matching rules for
information extraction. Working Papers of the
ACL-97 Workshop on Natural Language Learning:
9-15.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
331
Califf, M. R. y Mooney, R. J. (2003). Bottom-Up
Relational Learning of Pattern Matching Rules
for Information Extraction. JMLR, 4: 177-210.
Carneado Moré, Z. (1983). Consideraciones sobre la
fraseografía. En Z. Carneado y A. M. Tristá
(eds.). Estudios de fraseología. La Habana:
Academia de Ciencias de Cuba: 39-46.
Carneado Moré, Z. (1985) Notas sobre las variantes
fraseológicas. Anuario L/L, 16: 269-277.
Carter, R. (1987). Vocabulary: Applied Linguistic
Perspectives. Londres: Allen & Unwin.
Carvalho Rios y Xatara (2005). A elaboração de um
dicionário de idiomatismos: da teoria à
prática. Estudos Lingüísticos XXXIV: 165-170.
Casares, J. (1950). Introducción a la lexicografía
moderna. Madrid: C.S.I.C.
Carvalho Rios, T. H. C. y Xatara, C. M. (2005). A
elaboração de um dicionário de idiomatismos:
da teoria à prática. Estudos Lingüísticos, 34:
165-170.
Cats, J. (1632). Spiegel van den ouden en nieuwen
tyt. Graven-Hage: Isaac Burchoorn.
Cermak, F. (1988). On the Substance of Idioms.
Folia lingüística, 22, 3-4: 413-438.
Chomsky, N. (1980). Rules and Representations. New
York: Columbia University Press.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
332
Cohen, W. y Singer, Y. (1996). Context Sensitive
Learning Methods for Text Categorization.
Proceedings of the 19th Annual Inter. ACM
Conference on Research and Development in
Information Retrieval. Nueva York.
Combet, L. (1971). Recherches sur le refranero
castillan. París: Les Belles Lettres.
Conca, M. (1985). Paremiologia i teoria del text.
Tesi de llicenciatura. Universitat de Valèn-
cia.
Connan, J. y Omlin, C. W. (2000). Bibliography
Extraction with Hidden Markov Models.
Technical Report US-CS-TR-00-6. University of
Stellenbosch.
Cordier, Mathurin. (1541) Commentarius puerorum de
quotidiana Sermone. Paris: Exofficina Rob
Stephani typographi Regii.
Corpas Pastor, G. (1995). Un estudio paralelo de
los sistemas fraseológicos del inglés y del
español. (Tesis doctoral inédita). Madrid:
Universidad Complutense de Madrid.
Corpas Pastor, G. (1997). Manual de fraseología
española. Gredos: Madrid.
Corpas Pastor, G. (2001). Compilación de un corpus
ad hoc para la enseñanza de la traducción
inversa especializada. Revista de
Traductología, 5: 155-184.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
333
Corpas Pastor, G. y Mena Martínez, F. (2003).
Aproximación a la variabilidad fraseológica de
las lenguas alemana, inglesa y española.
Estudios Lingüísticos, 17: 181-201.
Coseriu, E. (1981). Lecciones de lingüística
general. Gredos: Madrid.
Coulmas, F. (1979). On the sociolinguistic
relevance of routine formulae. Journal of
Pragmatics, 3: 239–66.
Cowie, J. y Lehnert, W. (1996). Information
Extraction. Communications of the ACM, 39, 1:
80–91.
Cumming, I., Wong, F., y Raney, R. K. (1992). A SAR
processing algorithm with no interpolation.
Proc. of IGARSS’92. Huston: 376–379.
Cussens, J. y Džeroski, S. (Eds.) (2000). Learning
Language in Logic. Berlin: Springer.
Dagan, I. (1994). Termight: Identifying and
Translating Technical Terminology. 4th
Conference on Applied Natural Language
Processing.
Dagan, I. y Church K. (1995). Termight: Identifying
and translating technical terminology. Proc.
7th Conference of the European Chapter of the
association for Computational Linguistics: 34-
40.http://u.cs.biu.ac.il/~dagan /publications/
Termight_A94-1006.pdf (Acceso: 31/05/2010).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
334
Dal, Vladimir. (1862). Poslovitsy russkago naroda
(Proverbs of the Russian People). Sbornik:
Nabu Press.
Deane, P. (2005). A Nonparametric Method for
Extraction of Candidate Phrasal Terms. Procee-
dings of the 43rd Annual Meeting of the ACL:
605–613.
De Lucca, J. L., Nunes, M.G.V. (2002). Uma análise
introdutória de ferramentas para produção de
dicionários em ambiente MS Windows. Relatórios
Técnicos do ICMC-USP, 46 (NILC-TR-02-20).
Dias, H. G., Kaalep, H-J., Muischnek, K. (2001).
Automatic Extraction of Verb Phrases from
Annotated Corpora: A Linguistic Evaluation for
Estonian. ACL 39th Annual Meeting and 10th
Conference of the European Computational
Extraction, Analysis and Exploitation.
Toulouse: Institut de Recherche en
Informatique de Toulouse and Universite des
Sciences Sociales.
Dias, H. G. & Pereira Lopes, J. G. (2005).
Extracção Automática de Unidades Polilexicais
para o Português. En T. Beber Sardinha (ed.) A
Língua Portuguesa no Computador. Lisboa:
Mercado de Letras.
DRAE (Diccionario de la Real Academia Española).
(1985, 1995, 2001). Madrid: Espasa Calpe.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
335
Dobrov, B., Loukachevitch, N., Nevzorova, O.
(2003). An Approach to New Ontologies
Development: Main Ideas and Simulation
Results. International Journal Information
Theories & Applications, 10.
Dobrovol'skij, D. O. (1988). Phraseologie als
Objekt der Universalienlinguistik. Leipzig :
Universidad de Leipzig.
Dobrovol'skij, D. O. (1990). Tipologija idiom.
Veronika N. Telija (ed.) Frazeografija v
Masinnom fonde russkogo jazyka. Moskva :
Nauka: 48-67.
Dobrovol'skij, D. O. (1999). Kontrastive
Phraseologie in Theorie und Wörterbuch.
Baur/Chlosta: Wörter in Bildern.
Duan, J., Lu, R., Wu, W., Hu, Y. y Tian, Y. (2006).
A Bio-inspired Approach for Multi-Word
Expression Extraction. Proceedings of the
COLING/ACL. Sydney.
Dubois, J. (1973). Dictionnaire de linguistique.
Paris: Larousse.
Efimov, A. I. (1954). О яэыке художественных
произведений. Москва.
Eikvil, L. (1999). Information extraction from the
world wide web - a survey. Technical Report
945. Oslo : Norweigan Computing Center.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
336
Fernández Sevilla, R. (1985). Paremiología y
lexicografía. Algunas precisions
terminológicas y conceptuales. Philologica
Hispaniensia, 2: 191-203.
Ferreira, A. B. H. (1999). Dicionário Aurélio
Eletrônico – Século XXI. Rio de Janeiro: Nova
Fronteira.
Fillmore, L. (1979). Individual differences in
second language acquisition. En C. Fillmore,
D. Kempler y W. Wang, (eds.) Individual
Differences in Language Ability and Language
Behaviour. Nueva York: Academic Press.
Flavian, E. y Fernández, G. E. (1994).
Minidicionário Español-Portugués, Portugués-
Espanhol. Sao Paulo: Atica.
Fleischer, W. (1982). Wortbildung der deutschen
Gegenwartssprache. Tübingen: Niemeyer.
Fraser, N. (1970). Idioms within a Transformational
Grammar. Foundations of Languaje, 6: 22-42.
Freitag, D. y McCallum, A. (1999). Information
extraction using HMMs and shrinakge.
Proceedings AAAI-99 Workshop on Machine
Learning for Information Extraction. AAAI
Technical Report WS-99-11.
Freitag, D. y Kushmerick, N. (2000). Boosted
wrapper induction. Proceedings of the American
Nat. Conf. Artificial Intelligence.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
337
Gabelentz, G. von der (1901). Die
Sprachwissenschaft, durchgesehener Nachdruck
der dritten Auflage von 1901. Tubinga : Narr.
Gallego Barnés, A. (1997). Refranes concordados
(bilingües, trilingües, cuadrilingües) en las
obras impresas de los siglos XVI y XVII.
Madrid: Paremia 6.
García, E. (2006). Cosine Similarity and Term
Weight Tutorial. http://www.miislita.com/
information-retrievaltutorial/cosinesimilarity
-tutorial.html (Acceso:27/04/2009).
García, E. (2008). A Linear Algebra Approach to the
Vector Space Model A Fast Track Tutorial.
http://www.miislita.com/information-retrieval-
tutorial/term-vector-linear-algebra.pdf
(Acceso: 27/04/2009).
García Benito, A. B. (1997). Expresiones
Idiomáticas: el Ploblema de las variantes.
Interlingüística, 6.
García-Page, M. (1989). Sobre los procesos de
deslexicalización en las expresiones fijas.
E.A., 52: 59-81.
García-Page, M. (2008). Introducción a la
fraseología Española. Barcelona: Anthropos.
Gatzauskas, R. & Wilks, Y. (1998). Information
Extraction: Beyond document retrieval. Journal
of Documentation, 54, 1: 70-105.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
338
Geor, H. (1616) Teütsche Sprach und Weissheit.
Ausburg: Thesaurus Linguae et Sapientiae
Germanicae.
Glässer, R. (1984). Terminological Problems in
Linguistics, with Special Refrence to
Neologisms. En R. R. K. Hartmann (ed).
LEXeter´83 Proceedings. LEXICOGRAPHICA series
Maior 1: 345-351.
Glickman, O. y Jones, R. (1999). Examining Machine
Learning for Adaptable End-to-End Information
Extraction Systems. AAAI-99. Workshop on
Machine Learning for Information Extraction.
USA.
Goldberg, A. (1995). Constructions, a Construction
Grammar Approach to Argument Structure.
Chicago-London: The University of Chicago
Press.
González Grueso, F. D. (2006). Las colocaciones en
la enseñanza del español de los negocios.
MarcoELE, Revista de didáctica ELE, 2.
Grant, L. E. (2003). A Corpus-based investigation
of Idiomatic of Multiword. http://research
archive.vuw.ac.nz/bitstream/handle/10063
/327/thesis.pdf. (Acceso: 12/01/2008).
Grassegger, H. (1989). Redensarten in der
Fernsehwerbung. En G. Gréciano (ed.).
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
339
Europhras 88. Estrasburgo: Phraséologie
contrastive: 141-154.
Greaves, C. y Warren, M. (2007). Concgramming: A
computer driven approach to learning the
phraseology of English. ReCALL, 19: 287-306.
Gross, G. (1996). Les expressions figées en
français. Paris : Ophrys.
Guilbert, L. (1975). La créativité lexicale.
Paris : Larousse.
Haensch, G. et al. (1982). La Lexicografía. De la
lingüística teórica a la lexicografía
práctica. Madrid: Gredos.
Hobbs, J. R., Appelt, D. E., Bear, J., Israel, D.,
Kameyama, M., Stickel, M. y Tyson, M. (1997).
FASTUS: a cascaded finite-state transducer for
extracting Information from Natural-Language
Text. En E. Roche and Y. Schabes, (eds.)
Finite State Devices for Natural Language
Processing, Cambridge: MIT Press: 383-406.
Hockett, C. (1958). A course in modern linguistics.
Nueva York: Macmillan.
Houaiss, A. (2001). Dicionário Houaiss da língua
portuguesa. Rio de Janeiro: Objetiva.
Hund, C. (1993). Expressões idiomática: estáveis e
variávies. Actas del IV Congresso da
Associação Internacional de Lusitanistas.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
340
Lisboa: Instituto Camões/Fundação Calouste
Gulbenkian: 157-166.
Hutchins, W. J. y Somers H. L. (1992). An
Introduction to Machine Translation. Nueva
York: Academic Press.
Iliná, N. (2001). Literatura comparada Enseñanza de
lenguas. http://hispanismo.cervantes.es/
documentos/Ilina.pdf. (Acceso: 10/03/2009).
Insa Alba, J. R. (2006). Crespillos de borraja y
otras delicias. http://www.hotelselbadansils
.com/ spip.php?article11 (Acceso: 20/11/2008).
Iñesta, E.M. & Pamies B. A. (2002). Fraseología y
metáfora: aspectos tipológicos y cognitivos.
Granada: Método.
Iribarren, J. M. (1974). El porqué de los dichos:
Sentido, origen y anécdota de los dichos,
modismos y frases proverbiales de España, con
otras muchas curiosidades. Madrid: Aguilar.
Isachenko, A. V. (1948). Morphologie, syntaxe et
phraséologie. Cahiers Ferdinand de Saussure,
7: 17-32.
Jaccard, P. (1900). Contribution au problame de
l’immigration post-glaciaire de la flore
alpine. Bulletin Societas Vaudoise Sci. Nat.,
36: 87-130.
Jakobson, R. (1921). Novejsaja russkaja poezija
/Neueste russische Dichtung. W.-D. Stempel
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
341
(ed.). Texte der russischen Formalisten, II,
Múnich: 18-135
Junker, M., Sintek, M. y Rinck, M. (1999). Learning
for Text Categorization and Information
Extraction with ILP. Workshop on Learning
Language in Logic, Bled, Slovenia.
Jurafsky, D. y Martin, J. H. (2000). Speech and
Language Processing: An Introduction to
Natural Language Processing. Computational
Linguistics, and Speech Recognition.
Http://www-npl.cs.umass.edu/nlgroup/nlpie.html
(Acceso: 15/04/2009)
Karcevski, S. (1923). Etudes sur le système verbal
du russe comtemporain. Slavia.
Kim y Moldovan, D. (1995). Acquisition of
linguistic patterns for knowledge-based
information extraction. IEEE Transactions on
KDE, 7, 5: 713-724.
Kaspars Stieler (1691). Der teutschen Sprache
Stammbaum und Fortwachs oder Teutscher
Sprachschatz. Nürnberg.
Koller, W. (1977). Redensarten: linguistische-
Aspecte, Vorkommensanalysen. Sprachspiel.
Tübingen: Niemeyer.
Kótova, M., Ruiz Nogueira, E. L. (1998). Madera X
Ferro. En X. Ferro Ruibal (coord.) Actas do I
Coloquio Galego de Fraseoloxía. Santiago de
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
342
Compostela: Centro Ramón Piñeiro para a
Investigación en Humanidades: 313-325.
Kubarth, H. (1998). Elaboración de un diccionario
fraseológico del español hablado moderno. En
G. Wotjak (ed.): 323-341.
Lesk, M. E. (1964). The SMART automatic text
processing and document retrieval system.
Report ISR-8, sec II. Cambridge: Harvard
Computation Laboratory.
Levenstein, A. (1966). Binary codes capable of
correcting deletions, insertions and
reversals. Moscú: Soviet Physics-Doklandy.
Lewicki, A. M. (1976). Wprowadzenie do frazeologii
syntaktycznej. Teoria zwrotu frazeologicznego.
Katowice: Uniwersytet Slaski.
Lewis, D. Schapire, R. E., Callan, J.P. y Papka, P.
(1996). Training Algorithms for Linear Text
Classiers. Proceedings of the 19th
International Conference on Research and
Development in Information Retrieval, SIGIR:
298-306.
Lipka, L. (1983). A multi-level Approach to Word-
Formation: Complex Lexemes and Word Semantics.
Proceedings of the XIIIth International
Congress of Linguists: 926-928.
Lesk, M. E. (1964). The SMART automatic text
processing and document retrieval system.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
343
Report ISR-8, sec. II. Cambridge: Harvard
Computation Laboratory.
Levenstein, V. I. (1966). Binary codes capable of
correcting deletions, insertions, and
reversals. Soviet Physics Doklady 10: 707–710.
Lewis, D., Schapire, R. E., Callan, J. P. y Papka,
P. (1996). Training Algorithms for Linear Text
Classiers. En Proceedings of the 19th
International Conference on Research and
Development in Information Retrieval, SIGIR:
298-306.
Lipka, L. (1983). A multi-Level Approach to Word-
Formation: Complex Lexemes and Word Semantics.
En S. Hattori y K. Inoue (eds). Proceedings of
the XIIIth International Congress of
Linguistics: 926-928.
Lopes, A. A. y Brazdil, P. (1998). Redundant
Covering with Global Evaluation in the RC1
Inductive Learner. SBIA: 111-120.
López Roig, C. (2002). Aspectos de fraseología
contrastiva (alemán-español) en el sistema y
en el texto. Frankfurt am Main: Peter Lang.
Luján, N. (1993). Cuento de cuentos: origen y
aventura de ciertas palabras y frases
proverbiales. Barcelona: Círculo de Lectores.
Lyons, J. (1977). Semantics 1. Cambridge: Cambridge
University Press.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
344
Magisero, H. (1605). Paroemiologia polyglottos.
Leipzig.
Makkai, A. (1965). Idiom Structure in English. The
Hague/Paris: Mouton.
Martínez Marín, J. (1996). Estudios de fraseología
española. Málaga: Librería Agora.
Martínez Méndez, F. J. y Rodríguez Muñoz, J. V.
(2004). Reflexiones sobre la evolución de los
sistemas de recuperación de información:
necesidad, utilidad y viabilidad.
http://revistas.um.es/analesdoc/article/view/1
651/1701. (Acceso:25/01/2008).
Mazon, A. (1920). Lexique de la guerre et de la
Révolution en Russie (1914-1918). Paris:
Champion.
Medrano Herrero, P. (2000). Refranes y Frases
Proverbiales en un místico manchego: San Juan
Bautista de la Concepción. Actas del Congreso
Trinitario Internacional San Juan Bautista de
la Concepción: su figura y su obra (1561-
1613): 407-476. http://bc.inter.edu/facultad/
pmedrano/Articulos/Refranes.rtf. (Acceso: 11/
01/2009).
Mel’čuk, I. A. (1963). Several types of linguistic
meanings. O. S. Akhmanova et al. (Eds.) Exact
Methods in Linguistic Research. Berkeley–Los
Angeles: Univ. of California Press: 36–43.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
345
Mel’čuk, I. (1998). Collocations and Lexical
Functions. En A. P. Cowie (Ed.), Phraseology.
Theory, Analysis, and Applications. Oxford:
Oxford University Press: 23-53.
Mena Martínez, F. M. (2003). En torno al concepto
de desautomatización fraseológica: aspectos
básicos. Tonos. Revista electrónica de
estudios filológicos, 5.
Mendivil, J. L. (1999). Las palabras disgregadas.
Sintaxis de las expresiones idiomáticas y los
predicados complejos. Zaragoza: Prensas
Universitarias de Zaragoza.
Meurier, G. (1568). Recueil de sentences notables,
dicts et dictions comuns ne (sic) adages,
proverbes & refrans, traduits la plus part de
Latin, Italien & Espagnol, & reduit selon
l´ordre alphabetique. Anvers: Jean Waesberghe.
Mieder, W. (1997). The politics of proverbs: From
traditional wisdom to proverbial stereotypes.
Madison: University of Wisconsin Press.
Mokienko, V. (2000). Fraseoloxía eslava. Santiago
de Compostela: Centro Ramón Piñeiro para a
Investigación en Humanidades.
Moliner, M. (1996). Diccionario de uso del español.
Gredos: Madrid.
Montero Martínez, S., García de Quesada, M. y
Fuertes-Olivera, P. (2002). Terminological
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
346
phrasemes in OntoTerm®: A new theoretical and
practical approach. Terminology, 8, 2: 177–
206.
Montoro del Arco, E. T. (2003). La fraseología en
la gramática española del siglo XX antes de
Casares. Actas del IV Congreso Internacional
de la Sociedad Española de Historiografía
Linguistica.
Montoro Del Arco, E. T. (2005). Aproximación a la
historia del pensamiento fraseológico español:
las locuciones con valor gramatical y su norma
culta. Tesis doctoral inédita. Depto. de
Lengua española, Universidad de Granada.
http://hera.ugr.es/tesisugr/15476893.pdf.
(Acesso: 10/01/2008).
Montoro Del Arco, E. T. (2006). Teoría fraseológica
de las locuciones particulares. Las locuciones
prepositivas, conjuntivas y marcadoras en
español. Frankfurt am Main: Peter Lang.
Moon, R. (1998). Fixed Expressions and Idioms in
English: a corpus-based approach. Oxford:
Clarendon Press.
Morvay, K. (1996). Aspectos lexicográficos y
didácticos de la paremiotogía y fraseología.
Actas del 1er Congreso Internacional de
Paremiología: 423-432.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
347
Mouzinho Ferraro, R. G. (2000). Análisis
contrastivo español/portugués de unidades
fraseológicas. Tesis doctoral inédita.
Universidad de Cádiz.
Muggleton, S. y Feng, C. (1992). Efficient
induction of logic programs. En S. Muggleton
(ed.), Inductive Logic Programming. Londres:
Academic Press.
Muggleton, S. (1995). Inverse entailment and
PROGOL. New Gen. Comput., 13: 245–286.
Navarro, Carmen (2005). La fraseología en los
diccionarios bilingües español/italiano.
Aisipi: Actas XXIII.
Nunberg, G., Sag I. A. y Wasow, T. (1994). Idioms.
Language, 70: 491–538.
Nunes, Z. C. y Nunes, R. C. (1982). Dicionário de
regionalismos do Rio Grande do Sul. Lisboa:
Martins Livreiro.
Orliac, B. y Dillinger, M. (2003). Collocation
extraction for machine translation. Nueva
Orleans: MT Summit IX: 292-298.
Orliac, B. (2008). Extracting specialized
collocations using lexical functions. En S.
Granger y F. Meunier. Phraseology: An
interdisciplinary perspective. Amsterdam: John
Benjamins.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
348
Ortega Cavero, D. (1975). Diccionario Portugués-
Español. Espanhol-Português. Barcelona: Ramon
Sopena.
Ortíz Alvarez, M. L. (2000). Expressões Idiomáticas
do Português do Brasil e do Espanhol de Cuba:
Estudo Contrastivo e Implicações para o Ensino
de Português como Língua Estrangeira. Tesis
doctoral inédita. UNICAMP.
Otto Jespersen (1924). The Philosophy of Grammar.
Nueva York: Holt.
Paczolay, G. (1998). European Proverbs. Berlin:
Eismann: 605-618.
Pape, W. (1985). Zwischen Spraschpiel und
Sprachkritik. Zum literarischen Spiel mit der
wörtlichen Bedeutung von Idiomen. Sprache und
Literatur in Wissenschaft und Unterricht, 56:
2-13.
Paul, H. (1880). Prinzipien der Sprachgeschichte.
Halle: Niemeyer.
Pedicone de Parellada, E. (2004). El refranero
hispánico. Pervivencia y circulación en la
prensa gráfica, hoy. Tucuman: Fac. Filosofía y
Letras.
Penadés Martínez, I. (1999). La enseñanza de las
unidades fraseológicas. Cuadernos de didáctica
del español/LE. Madrid: Edinumen.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
349
Penadés Martínez, I. (2005). Diccionario de
locuciones adverbiales para la enseñanza del
español. Madrid: Arco/Libros.
Polivanov, E. D. (1927). Specifičeskie osobennosti
poslednego desjatiletija 1917–1927 v istorii
nashej lingvističeskoi mysli (vmesto
predislovija). En E. Polivanov (Ed.), Statii
po obščemu jazykoznaniju. Izbrannye raboty:
51–56.
Polivanov, E. D. (1931). La perception des sons
d'une langue étrangère. Travaux du Cercle
Linguistique de Prague 4. Paris : Le Cercle de
Prague: 111-14.
Pöppel, L. (2007). The Rhetoric of Pravda
editorials. Acta Universitatis Stockholmi-
ensis. Stockholm Slavic Studies 33.
Profantová, Z. (1998). Proverbial Tradition as
Cultural-Historical and Social Phenomenon. En:
Peter Dæ určo (ed.), Europhras’97. Phraseology
and Paremiology. Bratislava: Akadémia PZ: 302–
307.
Qin, H. (1996). A review of clustering algorithms
as applied in IR. UIUCLIS. Champaign:
University of Illinois at Urbana-Champaign.
Rajman, M., Besançon, E. (1997). Natural Language
Techniques for Text Mining Applications. DS-7.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
350
Rigsbergen, C. J. van (1979). Information
Retrieval. Londres: Butterworths.
Riloff, E. (1993). Automatically Constructing a
Dictionary for Information Extraction Tasks.
Proceedings of the Eleventh National
Conference on Artificial Intelligence: 811–
816.
Riloff, E. (1996). Automatically Generating
Extraction Patterns from Untagged Text.
Proceedings of the Thirteenth National
Conference on Artificial Intelligence (AAAI-
96: 1044-1049.
Ruiz Gurillo, L. (1997). Aspectos de fraseología
teórica española. Cuadernos de Filología,
XXIV, València: Universitat de València.
Ruiz Gurillo, L. (1998). La fraseología del español
coloquial. Barcelona: Ariel.
Ruiz Gurillo, L. (1999). Un enfoque didáctico de la
fraseología española para extranjeros. En M.
J. Coperías y J. Sanmartín (coord.). Quaderns
de Filologia. http://www.ucm.es/info/ especulo
/ele/fraseolo.html (Acceso 11/01/2009).
Salton, G. (1964). Flexible automatic system for
the organization, storage, and retrieval of
language data (SMART). Report ISR-5, sec. 1.
Massachusetts: Harvard Computation Laboratory.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
351
Salton, G. (1968). Search and retrieval experiments
in real-time information retrieval. IFIP
Congress: 1082-1093.
Salton, G. (1971). The SMART retrieval system.
Experiments in automatic document processing.
Englewood Cliffs, Prentice Hall: New Jersey.
Salton, G. (1980). Automatic term class
construction using relevance. A summary of
work in automatic pseudoclassification. Inf.
Process. Manage. 16 (1): 1-15.
Salton, G. y McGill, M. J. (1983). Introduction to
Modern Information Retrieval. Nueva York: Mc
Graw-Hill Computer Series.
Sánchez Corral, J. (1990). Análisis del discurso
publicitario. Tesis doctoral inédita.
Universidad de Málaga.
Sancho Cremades, P. (1999). Análisis contrastivo de
la fraseología: la expresión del rechazo del
discurso precio en catalán y español. En J.
Fernández Fonzález, et al. (eds.). Lingüística
para el siglo XXI, Salamanca: Ediciones
Universidad: 1455-1482.
Sattler, H. R. (1607). Teutsche Orthographey und
Phraseologey. Basel: Olms.
Schulze-Busacker, E. (1997). La place du proverbe
dans la mentalité médiévale. Paremia, 6: 565-
576.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
352
Saussure, F. (1916). Cours de linguistique
générale. París: Payot.
Seco, M., Andrés, O. y Ramos, G. (1999).
Diccionario del Espanol actual. Madrid:
Aguilar.
Seco, M., Andrés, O. y Ramos, G. (2005).
Diccionario fraseológico documentado del
español actual. Locuciones y modismos
españoles. Madrid: Aguilar.
Selishchev, A. (1928). Iazyk revoliutsionnoi
epokhi. Iz nabliudenii nad russkim iazykom
poslednikh let (1917-1926). Moscú: Rabotnik
prosvesheniia.
Serey Leiva, M. J. (2000). Lexicologia e
lexicografia: a questão das expressões
idiomáticas em espanhol - variante chilena.
Tesis doctoral inédita. Universidade de Sao
Paulo.
Sevilla Muñoz, J. (1992). Fuentes paremiológicas
francesas y españolas en el siglo XVI. Revista
de Filología Románica, 9: 103-123.
Sevilla Muñoz, J. (1993). Paremias españolas:
Clasificación, Definición y correspondencia
francesa. Paremia, 2: 15-20.
Sevilla Muñoz, J. (1994). Fuentes paremiológicas
francesas y españolas en el siglo XVIII.
Revista de Filología Francesa, 5: 299-311.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
353
Sevilla Muñoz, J. (2000). Pour une saisie
plurilingue des proverbes à partir de la
langue espagnole. En G. Gréciano (ed.), Micro-
et macrolexèmes et leur figement discursif.
Actes du colloque internacional Langue-
Discourse-Cognition : 77-90.
Sevilla Muñoz, J (2002). El refrán: síntesis de
experiencia. Salamanca: Centro de Cultura
Tradicional. Diputación de Salamanca.
Sevilla Muñoz, J. y Cantera, O. U. (2002). Pocas
palabras bastan. Vida e interculturalidad del
refrán. Salamanca: Centro de Cultura
Tradicional.
Seymore, K., McCallum, A. y Rosenfeld, R. (1999).
Learning hidden markov model structure for
information extraction. En Proceedings of the
AAAI’99 Workshop on Machine Learning for
Information Extraction.
Sinclair, J. (1991). Corpus, Concordance,
Collocation. Oxford: Oxford University Press.
Sinclair, J. y Moon, R. (1995). Collins COBUILD
Dictionary of Idioms. Londres: Harper Collins
Publishers.
Soderland, S., Fisher, D., Aseltine, J. y Lehnert,
W. (1995). Crystal: Inducing a Conceptual
Dictionary. Proceedings of the
14thInternational Joint Conference on
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
354
Artificial Intelligence (IJCAI-1995): 1314-
1319.
Soderland, S. (1999). Learning information extrac-
tion rules for semi-structured and free text.
Machine Learning, 34: 233-272.
Sosiński, M. (2006). Fraseología comparada del
polaco y del español: su tratamiento en los
diccionarios bilingües. Tesis doctoral
inédita. Universidad de Granada.
Soto de Matulovich, E. (2008). Unidades
fraseológicas en la prensa escrita de Salta.
Actas del 10º Congreso REDCOM “Conectados,
Hipersegmentados y Desinformados en la Era de
la Globalización. http://www.ucasal.net/
novedades/archivos/redcom-ponencia/Eje5/Mesa5-
6/Soto-E.pdf (Acceso: 11/01/2009).
Sundheim, B. (1992). Overview of the Fourth Message
Understanding Evaluation and Conference. En
Proceedings of the Fourth Message
Understanding Conference (MUC-4), San Mateo:
Morgan Kaufmann: 3–21.
Sypnicki, J. (1991). Quelques remarques sur le
modifications comiques des structures
lexicales et phraséologiques. Studi italiani
di linguistica teorica ed applicata, 1: 151-
163.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
355
Takasu, A. (2003). Bibliographic attribute
extraction from erroneous references based on
a statistical model. JCDL ’03: Proceedings of
the 3rd ACM/IEEE-CS joint conference on
Digital libraries.
Thun, H. (1978). Probleme der Phraseologie.
Tübingen: Niemeyer.
Thurmair, G. (2003). Making Term Extraction Tools
Usable. Proceedings EAMT-CLAW.
Tristá Pérez, A. M. (1976). La fraseología como
disciplina lingüística. Anuario. L/L, 7-8:
155-161.
Tristá Pérez, A. M. (1988). Fraseología y contexto.
Habana: Editorial de Ciencias Sociales.
Tristá Pérez, A. M. (1998). La fraseología y la
fraseografía. En G. Wotjak (ed.), Estudios de
fraseología y fraseografía del español actual:
297-305.
Uspenskii, L. (1931). Russkii iazk posle
revoliutsii. Slavia, 10, 2: 252-87.
Vinogradov, V. V. (1938 [1947]). Ocerki po istorii
russkogo literaturnogo jazyka XVIII-XIX vekov.
Moskva: Ucpedgiz.
Vinokur, G. O. (1925). Kul'tura jazyka. Ocherki
lingvisticheskoj texnologii. Moscú: Rabotnik
prosveschenija.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
356
Weinrich, U. (1969). Problems in the Analysis of
Idioms. En J. Puhvel (ed.), Structure and
Substance of Language. Los Angeles: University
of California Press: 23-81.
Weisstein, E. W. (2009). L2-Norm. En MathWorld--A
Wolfram Web Resource. http://mathworld.
wolfram.com/ L2-Norm.html (Acceso 27/04/2009).
Widom, J. (1995). Research Problems in Data
Warehousing. Proceedings of the 4th
International Conference on Information and
Knowledge Management.
Wissemann, H. (1961). Das Wortgruppenlexem und
seine léxicographische Erfassung. En XVI int.
Kongre/9 für Psychologie: 225-258.
Wotjak, G. (1983). En torno a la traducción de
unidades fraseológicas (con ejemplos tomados
del español y el alemán). Linguistische
Arbeitsberichte, 40: 56-80.
Wotjak, G. (1988). Uso y abuso de unidades
fraseológicas. En Homenaje a A. Zamora
Vicente. Historia de la lengua. El español
contemporáneo. Madrid: Editorial Castalia:
535-548.
Wotjak, G. (1991). Kommunikatives Wissen in
interlingualer und inter-kulturellerSicht.
Zeitschrift für Phonetik, Sprachwissenschaft
undKommunikationsforschung, 44, 1: 111-125.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
357
Wotjak B. (1992). Verbale Phraseolexeme in System
und Text. Tübingen: Max Niemeyer.
Yolis, E. (2003). Algoritmos genéticos aplicados a
la categorización automática de documentos.
Tesis doctoral. Universidad de Buenos Aires.
www.fi.uba.ar/laboratorios/lsi/yolistesisingen
ieriainformatica.pdf (Acceso: 27/04/2009).
Zamora Muñoz, P. (2000). Desautomatización y
traducción de expresiones fijas italianas en
español. Cahier du P.R.O.H.E.M.I.O, III: 425-
440.
Zareba, L. (1976). Zu la méthode d'élaboration des
dictionnaires phraseologiques. Terminologies
76: Colloque international. Paris : Maison du
dictionnaire: 1125-1135.
Zelle, J. M. y Mooney, R. J. (1994). Combining top-
down and bottom-up methods in inductive logic
programming. Proceedings of the Eleventh
International Conference on Machine Learning :
343-351.
Zuluaga, A. (1975). La fijación fraseológica.
Thesaurus, Boletín del Instituto Caro y
Cuervo, XXX, 2: 225-248.
Zuluaga, A. (1980). Introducción al estudio de las
expresiones fijas. Frankfurt am Main: Peter D.
Lang.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
358
Zuluaga, A. (1997). Sobre las funciones de unidades
fraseológicas en textos literarios. Paremia,
6: 631-640.
Zuluaga, A. (1998). Sobre fraseoloxismos e
fenómenos colindantes. En Actas do I Colóquio
Galego de Fraseología. Santiago de Compostela:
Xunta de Galicia: 15-29.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
359
ANEJO I
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
360
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
361
ANEJO I. MUESTRAS DEL ANÁLISIS REALIZADO MEDIANTE PHRASENET. CORPUS ESPAÑOL/PORTUGUÉS CON EQUIVALENCIAS DEL LENGUAJE. fileid Spanish Portuguese PUs Contents filesource 221005 a buen
paso a buen
paso En el balcón no quedaba nadie; don Fermín salió del portal, arrimado a la pared, y se alejó a buen paso.
[LACn,E,1,300]
211720 a cada rato
A toda hora
a cada rato
El niño Humberto era malo y pegaba pronto, a cada rato. En la calle. En el corredor también. Y en la escalera. Y también en la cocina, delante su mamá y delante la patrona.
[Cvjo,P,2,46]
15252 a causa de
por causa de
a causa de
En un principio, quizás a causa de dolores de parto, el capitalismo fue humanizado por la democracia promulgando normas para hacerlo más tolerable y evitar el renacer de la esclavitud.
[Esez,V,1,c23:XVIII]
22307 a causa de
por causa de
a causa de
"La lesión quedó atrás y la única
[Enal,Ccs,62,B:D|2]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
362
preocupación es su brazo, a causa de la inactividad", dijo el piloto de los Orioles, Mike Hargrove... Hay 11 nipones en el spring training
16494 a eso de
por volta de
a eso de
La bulliciosa caravana llegó a sus puertas a eso de las 9:00 pm y con la entrada de los novios, la animación no hizo más que plantar banderas en cada palmo del de la sala para hacer saber que aquello era coto de su propiedad.
[Enal,Ccs,60,B|:10]
13682 a la cabeza
À frente no comando
a la cabeza
Durante dos años, nadie decidió con firmeza a la cabeza del Estado.
[Mgna,A,1,O:25]
217960 a la cabeza
À frente no comando
a la cabeza
Por fin Trabuco, dispuesto a jugar el todo por el todo, se puso de pie en medio de la sala y cogió bruscamente el diccionario
[LACn,E,1,129]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
363
de manos de Orgaz, que creyó que iba a arrojárselo a la cabeza.
91140 a la cabeza
À frente no comando
a la cabeza
Asturias, «a la cabeza de España» en la puesta en marcha de programas de desarrollo rural
[DECD,E,141,L:As]
202892 a la medida
sob medida a la medida
Un resort a la medida Desde el año 1992, Allegro adelanta estrategias para consolidar sus propiedades, especialmente en el área del Caribe.
[Enal,Ccs,10,F|T:3]
188557 a la par
ao mesmo tempo; ao mesmo nível
a la par
La mujer trabajó a la par de los hombres.
[JLBs,A,3,50]
9447 a la puerta
muito próximo
a la puerta
En aquel momento sonaron dos fuertes y ejecutivos golpes aplicados a la puerta grande del molino.
[PAAn,E,1,XV:66]
10116 a la puerta
muito próximo
a la puerta
Juan López en su mula, y los dos Alguaciles andando, llegaron a la puerta del Corregimiento.
[PAAn,E,1,XXVIII:107]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
364
19358 a la puerta
muito próximo
a la puerta
En esto se oyeron dos golpes recios a la puerta de la habitación, y la voz de Luisa que decía: - ¡Que nos vamos!...
[JMDP,E,2,130]
105359 a la puerta
muito próximo
a la puerta
Ella aprovechó que Gerard estaba en el extremo de la sala para irse acercando a la puerta.
[HLZa,M,1,puerto]
223253 a la puerta
muito próximo
a la puerta
Por fin, una mulata decrépita asomó a la puerta de la cocina, enjugándose las manos con el ruedo de las enaguas.
[JERa,Co,1,26]
233844 a la que
a la que
Ahora bien, la unión es difícil de sostener en la actualidad por la imprescindible especialización a la que el matemático ha de acogerse si quiere no ya crear algo original, sino dominar la parcela a la que se dedica.
[Jlzo,E,1,28]
1840 a la ao mesmo a la La búsqueda [RDSs,A,1,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
365
vez tempo vez del método drástico y eficaz a la vez para reparar el sistema dañado se convirtió así en un desafío, pero cuyas respuestas inmovilizaron o, por lo menos, condicionaron, el accionar de las élites.
V]
1978 a la vez
ao mesmo tempo
a la vez
Sintiéndose sin ganas de comer, ni menos de conversar con nadie, tendió su recado entre dos cortaderas altas que le brindaron a la vez colchón blando y confortable reparo, y envolviéndose en la manta se acostó.
[Gdux,A,2,p0000001.htm#5]
2116 a la vez
ao mesmo tempo
a la vez
Las doscientas hectáreas habían cambiado de aspecto; no quedaba más rastro de lo que eran antes que una gran mata de
[Gdux,A,2,p0000001.htm#7]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
366
paja cortadera con sus hermosos penachos plateados, dejada adrede como recuerdo a la vez y adorno.
139122 a la vez
ao mesmo tempo
a la vez
Fallece la mujer más anciana del mundo con 137 años El humorista `Quino' publica una nueva antología sin Mafalda2.600 personas botan balones a la vez en BadalonaKusturica y su banda arman una fiesta «loca» en ChileLos `elefantes asesinos' de Vietnam ser
[ENDC,E,18,Val]
190584 a la vez
ao mesmo tempo
a la vez
No lo olvida nunca, y escogió tan bien, que por el marido que adora en secreto mi cruz y mi enseña le he dado a la vez.
[Emna,E,1,358]
192047 a la vez
ao mesmo tempo
a la vez
«¡No quería dejarme ir!», dijo Pablo, sin aliento y a la vez encantado con
[Jeds,Ch,1,22]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
367
la conversación presidencial.
199136 a la vez
ao mesmo tempo
a la vez
Eso provocará que nosotros podamos influir más y que a la vez seamos más influenciados por lo que está sucediendo en el mundo.
[Enal,Ccs,21,B|F:8]
211625 a la vez
ao mesmo tempo
a la vez
Paco estaba también atolondrado porque en el campo no oyó nunca sonar tantas voces de personas a la vez.
[Cvjo,P,2,40]
30691 a largo plazo
a longo prazo
a largo plazo
Hay hechos que no cambian, apuntó, como los que se derivan de la condición de frontera entre la región y Estados Unidos, y aseguran a largo plazo un lugar relevante en la agenda norteamericana.
[Enal,Ccs,63,A:I|7]
53578 a largo plazo
a longo prazo
a largo plazo
Valor a buen precio y a largo plazo
[ENDC,E,31,D&N]
57334 a largo plazo
a longo prazo
a largo plazo
Nokia, una apuesta a largo plazo
[ENDC,E,51,D&N]
16727 a las muito a las Ángel Arias [Enal,Ccs,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
368
puertas próximo, muito perto
puertas
recalcó que los tomistas no participaron en los hechos violentos, porque a esa misma hora estaban frente a las puertas del Jardín Botánico.
60,C|Inf:2]
56485 a las puertas
muito próximo, muito perto
a las puertas
Los guerrilleros antitalibán detienen su fulgurante avance a las puertas de Kabul
[ENDC,E,47,I]
130070 a las puertas
muito próximo, muito perto
a las puertas
La alcaldesa y una concejala de su grupo se enzarzan en una pelea a las puertas del Ayuntamiento
[ENDC,E,109,Pal]
69133 a lo grande
em grande estilo
a lo grande
Semana a lo grande tribuna asturiana Alberto Piquero
[DECD,E,25,O]
34331 a lo mejor
talvez a lo mejor
Estamos comprando petróleo a terceros, desarrollando o manteniendo la producción de otros países, que a lo mejor forman parte de la OPEP, para mantener
[Enal,Ccs,63,A:I|9]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
369
mercados que son nuestros.
98886 a lo mejor
talvez A lo mejor
- A lo mejor sí y a lo mejor no.
[Fazi,A,4]
100223 a lo mejor
talvez A lo mejor
A lo mejor en ese gesto estabas descubriendo tu propia historia, y tratabas de comprender lo que vendría después.
[Fazi,A,5,Laura]
100244 a lo mejor
talvez a lo mejor
Pero a lo mejor las podías mostrar.
[Fazi,A,5,Laura]
212410 a lo mejor
talvez A lo mejor
- A mí me clijieron que por ai por Isla_Verde tan orbanisando y han sacao un montón de negros arrimaos. A lo mejor son desos.
[JLGz,SD,1,122]
23454 a lo sumo
no máximo; quando muito
a lo sumo
Oswaldo Cancino mostró la cara oculta del chavismo cuando afirmó: "El hombre que ajusta sus actos a la ley podrá ser a lo sumo un animal domesticado, pero no un revolucionario.
[Enal,Ccs,62,D:P|2]
26202 a lo no máximo; a lo Lo hacía todo [Dmos,A,1,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
370
sumo quando muito
sumo él mismo, desde el principio hasta el fin, dejando a lo sumo ciertas operaciones secundarias en manos de algún aprendiz pero manteniendo siempre un control absoluto sobre la totalidad del proceso.
Capitulo08]
218819 a lo sumo
no máximo; quando muito
A lo sumo
A lo sumo concedían que comería cañamones.
[LACn,E,1,172]
103268 a manera de
a título de
a manera de
Era de este grado y por eso se trasquilaba el pelo a manera de otomíes.
[MLPa,M,1,cap11]
125646 a manera de
a título de
a manera de
Las serpientes estornudaban azufre, eran interminables intestinos subterráneos que salían a flor de tierra a manera de fauces abiertas.
[MAAs,G,2,ast12]
31519 a más no poder
até não poder mais; até dizer chega
a más no poder
La fiesta quedó estupenda, los anfitriones, felices a más no poder,
[Enal,Ccs,63,B:Soc|14]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
371
desplegaron las mil y una atenciones de manera que todo quedara "de mil maravillas", como en efecto fue.
195444 a más tardar
no mais tardar
a más tardar
Según estimaron los directivos del grupo, a más tardar para agosto estarían comenzando los cursos de carpintería, herrería, panadería y costura de ropa.
[Lrca,Mvd,2,S:20]
12483 a partir de
a partir de
a partir de
Pero como todas las leyes de su tipo, establecía que solamente se titulaba hasta una fecha y a partir de allí estaban prohibidas las invasiones.
[Enal,CCs,61,E:E|2]
35370 a partir de
a partir de
a partir de
La Dirección Nacional de la Vertiente Artiguista se reunirá hoy a partir de la hora 10 en la sede del Club Húngaro (Garibaldi 2631).
[Lrca,Mvd,5,P:6]
74131 a a partir a El autobús [DECD,E,51
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
372
partir de
de partir de
recogerá a partir de hoy a los alumnos de La Piñera
,L:Or]
79829 a partir de
a partir de
a partir de
Corvera: Enrique Bueno y el aparejador municipal dirimen sus diferencias a partir de hoy en el juzgado de Las Vegas
[DECD,E,80,L:Av]
91934 a partir de
a partir de
a partir de
El pueblo de Asiegu podría disponer a partir de este verano de un aula sobre el picu Urriellu
[DECD,E,145,L:Or]
132395 a partir de
a partir de
a partir de
«Me niego a hacer retratos a partir de fotografías»
[ENDC,E,124,Pal]
192314 a partir de
a partir de
a partir de
A veces se denomina censo muestral a una muestra a partir de la cual quieren obtenerse resultados globales.
[FAPh,V,1,12]
194043 a partir de
a partir de
a partir de
El problema adquirió relevancia y motivó la preocupación de los productores a partir de la cosecha de finales del año pasado y principios
[Lrca,Mvd,4,E:30]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
373
del presente.198213 a
partir de
a partir de
a partir de
Planeamos convertirnos en la primera compañía que ofrecer en México tecnología XDSL, a partir de junio", dijo su presidente ejecutivo, Giancarlo Pecchioni.
[Enal,Ccs,23,E|E:1]
232296 a partir de
a partir de
a partir de
El mercado común creció a partir de tres pilares: monedas estables, amplios plazos de crédito y producción de libros en una lengua en la que los matices locales eran tolerables para todos los lectores.
[Sate,M,1,10]
236104 a partir de
a partir de
a partir de
De hecho, como ya ha sido señalado, la propia producción de Menéndez Pelayo a partir de la muerte de Laverde toma otro giro, abandonando el toque filosófico que la
[GBSz,E,1,49-85]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
374
animaba por otro más literario.
24929 a partir de
a partir de
a partir de
Es a partir de esta única, sola y singular célula que se construye poco a poco todo el organismo, con su hígado, su corazón, su sistema nervioso, su aparato circulatorio; cada uno de ellos con sus células diferenciadas y especializadas.
[Dmos,A,1,Capitulo01]
31083 a partir de
a partir de
A partir de
"A partir de este momento, si mantiene su salud en cada aparición y es capaz de volver a tomar la bola en su próxima aparición, estará metido allí".
[Enal,Ccs,63,B:D|2]
81579 a patadas
aos montes; aos pontapés
A patadas
A patadas Toni Rodero
[DECD,E,91,O]
82015 a punto pronto, em ordem
A punto
A punto de cerrarse un acuerdo para el nuevo albergue de perros
[DECD,E,94,L:Av]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
375
24951 a su vez
a su vez
Lo que un organismo es está determinado por la particularidad de su estructura la cual le permitirá, a su vez, un determinado comportamiento.
[Dmos,A,1,Capitulo01]
26383 a su vez
a su vez
Esto nos ha llevado ciertamente a construir una sociedad hedonista pero, a su vez, el hedonismo ha actuado como una venda impidiéndonos ver la tremenda lucha por el Poder subyacente.
[Dmos,A,1,Capitulo08]
185332 a su vez
a su vez
Y ese éxito a su vez, ayuda a consolidar la identificación de la colectividad, encarnada en el partido del impulso, de la iniciativa, del cambio hacia el progreso.
[Epis,Mvd,2,Ed:6]
234417 a su vez
a su vez
- Hay otro tipo de reliquias
[Gbno,E,2,5-16]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
376
que, a su vez, se nos presentan, ellas mismas, como relatos.
24813 a su vez
a su vez
Por de pronto, todo parece estar en movimiento: la Tierra gira alrededor del Sol, que a su vez se mueve en el apex solar, que a su vez acompaña los movimientos de traslación y rotación de la Vía Láctea....
[Dmos,A,1,Capitulo01]
126737 a su vez
A su vez
A su vez el predicado COMIBLE puede expresarsecon COMER() e INSALUBRE() que se consideran más simples:.
[SNGH,M,1,tesisfinal]
203880 a su vez
a su vez
"La educación y el desarrollo tecnológico, que a su vez contribuyen al desarrollo de vías de comunicación, son indispensables para el progreso de un país", señaló.
[Enal,Ccs,3,F|EyN:1]
232804 a su a su Esto puede [Igch,E,1,
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
377
vez vez considerarse como un crecimiento de la especie vegetal; pero si los nuevos protoplasmas así formados se separan, se aislan, pueden considerarse como hijos del primero y a su vez darán origen a nuevos individuos.
III:4]
237833 a su vez
a su vez
De otro modo, las democracias parlamentarias no garantizan por sí mismas la eutaxia de las sociedades políticas que no reúnan a su vez las condiciones mínimas cuanto a los problemas económicos, jurídicos, religiosos, &c.
[Gbno,E,5,3-36]
34033 a su vez
A su vez
A su vez, estará comunicado con el Nivel Planta Baja por medio de uno de los anfiteatros para espectáculos.
[Enal,Ccs,63,G:MC|3]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
378
31062 a sus anchas
à vontade a sus anchas
Giambi es un jugador que parece sentirse a sus anchas en la Gran Manzana.
[Enal,Ccs,63,B:D|2]
225568 a todo à toda A todo A todo trapo [Enal,Ccs,28,B:Soc|7]
11379 a través de
através de a través de
"La idea es rescatar el boxeo a través de estos programas en el interior del país", expresó Ramón Cotúa, uno de los promotores del evento quien aseguró que harán cuatro o cinco jornadas más en la provincia.
[Enal,CCs,61,B:D|4]
12535 a través de
através de a través de
La información la dio a conocer la directiva de la Confederación Nacional de Asociaciones de Productores Agropecuarios (Fedeagro) a través de una nota de prensa.
[Enal,CCs,61,E:E|2]
13596 a través de
através de a través de
El debate individual a través de la
[IFSa,E,1,§150,V]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
379
libertad de imprenta dejaba por tanto de ser el mecanismo de formación-transmisión de la opinión pública, para resultar sustituido por el debate interpartidista.
30117 a través de
através de a través de
Nos estamos refiriendo a la circunstancia de que, a través de la etología, las operaciones de los animales entran a formar parte, como términos, del campo de la biología evolucionista.
[Daez,E,1,3-46]
33417 a través de
através de a través de
Usted lo puede llamar por la frecuencia VHF 16 o contactarlo a través de la recepción del hotel Tamarind Beach.
[Enal,Ccs,63,F:Tur|9]
34383 a través de
através de a través de
Superamos esas barreras a través de PDV Finance y la calificación
[Enal,Ccs,63,B:D|4]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
380
de la compañía mejoró.
35719 a través de
através de a través de
Genta negó que estos fenómenos pudieran ser originados por modificación del medio ambiente a través de la actividad humana.
[Lrca,Mvd,5,S:17]
36750 a través de
através de A través de
La sentencia se llevó a cabo el 17 de febrero de 1600. A través de los siglos ha continuado habiendo filósofos y pensadores que conjeturaron sobre la posibilidad de la existencia de vida extraterrestre.
[LFRz,M,1,XIII:SEC_17.html]
37259 a través de
através de a través de
Actualmente podemos hacer uso de la información, en su formato original, desde cualquier parte del mundo a través de la computadora.
[MRAM,M,1,capitulo1.html]
38734 a través
através de a través
«Sólo mando tarjetas a
[ENDC,E,96,Pal]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
381
de de través de internet»
54479 a través de
através de a través de
La Junta promocionará el turismo en el País Vasco a través de la gastronomía
[ENDC,E,36,CyL]
146432 a través de
através de a través de
El ayuntamiento comenzará la recaudación ejecutiva de las multas a través de la Diputación
[ENDC,E,65,Seg]
177194 a través de
através de a través de
Como si ciertos sentimientos quisieran resurgir desde alguna parte de su espíritu, en esa forma indirecta en que suelen hacerlo a través de lugares que uno se siente inclinado a recorrer sin exacta y clara conciencia de lo que está en juego.
[Esto,A,3,14]
180122 a través de
através de a través de
En parte, por la índole oscura de ese continente, que quizá entrevea nuestra alma como a través de un vidrio sucio, por la
[Esto,A,3,161]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
382
imperfecta desencarnación.
186828 a través de
através de a través de
Pero las abordaron a través de "una reestructuración y la incorporación de nuevos socios", señalaron didácticos.
[Crin,Bue,8,E:19]
194987 a través de
através de a través de
La prevención se refiere a los comicios legislativos de octubre, puesto que en el escenario del balotaje --donde se estima que Vázquez será uno de los dos contendientes--, según las fuentes, "es lógico que haya un debate a través de la televisión".
[Lrca,Mvd,3,P:3]
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
383
RESUM
Aquesta tesi doctoral se centra en el camp de l’Extracció de la Informació (EI), en el qual s’investiga l’efectivitat de PhraseNET, és a dir, una aplicació informàtica desenvolupada per a detectar i extraure unitats fraseològiques d’un corpus determinat. Presentem en aquesta tesi la interfície, les característiques lingüístiques i els recursos informàtics associats a l’avaluació dels resultats mitjançant un corpus d’entrenament. Per a això, ens basem en la classificació proposada per Carrió Pastor (1997) de les unitats fraseològiques i les locucions. Presentem un sistema que ha de poder extraure la informació més rellevant des de les unitats fraseològiques que s’han proposat amb anterioritat, partint des d’un corpus en portugués i en castellà.
El tema que abordem en aquesta tesi doctoral és un fet que preocupa traductors i lingüistes, ja que no és senzill poder realitzar les equivalències lingüístiques de les unitats fraseològiques de dues llengües. Considerem que, encara que en els diccionaris es contemplen les traduccions de les unitats fraseològiques, ha d’existir una eina capaç de detectar les seues possibles variacions en la llengua, és a dir, quan s’expressen amb temps verbals distints, en plural, etc. L'eina que proposem extrau les unitats fraseològiques d’un corpus textual, siga quin siga la seua forma i mostra els seus equivalents en altres llengües.
El nucli del sistema automàtic d’extracció de les unitats fraseològiques és un algoritme basat en un corpus de què s’obté una llista de totes les frases que es troben després de comparar-les amb un diccionari de patrons lèxics. L’avantatge d’aquest mètode, comparat amb altres ja existents, és que no es requereix un coneixement molt especialitzat de la Fraseologia per a poder realitzar la recerca.
No obstant això, aquest procés comporta dificultats en adaptar-lo a l’extracció d’unitats d’altres llengües, dificultats que estan inherents en la mateixa naturalesa
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
384
de la metodologia de l’Extracció de la Informació. Per això, PhraseNET està en constant evolució i contínuament hem canviat aspectes per a millorar-ne el funcionament.
Els objectius que plantem en aquest estudi són, d’una banda, poder dissenyar una eina que ens permeta reconéixer unitats fraseològiques (UFs) sense tindre en compte la seua forma, d’una altra, detectar-les en el seu entorn amb exemples que identifiquen la seua ubicació en el corpus i, finalment, poder identificar els mateixos patrons en diverses llengües.
Una vegada dissenyada l'eina i descrites les distintes parts que la componen i les seues utilitats, finalitzem aquest estudi concloent que PhraseNET sol extraure sense dificultats les següents variacions de les UFs: morfològiques, sintàctiques, lèxiques, de caselles buides, diatòpiques, diastràtiques i diafàsiques, les modificacions internes (com sol ser la reducció de les UFs mitjançant l’eliminació o l'addició d’algun dels seus components) i les externes, en la perifèria. Som conscients que aquest estudi posseeix certs aspectes que podem incorporar, però hem aconseguit delimitar la base de l'eina per a poder millorar-ne el funcionament en el futur.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
385
RESUMEN Esta tesis doctoral se centra en el campo de la Extracción de la Información (EI), en el que se investiga la efectividad de PhraseNET, es decir, una aplicación informática desarrollada para detectar y extraer unidades fraseológicas de un corpus determinado. Presentamos en esta tesis la interfaz, las características lingüísticas y los recursos informáticos asociados a la evaluación de los resultados mediante un corpus de entrenamiento. Para ello, nos basamos en la clasificación propuesta por Corpas Pastor (1997) de las unidades fraseológicas y las locuciones. Presentamos un sistema que ha de poder extraer la información más relevante desde las unidades fraseológicas que se han propuesto con anterioridad, partiendo desde un corpus en portugués y en castellano.
El tema que abordamos en esta tesis doctoral es un hecho que preocupa a traductores y lingüistas, puesto que no es sencillo poder realizar las equivalencias lingüís-ticas de las unidades fraseológicas de dos lenguas. Consideramos que, aunque en los diccionarios se contem-plan las traducciones de las unidades fraseológicas, ha de existir una herramienta capaz de detectar sus posibles variaciones en la lengua, es decir, cuando se expresan con tiempos verbales distintos, en plural, etc. La herramienta que proponemos extrae las unidades fraseológicas de un corpus textual, sea cual sea su forma y muestra sus equivalentes en otras lenguas.
El núcleo del sistema automático de extracción de las unidades fraseológicas es un algoritmo basado en un corpus del que se obtiene una lista de todas las unidades que se encuentran después de compararlas con un diccionario de patrones léxicos. La ventaja de este método, comparado con otros ya existentes, es que no se requiere un conocimiento muy especializado de la Fraseología para poder realizar la búsqueda.
Sin embargo, este proceso conlleva dificultades al adaptarlo a la extracción de unidades de otras lenguas, dificultades que están inherentes en la misma naturaleza de la metodología de la Extracción de la Información.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
386
Por ello, PhraseNET está en constante evolución y continuamente hemos cambiado aspectos para mejorar su funcionamiento.
Los objetivos que plantemos en este estudio son, por un lado, poder diseñar una herramienta que nos permita reconocer unidades fraseológicas (UFs) sin tener en cuenta su forma, por otro, detectarlas en su entorno con ejemplos que identifiquen su ubicación en el corpus y finalmente, poder identificarlos mismos patrones en varias lenguas.
Una vez diseñada la herramienta y descritas las distintas partes que la componen y sus utilidades, finalizamos este estudio concluyendo que PhraseNET suele extraer sin dificultades las siguientes variaciones de las UFs: morfológicas, sintácticas, léxicas, de casillas vacías, diatópicas, diastráticas y diafásicas, las modificaciones internas (como suele ser la reducción de las UFs mediante la eliminación o adición de alguno de sus componentes) y las externas (en la periferia). Somos conscientes de que este estudio posee ciertos aspectos que no hemos imcluido como parte del estudio, pero hemos conseguido los objetivos marcados desde el principio y, con ello, delimitar la base de la herramienta para poder mejorar su funcionamiento en el futuro.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
387
ABSTRACT
The present thesis lies within the area of Information Extraction (IE). We investigate the effectiveness of PhraseNET, that is, the software developed for the detection and the extraction of phraseological units of a corpus. We present the tools of this software through the interface, the linguistic features and the computer resources associated to the evaluation results obtained using a training corpus. Our main interest is focused on the locutions and phraseological units according to the classifications proposed by Corpas Pastor (1997).
The main topic of this doctoral dissertation is a fact that worries translators and linguists. It is not an easy task to look for the linguistic equivalences of the phraseological units of two languages. We consider a very relevant fact to design and implement a tool able to detect variations in language, i.e. changes due to verabl tenses, plural, gender, etc. The tool that we propose identifies the phraseological units of a textual corpus and look for their equivalent in other languages; the novelty of the tool we have designed is that it detects the units even when they vary their representation in the text.
The core of the authomatic system of the phraseological unit extraction is an algorithm based on a corpus which provides a list of all the units after a constrative analysis with a dictionary of lexical patterns. The main advantage of this method, compared with others, is that it does not require a very specialized knowledge of Phraseology.
Nevertheless, this process entails some difficulties when adapted to the extraction of units from other languages, difficulties that are inherent to the methodology of IE. As a consequence, PhraseNET is constlantly evolving and we are regurlarly implementing some aspects.
The objectives that we consider in this study are, on the one hand, to design a tool that allows us to detect
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
388
phraseological units not taking into account their linguistic expression. On the other hand, to detect the phraseological units in the texts with examples that can identify their location in the corpus. Finally, to identify the same patterns in other languages.
Once designed the tool and described its different parts and its utilities, we finish this study concluding that PhraseNET can extract the following variations of the phraseological units: morphologic, syntactic, lexical, diatopic, diastratic and diafasic, internal modifications (as the reduction of the phraseological units with the elimination or addition of the components) and the external, in the periphery. We are conscious that this study could include some asdpects that we have not mentioned, but we have, at the moment, delimitated the basic aspects of the tool in order to improve its characteristics in the future.
PhraseNET: Detección y extracción automatizada de unidades fraseológicas. J. L. De Lucca
389