Agreement management in conceptualization of new terms in dictionaries: a semantic approach
-
Upload
technological-ecosystems-for-enhancing-multiculturality -
Category
Education
-
view
67 -
download
0
Transcript of Agreement management in conceptualization of new terms in dictionaries: a semantic approach
Agreement management in
conceptualiza1on of new terms in dic1onaries: a seman1c approach
Ges1ón de acuerdos para conceptualización de nuevos términos en diccionarios: un enfoque semán1co
Ramón Álvarez Tapia Patricia Mar4n-‐Rodilla Miguel Sánchez-‐Marcos
patricia.mar?n-‐[email protected] [email protected] [email protected]
Índice Introducción
Problema y trabajos relacionados
Solución propuesta: Iden?ficación de problema abordados Funcionamiento algorítmico y enfoque semán?co
Caso de estudio: Diccionario de nuevas formas de lectura
Conclusiones y líneas futuras
Introducción Ges?ón de acuerdos entre personas Perspec?vas desde diferentes disciplinas: psicología, análisis de la comunicación, ingeniería soAware, tecnología mul?agente, etc.
Dis?ntos grados de automa?zación: automa?zación (agentes soAware llega a acuerdos sencillos entre sí) semi-‐automa?zación (sistemas soAware basados en reglas…) asistencia so>ware (la tecnología ayuda al humano a alcanzar acuerdos o ges?onar consensos)
-‐> MÁS REALISTA, CON MAYOR EFICACIA (Uso en proyectos colabora?vos, wikis, creación de ontologías y tesauros, etc.)
Obje?vo Asis?r vía soAware a la ges?ón de acuerdos y alcance de consenso terminológico en la
creación de nuevos diccionarios
Introducción Casos de ejemplo en los que necesitamos ges?ón de acuerdos en diccionarios: -‐ Conceptos emergentes: “selfie”: concepto nuevo de auto-‐retrato, generalmente vía
móvil. -‐ Nuevos términos para conceptos existentes: “captcha” es un término para designar
un mecanismo de seguridad web. -‐ Términos existentes para designar un nuevo concepto: “cloud”, no es sólo el
fenómeno meteorológico, también un almacenamiento de información
Para asis?r en la ges?ón de acuerdos vía soAware en diccionarios… • Soluciones muy automá?cas, sin asistencia (Sistemas
expertos, mul?-‐agentes, etc.) • Soluciones de asistencia con limitaciones, como:
– Ausencia de visualización dinámica de los conceptos que se añaden
– Ausencia de visualización y ges?ón de relaciones entre conceptos.
– Ausencia de enfoque semán?co (Communica)on analysis, etc.) Los problemas derivados de un enfoque no semán?co los iden?ficaremos a con?nuación.
Problema
PROBLEMA 1: Definición del concepto
Iden?ficación de problemas a abordar
Hay que diferenciar: CONCEPTOS B: conceptos base, existentes en versiones previas del diccionario, o corpus previo a usar. Pueden ser redefinidos, pero una vez alcanzado un estado estable el algoritmo los usa de base. CONCEPTOS N: Conceptos emergentes que necesitan de una definición consensuadas y sus relaciones con el resto de conceptos existentes. Para cada definición de conceptos encontramos estos sub-‐problemas: P1-‐A Reconocimiento del término: Existentes diferentes términos para el mismo concepto, especialmente problemá?cas son las variaciones plurales o de conjugación. P1-‐B Significado: Un término puede tener varios significados, que refieren a conceptos dis?ntos. P1-‐C Volumen de datos: Para iden?ficar correctamente y relacionar conceptos es necesario tener un volumen de datos suficiente.
SOLUCIÓN 1:
• P1-‐A – Reconocimiento de términos & P1-‐B – Significado: Sería necesario el empleo de técnicas de análisis del discurso para reconocer el texto introducido por los usuarios (Línea futura). En una primera aproximación y teniendo en cuenta que el obje?vo del sistema no es la total automa?zación sino la asistencia al usuario, el usuario provee al sistema de: DEFINICIÓN DEL NUEVO CONCEPTO + AL MENOS UNA RELACIÓN CON OTRO EXISTENTE O CREADO POR ÉL. Esta solución mi?ga los problemas P1-‐A y P1-‐B, ya que ofrece desambiguación. • P1-‐C – Volumen de datos: Para mi?gar el problema de volumen de datos, se debe contar con un ?empo de ejecución del algoritmo donde todos los par?cipantes aporten conceptos y relaciones entre ellos. Este ?empo de ejecución del algoritmo permi?rá que las capacidades analí?cas del sistema se ac?ven después de tener un volumen de datos aceptable y suficiente para el análisis.
Podemos encontrar términos que referencien a un mismo concepto, o conceptos con un mapa de relaciones con otros muy similar. Esta situación afecta al algoritmo, ya que dificulta la creación de los mapas de conceptos y hace que tengamos que determinar si varios términos se refieren al mismo concepto o no.
PROBLEMA 2: Mul?plicidad de términos
Iden?ficación de problemas a abordar
SOLUCIÓN 2:
• El propio algoritmo detecta conceptos con el mismo mapa de relaciones con otros o con una semejanza alta entre ellos (CONFIGURABLE).
• Informa a los autores y par?cipantes involucrados en los conceptos en duda sobre su semejanza y les pide una resolución ¿Son el mismo concepto?
• Internamente, el sistema tratará el concepto como único o como dos separados en función del criterio experto.
PROBLEMA 3: Integración de datos externos
SOLUCIÓN 3:
• El propio uso de un sistema soAware para asis?r el proceso de acuerdo y consenso terminológico a la hora de crear el diccionario soluciona el PROBLEMA 3, ya que con el sistema soAware podemos:
-‐ Iden?ficar y almacenar información relevante sobre fechas de creación y modificación de conceptos
-‐ Iden?ficar y almacenar metadatos en relación a las autoridades (autores y organizaciones) que crean, ex?enden contenido, editan contenido existente o relacionan conceptos en el diccionario.
• Toda esta meta-‐información puede ser usada para evaluar la ges?ón de acuerdos y la propia influencia de un autor o autoridad en el diccionario.
Necesidad de obtener información no directamente relacionada con un concepto, pero también importante en la ges?ón de acuerdos, como referencias cronológicas o información de autores y organizaciones involucradas en el diccionario y su uso del sistema.
Iden?ficación de problemas a abordar
Implementando soluciones: algoritmo semán?co
1 • Para cada nuevo concepto creado: 1. Almacenar la información (concepto, autor y relaciones con otros conceptos). 2. Pedir al autor términos relacionados:
2. • Para cada término relacionado: 1. Asociarlo al concepto previo. 2. Si ya existe en el sistema, el algoritmo actualiza la información de relaciones entre términos, emergiendo otros términos relacionados. Si no es así, el término solo se relaciona con el nuevo concepto introducido.
3.
• Buscar en el sistema si existen conceptos con un mapa similar de relaciones. Esto podría indicar una posible mul?plicidad de términos. Este paso es configurable, podemos decidir, por ejemplo , que el sistema sólo busque a par?r de un 75% de similitud en el mapa de relaciones entre el nuevo concepto y los existentes.
• Si se detecta mul?plicidad de términos, avisar a los autores asociados a los conceptos involucrados y pedir que confirmen o desmientan la mul?plicidad. Al confirmar: sólo quedará un concepto; Al desmen?r, el sistema contará con 2 conceptos dis?ntos referenciados entre sí, pero manteniendo su independencia en el diccionario (Típicamente son conceptos muy próximos en definición)
4.
• Tras un ?empo de funcionamiento del sistema con aportaciones de todos los par?cipantes, el algoritmo puede: 1. Obtener para cada concepto, una definición y sus conceptos y términos relacionados. 2. Almacenar información externa y metadatos acerca de autores, número de ediciones por concepto y aportaciones, cambios etc. 3. Comparar los datos acerca del uso del concepto, el grado de acuerdo al que hemos llegado, si todos los par?cipantes que lo usan pertenecen a una misma ins?tución o no, etc.
• La red de universidades lectoras (a la que pertenece la Universidad de Salamanca) iden?ficó la necesidad de crear un diccionario con términos emergentes en el dominio de las nuevas formas de lectura.
• Queremos soportar tecnológicamente la asistencia a este proceso, especialmente a los acuerdos terminológicos entre los profesionales del dominio, y hacerlo vía web.
• El algoritmo propuesto se implementó en una plataforma web (hxp://www.dinle.usal.es )
Caso de estudio
• Concepto= “Voz” en DINLE • Cada Voz = definic ión + anál is is + implicaciones para el dominio + referencias
• Cada par?cipante en la conceptualización cuenta con un usuario y puede: – Consultar y editar contenido existente – Crear nuevo contenido – Crear nuevos conceptos. – Añadir relaciones entre conceptos
Caso de estudio
Se ha aplicado el algoritmo propuesto a un caso de estudio real (DINLE), iden?ficando los problemas surgidos y proponiendo una solución por problema. El algoritmo está completamente descrito en el trabajo e implementado en la plataforma web.
Se ha mostrado la plataforma implementada para soportar el caso real.
En el futuro…
Esperamos tener un volumen mayor de datos para ofrecer resultados de testeo del algoritmo más ajustados.
Planeamos extraer información estadís?ca sobre el funcionamiento del algoritmo, así como del nivel de
sa?sfacción de los par?cipantes en lo que al algoritmo y a la plataforma web se refiere: ¿Qué grado de
asistencia hemos conseguido? ¿Se alcanza de forma ágil el consenso en la definición de términos?
Necesitamos incluir algunas aproximaciones existentes en el algoritmo, especialmente relacionadas con análisis
del discurso, para el mejor tratamiento del problema P1 y para alcanzar un grado mayor de análisis de las
contribuciones y definiciones textuales añadidas a un diccionario dado.
Conclusiones Presentamos una aproximación semán?ca para asis?r a par?cipantes en la ges?ón de acuerdos al conceptualizar nuevos términos en diccionarios en línea.
• Iaquinto, A. L., and Fredrickson, J.W. 1997. Top management team agreement about the strategic decision process: a test of some of its determinants and consequences. Strategic Management Journal 18,1, 63–75. DOI=10.1002/(SICI)1097-‐0266(199701)18:1<63::AID-‐SMJ835>3.0.CO;2-‐N.
• Lin, P., and Jia, Y. 2008. Average consensus in networks of mul?-‐agents with both switching topology and coupling ?me-‐delay. Physica A: Sta)s)cal Mechanics and its Applica)ons 387:1, pp. 303-‐313.
• Molina-‐Jiménez, C., Pruyne, J., and van Moorsel, A. 2005. The Role of Agreements in IT Management SoAware. In Architec)ng Dependable Systems III. Lemos, Rogério de, Gacek, Cris)na, Romanovsky, Alexander (Eds). Lecture Notes in Computer Science 3549, 36-‐58.
• España, S., González, A.,and Pastor, O. 2009. Communica?on Analysis: A Requirements Engineering Method for Informa?on Systems. In Advanced Informa)on Systems Engineering, Pascal Eck, Jaap Gordijn and Roel Wieringa (Eds). Lecture Notes in Computer Science, pp. 530-‐545: Springer Berlin Heidelberg.
• Insa-‐Cabrera, J., Dowe, D. L., España-‐Cubillo, S., Hernández-‐Lloreda, M. V., and Hernández-‐Orallo, J. 2011. Comparing humans and AI agents. In AGI'11 Proceedings of the 4th interna)onal conference on Ar)ficial General Intelligence, 122-‐132. Springer Berlin Heidelberg.
• Kraus, S. 1997. Nego?a?on and coopera?on in mul?-‐agent environments. Ar)ficial Intelligence, 94, 1–2, 79-‐97. DOI=10.1016/S0004-‐3702(97)00025-‐8.
• Liu, X., Chen, T., and Lu, W. 2009. Consensus problem in directed networks of mul?-‐agents via nonlinear protocols. Physics LeQers A. 373, 35, 3122-‐3127. DOI=10.1016/j.physleta.2009.06.054
• Chodorow, M. S., Byrd, R. J., and Heidorn, G. E. 1985. Extrac?ng seman?c hierarchies from a large on-‐line dic?onary. In ACL '85 Proceedings of the 23rd annual mee)ng on Associa)on for Computa)onal Linguis)cs. pp 299-‐304. Chicago, USA. DOI= 10.3115/981210.981247.
• Jensen, K., and Binot, J-‐L.. 1987. Disambigua?ng Preposi?onal Phrase Axachments by Using On-‐line Dic?onary Defini?ons. Computa)onal Linguis)cs 13, 3-‐4, 251-‐260.
• Ampornaramveth V., Aizawa A., and Oyama K. 2000. An Internet-‐based Collabora?ve Dic?onary Development Project: SAIKAM. In Proceedings of 7th Interna)onal Workshop on Academic Informa)on Networks and Systems (WAINS'7), Bangkok, 7-‐8 December 2000, Kasetsart University.
• Boitet, C., Mangeot, M. and Sérasset, G. 2002. The PAPILLON Project: Coopera?vely Building a Mul?lingual Lexical Data-‐base to Derive Open Source Dic?onaries & Lexicons. In Proceedings of the 2nd Workshop on NLP and XML 17, pp. 1-‐3. DOI=10.3115/1118808.1118813
• Meyer, C. M., and Gurevych, I. 2012. OntoWik?onary: Construc?ng an Ontology from the Collabora?ve Online Dic?onary Wik?onary. In Semi-‐Automa)c Ontology Development: Processes and Resources, Maria Teresa Pazienza and Armando Stellato (Eds). 131-‐161. DOI=10.4018/978-‐1-‐4666-‐0188-‐8.ch006
• Chong, M. L., Tan, B. H., and Abdullah, M. H. (2011).Wiki for co-‐wri?ng a science dic?onary. GEMA: Online Journal of Language Studies, 11, 3, 109-‐128.
• Torres Moreno, J.M. 2010. Reagrupamiento en familias y lexema?zación automá?ca independientes del idioma. Revista Iberoamericana de Inteligencia Ar?ficial 14, 47, 38-‐53.
• Torres Moreno, J.M. 2012. Beyond Stemming and Lemma?za?on: Ultra-‐stemming to Improve Automa?c Text Summariza?on. CoRR abs/1209.3126.
• Park, J., and Hun?ng, S. 2002. XML Topic Maps: Crea)ng and Using Topic Maps for the Web. Addison-‐Wesley. ISBN 978-‐0201749601. • ISO/IEC 13250:2007 Topic Maps: Informa?on Technology -‐ Document Descrip?on and Markup Languages. Patrick Durusau, Steve Newcomb,
Robert Barta. (Eds). hxp://www.isotopicmaps.org/TMRM/TMRM-‐7.0/tmrm7.pdf • Mar4n-‐Rodilla, P., and González-‐Pérez, C. : An ISO/IEC 24744-‐Derived Modelling Language for Discourse Analysis. In IEEE 8th Interna?onal
Conference on Research Challenges in Informa?on Science, RCIS 2014, Marrakech, Morocco, May 28-‐30, 2014. In press. • Martos Núñez, E., and Campos Fernández-‐Figares, M. 2013. Diccionario de Nuevas Formas de Lectura y Escritura. RIUL-‐San?llana (Eds.).
Madrid, Spain. ISBN: 978-‐84-‐680-‐0970-‐4 • DINLE: Diccionario Digital de Nuevas Formas de Lectura y Escritura: Overview, 2014. Retrieved June 27, 2014: hxp://www.dinle.usal.es
Referencias
Agreement management in conceptualiza1on of new
terms in dic1onaries: a seman1c approach
Ges1ón de acuerdos para conceptualización de nuevos términos en diccionarios: un enfoque semán1co
Ramón Álvarez Tapia Patricia Mar4n-‐Rodilla Miguel Sánchez-‐Marcos
patricia.mar?n-‐[email protected] [email protected] [email protected]