Agreement management in conceptualization of new terms in dictionaries: a semantic approach

19
Agreement management in conceptualiza1on of new terms in dic1onaries: a seman1c approach Ges1ón de acuerdos para conceptualización de nuevos términos en diccionarios: un enfoque semán1co Ramón Álvarez Tapia Patricia Mar4nRodilla Miguel SánchezMarcos [email protected] [email protected] [email protected]

Transcript of Agreement management in conceptualization of new terms in dictionaries: a semantic approach

   Agreement  management  in  

conceptualiza1on  of  new  terms  in  dic1onaries:  a  seman1c  approach  

Ges1ón  de  acuerdos  para  conceptualización  de  nuevos  términos  en  diccionarios:  un  enfoque  semán1co  

Ramón  Álvarez  Tapia     Patricia  Mar4n-­‐Rodilla   Miguel  Sánchez-­‐Marcos  

patricia.mar?n-­‐[email protected]  [email protected]   [email protected]  

Índice  Introducción    

Problema  y  trabajos  relacionados    

Solución  propuesta:  Iden?ficación  de  problema  abordados  Funcionamiento  algorítmico  y  enfoque  semán?co  

 

Caso  de  estudio:  Diccionario  de  nuevas  formas  de  lectura  

 Conclusiones  y  líneas  futuras  

Introducción  Ges?ón  de  acuerdos  entre  personas    Perspec?vas  desde  diferentes  disciplinas:  psicología,  análisis  de  la  comunicación,  ingeniería  soAware,  tecnología  mul?agente,  etc.  

Dis?ntos  grados  de  automa?zación:      automa?zación  (agentes  soAware  llega  a  acuerdos  sencillos  entre  sí)    semi-­‐automa?zación  (sistemas  soAware  basados  en  reglas…)        asistencia  so>ware  (la  tecnología  ayuda  al  humano  a  alcanzar  acuerdos  o  ges?onar  consensos)    

 

-­‐>  MÁS  REALISTA,  CON  MAYOR  EFICACIA    (Uso  en  proyectos  colabora?vos,  wikis,  creación  de  ontologías  y  tesauros,  etc.)  

   

Obje?vo  Asis?r  vía  soAware  a  la  ges?ón  de  acuerdos  y    alcance  de  consenso  terminológico  en  la  

creación  de  nuevos  diccionarios  

Introducción  Casos  de  ejemplo  en  los  que  necesitamos  ges?ón  de  acuerdos  en  diccionarios:    -­‐  Conceptos  emergentes:  “selfie”:  concepto  nuevo  de  auto-­‐retrato,  generalmente  vía  

móvil.  -­‐  Nuevos  términos  para  conceptos  existentes:  “captcha”  es  un  término  para  designar  

un  mecanismo  de  seguridad  web.  -­‐  Términos  existentes  para  designar  un  nuevo  concepto:  “cloud”,  no  es  sólo  el  

fenómeno  meteorológico,  también  un  almacenamiento  de  información  

Para   asis?r   en   la   ges?ón   de   acuerdos   vía   soAware   en  diccionarios…  •  Soluciones   muy   automá?cas,   sin   asistencia   (Sistemas  

expertos,  mul?-­‐agentes,  etc.)  •  Soluciones  de  asistencia  con  limitaciones,  como:  

–  Ausencia   de   visualización   dinámica   de   los   conceptos   que   se  añaden      

–  Ausencia   de   visualización   y   ges?ón   de   relaciones   entre  conceptos.  

–  Ausencia  de  enfoque  semán?co  (Communica)on  analysis,  etc.)    Los   problemas   derivados   de   un   enfoque   no   semán?co   los  iden?ficaremos  a  con?nuación.  

Problema  

PROBLEMA  1:  Definición  del  concepto      

Iden?ficación  de  problemas  a  abordar  

Hay  que  diferenciar:  CONCEPTOS  B:  conceptos  base,  existentes  en  versiones  previas  del  diccionario,  o  corpus  previo  a  usar.  Pueden  ser  redefinidos,  pero  una  vez  alcanzado  un  estado  estable  el  algoritmo  los  usa  de  base.  CONCEPTOS  N:  Conceptos  emergentes  que  necesitan  de  una  definición  consensuadas  y  sus  relaciones  con  el  resto  de  conceptos  existentes.  Para  cada  definición  de  conceptos  encontramos  estos  sub-­‐problemas:  P1-­‐A  Reconocimiento  del  término:  Existentes  diferentes  términos  para  el  mismo  concepto,  especialmente  problemá?cas  son  las  variaciones  plurales  o  de  conjugación.  P1-­‐B  Significado:  Un  término  puede  tener  varios  significados,  que  refieren  a  conceptos  dis?ntos.  P1-­‐C  Volumen  de  datos:  Para  iden?ficar  correctamente  y  relacionar  conceptos  es  necesario  tener  un  volumen  de  datos  suficiente.  

SOLUCIÓN  1:    

•  P1-­‐A  –  Reconocimiento  de  términos  &  P1-­‐B  –  Significado:    Sería   necesario   el   empleo   de   técnicas   de   análisis   del   discurso   para  reconocer  el  texto  introducido  por  los  usuarios  (Línea  futura).  En  una  primera   aproximación   y   teniendo   en   cuenta   que   el   obje?vo   del  sistema  no  es  la  total  automa?zación  sino  la  asistencia  al  usuario,  el  usuario  provee  al  sistema  de:  DEFINICIÓN  DEL  NUEVO  CONCEPTO  +  AL  MENOS  UNA  RELACIÓN  CON  OTRO  EXISTENTE  O  CREADO  POR  ÉL.  Esta   solución   mi?ga   los   problemas   P1-­‐A   y   P1-­‐B,   ya   que   ofrece  desambiguación.    •  P1-­‐C  –  Volumen  de  datos:  Para  mi?gar  el  problema  de  volumen  de  datos,  se  debe  contar  con  un  ?empo   de   ejecución   del   algoritmo   donde   todos   los   par?cipantes  aporten  conceptos  y  relaciones  entre  ellos.  Este  ?empo  de  ejecución  del  algoritmo  permi?rá  que  las  capacidades  analí?cas  del  sistema  se  ac?ven  después  de  tener  un  volumen  de  datos  aceptable  y  suficiente  para  el  análisis.  

 Podemos  encontrar   términos  que  referencien  a  un  mismo   concepto,   o   conceptos   con  un  mapa  de  relaciones  con  otros  muy  similar.      Esta   situación   afecta   al   algoritmo,   ya   que  dificulta  la  creación  de  los  mapas  de  conceptos  y  hace   que   tengamos   que   determinar   si   varios  términos  se  refieren  al  mismo  concepto  o  no.  

PROBLEMA  2:  Mul?plicidad  de  términos  

Iden?ficación  de  problemas  a  abordar  

SOLUCIÓN  2:    

 

•  El  propio  algoritmo  detecta  conceptos  con  el  mismo  mapa  de  relaciones  con  otros  o  con  una  semejanza  alta  entre  ellos  (CONFIGURABLE).    

•  Informa  a  los  autores  y  par?cipantes  involucrados  en  los  conceptos  en  duda  sobre  su  semejanza  y  les  pide  una  resolución  ¿Son  el  mismo  concepto?  

•  Internamente,  el  sistema  tratará  el  concepto  como  único  o  como  dos  separados  en  función  del  criterio  experto.  

 

PROBLEMA  3:  Integración  de  datos  externos    

SOLUCIÓN  3:      

•  El  propio  uso  de  un  sistema  soAware  para  asis?r  el  proceso  de  acuerdo  y  consenso  terminológico  a  la  hora  de  crear  el  diccionario  soluciona  el  PROBLEMA  3,  ya  que  con  el  sistema  soAware  podemos:  

-­‐  Iden?ficar  y  almacenar  información  relevante  sobre  fechas  de  creación  y  modificación  de  conceptos  

-­‐  Iden?ficar  y  almacenar  metadatos  en  relación  a  las  autoridades  (autores  y  organizaciones)  que  crean,  ex?enden  contenido,  editan  contenido  existente  o  relacionan  conceptos  en  el  diccionario.  

•  Toda  esta  meta-­‐información  puede  ser  usada  para  evaluar  la  ges?ón  de  acuerdos  y  la  propia  influencia  de  un  autor  o  autoridad  en  el  diccionario.  

 

Necesidad  de  obtener   información  no  directamente   relacionada  con  un  concepto,   pero   también   importante   en   la   ges?ón   de   acuerdos,   como  referencias   cronológicas   o   información   de   autores   y   organizaciones  involucradas  en  el  diccionario  y  su  uso  del  sistema.  

Iden?ficación  de  problemas  a  abordar  

Implementando  soluciones:  algoritmo  semán?co  

1  • Para   cada   nuevo   concepto   creado:   1.   Almacenar   la   información   (concepto,   autor   y   relaciones   con   otros  conceptos).  2.  Pedir  al  autor  términos  relacionados:    

2.  • Para  cada   término  relacionado:  1.  Asociarlo  al  concepto  previo.  2.  Si  ya  existe  en  el   sistema,  el  algoritmo  actualiza  la  información  de  relaciones  entre  términos,  emergiendo  otros  términos  relacionados.  Si  no  es  así,  el  término  solo  se  relaciona  con  el  nuevo  concepto  introducido.  

3.  

• Buscar  en  el  sistema  si  existen  conceptos  con  un  mapa  similar  de  relaciones.  Esto  podría  indicar  una  posible  mul?plicidad  de  términos.   Este   paso   es   configurable,   podemos   decidir,   por   ejemplo   ,   que   el   sistema   sólo   busque   a   par?r   de   un   75%   de  similitud  en  el  mapa  de  relaciones  entre  el  nuevo  concepto  y  los  existentes.  

• Si  se  detecta  mul?plicidad  de  términos,  avisar  a  los  autores  asociados  a  los  conceptos  involucrados  y  pedir  que  confirmen  o  desmientan   la   mul?plicidad.   Al   confirmar:   sólo   quedará   un   concepto;   Al   desmen?r,   el   sistema   contará   con   2   conceptos  dis?ntos     referenciados   entre   sí,   pero  manteniendo   su   independencia   en   el   diccionario   (Típicamente   son   conceptos  muy  próximos  en  definición)  

4.  

• Tras  un  ?empo  de  funcionamiento  del  sistema  con  aportaciones  de  todos  los  par?cipantes,  el  algoritmo  puede:  1.    Obtener   para   cada   concepto,   una   definición   y   sus   conceptos   y   términos   relacionados.   2.   Almacenar   información  externa   y   metadatos   acerca   de   autores,   número   de   ediciones   por   concepto   y   aportaciones,   cambios   etc.   3.  Comparar   los   datos   acerca   del   uso   del   concepto,   el   grado   de   acuerdo   al   que   hemos   llegado,   si   todos   los  par?cipantes  que  lo  usan  pertenecen  a  una  misma  ins?tución  o  no,  etc.  

•  La  red  de  universidades  lectoras  (a  la  que  pertenece  la  Universidad  de  Salamanca)  iden?ficó  la  necesidad  de  crear  un  diccionario  con  términos  emergentes  en  el  dominio  de  las  nuevas  formas  de  lectura.  

•  Queremos  soportar  tecnológicamente  la  asistencia  a  este  proceso,  especialmente  a  los  acuerdos  terminológicos  entre  los  profesionales  del  dominio,  y  hacerlo  vía  web.  

•  El  algoritmo  propuesto  se  implementó  en  una  plataforma  web  (hxp://www.dinle.usal.es  )  

Caso  de  estudio  

•  Concepto=  “Voz”  en  DINLE  •  Cada   Voz   =   definic ión   +   anál is is   +  implicaciones  para  el  dominio  +  referencias  

•  Cada   par?cipante   en   la   conceptualización  cuenta  con  un  usuario  y  puede:  – Consultar  y  editar  contenido  existente  – Crear  nuevo  contenido    – Crear  nuevos  conceptos.  – Añadir  relaciones  entre  conceptos  

Caso  de  estudio  

Caso  de  estudio  

Definición  de  un  concepto  en  la  plataforma  DINLE  

Caso  de  estudio  

Extendiendo  o  ma1zando  la  definición  de  un  concepto  en  la  plataforma  DINLE  

Caso  de  estudio  

Lista  de  autores  y  par1cipantes  con  cuenta  de  usuario  en  DINLE  

 Se   ha   aplicado   el   algoritmo   propuesto   a   un   caso   de   estudio   real   (DINLE),   iden?ficando   los   problemas   surgidos   y  proponiendo  una  solución  por  problema.  El  algoritmo  está  completamente  descrito  en  el  trabajo  e  implementado  en  la  plataforma  web.    

   Se  ha  mostrado  la  plataforma  implementada  para  soportar  el  caso  real.    

 En  el  futuro…  

Esperamos  tener  un  volumen  mayor  de  datos  para  ofrecer  resultados  de  testeo  del  algoritmo  más  ajustados.  

 

Planeamos   extraer   información   estadís?ca   sobre   el   funcionamiento   del   algoritmo,   así   como   del   nivel   de  

sa?sfacción   de   los   par?cipantes   en   lo   que   al   algoritmo   y   a   la   plataforma   web   se   refiere:   ¿Qué   grado   de  

asistencia  hemos  conseguido?  ¿Se  alcanza  de  forma  ágil  el  consenso  en  la  definición  de  términos?  

 

Necesitamos  incluir  algunas  aproximaciones  existentes  en  el  algoritmo,  especialmente  relacionadas  con  análisis  

del   discurso,   para   el  mejor   tratamiento   del   problema   P1   y   para   alcanzar   un   grado  mayor   de   análisis   de   las  

contribuciones  y  definiciones  textuales  añadidas  a  un  diccionario  dado.  

Conclusiones  Presentamos  una  aproximación  semán?ca  para  asis?r  a  par?cipantes  en  la  ges?ón  de  acuerdos  al  conceptualizar  nuevos  términos  en  diccionarios  en  línea.  

•  Iaquinto,   A.   L.,   and   Fredrickson,   J.W.   1997.   Top  management   team   agreement   about   the   strategic   decision   process:   a   test   of   some   of   its  determinants   and   consequences.   Strategic   Management   Journal   18,1,   63–75.   DOI=10.1002/(SICI)1097-­‐0266(199701)18:1<63::AID-­‐SMJ835>3.0.CO;2-­‐N.    

•  Lin,   P.,   and   Jia,   Y.   2008.   Average   consensus   in   networks   of  mul?-­‐agents  with   both   switching   topology   and   coupling   ?me-­‐delay.  Physica   A:  Sta)s)cal  Mechanics  and  its  Applica)ons  387:1,  pp.  303-­‐313.    

•  Molina-­‐Jiménez,  C.,  Pruyne,   J.,   and  van  Moorsel,  A.  2005.  The  Role  of  Agreements   in   IT  Management  SoAware.   In  Architec)ng  Dependable  Systems  III.  Lemos,  Rogério  de,  Gacek,  Cris)na,  Romanovsky,  Alexander  (Eds).  Lecture  Notes  in  Computer  Science  3549,  36-­‐58.    

•  España,   S.,   González,   A.,and   Pastor,   O.   2009.   Communica?on   Analysis:   A   Requirements   Engineering   Method   for   Informa?on   Systems.   In  Advanced  Informa)on  Systems  Engineering,  Pascal  Eck,  Jaap  Gordijn  and  Roel  Wieringa  (Eds).  Lecture  Notes  in  Computer  Science,  pp.  530-­‐545:  Springer  Berlin  Heidelberg.    

•  Insa-­‐Cabrera,  J.,  Dowe,  D.  L.,  España-­‐Cubillo,  S.,  Hernández-­‐Lloreda,  M.  V.,  and  Hernández-­‐Orallo,  J.  2011.  Comparing  humans  and  AI  agents.  In  AGI'11  Proceedings  of  the  4th  interna)onal  conference  on  Ar)ficial  General  Intelligence,  122-­‐132.  Springer  Berlin  Heidelberg.    

•  Kraus,   S.   1997.   Nego?a?on   and   coopera?on   in   mul?-­‐agent   environments.   Ar)ficial   Intelligence,   94,   1–2,   79-­‐97.   DOI=10.1016/S0004-­‐3702(97)00025-­‐8.    

•  Liu,  X.,  Chen,  T.,  and  Lu,  W.  2009.  Consensus  problem  in  directed  networks  of  mul?-­‐agents  via  nonlinear  protocols.  Physics  LeQers  A.  373,  35,  3122-­‐3127.  DOI=10.1016/j.physleta.2009.06.054    

•  Chodorow,  M.  S.,  Byrd,  R.  J.,  and  Heidorn,  G.  E.  1985.  Extrac?ng  seman?c  hierarchies  from  a  large  on-­‐line  dic?onary.  In  ACL  '85  Proceedings  of  the  23rd  annual  mee)ng  on  Associa)on  for  Computa)onal  Linguis)cs.  pp  299-­‐304.  Chicago,  USA.  DOI=  10.3115/981210.981247.    

•  Jensen,   K.,   and   Binot,   J-­‐L..   1987.   Disambigua?ng   Preposi?onal   Phrase   Axachments   by   Using   On-­‐line   Dic?onary   Defini?ons.   Computa)onal  Linguis)cs  13,  3-­‐4,  251-­‐260.    

•  Ampornaramveth  V.,  Aizawa  A.,  and  Oyama  K.  2000.  An  Internet-­‐based  Collabora?ve  Dic?onary  Development  Project:  SAIKAM.  In  Proceedings  of  7th  Interna)onal  Workshop  on  Academic  Informa)on  Networks  and  Systems  (WAINS'7),  Bangkok,  7-­‐8  December  2000,  Kasetsart  University.    

•  Boitet,  C.,  Mangeot,  M.  and  Sérasset,  G.  2002.  The  PAPILLON  Project:  Coopera?vely  Building  a  Mul?lingual  Lexical  Data-­‐base  to  Derive  Open  Source  Dic?onaries  &  Lexicons.  In  Proceedings  of  the  2nd  Workshop  on  NLP  and  XML  17,  pp.  1-­‐3.  DOI=10.3115/1118808.1118813    

•  Meyer,  C.  M.,  and  Gurevych,  I.  2012.  OntoWik?onary:  Construc?ng  an  Ontology  from  the  Collabora?ve  Online  Dic?onary  Wik?onary.  In  Semi-­‐Automa)c   Ontology   Development:   Processes   and   Resources,   Maria   Teresa   Pazienza   and   Armando   Stellato   (Eds).   131-­‐161.  DOI=10.4018/978-­‐1-­‐4666-­‐0188-­‐8.ch006    

•  Chong,  M.  L.,  Tan,  B.  H.,  and  Abdullah,  M.  H.  (2011).Wiki  for  co-­‐wri?ng  a  science  dic?onary.  GEMA:  Online  Journal  of  Language  Studies,  11,  3,  109-­‐128.    

•  Torres  Moreno,   J.M.  2010.  Reagrupamiento  en   familias   y   lexema?zación  automá?ca   independientes  del   idioma.  Revista   Iberoamericana  de  Inteligencia  Ar?ficial  14,  47,  38-­‐53.    

•  Torres   Moreno,   J.M.   2012.   Beyond   Stemming   and   Lemma?za?on:   Ultra-­‐stemming   to   Improve   Automa?c   Text   Summariza?on.   CoRR   abs/1209.3126.    

•  Park,  J.,  and  Hun?ng,  S.  2002.  XML  Topic  Maps:  Crea)ng  and  Using  Topic  Maps  for  the  Web.  Addison-­‐Wesley.  ISBN  978-­‐0201749601.    •  ISO/IEC  13250:2007  Topic  Maps:   Informa?on  Technology  -­‐  Document  Descrip?on  and  Markup  Languages.  Patrick  Durusau,  Steve  Newcomb,  

Robert  Barta.  (Eds).  hxp://www.isotopicmaps.org/TMRM/TMRM-­‐7.0/tmrm7.pdf    •  Mar4n-­‐Rodilla,   P.,   and  González-­‐Pérez,   C.   :   An   ISO/IEC   24744-­‐Derived  Modelling   Language   for   Discourse   Analysis.   In   IEEE   8th   Interna?onal  

Conference  on  Research  Challenges  in  Informa?on  Science,  RCIS  2014,  Marrakech,  Morocco,  May  28-­‐30,  2014.  In  press.    •  Martos   Núñez,   E.,   and   Campos   Fernández-­‐Figares,   M.   2013.   Diccionario   de   Nuevas   Formas   de   Lectura   y   Escritura.   RIUL-­‐San?llana   (Eds.).  

Madrid,  Spain.  ISBN:  978-­‐84-­‐680-­‐0970-­‐4    •  DINLE:  Diccionario  Digital  de  Nuevas  Formas  de  Lectura  y  Escritura:  Overview,  2014.  Retrieved  June  27,  2014:  hxp://www.dinle.usal.es    

Referencias  

   Agreement  management  in  conceptualiza1on  of  new  

terms  in  dic1onaries:  a  seman1c  approach  

Ges1ón  de  acuerdos  para  conceptualización  de  nuevos  términos  en  diccionarios:  un  enfoque  semán1co  

Ramón  Álvarez  Tapia     Patricia  Mar4n-­‐Rodilla   Miguel  Sánchez-­‐Marcos  

patricia.mar?n-­‐[email protected]  [email protected]   [email protected]