Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ :...

16
1 Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007 Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Μεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας

description

Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας Μεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας. Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ. επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007. XML Ανάκτηση. XML ( Extensible Markup Language) INEX - PowerPoint PPT Presentation

Transcript of Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ :...

Page 1: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

1

Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ

ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ

ΑΘΗΝΑ 2007

Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας – Βιβλιοθηκονομίας

Μεταπτυχιακό πρόγραμμα σπουδών στην Επιστήμη της Πληροφορίας

Page 2: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

2

XML Ανάκτηση

XML

(Extensible Markup Language) INEX

(Initiative for the Evaluation of XML Retrieval)

Page 3: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

3

XML Ανάκτηση

XML Ανάκτηση

• Content-oriented

Κάθε στοιχείο αποτελεί ανεξάρτητη δομική μονάδα, η οποία είναι ανακτήσιμη

Toc (Table of Contents)

Περιλήψεις μπορούν να συσχετιστούν με κάθε στοιχείο του εγγράφου

Page 4: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

4

Στόχος πειράματος

Χρήση των περιλήψεων στην XML ανάκτηση• Zoltan Szlávik,

• Anastasios Tombros

• Mounia Lalmas

(Department of Computer Science, Queen Mary University of London)

Πως οι χρήστες αλληλεπιδρούν με τις περιλήψειςΑν διευκολύνονται κατά τη διαδικασία αναζήτησης

Page 5: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

5

Οργάνωση Πειράματος

Διεπαφή χρήστη

Page 6: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

6

Οργάνωση Πειράματος

Διεπαφή χρήστη

Page 7: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

7

Οργάνωση Πειράματος

Δημιουργία περιλήψεωνquery-biased αλγόριθμος

Συλλογή12.107 άρθρα από τη συλλογή του οργανισμού IEEE

XML Μηχανή ΑνάκτησηςHyspirit retrieval framework

Χρήστες9 άντρες – 3 γυναίκες

Page 8: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

8

Οργάνωση Πειράματος

Πρώτο επίπεδο: • Ολόκληρο το άρθρο

Δεύτερο επίπεδο: • Κυρίως μέρος (body)

• Προκαταρκτικά μέρη (frontmatters)

• Τελικά μέρη (backmatters)

Τρίτο επίπεδο• Περίληψη (abstract)• Ενότητες (sections)• Παραρτήματα (appendices)

Τέταρτο επίπεδο• Υποενότητες (subsections)• Παράγραφοι (paragraphs)

Σύστημα Ελέγχου (System Control – Sc)

Page 9: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

9

Οργάνωση Πειράματος

Πειραματικό Σύστημα (Experimental System Se)

Τρία πρώτα επίπεδα δόμησηςΚαθήκοντα (tasks)

Background-typeList-type20 λεπτά για την ολοκλήρωση κάθε καθήκοντοςΣυνεδρία αναζήτησης (search session)

Μοντέλο Αναζήτησης Ομάδες των 4 ατόμωνΔεδομένα - Ενέργειες χρήστη σύμφωνα με τα κλικ του ποντικιού - Κάθε πότε εμφανιζόταν μία περίληψη

Page 10: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

10

Ανάλυση Χρόνος περιλήψεων

Sc – 3.98s ο μέσος χρόνος εμφάνισης των περιλήψεων

Se – 4.58s ο μέσος χρόνος εμφάνισης των περιλήψεων

Page 11: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

11

Ανάλυση Αριθμός περιλήψεων που διαβαστηκανSe – 12.5 περιλήψεις σε κάθε συνεδρία αναζήτησηςSc – 16.33 περιλήψεις σε κάθε συνεδρία αναζήτησης

Page 12: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

12

Ανάλυση

Χρόνος περιλήψεων vs Αριθμός περιλήψεων

• Αρνητική συσχέτιση (-0.5)

Se Διάβασαν λιγότερες περιλήψεις

αλλά για περισσότερη ώρα

Sc Διάβασαν περισσότερες περιλήψεις

αλλά για λιγότερη ώρα

Page 13: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

13

Ανάλυση

Χρήση ToC (Table of Contents) και Άρθρο

Περισσότερα από τα μισά στοιχεία που εμφανίστηκαν προέρχονταν από τον Toc

Το άρθρο εμφανίστηκε σε ποσοστό 6.12%

Page 14: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

14

Συμπεράσματα - Προβληματισμοί

Οι χρήστες χρησιμοποίησαν τις περιλήψεις των XML στοιχείων που τους προσέφερε το σύστημα και ξόδεψαν και αρκετό χρόνο για να τις διαβάσουν

Οι χρήστες εκμεταλλέυτηκαν τη λογική δομή των εγγράφων και πλοηγήθηκαν στον Πίνακα Περιεχομένων (ToC)

Θεωρώντας δεδομένη τη στενή συσχέτιση ανάμεσα στον πίνακα περιεχομένων και τις περιλήψεις, μέχρι ποιο επίπεδο δόμησης πρέπει να φτάσει κανείς για τη δημιουργία περιλήψεων;

Ο Πίνακας Περιεχομένων (ToC) πρέπει να εμφανίζει όλα τα δομικά στοιχεία ή μόνο αυτά που σχετίζονται με το ερώτημα του χρήστη;

Page 15: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

15

Βιβλιογραφία1) Z. Szlávik, A. Tombros and M. Lalmas. The use of summaries in XML

retrieval. Proceedings of the 10th European Conference on Research and Advanced Technology for Digital Libraries, pp. 75-86. Alicante, Spain, September 2006.

2) Zoltán Szlávik, Anastasios Tombros and Mounia Lalmas. Investigating the use of summarization for interactive XML retrieval. In Proceedings of the 21st ACM Symposium on Applied Computing, Information Access and Retrieval Track (SAC-IARS'06), pp. 1068-1072. Dijon, France, April 2006

3) A.Tombros, S. Malik, and B. Larsen.Report on the INEX 2004 interactive track. ACM SIGIR Forum, 39(1): 43–49, June 2005.

4) A.Tombros and M. Sanderson. Advantages of query biased summaries in information retrieval. In SIGIR’98, pages 2–10. ACM Press, 1998.

5) A.Tombros, S. Malik, and B.Larsen.Report on the INEX 2004 interactive track. ACM SIGIR Forum, 39(1):43–49, June 2005.

6) Charles L.A. Clarke. Controlling overlap in content-oriented XML retrieval. Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, pp 314-321.Salvador, Brazil, 2005

7) INEX http://inex.is.informatik.uni-duisburg.de/

Page 16: Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ  XML  ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ

16

Ευχαριστώ

Ερωτήσεις - Απορίες