Ioannis Iakovidis

39
Διπλωματική εργασία του Ιακωβίδη Ιωάννη AEM: 7436 υπό την επίβλεψη του Επίκουρου Καθηγητή Ανδρέα Λ. Συμεωνίδη και του μεταδιδακτορικού ερευνητή Κυριάκου Χατζηδημητρίου ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ

Transcript of Ioannis Iakovidis

Page 1: Ioannis Iakovidis

Διπλωματική εργασία τουΙακωβίδη ΙωάννηAEM: 7436

υπό την επίβλεψη του Επίκουρου ΚαθηγητήΑνδρέα Λ. Συμεωνίδη

και του μεταδιδακτορικού ερευνητήΚυριάκου Χατζηδημητρίου

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ

ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ

ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ

Page 2: Ioannis Iakovidis

Τεράστιος αριθμός διαθέσιμων συλλογών δεδομένων

Έξυπνες συσκευές

Ενσωματωμένοι υπολογιστές

Διαδικτυακές συναλλαγές

Μεγάλη ζήτηση για πλήθος και ποικιλία δεδομένων

Αυξανόμενη διαθέσιμη υπολογιστική δύναμη

Page 3: Ioannis Iakovidis

Η χρήση ποικιλίας συλλογών δεδομένων αποδεικνύεται χρονοβόρα

Προεπεξεργασία δεδομένων για την μετατροπή τους σε κοινή μορφή

Ιδιαίτερα δύσκολη η χρήση ημιδομημένων δεδομένων (π.χ. Wikipedia)

Δομή ποικίλει μεταξύ εγγραφών

Page 4: Ioannis Iakovidis

Χρήση ενισχυτικής μάθησης για την επεξεργασία δομημένων δεδομένων

Page 5: Ioannis Iakovidis

Σχεδίαση και υλοποίηση συστημάτων ενισχυτικής μάθησης πολλαπλών σταδίων

Αποκατάσταση δομής δεδομένων

Εξαγωγή δομημένων δεδομένων από φυσική γλώσσα

Εξαγωγή δομημένων δεδομένων από HTML σελίδες

Page 6: Ioannis Iakovidis

Ο πράκτορας αντιλαμβάνεται το περιβάλλον του μέσω του σήματος κατάσταστης S

Από το σήμα S εξάγονται χαρακτηριστικά σύμφωνα με τα οποία επιλέγεται η ενέργεια Α

Το περιβάλλον αντιδρά στην ενέργεια του πράκτορα παράγοντας σήμα επιβράβευσης R και νέο σήμα κατάστασης S’

Ο πράκτορας προσαρμόζει τις ενέργειές του βάση του σήματος επιβράβευσης

Page 7: Ioannis Iakovidis

Ανακατασκευάζουμε την δομή σεναρίων έργων του Shakespeare χρησιμοποιώντας μόνο το κείμενο.

Page 8: Ioannis Iakovidis

Τρεις μέθοδοι:

Ανακατασκευή κόμβο-προς-κόμβο, σειριακή αντιμετώπιση γραμμών

Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπιση γραμμών

Ανακατασκευή γραμμή-προς-γραμμή, μη-σειριακή αντιμετώπιση γραμμών

Δύο κλίμακες:Χαρακτηριστικά Play trees Scene trees

Μέσος όρος αριθμού φύλλων δένδρου 3940 195

Μέσος όρος αριθμού εσωτερικών κόμβων δένδρου 870 45

Αριθμός κατηγοριών κόμβων 18 6

Μέσο βάθος φύλλου 4.95 2.95

Page 9: Ioannis Iakovidis

Ανακατασκευή κόμβο-προς-κόμβο, σειριακή αντιμετώπιση γραμμών

Χαρακτηριστικά

Πληροφορίες δομήςΠληροφορίες περιεχομένου

(τρέχουσα και προηγούμενη γραμμή)

Μονοπάτι προηγούμενης γραμμής

Υπάρχον μονοπάτι τρέχουσας γραμμής

Πρώτη λέξη γραμμής

Τελευταία λέξη γραμμής

Δομή γραμμής (σημεία στίξης, κεφαλαία/μικρά)

Page 10: Ioannis Iakovidis

Ανακατασκευή γραμμή-προς-γραμμή, σειριακή αντιμετώπιση γραμμών

Speech

Speaker

MARCELLUS

Line

'Tis gone!

Stagedir

Exit Ghost

Speech

Speaker

MARCELLUS

Line

'Tis gone!

Μετατροπή σε sequence labeling task

Πλεονεκτήματα Μειονεκτήματα

Μείωση απαιτούμενων ενεργειών

Γρηγορότερος αλγόριθμος

Αύξηση αριθμού διαθέσιμων ενεργειών

Page 11: Ioannis Iakovidis

Θα θέλαμε να χρησιμοποιήσουμε τα μονοπάτια επόμενων κόμβων για να βρούμε τα πιο δύσκολα μονοπάτια.

Πρόβλημα:

Η ελεύθερη (μη σειριακή) αντιμετώπιση των γραμμών είναι υπερβολικά απαιτητική.

Παρατήρηση:

Τα πιο χρήσιμα μονοπάτια είναι αυτά της προηγούμενης και της επόμενης γραμμής.

Page 12: Ioannis Iakovidis

Λύση:

Επιλογή μεταξύ των επόμενων δύο γραμμών

Speech

Speaker

MARCELLUS

Line

'Tis gone!

Stagedir

Exit Ghost

Speech

Speaker

MARCELLUS

Speech

Speaker

MARCELLUS

Blank

Stagedir

Exit Ghost

Πλεονεκτήματα Μειονεκτήματα

Χρήση μονοπατιού επομένης γραμμής στα χαρακτηριστικά

Αύξηση αριθμού διαθέσιμων ενεργειών

Αργότερος αλγόριθμος

Page 13: Ioannis Iakovidis

Μετρικές επίδοσης:

Path Percentage Similarity Measure: Ποσοστό σωστών μονοπατιών κόμβων από την ρίζα του δέντρου μέχρι το φύλλο.

F1 Subtree Similarity Measure: Ποσοστό κοινών υποδέντρων μεταξύ του ζητούμενου δέντρου και του ανακατασκευασμένου.

F1 TagType Measure: Μέσος όρος της τιμής F1 για κάθε τύπο κόμβου στα φύλλα του δέντρου.

Page 14: Ioannis Iakovidis

0.9

0.91

0.92

0.93

0.94

0.95

0.96

0.97

0.98

0.99

Path Perc Structure F1 TagType Perc

Επίδοση σε σκηνές

Node-by-Node Leaf-by-Leaf Serial Leaf-by-Leaf non-serial

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

Path Perc TagType Perc

Επίδοση σε έργα

Leaf-by-Leaf Serial Leaf-by-Leaf Non-serial

Σκηνές

Κάθε μέθοδος παρουσιάζει ελαφρά βελτίωση σε σχέση με τις προηγούμενες

Έργα

Η ανά κόμβο ανοικοδόμηση υπερβολικά απαιτητική

Η σειριακή μέθοδος καλύτερη της μη-σειριακής

Page 15: Ioannis Iakovidis

S-CASE:

Υπηρεσία ημιαυτόματης δημιουργία RESTful Web Services με χρήση απαιτήσεων λογισμικού και μοντέλων συστημάτων

Page 16: Ioannis Iakovidis

Ασχολούμαστε με τον μηχανισμό αυτόματης εξαγωγής οντοτήτων από προτάσεις απαιτήσεων λογισμικού.

Page 17: Ioannis Iakovidis

Τέσσερεις τύποι οντοτήτων:

Action: Ενέργειες που εκτελούνται

Actor: Οντότητες που εκτελούν ενέργειες (σύστημα, χρήστες κ.τ.λ.)

Object: Οντότητες πάνω στις οποίες εκτελούνται ενέργειες.

Property: Ιδιότητες των οντοτήτων τύπου Actor και Object

Page 18: Ioannis Iakovidis

Τρεις τύποι σχέσεων μεταξύ οντοτήτων:

IsActorOf: Συνδέει οντότητες τύπου Actor με τις ενέργειες Action που εκτελούν

ActsOn: Συνδέει ενέργειες Action με τις οντότητες Object πάνω στις οποίες εκτελούνται

HasProperty: Συνδέει οντότητες τύπου Action και Object με τα χαρακτηριστικά Property

Page 19: Ioannis Iakovidis

Εύρεση οντοτήτων-σχέσεων σε τρία βήματα:

Εύρεση οντοτήτων Action και Object

Εύρεση σχέσεων ActsOn μεταξύ Action και Object

Εύρεση οντοτήτων Actor και Property και σχέσεων IsActorOf και HasProperty

Προεπεξεργασία: Εξαγωγή συντακτικών δεδομένων με χρήση Mate-tools

Page 20: Ioannis Iakovidis

Εύρεση οντοτήτων Action και Object

Αναζήτηση ακολουθόντας το συντακτικό δέντρο

Page 21: Ioannis Iakovidis

Εύρεση οντοτήτων Action και Object

Αναζήτηση ακολουθόντας το συντακτικό δέντρο

Χαρακτηριστικά

Λέξη

Part-of-Speech tag

PoS tags των παιδιών

Συντακτική σχέση των παιδιών με την τρέχουσα λέξη

Συντακτική σχέση με την λέξη-πατέρα

Ακολουθία συντακτικών σχέσεων από την τρέχουσα λέξη μέχρι την ρίζα

Ακολουθία σχέσεων από την τρέχουσα λέξη μέχρι άλλα Action/Object tags.

Page 22: Ioannis Iakovidis

Εύρεση σχέσεων ActsOn

Σειριακή εξέταση ζευγών Action-Object

Χαρακτηριστικά

Ζεύγος λέξεων

Ζεύγος PoS tags

PoS tags των παιδιών

Συντακτικές σχέσεις των λέξεων με τις λέξεις-πατέρες τους

Ακολουθία συντακτικών σχέσεων στο μονοπάτι από Action σε Object

Ακολουθία σχέσεων στο μονοπάτι από την οντότητα Object σε άλλες οντότητες Object που συνδέονται με την Action

Page 23: Ioannis Iakovidis

Εύρεση οντοτήτων Actor/Property και σχέσεων IsActorOf/HasProperty

Αναζήτηση ακολουθόντας το συντακτικό δέντρο

Page 24: Ioannis Iakovidis

Εύρεση οντοτήτων Actor/Property και σχέσεων IsActorOf/HasProperty

Αναζήτηση ακολουθόντας το συντακτικό δέντρο

Χαρακτηριστικά

Ζεύγος λέξεων

Ζεύγος PoS tags

Συντακτικές σχέσεις των λέξεων με τις λέξεις-πατέρες τους

Ακολουθία PoS tags στο μονοπάτι από την πρώτη λέξη στην δεύτερη

Ακολουθία σχέσεων στο μονοπάτι από την πρώτη λέξη στην δεύτερη

Ακολουθία σχέσεων στο μονοπάτι από την δεύτερη λέξη σε άλλες λέξεις που συνδέονται με την πρώτη

Page 25: Ioannis Iakovidis

0.74

0.75

0.76

0.77

0.78

0.79

0.8

0.81

0.82

0.83

0.84

0.85

Action/Object F1 Perc ActsOn F1 Perc IsActorOf/HasProperty F1

Perc

Επίδοση Τμημάτων Αλγορίθμου

Επιδόσεις μειώνονται με κάθε τμήμα του αλγορίθμου

Κάθε τμήμα βασίζεται στην έξοδο του προηγούμενου

Κάθε τμήμα πιο πολύπλοκο από τα προηγούμενα

Page 26: Ioannis Iakovidis

Επιδόσεις μικρότερες στο νέο dataset

Ο parser ενισχυτικής μάθησης παρουσιάζει καλύτερες επιδόσεις

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

S-CASE dataset F1 Perc New requirements F1 Perc

Επίδοση Parsers

RL Parser

S-CASE Parser

Page 27: Ioannis Iakovidis

Εξαγωγή πληροφοριών ταινιών από ιστοσελίδες.

Δύο datasets:

Imdb: Σχετικά σταθερή δομή μεταξύ σελίδων

Wikipedia: Μεγαλύτερη ανομοιομορφία στην δομή των σελίδων

www.imdb.com www.wikipedia.com

Page 28: Ioannis Iakovidis

title

• Gone With The Wind

Director

• Victor Fleming

Editor

• Hal C. Kern

• James E. Newcom

Δύο στάδια:

Εξαγωγή πληροφοριών από ιστοσελίδα

Κατηγοριοποίηση πληροφοριών

Page 29: Ioannis Iakovidis

Πρώτο στάδιο:

Ο πράκτορας ξεκινά στην κορυφή του δέντρου.

Τρείς διαθέσιμες ενέργειες

Χαρακτηριστικά

Όνομα κόμβου

Ακολουθία ονομάτων κόμβων από τη ρίζα του δέντρου μέχρι τον τρέχοντα κόμβο

HTML χαρακτηριστικά του κόμβου

Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)

Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου

Page 30: Ioannis Iakovidis

Πρώτη επιλογή:

Εξερεύνηση των παιδιών του κόμβου

Page 31: Ioannis Iakovidis

Πρώτη επιλογή:

Εξερεύνηση των παιδιών του κόμβου

Page 32: Ioannis Iakovidis

Δεύτερη επιλογή:

Συνέχιση έρευνας στον επόμενο κόμβο

Page 33: Ioannis Iakovidis

Δεύτερη επιλογή:

Συνέχιση έρευνας στον επόμενο κόμβο

Page 34: Ioannis Iakovidis

Τρίτη επιλογή:

Εξαγωγή στοιχείων κόμβου

Συνέχιση έρευνας στον επόμενο κόμβο

Page 35: Ioannis Iakovidis

Τρίτη επιλογή:

Εξαγωγή στοιχείων κόμβου

Συνέχιση έρευνας στον επόμενο κόμβο

Page 36: Ioannis Iakovidis

Δεύτερο στάδιο:

Κατηγοριοποίηση των εξαγομένων δεδομένων

title

• The Jazz Singer

Editor

• Harold McCord

Production company

• Warner Bros. Pictures

Actor

• Al Jolson as Jakie Rabinowitz (Jack Robin) James E.

• Warner Oland as Cantor Rabinowitz

Χαρακτηριστικά

Όνομα κόμβου

HTML χαρακτηριστικά του κόμβου

Επικεφαλίδα υποδέντρου του κόμβου (αν υπάρχει)

Ονόματα κόμβων που παρουσιάζονται πάνω από μία φορά στο υποδέντρο του κόμβου

Page 37: Ioannis Iakovidis

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Extraction F1 Classification Perc Final F1

Επιδόσεις αλγορίθμου

Imdb

Wikipedia

Επιδόσεις στο wikipedia dataset μικρότερες λόγω μεγαλύτερης ανομοιομορφίας σελίδων

Page 38: Ioannis Iakovidis

Συμπεράσματα:

Οι μέθοδοι ενισχυτικήςμάθησης παρουσιάζουν top-of-the-line επιδόσεις σε προβλήματα δομημένης πρόβλεψης

Μπορούν να εξερευνούν δομημένα δεδομένα με μια ποικιλία τρόπων

Μελλοντική εργασία:

Αποτελεσματική μη-σειριακή εξερεύνηση δέντρων

Αντιστοίχηση τμημάτων ιστοσελίδων που περιέχουν ίδια δεδομένα

Χρήση NLP για εξαγωγή πληροφοριών από άγνωστες ιστοσελίδες

Page 39: Ioannis Iakovidis

Ερωτήσεις;