Outliers

15
Ανάλυση Ακραίων Τιμών σε Πολυμεταβλητά Δεδομένα Οι διάφορες μέθοδοι μπορούν να ταξινομηθούν σε τέσσερις τουλάχιστον κατηγορίες: Depth-based Methods Deviation-based Methods Angle-based Outlier Detection Distance-based Methods

description

Μέθοδοι εύρεσης outliers

Transcript of Outliers

Page 1: Outliers

Ανάλυση Ακραίων Τιμών σε Πολυμεταβλητά Δεδομένα

Οι διάφορες μέθοδοι μπορούν να ταξινομηθούν σε τέσσερις τουλάχιστον κατηγορίες:

Depth-based Methods

Deviation-based Methods

Angle-based Outlier Detection

Distance-based Methods

Page 2: Outliers

Depth-based Methods (1/3)

Έχει την καταγωγή της στην Υπολογιστική Γεωμετρία.

Μια από τις πιο χρήσιμες και ενδιαφέρουσες δομές στην Υπολογιστική Γεωμετρία είναι το κυρτό περίβλημα (convex hull).

Το κυρτό περίβλημα χρησιμοποιείται για τον εντοπισμό των outliers.

Ας δούμε μερικούς ορισμούς!

Page 3: Outliers

Κυρτό Σύνολο

Ορισμός: Μία επίπεδη περιοχή R είναι κυρτή αν και μόνο αν για κάθε ζεύγος σημείων p, q R∈ , το ευθύγραμμο τμήμα pq κείται εντός του R.

Page 4: Outliers

Κυρτό Περίβλημα

Ορισμός: Το κυρτό περίβλημα CH(Q) ενός συνόλου Q είναι η μικρότερη κυρτή περιοχή που περιέχει το Q.

Page 5: Outliers

Depth-based Methods (2/3)

Κεντρική ιδέα– Οι παρατηρήσεις οργανώνονται σε επίπεδα βάσει

ενός ορισμού του βάθους.

– Το βάθος συνδέεται άμεσα με τον υπολογισμό του κυρτού περιβλήματος.

– Τα “ρηχά” επίπεδα είναι πιο πιθανό να περιέχουν κάποιο outlier παρά τα “βαθειά”.

Ένα μειονέκτημα αυτής της μεθόδου είναι ότι ο υπολογισμός του κυρτού περιβλήματος έχει μεγάλο υπολογιστικό κόστος.

Page 6: Outliers

Depth-based Methods (3/3)

Page 7: Outliers

Deviation-based Methods (1/3)

Κεντρική ιδέα– Μας δίνεται ένα σύνολο παρατηρήσεων.

– Τα outliers είναι οι παρατηρήσεις που δεν ταιριάζουν στα γενικά χαρακτηριστικά του συνόλου.

– Η διακύμανση του συνόλου μειώνεται όταν αφαιρούνται τα outliers.

Η βασική υπόθεση είναι ότι τα outliers είναι οι πλέον απομακρυσμένες παρατηρήσεις του συνόλου δεδομένων.

Ας δούμε μερικούς χρήσιμους ορισμούς!

Page 8: Outliers

Deviation-based Methods (2/3)

Ορισμός: Για κάθε σύνολο R D⊆ , o smoothing factor SF(R) υπολογίζει πόσο μειώνεται η διακύμανση του D όταν το R αφαιρείται από το D, όπου D το σύνολο των δεδομένων.

Τελικά, τα outliers είναι τα στοιχεία που ανήκουν στο σύνολο exception E D, ⊆ για το οποίο ισχύει:

Για κάθε R D, SF(E) ≥ SF(R)⊆ Με άλλα λόγια, η αφαίρεση των outliers προκαλεί την

μέγιστη μείωση της διακύμανσης στο D.

Page 9: Outliers

Deviation-based Methods (3/3)

Ένα μειονέκτημα αυτής της μεθόδου είναι ότι ο υπολογισμός του βέλτιστου συνόλου E έχει μεγάλο υπολογιστικό κόστος (O(2n)).

Page 10: Outliers

Angle-based Outlier Detection (1/6)

Κεντρική ιδέα– Χρησιμοποιεί διανύσματα και συνημίτονα γωνίας διανυσμάτων.

– Τα συνοριακά σημεία είναι πιθανό να “περιέχουν” όλα τα δεδομένα στο εσωτερικό μιας μικρότερης γωνίας.

– Τα εσωτερικά σημεία είναι πιθανό να “περιέχουν” άλλα σημεία στο εσωτερικό διαφορετικών γωνιών.

– Όσο πιο απομονωμένο είναι ένα σημείο, τόσο μικρότερη είναι η γωνία που σχηματίζεται.

Σημεία με μικρότερο φάσμα γωνιών είναι πιθανά outliers.

Page 11: Outliers

Angle-based Outlier Detection (2/6)

Page 12: Outliers

Angle-based Outlier Detection (3/6)

Page 13: Outliers

Angle-based Outlier Detection (4/6)

Έστω τρία σημεία X, Y και Ζ. Τότε η γωνία μεταξύ των διανυσμάτων Y – X και Z – X δεν διαφέρει αρκετά για διάφορες τιμές των Υ και Z όταν το X είναι outlier.

Αυτή η γωνία συνδέεται με τον παρακάτω τύπο:

όπου WCos = Weighted Cosine.

Page 14: Outliers

Angle-based Outlier Detection (5/6)

Η διακύμανση στο φάσμα των γωνιών υπολογίζεται μεταβάλλοντας τις τιμές των Y και Z και κρατώντας σταθερή την τιμή του X.

Τέλος, ορίζουμε τον angle-based outlier factor (ABOF):

Σημεία με χαμηλότερο ABOF είναι πιθανά outliers.

Page 15: Outliers

Angle-based Outlier Detection (6/6)

Ο ABOF μπορεί να υπολογιστεί μια διάφορους τρόπους.

Η απλούστερη λύση έχει κόστος O(N3) και δεν είναι πρακτική για μεγάλα σύνολα δεδομένων.

Στην βιβλιογραφία υπάρχουν και άλλοι τρόποι υπολογισμού του ABOF, πιο αποδοτικοί.