WEDT Klasyfikacja dokumentów
description
Transcript of WEDT Klasyfikacja dokumentów
![Page 2: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/2.jpg)
WUTTWG
2005
Grupowanie (clustering)
![Page 3: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/3.jpg)
WUTTWG
2005
Klasa A
Klasa B
Klasa C
Klasyfikacja (categorization)
![Page 4: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/4.jpg)
WUTTWG
2005
DB
dr
dsdr – dokumenty relewantneds – dokumenty uznane przez system za relewantne
DB – baza dokumentów
ds
drdsPR
dr
drdsR
DB
drdsDBdrdsA
drDB
drdsFO
Ocena efektywności algorytmów kategoryzacji
PR – precision, R – recall, A – accuracy, FO – fallout
kategoryzacja jest problemem zbliżonym do wyszukiwania informacji (IR)
![Page 5: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/5.jpg)
WUTTWG
2005
1),(0;),(
gfPRbaba
agfPR1),(0;),(
gfRca
ca
agfR
dcba
dagfA
),(1),(0;),(
gfFOdbdb
bgfFO
RPR
F1
)1(1
1
Kategoryzacja binarna
•Wartość wskaźnika dokładności określa prawdopodobieństwo dokonania poprawnej klasyfikacji, dla losowo wybranego dokumentu ze zbioru D. •Wartość wskaźnika precyzji określa prawdopodobieństwo, iż losowy dokument wybrany z dokumentów uznanych za relewantne, jest rzeczywiście dokumentem relewantnym.•Zupełność odpowiada prawdopodobieństwu tego, iż dokument faktycznie relewantny, zostanie za taki uznany przez system. •Zaszumienie określa z kolei prawdopodobieństwo niepoprawnego uznania za relewantny dokumentu, który faktycznie relewantny nie jest.
![Page 6: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/6.jpg)
WUTTWG
2005
l
PRgfPR
l
ii
ma
1),(
Rozszerzenie dla wielu klas
Mk
M={M1, M2,...,Ml}
Makro-uśrednianie Mikro-uśrednianie
PR={PR1, PR2, ..., PRl}
![Page 7: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/7.jpg)
WUTTWG
2005Przykład oceny
Wyniki działania czterech systemów kategoryzacji:
Ocena systemów według przedstawionych wskaźników:
![Page 8: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/8.jpg)
WUTTWG
2005
Zliczanie słów
Zliczanie sekwencji słów
Rozkłady prawdopodobieństwa wyst. słów
Reprezentacje dokumentów
• reprezentacje unigramowe (bag-of-words)• binarne• częstościowe
•reprezentacja n-gramowe• reprezentacje mieszane (Katz backoff style)
•reprezentacje pozycyjne
w istocie są niemal tożsame z modelami języka
![Page 9: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/9.jpg)
WUTTWG
2005
.0
,;1
wpw
VvvwjgdyR iij
i
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją częstościową dokumentu D nazywamy wektor R taki, że:
n
j
iiji wpw
VvvwgdyR
1 .0
,1
Reprezentacje unigramowe
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Unigramową reprezentacją binarną dokumentu D nazywamy wektor R taki, że:
![Page 10: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/10.jpg)
WUTTWG
2005
• n-gramowe• mieszane
no
j
ynjxnjjjyx wpw
vwrwwwgdyM
1
11, .0
),...,,(1
Reprezentacje bazujące na modelu Markowa
„I would like to make phone...”
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wo, zm). Reprezentacją n-gramową dokumentu D nazywamy macierz M taką, że: 1) kolejne wiersze x macierzy odpowiadają kolejnym wariacjom rx obejmującym n-1 słów ze słownika V 2) kolejne kolumny y macierzy odpowiadają kolejnym słowom vy ze słownika V3) elementy macierzy przyjmują wartości:
![Page 11: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/11.jpg)
WUTTWG
2005
Budowanie reprezentacji n-gramowej
Przykład – bigram dla tekstu:
Twas brillig, and the slithy tovesDid gyre and gimble in the wabe
![Page 12: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/12.jpg)
WUTTWG
2005
0
5000
10000
15000
20000
25000
30000
35000
0 10 20 30 40 50 60
Posit
ion
Occurence
AnyDumpty
Reprezentacja pozycyjna
![Page 13: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/13.jpg)
WUTTWG
2005
i
rk
rkj
iij
v
wpw
Vvvwgdy
kfi
.0
,1
)(
11
n
vif
2r
Wystąpienia słów
f(k)=2 (przed norm.)k
Niech dany będzie dokument D=(w1, w2, ..., z1, ..., wn, zm). Reprezentacją pozycyjną dokumentu D nazywamy dwójkę (F, S) gdzie F jest zbiorem funkcji gęstości rozkładu słów fVi o następujących własnościach:1) dziedziną funkcji fVi jest zbiór {1...n}2) wartości funkcji fVi określone są następująco:
Budowanie reprezentacji pozycyjnej
![Page 14: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/14.jpg)
WUTTWG
2005
0
5e-005
0.0001
0.00015
0.0002
0.00025
f any
any
r=500r=5000
0
5e-005
0.0001
0.00015
0.0002
0.00025
0.0003
0.00035
0.0004
f d
um
pty
dumpty
r=500r=5000
Prz
ykła
dy f
un
kcji g
ęsto
ści
![Page 15: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/15.jpg)
WUTTWG
2005
• Powiększanie rozmiaru reprezentacji
• Różne metody wygładzania
• Ograniczanie rozmiaru reprezentacji
• Funkcje istotności atrybutów
• Wybór atrybutów
• Przekształcanie przestrzeni atrybutów
Przetwarzanie reprezentacji dokumentów
![Page 16: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/16.jpg)
WUTTWG
2005
1
10
100
1000
10000
0 500 1000 1500 2000 2500 3000 3500
Fre
quency
Word ID
Prawo Zipfa
Po co ograniczać rozmiar reprezentacji?
„Hapax legomena”
![Page 17: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/17.jpg)
WUTTWG
2005
Attribute selection
WUTDMGNOV 2001
Statistical tests can be also applied to check if a feature – class correlation exists
AA A C
C A
B C B
C B
Class 1 and A – significantClass 2 and B – significant
C – not important for class separation problem
![Page 18: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/18.jpg)
WUTTWG
2005
)log()log(1),(i
ijjilln df
Ntfdw
00)log(1)log()log(1),( ijijjilln tfN
Ntfdw
)log()log()log()log(1),( ijijjilln tfNNtfdw
Ograniczanie wielkości reprezentacji„Uniwersalne” funkcje istotności atrybutów
Funkcje istotności atrybutów – rodzina TF/IDF
term frequency tfi,j – określa częstość wystąpień atrybutu wi w dokumencie djdocument frequency dfi – określa liczbę dokumentów w których występuje atrybut wiN – określa liczbę wszystkich dokumentów w systemie
Atrybut w jednym dokumencie
Atrybut we wszystkich dokumentach
Funkcje istotności atrybutów - analiza funkcji gęstości
Np. wartość takiej funkcji równa 0 oznacza całkowicie równomierny rozkład wystąpień słowa, zaś dla maksymalnej koncentracji (tj. dla pojedynczego wystąpienia słowa w dokumencie) wartość równa jest 1.
![Page 19: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/19.jpg)
WUTTWG
2005
Korelacja atrybut-klasaTesty statystyczne mogą być zastosowane
AA A C
C A
B C B
C B
Klasa 1 i A – istotnyKlasa 2 i B – istotny
C – nieistotny dla separacji klas
![Page 20: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/20.jpg)
WUTTWG
2005
)|(log)|()(
)|(log)|()()(log)()(
1
11
ij
l
j iji
ij
l
j iji
l
j jji
wkPwkPwP
wkPwkPwPkPkPwIG
Information Gain określa, które atrybuty są tymi, które w najlepszy sposób różnicują klasy ze zbioru trenującego
Funkcje istotności atrybutów – Information Gain
![Page 21: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/21.jpg)
WUTTWG
2005
Grupowanie atrybutów
Przekształcanie przestrzeni atrybutów
Grupowanie wg zależności atrybut-klasa
Grupowanie semantyczne
Bezpośrednia analiza macierzy reprezentacji
(SVD)
Grupowanie wg podobieństwa
funkcji gęstości
Przekształcanie przestrzeni atrybutów
![Page 22: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/22.jpg)
WUTTWG
2005
XEROX Web Categorisation• topologia• metadane• podobieństwo tekstów
(klasyczny model dokumentów)• częstość odwiedzin
Przykład:
Atrybuty nie muszą być wyłącznie częstościami słów/sekwencji słów
Kategoryzacja dokumentów o bogatej strukturze
Tekst Elementy medialne
(obraz, dźwięk itp.)
Osadzone aplikacje
Kroje pisma
Hiperpołączenia z innymi dokumentami
Układ stron i paginacja
Node Type Size Number Number Depth Similari Freq. Entry Precision Inlinks Outlinks of ty to Point Children Children Index - + 0.67Source Index - + + 0.53Reference + - - - 0.64Destination + - - - - 0.53Head + + + + 0.70Org. Home Page + + + + 0.30Personal Home >1k&<3k - - 0.51Content + - - 0.99
![Page 23: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/23.jpg)
WUTTWG
2005Kategoryzacja oparta o formatowanie dokumentów
![Page 24: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/24.jpg)
WUTTWG
2005
Klasyfikacja - przykład
Słownik bunga-unga• bunga• unga
bungaungaBunga bunga bungaUnga unga ungaBunga unga bunga
11
UngaBunga
Binary unigram
12
UngaBunga
Multivariate unigram
![Page 25: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/25.jpg)
WUTTWG
2005
Przestrzeń
Unga
Bunga
0 1 2
0
1
2
Bunga unga bunga
![Page 26: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/26.jpg)
WUTTWG
2005
Drzewo decycyjne - uczenie
Unga
Bunga
0 1 2
0
1
2
Unga > 0Unga 0
Bunga < 2 Bunga 2
Bunga 0
Bunga > 0
Unga 1 Unga > 1
![Page 27: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/27.jpg)
WUTTWG
2005Kategoryzacja nowego dokumentu
Unga > 0Unga 0
Bunga < 2 Bunga 2
Bunga 0
Bunga > 0
Unga 1 Unga > 1
Bunga unga bunga
Bunga unga bunga
![Page 28: WEDT Klasyfikacja dokumentów](https://reader035.fdocuments.net/reader035/viewer/2022081511/568145be550346895db2c8a1/html5/thumbnails/28.jpg)
WUTTWG
2005
Zastosowania
• Klasyczne
• Analiza wiadomości email (spam, routing etc.)
• Event tracking
• Internet related
• Web Content Mining, Web Farming
• Focused crawling, assisted browsing itd.
WUTDMGNOV 2001