Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29 · Analiza zawartosci...
Transcript of Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29 · Analiza zawartosci...
Analiza zawartosci dokumentów zapomoca probabilistycznych modeli
graficznych
Probabilistic Topic Models
Jakub M. TOMCZAKPolitechnika Wrocławska, Instytut Informatyki
30.03.2011, Wrocław
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
2/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
2/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
2/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
2/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
2/22
WstepZarys problemu
Cele analizy dokumentów i słów:I otrzymywanie informacji
semantycznej słów na podstawiedokumentów;
I modelowanie dokumentów mniejszaliczba parametrów (redukcja długosciopisu problemu);
I automatyczne rozumienie słów(polisemia – wiele znaczen jednegosłowa);
I mozliwosc porównywania dokumentów isłów;
SIEĆ KOMPUTER
RYBA INFORMATYKA
RYBOŁÓSTWO
3/22
WstepMetody
I tf-idf (ang. term frequency – inverse document frequency) – dlawybranego zbioru termów i kazdego dokumentu liczony jestwspółczynnik tf-idf
I LSI (ang. Latent Semantic Indexing) – wykorzystanie dekompozycjiSVD do wykrycia podprzestrzeni cech tf-idf
I Modele probabilistyczne:I unigramy (ang. unigrams)
I mieszanina unigramów (ang. mixture of unigrams)
I probabilistyczna analiza ukrytej semantyki (ang. Probabilistic LatentSemantic Analysis, PLSA)
I alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation)
I hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process)
4/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
5/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
5/22
Modele probabilistyczneUnigramy
wN
M
Zakładamy, ze słowa dla kazdego dokumentu, m = 1, 2, . . . ,M, losowanesa niezaleznie z rozkładu wielomianowego:
p(wm) =N∏
n=1
p(wnm)
gdzie N – liczba słów w dokumencie, M – liczba dokumentów, wnm – słowo.
6/22
Modele probabilistyczneMieszanina unigramów
wN
M
z
Zakładamy, ze jednemu dokumentowi odpowiada dokładnie jeden temat.Wówczas słowa losowane sa z rozkładu:
p(wm) =∑
z
p(zm)N∏
n=1
p(wnm|zm)
gdzie p(zm) – rozkład a priori tematów, p(wnm|zm) – prawd. słowa dla
zadanego tematu.
7/22
Modele probabilistyczneProbabilistic Latent Semantic Analysis
wN
M
zd
Dla wybranego dokumentu d słowo jest zalezne od róznych tematów:
p(dm,wm) = p(dm)N∏
n=1
∑zn
m
p(wnm|zn
m)p(znm|dm)
gdzie p(dm) – rozkład a priori dokumentów, p(wnm)|zn
m) – prawd. słowa dlazadanego tematu, p(zn
m|dm) – prawd. zawierania kilku tematów przezdokument.
8/22
Modele probabilistyczneProbabilistic Latent Semantic Analysis – wady i zalety
Zalety:
I dokument moze dotyczyc wielutematów;
Wady:
I liczba parametrów rosnie liniowowraz ze wzrostem liczbydokumentów M;
I nie jest to poprawniesformułowany model generujacy,nie mozna przyporzadkowacprawdopodobienstw dowczesniej niezaobserwowanychdokumentów;
9/22
Modele probabilistyczneModel generujacy i wnioskowanie z niego
10/22
Modele probabilistyczneLatent Dirichlet Allocation
wN
M
z
K
p(wm|α, η) =∫
p(θm|α)[ K∏
k=1
p(βk |η)N∏
n=1
(∑zn
m
p(wnm|zn
m, βk )p(znm|θm)
)]dθm
gdzie β – zm. losowa o rozkładzie Dirichleta okreslajaca słowa z zadanegosłownika w temacie, θ – zm. losowa okreslajaca tematy dokumentu
11/22
Modele probabilistyczneLatent Dirichlet Allocation – proces generowania dokumentu
1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta,βk ∼ Dir(η), k = 1, 2, . . . ,K .
2. Dla kazdego dokumentu m wybierz proporcje z symetrycznegorozkładu Dirichleta, θm ∼ Dir(α), m = 1, 2, . . . ,M.
3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:
I Wybierz przydzielenie tematu z rozkładu wielomianowego,zn
m|θm ∼ Multi(θm).
I Wybierz słowa z zadanego tematu, wnm|zn
m, β1:K ∼ Multi(βznm).
12/22
Modele probabilistyczneRozkład Dirichleta
x – empiryczne obserwacje dokumentów w PLSA, linia ciagła – gładki rozkład prawd. w LDA
13/22
Modele probabilistyczneHierarchical Dirichlet Process
n
mw N
M
nmG
0G
H
DP(·, ·) – proces Dirichleta, G0 – rozkład podstawowy tematów, H –symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0
Zastosowanie procesu Dirichleta powoduje, ze nie ma potrzeby okreslanialiczby tematów a priori, gdyz wynikaja one z danych (nieparametrycznepodejscie bayesowskie).
14/22
Modele probabilistyczneHierarchical Dirichlet Process – proces generowania dokumentu
1. Wybierz rozkład podstawowy tematów G0 ∼ DP(γ,H).
2. Dla kazdego dokumentu m wybierz wstepny rozkład tematówGm ∼ DP(α,G0).
3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:
I Wybierz temat dla słowa βnm ∼ Gm.
I Wybierz słowo wnm ∼ Multi(βn
m).
15/22
Modele probabilistyczneProblemy i rozwiniecia
I Problemy:I niemoznosc wyznaczenia wyrazen na rozkład p(wm|α, η);
I potrzeba stosowania procedur na wyrazenia przyblizone, np.procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie zuzyciem łancucha Markowa
I Rozwiniecia:I Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling,
DTM) – połaczenie LDA, gdy β tworza sekwencje.
I Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) –rozkłady tematów G tworza sekwencje.
16/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
17/22
Plan
1. Wstep
2. Modele probabilistyczne
3. Przykłady zastosowania
17/22
Przykład zastosowaniaDokumenty
18/22
Przykład zastosowaniaPolisemia
19/22
Przykład zastosowaniaObrazki
20/22
Literatura
I Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty inArtificial Intelligence, 1999
I Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach.Learn. Res., Vol. 3, pp. 993–1022, Mar. 2003
I Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models,in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S.Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006
I Zaawansowane modele graficzne dla analizy tematów:D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal ProcessingMagazine Vol. 55, NOVEMBER 2010
Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal ofthe American Statistical Association, 101(476), 2006
D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML ’06 Proceedings of the23rd international conference on Machine learning
21/22
Dziekuje za uwage!
Pytania?
22/22