Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29 · Analiza zawartosci...

Analiza zawartosci dokumentów zapomoca probabilistycznych modeli

graficznych

Probabilistic Topic Models

Jakub M. TOMCZAKPolitechnika Wrocławska, Instytut Informatyki

30.03.2011, Wrocław

Plan

1. Wstep

2. Modele probabilistyczne

3. Przykłady zastosowania

2/22

WstepZarys problemu

Cele analizy dokumentów i słów:I otrzymywanie informacji

semantycznej słów na podstawiedokumentów;

I modelowanie dokumentów mniejszaliczba parametrów (redukcja długosciopisu problemu);

I automatyczne rozumienie słów(polisemia – wiele znaczen jednegosłowa);

I mozliwosc porównywania dokumentów isłów;

SIEĆ KOMPUTER

RYBA INFORMATYKA

RYBOŁÓSTWO

3/22

WstepMetody

I tf-idf (ang. term frequency – inverse document frequency) – dlawybranego zbioru termów i kazdego dokumentu liczony jestwspółczynnik tf-idf

I LSI (ang. Latent Semantic Indexing) – wykorzystanie dekompozycjiSVD do wykrycia podprzestrzeni cech tf-idf

I Modele probabilistyczne:I unigramy (ang. unigrams)

I mieszanina unigramów (ang. mixture of unigrams)

I probabilistyczna analiza ukrytej semantyki (ang. Probabilistic LatentSemantic Analysis, PLSA)

I alokacja ukrytej zmiennej Dirichleta (ang. Latent Dirichlet Allocation)

I hierarchiczny proces Dirichleta (ang. Hierarchical Dirichlet Process)

4/22

Plan

1. Wstep



5/22

Modele probabilistyczneUnigramy

wN

M

Zakładamy, ze słowa dla kazdego dokumentu, m = 1, 2, . . . ,M, losowanesa niezaleznie z rozkładu wielomianowego:

p(wm) =N∏

n=1

p(wnm)

gdzie N – liczba słów w dokumencie, M – liczba dokumentów, wnm – słowo.

6/22

Modele probabilistyczneMieszanina unigramów

wN

M

z

Zakładamy, ze jednemu dokumentowi odpowiada dokładnie jeden temat.Wówczas słowa losowane sa z rozkładu:

p(wm) =∑

z

p(zm)N∏

n=1

p(wnm|zm)

gdzie p(zm) – rozkład a priori tematów, p(wnm|zm) – prawd. słowa dla

zadanego tematu.

7/22

Modele probabilistyczneProbabilistic Latent Semantic Analysis

wN

M

zd

Dla wybranego dokumentu d słowo jest zalezne od róznych tematów:

p(dm,wm) = p(dm)N∏

n=1

∑zn

m

p(wnm|zn

m)p(znm|dm)

gdzie p(dm) – rozkład a priori dokumentów, p(wnm)|zn

m) – prawd. słowa dlazadanego tematu, p(zn

m|dm) – prawd. zawierania kilku tematów przezdokument.

8/22

Modele probabilistyczneProbabilistic Latent Semantic Analysis – wady i zalety

Zalety:

I dokument moze dotyczyc wielutematów;

Wady:

I liczba parametrów rosnie liniowowraz ze wzrostem liczbydokumentów M;

I nie jest to poprawniesformułowany model generujacy,nie mozna przyporzadkowacprawdopodobienstw dowczesniej niezaobserwowanychdokumentów;

9/22

Modele probabilistyczneModel generujacy i wnioskowanie z niego

10/22

Modele probabilistyczneLatent Dirichlet Allocation

wN

M

z

K

p(wm|α, η) =∫

p(θm|α)[ K∏

k=1

p(βk |η)N∏

n=1

(∑zn

m

p(wnm|zn

m, βk )p(znm|θm)

)]dθm

gdzie β – zm. losowa o rozkładzie Dirichleta okreslajaca słowa z zadanegosłownika w temacie, θ – zm. losowa okreslajaca tematy dokumentu

11/22

Modele probabilistyczneLatent Dirichlet Allocation – proces generowania dokumentu

1. Wybierz słowa w tematach z symetrycznego rozkładu Dirichleta,βk ∼ Dir(η), k = 1, 2, . . . ,K .

2. Dla kazdego dokumentu m wybierz proporcje z symetrycznegorozkładu Dirichleta, θm ∼ Dir(α), m = 1, 2, . . . ,M.

3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:

I Wybierz przydzielenie tematu z rozkładu wielomianowego,zn

m|θm ∼ Multi(θm).

I Wybierz słowa z zadanego tematu, wnm|zn

m, β1:K ∼ Multi(βznm).

12/22

Modele probabilistyczneRozkład Dirichleta

x – empiryczne obserwacje dokumentów w PLSA, linia ciagła – gładki rozkład prawd. w LDA

13/22

Modele probabilistyczneHierarchical Dirichlet Process

n

mw N

M

nmG

0G

H

DP(·, ·) – proces Dirichleta, G0 – rozkład podstawowy tematów, H –symetryczny rozkład Dirichleta nad simpleksem słów, α > 0, γ > 0

Zastosowanie procesu Dirichleta powoduje, ze nie ma potrzeby okreslanialiczby tematów a priori, gdyz wynikaja one z danych (nieparametrycznepodejscie bayesowskie).

14/22

Modele probabilistyczneHierarchical Dirichlet Process – proces generowania dokumentu

1. Wybierz rozkład podstawowy tematów G0 ∼ DP(γ,H).

2. Dla kazdego dokumentu m wybierz wstepny rozkład tematówGm ∼ DP(α,G0).

3. Dla kazdego n-tego słowa w kazdym m-tym dokumencie:

I Wybierz temat dla słowa βnm ∼ Gm.

I Wybierz słowo wnm ∼ Multi(βn

m).

15/22

Modele probabilistyczneProblemy i rozwiniecia

I Problemy:I niemoznosc wyznaczenia wyrazen na rozkład p(wm|α, η);

I potrzeba stosowania procedur na wyrazenia przyblizone, np.procedura próbkowania Gibbsa, metody wariacyjne, próbkowanie zuzyciem łancucha Markowa

I Rozwiniecia:I Dynamiczne modelowanie tematów (ang. Dynamic Topic Modeling,

DTM) – połaczenie LDA, gdy β tworza sekwencje.

I Dynamiczne hierarchiczne procesy Dirichleta (ang. Dynamic HDP) –rozkłady tematów G tworza sekwencje.

16/22

Plan

1. Wstep



17/22

Przykład zastosowaniaDokumenty

18/22

Przykład zastosowaniaPolisemia

19/22

Przykład zastosowaniaObrazki

20/22

Literatura

I Model PLSA: T. Hofmann, Probabilistic latent semantic analysis, in Proc. Uncertainty inArtificial Intelligence, 1999

I Model LDA i prostsze: D. Blei, A. Ng, M. I. Jordan, Latent Dirichlet allocation, J. Mach.Learn. Res., Vol. 3, pp. 993–1022, Mar. 2003

I Model LDA z algorytmem Gibbsa: M. Steyvers, T. Griffiths, Probabilistic topic models,in: Latent Semantic Analysis: A Road to Meaning, Eds.: T. Landauer, D. McNamara, S.Dennis, oraz W. Kintsch, Lawrence Erlbaum, 2006

I Zaawansowane modele graficzne dla analizy tematów:D. Blei, L. Carin. D. Dunson, Probabilistic Topic Models, IEEE Signal ProcessingMagazine Vol. 55, NOVEMBER 2010

Y.W. Teh, M.I. Jordan, M.J. Beal, D.M. Blei, Hierarchical Dirichlet Processes, Journal ofthe American Statistical Association, 101(476), 2006

D.M. Blei, J.D. Lafferty, Dynamic topic models, Proceeding ICML ’06 Proceedings of the23rd international conference on Machine learning

21/22

Dziekuje za uwage!

Pytania?

22/22

Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29 · Analiza zawartosci...

Documents

Transcript of Analiza zawartosci dokumentów za´ pomoca ...tomczak/[Tomczak...2011/03/29 · Analiza zawartosci...