word2vec (часть 2)
-
Upload
denis-dus -
Category
Data & Analytics
-
view
262 -
download
16
Transcript of word2vec (часть 2)
![Page 2: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/2.jpg)
2
1. Понятие об обработке естественных языков
2. Words Embeddings
3. Вероятностные основы Word2Vec
4. Свойства пространства векторов
5. …
6. Проблема многозначных слов
7. Моделирование векторов фраз / предложений / документов
8. Recursive Neural Networks
9. Recurrent Neural Networks
![Page 3: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/3.jpg)
3
The quick brown fox jumps over the lazy dog
предсказываютсяконтекстные слова
предсказываютсяконтекстные слова
![Page 4: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/4.jpg)
4
![Page 5: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/5.jpg)
5
![Page 6: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/6.jpg)
Наземный
Родственники
Дни недели
Страны мира
Животные
Месяцы года
Глаголы
Воздушный
Транспорт
6
![Page 7: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/7.jpg)
1. Построить word2vec вектора по обучающему корпусу
2. Выбрать ширину k окна контекста
3. Для каждого слова v в корпусеa) Построить все вектора контекстов, в которых оно встречается:
… and I really like Apple iPad! Amazing …
… than conventional filtered apple juice, depending on …
b) Кластеризовать все контексты с
c) Заменить все вхождения слова v на v_k согласно кластеризации:
… and I really like Apple_1 iPad! Amazing …
… than conventional filtered apple_2 juice, depending on …
4. На переразмеченном корпусе обучить новые вектора для значений слов
7
![Page 8: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/8.jpg)
Sergey Bartunov, Dmitry Kondrashkin, Anton Osokin, Dmitry Vetrov“Breaking sticks and ambiguities with adaptive Skip-Gram”
Adaptive Skip-Gram:
Skip-Gram:
Вероятность того, чтослово xi употреблено
в смысле zi
Вероятность контекстного слова yij, при условии, что xi
употреблено в смысле zi
8
Априорная вероятность k-гозначения слова w
(stick-breaking representationof Dirichlet Process)
Вероятность контекста yi
для слова xi
Контекстные словаполагаются независимыми
![Page 9: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/9.jpg)
9
![Page 10: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/10.jpg)
10
• Оригинальная статья:https://arxiv.org/abs/1502.07257• Выступление одного из авторов (Дмитрия Ветрова): https://www.youtube.com/watch?v=vYbee1InliU• Introduction to the Dirichlet Distribution and Related Processes:https://www.ee.washington.edu/techsite/papers/refer/UWEETR-2010-0006.html
![Page 11: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/11.jpg)
Для векторизации более крупных текстовых объектов используют:
1. Объединение через разделитель (“_”)
2. Взвешенное суммирование векторов предложения / документа
3. Doc2Vec
4. RNN^2
5. …
11
![Page 12: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/12.jpg)
1. IDF-взвешенная сумма
2. TF-IDF сумма K ключевых слов документа
12
![Page 13: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/13.jpg)
13
CBOWТри слова из контекста используются
чтобы предсказать четвертое.
Doc2VecТри слова из контекста используются
чтобы предсказать четвертое. Для каждого документа коллекции
заводится свой вектор документа. В процессе обучения вектор документа конкатенируется с векторами слов.
Quoc V. Le, Tomas Mikolov,Distributed Representations of Sentences and Documents
![Page 14: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/14.jpg)
14
Quoc V. Le, Tomas Mikolov,Distributed Representations of Sentences and Documents
![Page 15: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/15.jpg)
Фаза обучения:
получение матриц векторов W, W’ и матрицы документов D
Фаза предсказания:1. Случайно инициализированные вектора, соответствующие
новым документам, добавляются к матрице D из (1)2. Матрицы W, W’ фиксируются и осуществляется градиентный
спуск только по параметрам из D
“On average, our implementation takes 30 minutes to compute the paragraph vectors of the IMDB test set, using a 16 core machine (25,000 documents, each document on average has 230 words).”
https://radimrehurek.com/gensim/models/doc2vec.html
15
![Page 16: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/16.jpg)
RNN2 =
Recursive Neural Network +
Recurrent Neural Network
16
![Page 17: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/17.jpg)
Part of speech tagging: NN = singular noun (man, dog, …) NNS = plural noun (houses, buildings, …) NNP = proper noun (IBM, John, …) DT = determiner (a, the, some, …) JJ = adjective (red, plastic, …) IN = preposition (of, in, ..) VI = intransitive verb (sleeps, laughs, …) VT = transitive verb (saw, likes, …) …
17
![Page 18: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/18.jpg)
NP (Noun Phrase) -> DT NN -> JJ N
N -> NN NN -> NN
…PP (Prepositional Phrase) -> IN NP
N -> N PP…
VP (Verb Phrase) -> VIVP -> Vt NPVP -> VP PP
…S (Sentence) -> NP VP
…
18
![Page 19: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/19.jpg)
19
![Page 20: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/20.jpg)
20
![Page 21: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/21.jpg)
21
![Page 22: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/22.jpg)
22
https://github.com/spacy-io/spaCyhttps://spacy.io/docs
![Page 23: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/23.jpg)
23
c1 c2
p
Матрица W, константа b остаются неизменнымипри комбинированиивекторов любых двух
вершин
![Page 24: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/24.jpg)
24
![Page 25: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/25.jpg)
25
![Page 26: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/26.jpg)
26
Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng.Semantic Compositionality through Recursive Matrix-Vector Spaces
![Page 27: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/27.jpg)
27
Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng.Semantic Compositionality through Recursive Matrix-Vector Spaces
![Page 28: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/28.jpg)
28
1. xt – вход в момент времени t2. st – скрытое состояние сети в момент времени t3. st вычисляется на основе текущего входа и st-1 :4. ot – выход в момент времени t, например softmax(Vst)
![Page 29: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/29.jpg)
29
http://yanran.li/peppypapers/2015/11/28/improving-information-flow-in-recurrent-networks.html
![Page 30: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/30.jpg)
На практике это работает плохо:
1. Вектор внутреннего состояния (памяти) значительно изменяется при каждом t
2. Vanishing gradient problem
3. Exploding gradient problem
30
![Page 31: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/31.jpg)
31
https://www.udacity.com/course/deep-learning--ud730
Gate (ключ)
![Page 32: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/32.jpg)
32
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
LSTM gates:1. Forget gate2. Input gate3. Output gate
![Page 33: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/33.jpg)
33
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
![Page 34: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/34.jpg)
34
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
![Page 35: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/35.jpg)
35
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
![Page 36: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/36.jpg)
36
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
![Page 37: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/37.jpg)
37
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
![Page 38: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/38.jpg)
38
Rafal Jozefowicz, Wojciech Zaremba, Ilya SutskeverAn Empirical Exploration of Recurrent Network Architectures
1. Arithmetic3369-13994433= -139910643e36d9-h1h39f94eeh43keg3c= -13991064
2. XML Modeling<pegshmnaj>
<zbhbmg></zbhbmg>
</pegshmnaj><autmh></autmh>
3. Penn Tree-BankЗадача лингвистического моделирования
4. MUT1, MUT2, MUT3 – архитектуры,полученные в ходе “жадного поиска”
![Page 39: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/39.jpg)
39
Tomas Mikolov and etc.Learning Longer Memory in Recurrent Neural Networks
![Page 40: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/40.jpg)
40
![Page 41: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/41.jpg)
41
![Page 42: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/42.jpg)
1. Затронули проблему многозначных слов
2. Изящное решение - Adaptive Skip-Gram
3. Неизящное решение – множество кластеризаций
4. Кратко рассмотрели моделирование более крупных текстовых объектов: Doc2Vec, RNN^2
42
![Page 43: word2vec (часть 2)](https://reader031.fdocuments.net/reader031/viewer/2022021507/587ce6ec1a28ab564b8b46db/html5/thumbnails/43.jpg)
43