Устранение шума в анализе твитов, связь смежности и...
Transcript of Устранение шума в анализе твитов, связь смежности и...
ООббззоорр ннееккооттооррыыхх ррааббоотт
ККааррллаа ММееййеерраа
УУссттррааннееннииее шшууммаа вв ааннааллииззее ттввииттоовв,,
ссввяяззьь ссммеежжннооссттии ии ммооддуулляяррннооссттии ппррии
ррааззббииееннииии ггррааффаа
ДДььяяккоонноовв АА..ГГ..
ММооссккооввссккиийй ггооссууддааррссттввеенннныыйй ууннииввееррссииттеетт
ииммееннии ММ..ВВ.. ЛЛооммооннооссоовваа ((ММоосскквваа,, РРооссссиияя))
Выступление на семинаре
Алгебра над алгоритмами и эвристический поиск закономерностей
Карл Мейер: анализ твитов и разбиение графа 2 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККааррлл ММееййеерр – профессор в университете Северной Каролины
Карл Мейер: анализ твитов и разбиение графа 3 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ООббллаассттьь ииннттеерреессоовв
Линейная алгебра
PageRank, марковские цепи
Кластеризация, неотрицательные матричные разложения
Карл Мейер: анализ твитов и разбиение графа 4 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
Daniel Godfrey, Caley Johns, Carol Sadek, Carl Meyer, Shaina Race
Карл Мейер: анализ твитов и разбиение графа 5 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
AA CCaassee SSttuuddyy iinn TTeexxtt MMiinniinngg::
IInntteerrpprreettiinngg TTwwiitttteerr DDaattaa FFrroomm WWoorrlldd CCuupp TTwweeeettss
30 000 твитов перед началом чемпионата мира
(содержат слово world cup), английские и испанские
Из них отобрано 17023 с важной информацией
(удаляем ретвиты)
Карл Мейер: анализ твитов и разбиение графа 6 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– шум
ККооннееччннааяя ццеелльь –– кластеризация, интерпретация
ИИззббааввллееннииее оотт шшууммаа::
DBSCAN algorithm + consensus matrix
см. дальше
Карл Мейер: анализ твитов и разбиение графа 7 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
1) Tf-idf + cos + kmeans
2) Consensus clustering
consensus matrix –
ij элемент = сколько раз i и j объект попали в один кластер
(например, несколько раз k-means)
Карл Мейер: анализ твитов и разбиение графа 8 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
3) неотрицательные матричные разложения
WHA
0, HW
Можно интерпретировать как топики
и степени принадлежности к ним
ММееттооддыы ппооссттррооеенниияя ННММРР
o Multiplicative Update Rule
(в теории сходится к локальному минимуму)
o Alternating Least Squares (ALS)
o Alternating Constrained Least Squares (ACLS)
Карл Мейер: анализ твитов и разбиение графа 9 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
Карл Мейер: анализ твитов и разбиение графа 10 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ММееттооддыы ппооссттррооеенниияя ННММРР
Карл Мейер: анализ твитов и разбиение графа 11 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ККллаассттееррииззаацциияя ддлляя ооппррееддееллеенниияя ттооппииккоовв
4) Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
Алгоритм с маркировкой точек как шум и т.п.
для каждой точки строим круг радиуса
если в круге есть как минимум k точек – она плотная
если нет, но есть плотные точки – она граничная
иначе – шум
Карл Мейер: анализ твитов и разбиение графа 12 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ГГллааввннааяя ппррооббллееммаа –– ууссттррааннееннииее шшууммоовв
Карл Мейер: анализ твитов и разбиение графа 13 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
44 ааллггооррииттммаа ууддааллеенниияя шшууммоовв
N*k-means (разные k)
consensus matrix
если ij-элемент <10% - зануляем
строки «с большим числом нулей» шумовые
N*DBSCAN (после первого?)
если граничная или шум в > 50% случаях
удаляем
На consensus matrix, а не матрице расстояний!
Комбинация (голосованием)
Карл Мейер: анализ твитов и разбиение графа 14 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыббоорр ччииссллаа ттооппииккоовв
СDL
С – матрица консенсуса
Смотрим на 50 наименьших с.з. –
по принципу наибольшего зазора определяем число топиков
Карл Мейер: анализ твитов и разбиение графа 15 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ИИттооггооввааяя ккллаассттееррииззаацциияя
1) k-means
2) NNMF – интерпретируем как степень вхождения в топик
Карл Мейер: анализ твитов и разбиение графа 16 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
Карл Мейер: анализ твитов и разбиение графа 17 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
Карл Мейер: анализ твитов и разбиение графа 18 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ВВыыввоодд:: NMF быстрее и адекватнее k-means
Карл Мейер: анализ твитов и разбиение графа 19 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] Martin Ester, Hans peter Kriegel, Jrg S, and Xiaowei Xu. A density-based algorithm for discovering
clusters in large spatial databases with noise. pages 226–231. AAAI Press, 1996.
[2] A. G. K. Janecek and W. N. Gansterer. Utilizing Nonnegative Matrix Factorization for Email Classifi-
cation Problems in Text Mining: Applications and Theory. John Wiley and Sons, 2010.
[3] Amy N. Langville, Carl D. Meyer, Russell Albright, James Cox, and David Duling. Algorithms,
initializations, and convergence for the nonnegative matrix factorization. 2014.
[4] Daniel D. Lee and H. Sebastian Seung. Algorithms for non-negative matrix factorization. 2000.
[5] Tao Li and Chris Ding. Nonnegative matrix factorizations for clustering: A survey. pages 149–179,
2013.
[6] Carl D. Meyer. Matrix Analysis and Applied Linear Algebra. SIAM, 2001.
[7] Mark EJ Newman. Modularity and community structure in networks. Proceedings of the National
Academy of Sciences, 103(23):8577–8582, 2006.
[8] Gang Qian, Shamik Sural, Yuelong Gu, and Sakti Pramanik. Similarity between euclidean and cosine
angle distance for nearest neighbor queries. 2004.
[9] Shaina L. Race. Iterative Consensus Clustering. PhD thesis, North Carolina State University, 2014.
[10] Andrey A. Shabalin. k-means animation. Web.
[11] Farial Shahnaz. Document clustering using nonnegative matrix factorization. Information
Processing and Management, 42(2):373–386, 2006.
[12] Ankita Vimal, Satyanarayana R Valluri, and Kamalakar Karlapalem. An experiment with distance
meaures for clustering. International Conference on Management of Data COMAD, 2008.
Карл Мейер: анализ твитов и разбиение графа 20 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
RREELLAATTIIOONNSS BBEETTWWEEEENN AADDJJAACCEENNCCYY AANNDD
MMOODDUULLAARRIITTYY GGRRAAPPHH PPAARRTTIITTIIOONNIINNGG
HANSI JIANG, CARL MEYER
Карл Мейер: анализ твитов и разбиение графа 21 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ССууттьь
главный с.в. матрицы модулярности – линейная комбинация с.в.
матрицы смежности, коэффициенты определены
Предложен метод для аппроксимации ГСВММ
Получена ошибка аппроксимации
Карл Мейер: анализ твитов и разбиение графа 22 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ННааппооммииннааннииее
Матрица Лапласа
ADL
Матрица модулярности
m
ddAB
2
т
нормированные версии:
2/12/1 LDDL , 2/12/1 BDDB
решение задачи на с.з.:
),0( e , ),0( 2/1 eD
Карл Мейер: анализ твитов и разбиение графа 23 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть тUUA , iu – столбцы U , n 1 – на диагонали .
Пусть n 1 – с.в. матрицы B .
Если 211 , || 21 , тогда с.в. 1b ~ max с.з. B :
i
n
i i
i udu
dU 1 2
т
2
т )(||||
1
Карл Мейер: анализ твитов и разбиение графа 24 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть при старых предположениях
2
т
1
т
||||)( dU
du
i
ii
,
и есть такое переупорядочивание
||||1iin
, тогда можно 1b аппроксимировать с помощью
jj i
p
j
i u1
с ошибкой
pj
i jb
2
21 ||||
1
Карл Мейер: анализ твитов и разбиение графа 25 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ТТееооррееммаа
Пусть 0 – простое с.з. B,
1 – простое с.з. A, 10
тогда
BuAu ~),(~),( .
Если ещё 0 не наибольшее с.з. B, тогда с.в. соответствующий max
с.з. B и с.в. соответствующий max второму по величине с.з. A
совпадают.
ППооээттооммуу ии ссооооттввееттссттввууюющщииее ккллаассттееррииззааццииии ссооввппааддааюютт!!
Карл Мейер: анализ твитов и разбиение графа 26 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЭЭккссппееррииммееннттыы ннаа 33 ннааббоорраахх ддаанннныыхх
1. Wine Recognition Data Set (UCI)
178 объектов, 13 признаков, гауссова схожесть
2. Breast Cancer Wisconsin (Original) Data Set (UCI)
699 объектов, 9 признаков
3. PenDigit Data Sets from MNIST database
ДДлляя ссррааввннеенниияя ссххооддссттвваа ррааббооттыы 22хх ммееттооддоовв ккллаассттееррииззааццииии
Карл Мейер: анализ твитов и разбиение графа 27 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
ЛЛииттееррааттуурраа
[1] R. W. Abbey Stochastic clustering: Visualization and application. , PhD Thesis, North Carolina State
University, (2013).
[2] M. Bolla Penalized versions of the newman-girvan modularity and their relation to normalized cuts
and k-means clustering , Physical Review E, 84 (2011), p. 016108.
[3] J. R. Bunch, C. P. Nielsen, and D. C. Sorensen, Rank-one modification of the symmetric eigenproblem,
Numerische Mathematik, 31 (1978), pp. 31–48.
[4] R. Chitta, R. Jin, and A. K. Jain, Efficient kernel clustering using random fourier features, in Data
Mining (ICDM), 2012 IEEE 12th International Conference on, IEEE, 2012, pp. 161–170.
[5] F. R. Chung, Spectral graph theory, vol. 92, American Mathematical Soc., 1997.
[6] M. Fiedler, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal, 23 (1973), pp. 298–
305.
[7] A property of eigenvectors of nonnegative symmetric matric
es and its application to graph theory, Czechoslovak Mathematical Journal, 25 (1975), pp. 619–633.
[8] J. Goldberger, G. E. Hinton, S. T. Roweis, and R. R. Salakhutdinov, Neighbourhood components
analysis, in Advances in Neural Information Processing Systems 17, L. Saul, Y. Weiss, and L. Bottou,
eds., MIT Press, 2005, pp. 513–520.
[9] T. Hertz, A. Bar-Hillel, and D. Weinshall, Boosting margin based distance functions for clustering, in
Proceedings of the twenty-first international conference on Machine learning,
ACM, 2004, p. 50.
[10] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification systems,
Fuzzy Systems, IEEE Transactions on, 13 (2005), pp. 428–435.
[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document
recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[12] M. Lichman, UCI machine learning repository, 2013.
Карл Мейер: анализ твитов и разбиение графа 28 слайд из 28 Дьяконов А.Г. (Москва, МГУ)
Алгебра над алгоритмами и эвристический поиск закономерностей 16 сентября 2015 года
[13] O. L. Mangasarian, W. N. Street, and W. H. Wolberg, Breast cancer diagnosis and prognosis via
linear programming, Operations Research, 43 (1995), pp. 570–577.
[14] C. D. Meyer, Matrix analysis and applied linear algebra, Siam, 2000.
[15] M. E. Newman, Modularity and community structure in networks, Proceedings of the National
Academy of Sciences, 103 (2006), pp. 8577–8582.
[16] M. E. Newman and M. Girvan, Finding and evaluating community structure in networks, Physical
review E, 69 (2004), p. 026113.
[17] A. Y. Ng, M. I. Jordan, Y. Weiss, et al., On spectral clustering: Analysis and an algorithm, Advances
in neural information processing systems, 2 (2002), pp. 849–856.
[18] S. L. Race, Iterative consensus clustering, PhD Thesis, North Carolina State University, (2014).
[19] S. L. Race, C. Meyer, and K. Valakuzhy, Determining the number of clusters via iterative consensus
clustering , in Proceedings of the SIAM Conference on Data Mining (SDM), SIAM, 2013, pp. 94–102.
[20] J. Shi and J. Malik, Normalized cuts and image segmentation, Pattern Analysis and Machine
Intelligence, IEEE Transactions on, 22 (2000), pp. 888–905
[21] P.-N. Tan, M. Steinbach, V. Kumar, et al., Introduction to data mining
, vol. 1, Pearson Addison Wesley Boston, 2006.
[22] U. Von Luxburg, A tutorial on spectral clustering, Statistics and computing, 17 (2007), pp. 395–416.
[23] J. H. Wilkinson, J. H. Wilkinson, and J. H. Wilkinson, The algebraic eigenvalue problem, vol. 87,
Clarendon Press Oxford, 1965.
[24] L. Yu and C. Ding, Network community discovery: solving modularity clustering via normalized cut,
in Proceedings of the Eighth Workshop on Mining and Learning with Graphs,
ACM, 2010, pp. 34–36.
[25] R. Zhang and A. I. Rudnicky, A large scale clustering scheme for kernel k-means, in Pattern
Recognition, 2002. Proceedings. 16th International Conference on, vol. 4, IEEE, 2002, pp. 289–292.