Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский...
description
Transcript of Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский...
1
Представление направлений деятельности организации в
структуре предметной области: метод "кластер-лифт"
Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон
Совместная работа с T. Fenner (ДИИС Биркбек), S. Nascimento и L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010)
Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластер-
анализу» clustering” Научного фонда ВШЭ (2009-2010)
2
Cодержание
1. Постановка проблемы
2. Сущность метода «кластер-лифт»
3. Иллюстрация результатов
4. Заключение
5. Приложение: Описание метода5.1. Сбор данных об индивидуальных работах5.2. Кластеры сходства таксономических единиц5.3. Подъём кластеров в ACM-CSS Taxonomy
3
Визуализация для оперативного контроля энергосети (Манхаттэн)
4
Возможна ли подобная визуализация для целей стратегического анализа и управления?
• Карта местности?
• Энергетическая подстанция?
• Ее представление?
5
Визуализация для стратегического анализа и управления:
• Карта местности?
–Таксономия предметной области• Энергетическая подстанция?
–Кластер таксономических единиц• Способ представления?
–Верхние уровни таксономической иерархии
6
Визуализация деятельности исследовательской организации
• Организация?– A Computer Science Department
• Карта местности?– ACM Classification of Computer
Subjects • Энергетическая подстанция?
– Кластер таксономических единиц разрабатываемых в департаменте
• Представление?– Верхние уровни таксономической
иерархии
7
ACM-CCS Taxonomy – Верхний уровень, 11 категорий
• A. General Literature• B. Hardware• C. Comp. Sys. Organization• D. Software• E. Data • F. Theory of Computation
J
D
IG H
CB E F
K
A
CS
• G. Maths of Computing
• H. Information Systems
• I. Computing Methodologies
• J. Computer Applications
• K. Computing Milieux
8
ACM-CCS Taxonomy - Уровень 2, 9 категорий
• I. Computing Methodologies – I.0 GENERAL – I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION – I.2 ARTIFICIAL INTELLIGENCE – I.3 COMPUTER GRAPHICS – I.4 IMAGE PROCESSING AND COMPUTER VISION
– I.5 PATTERN RECOGNITION
– I.6 SIMULATION AND MODELING (G.3) – I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) – I.m MISCELLANEOUS
9
ACM-CCS Taxonomy - Уровень 3, 7 категорий
I.5 PATTERN RECOGNITION o I.5.0 General o I.5.1 Models o I.5.2 Design Methodology
o I.5.3 Clusteringo I.5.4 Applicationso I.5.5 Implementation (C.3) - горизонтальная ссылка
o I.5.m Miscellaneous
10
ПРОБЛЕМА
ПРЕДСТАВИТЬ:
• Исследовательскую деятельность департамента или центра Информатики
ВЕРХНИМИ УРОВНЯМИ
• ACM Классификации Информатики (ACM-CCS)
11
ЗАЧЕМ? Объективный целостный портрет организации:
• Позиционирование организации в ACM-CCS таксономии
• Анализ структуры тематики организации• Обозрение проблемных узлов, не
вписывающихся в структуру таксономии• Обзор регионального развития (с
количественными характеристиками эффективности и недо- и/или пере-оснащенности)
• Планирование реорганизации и развития
12
Иллюстрация: Центр СЕНТРИА (Новый университет Лиссабона) в
терминах среднего уровня ACM-CCS Таксономии:
Разрабатывается
26 ACM-CCS тем из общего числа 81
13
Традиционный подход - пометить темы в таксономии: темы есть, системы нет
GE B KJA
E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8
HFC D
CS
I
I1 I2 I3 I4 I5 I6 I7
14
Добиться системности I:
Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп
Для этого:– Собрать данные о тематике каждого
индивидуального проекта– Оценить сходство между темами по сходству
разработчиков– Сформировать тематические (нечеткие)
кластеры
15
Добиться системности II:
Тематические кластеры представить в ACM-CCS более общими категориями в
зависимости от нестыковок (лифт)Головная тема
Пробел
Выброс
Тема из кластера
Минимизировать: HГолТем + GПробел + OВыброс
16
GE B KJA
E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8
HFC D
CS
IHead subject
Subject’s offshoot
Gap I1 I2 I3 I4 I5 I6 I7
C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems
I. Computing Methodologies
17
Центр СЕНТРИА (Новый университет Лиссабона)
– Структура: Шесть перекрывающихся кластеров
- Позиционирование: пять Головных тем (с соответствующими выбросами и пробелами)
– Проблемный узел: Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy
18
Заключение: метод кластер-лифт
• Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии
• Инструмент анализа и планирования– Профиль организации – Интегральное представление региональной
структуры деятельности
• Необходима организация сбора данных– Через опрос– Через анализ документов – проектов, статей, и пр.,
включая Интернет (языковый барьер) – предстоит
• Работа по организации приложений
19
Appendix: Technical aspects
• E-survey tool over ACM-CCS topics
• Similarity between topics
• Additive, crisp or fuzzy, clustering
• Lifting of thematic clusters in ACM-CCS Taxonomy
20
Generic e-survey output: Fuzzy membership
21
Similarity between ACM-CCS topics
• Contribution by an individual member:
– (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey
– A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer
subjects i and j
• Matrices A(i,j) summed up over all individuals weighted according to their span ranges
22
Similarity between ACMC subjects: example 1
ACMC subjects: i, ii, iii, iv, v, vi
Chosen subject memberships for four members
i .6 .2
ii .4 .2 .2
iii .2 .4 .2
iv .3 .4 .2
v .5 .2
vi
2/5 3/5 3/5 5/5 – member weights
weight = number_of_subjects / max_number_of_subjects
23
Similarity between ACMC subjects: example 2
i .36 .24 0 0 0 0 0 0 0 0 ii .24 .16 0 0 0 0 0 0 0 0 iii 0.4 0 0 0 0 0 +0.6 0 0 .04 .06 .10 +0.6 .... =iv 0 0 0 0 0 0 0 .06 .09 .15v 0 0 0 0 0 0 0 .10 .15 .25 1st member’s 2d member’s
i 0.184 0.136 0.040 0.040 0.040ii 0.136 0.128 0.088 0.088 0.040iii 0.040 0.088 0.160 0.172 0.100iv 0.040 0.088 0.172 0.190 0.130v 0.040 0.040 0.100 0.130 0.190
not_diagonal_mean =0.0874
24
Clustering with no user-defined parameters
• Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005)
• Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009)
25
Additive fuzzy clustering
Observed: – Similarity B=(bij), i,jI
To be found:– Cluster membership u=(ui)
– Intensity > 0
Fuzzy cluster similarity A= 2uuT
26
Additive fuzzy clustering
• Model: Similarity B summarizes:– Background cluster g (all entities)– K fuzzy clusters (K unknown)– residuals E
B = Ag + A1 +A2+… +AK + E
E to be least-squares minimized over unknown clusters
27
Method: One cluster at a time• Minu, ξ t,t T ∈ (wtt− ξutut)2
• Equivalent to Rayleigh quotient
Max uWuT/(uTu)
• Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership
28
Natural stop-criteria
1. Negative eigenvalue ξ
2. Contributions
T(B) = ξ12 + ξ2
2 +…+ ξK2+ L2 (●)
having reached pre-specified proportions
29
Generalising thematic clusters over ACM-CCS: good and bad cases
• Navy cluster is tight, all topics are in one ACM-CCS category (good to generalise)
• Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise)
CS
30
Lifting with criterion of parsimony: Minimize the total penalty
• # Penalty– Head subject 1 3– Gap 1 1– Offshoot 2 0.5
• Total penalty: 5 = 1*H + 1G + 2O
31
Cluster lifting algorithm : Bottom-up recursion
CHILD 3 Gap Head Offsh
Not HS Gn3 Hn3 On3
HS Gh3 Hh3 Oh3
PARENT Gap Head Offsh
Not HS Gn Hn On
HS Gh Hh Oh
CHILD 2 Gap Head Offsh
Not HS Gn2 Hn2 On2
HS Gh2 Hh2 Oh2
CHILD 1 Gap Head Offsh
Not HS Gn1 Hn1 On1
HS Gh1 Hh1 Oh1