Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский...

31
1 Представление направлений деятельности организации в структуре предметной области: метод "кластер- лифт" Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон Совместная работа с T. Fenner (ДИИС Биркбек), S. Nascimento и L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007- 2010) Поддержано грантом 09-01-0071 “Анализ связи

description

Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт". Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон - PowerPoint PPT Presentation

Transcript of Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский...

Page 1: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

1

Представление направлений деятельности организации в

структуре предметной области: метод "кластер-лифт"

Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

Совместная работа с T. Fenner (ДИИС Биркбек), S. Nascimento и L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010)

Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластер-

анализу» clustering” Научного фонда ВШЭ (2009-2010)

Page 2: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

2

Cодержание

1. Постановка проблемы

2. Сущность метода «кластер-лифт»

3. Иллюстрация результатов

4. Заключение

5. Приложение: Описание метода5.1. Сбор данных об индивидуальных работах5.2. Кластеры сходства таксономических единиц5.3. Подъём кластеров в ACM-CSS Taxonomy

Page 3: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

3

Визуализация для оперативного контроля энергосети (Манхаттэн)

Page 4: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

4

Возможна ли подобная визуализация для целей стратегического анализа и управления?

• Карта местности?

• Энергетическая подстанция?

• Ее представление?

Page 5: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

5

Визуализация для стратегического анализа и управления:

• Карта местности?

–Таксономия предметной области• Энергетическая подстанция?

–Кластер таксономических единиц• Способ представления?

–Верхние уровни таксономической иерархии

Page 6: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

6

Визуализация деятельности исследовательской организации

• Организация?– A Computer Science Department

• Карта местности?– ACM Classification of Computer

Subjects • Энергетическая подстанция?

– Кластер таксономических единиц разрабатываемых в департаменте

• Представление?– Верхние уровни таксономической

иерархии

Page 7: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

7

ACM-CCS Taxonomy – Верхний уровень, 11 категорий

• A. General Literature• B. Hardware• C. Comp. Sys. Organization• D. Software• E. Data • F. Theory of Computation

J

D

IG H

CB E F

K

A

CS

• G. Maths of Computing

• H. Information Systems

• I. Computing Methodologies

• J. Computer Applications

• K. Computing Milieux

Page 8: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

8

ACM-CCS Taxonomy - Уровень 2, 9 категорий

• I. Computing Methodologies – I.0 GENERAL – I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION – I.2 ARTIFICIAL INTELLIGENCE – I.3 COMPUTER GRAPHICS – I.4 IMAGE PROCESSING AND COMPUTER VISION

– I.5 PATTERN RECOGNITION

– I.6 SIMULATION AND MODELING (G.3) – I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) – I.m MISCELLANEOUS

Page 9: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

9

ACM-CCS Taxonomy - Уровень 3, 7 категорий

I.5 PATTERN RECOGNITION o I.5.0 General o I.5.1 Models o I.5.2 Design Methodology

o I.5.3 Clusteringo I.5.4 Applicationso I.5.5 Implementation (C.3) - горизонтальная ссылка

o I.5.m Miscellaneous

Page 10: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

10

ПРОБЛЕМА

ПРЕДСТАВИТЬ:

• Исследовательскую деятельность департамента или центра Информатики

ВЕРХНИМИ УРОВНЯМИ

• ACM Классификации Информатики (ACM-CCS)

Page 11: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

11

ЗАЧЕМ? Объективный целостный портрет организации:

• Позиционирование организации в ACM-CCS таксономии

• Анализ структуры тематики организации• Обозрение проблемных узлов, не

вписывающихся в структуру таксономии• Обзор регионального развития (с

количественными характеристиками эффективности и недо- и/или пере-оснащенности)

• Планирование реорганизации и развития

Page 12: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

12

Иллюстрация: Центр СЕНТРИА (Новый университет Лиссабона) в

терминах среднего уровня ACM-CCS Таксономии:

Разрабатывается

26 ACM-CCS тем из общего числа 81

Page 13: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

13

Традиционный подход - пометить темы в таксономии: темы есть, системы нет

GE B KJA

E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8

HFC D

CS

I

I1 I2 I3 I4 I5 I6 I7

Page 14: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

14

Добиться системности I:

Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп

Для этого:– Собрать данные о тематике каждого

индивидуального проекта– Оценить сходство между темами по сходству

разработчиков– Сформировать тематические (нечеткие)

кластеры

Page 15: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

15

Добиться системности II:

Тематические кластеры представить в ACM-CCS более общими категориями в

зависимости от нестыковок (лифт)Головная тема

Пробел

Выброс

Тема из кластера

Минимизировать: HГолТем + GПробел + OВыброс

Page 16: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

16

GE B KJA

E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8

HFC D

CS

IHead subject

Subject’s offshoot

Gap I1 I2 I3 I4 I5 I6 I7

C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems

I. Computing Methodologies

Page 17: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

17

Центр СЕНТРИА (Новый университет Лиссабона)

– Структура: Шесть перекрывающихся кластеров

- Позиционирование: пять Головных тем (с соответствующими выбросами и пробелами)

– Проблемный узел: Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy

Page 18: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

18

Заключение: метод кластер-лифт

• Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии

• Инструмент анализа и планирования– Профиль организации – Интегральное представление региональной

структуры деятельности

• Необходима организация сбора данных– Через опрос– Через анализ документов – проектов, статей, и пр.,

включая Интернет (языковый барьер) – предстоит

• Работа по организации приложений

Page 19: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

19

Appendix: Technical aspects

• E-survey tool over ACM-CCS topics

• Similarity between topics

• Additive, crisp or fuzzy, clustering

• Lifting of thematic clusters in ACM-CCS Taxonomy

Page 20: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

20

Generic e-survey output: Fuzzy membership

Page 21: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

21

Similarity between ACM-CCS topics

• Contribution by an individual member:

– (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey

– A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer

subjects i and j

• Matrices A(i,j) summed up over all individuals weighted according to their span ranges

Page 22: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

22

Similarity between ACMC subjects: example 1

ACMC subjects: i, ii, iii, iv, v, vi

Chosen subject memberships for four members

i .6 .2

ii .4 .2 .2

iii .2 .4 .2

iv .3 .4 .2

v .5 .2

vi

2/5 3/5 3/5 5/5 – member weights

weight = number_of_subjects / max_number_of_subjects

Page 23: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

23

Similarity between ACMC subjects: example 2

i .36 .24 0 0 0 0 0 0 0 0 ii .24 .16 0 0 0 0 0 0 0 0 iii 0.4 0 0 0 0 0 +0.6 0 0 .04 .06 .10 +0.6 .... =iv 0 0 0 0 0 0 0 .06 .09 .15v 0 0 0 0 0 0 0 .10 .15 .25 1st member’s 2d member’s

i 0.184 0.136 0.040 0.040 0.040ii 0.136 0.128 0.088 0.088 0.040iii 0.040 0.088 0.160 0.172 0.100iv 0.040 0.088 0.172 0.190 0.130v 0.040 0.040 0.100 0.130 0.190

not_diagonal_mean =0.0874

Page 24: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

24

Clustering with no user-defined parameters

• Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005)

• Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009)

Page 25: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

25

Additive fuzzy clustering

Observed: – Similarity B=(bij), i,jI

To be found:– Cluster membership u=(ui)

– Intensity > 0

Fuzzy cluster similarity A= 2uuT

Page 26: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

26

Additive fuzzy clustering

• Model: Similarity B summarizes:– Background cluster g (all entities)– K fuzzy clusters (K unknown)– residuals E

B = Ag + A1 +A2+… +AK + E

E to be least-squares minimized over unknown clusters

Page 27: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

27

Method: One cluster at a time• Minu, ξ t,t T ∈ (wtt− ξutut)2

• Equivalent to Rayleigh quotient

Max uWuT/(uTu)

• Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership

Page 28: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

28

Natural stop-criteria

1. Negative eigenvalue ξ

2. Contributions

T(B) = ξ12 + ξ2

2 +…+ ξK2+ L2 (●)

having reached pre-specified proportions

Page 29: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

29

Generalising thematic clusters over ACM-CCS: good and bad cases

• Navy cluster is tight, all topics are in one ACM-CCS category (good to generalise)

• Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise)

CS

Page 30: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

30

Lifting with criterion of parsimony: Minimize the total penalty

• # Penalty– Head subject 1 3– Gap 1 1– Offshoot 2 0.5

• Total penalty: 5 = 1*H + 1G + 2O

Page 31: Б.Г. Миркин ,  ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

31

Cluster lifting algorithm : Bottom-up recursion

CHILD 3 Gap Head Offsh

Not HS Gn3 Hn3 On3

HS Gh3 Hh3 Oh3

PARENT Gap Head Offsh

Not HS Gn Hn On

HS Gh Hh Oh

CHILD 2 Gap Head Offsh

Not HS Gn2 Hn2 On2

HS Gh2 Hh2 Oh2

CHILD 1 Gap Head Offsh

Not HS Gn1 Hn1 On1

HS Gh1 Hh1 Oh1