1 / 31

Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт". Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

bary
Download Presentation

Б.Г. Миркин , ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Представление направлений деятельности организации в структуре предметной области: метод "кластер-лифт" Б.Г. Миркин, ОПМИ ВШЭ Москва и ДИИС Биркбек Лондонский университет Лондон Совместная работа с T. Fenner (ДИИС Биркбек), S.Nascimentoи L.M. Pereira (Новый университет, Лиссабон, Португалия), Поддержано грантом PTDC/EIA/69988/2006 Португальского фонда науки и техники (2007-2010) Поддержано грантом 09-01-0071 “Анализ связи между спектральным и аппроксимационным подходами к кластер-анализу» clustering” Научного фонда ВШЭ (2009-2010)

  2. Cодержание 1. Постановка проблемы 2. Сущность метода «кластер-лифт» 3. Иллюстрация результатов 4. Заключение 5. Приложение: Описание метода 5.1. Сбор данных об индивидуальных работах 5.2. Кластеры сходства таксономических единиц 5.3. Подъём кластеров в ACM-CSS Taxonomy

  3. Визуализация для оперативного контроля энергосети (Манхаттэн)

  4. Возможна ли подобная визуализация для целей стратегического анализа и управления? • Карта местности? • Энергетическая подстанция? • Ее представление?

  5. Визуализация для стратегического анализа и управления: • Карта местности? • Таксономия предметной области • Энергетическая подстанция? • Кластер таксономических единиц • Способ представления? • Верхние уровни таксономической иерархии

  6. Визуализация деятельности исследовательской организации • Организация? • A Computer Science Department • Карта местности? • ACM Classification of Computer Subjects • Энергетическая подстанция? • Кластер таксономических единицразрабатываемых в департаменте • Представление? • Верхние уровни таксономической иерархии

  7. CS B E F A C D K I J H G ACM-CCS Taxonomy – Верхний уровень, 11 категорий • G. Maths of Computing • H. Information Systems • I. Computing Methodologies • J. Computer Applications • K. Computing Milieux • A. General Literature • B. Hardware • C. Comp. Sys. Organization • D. Software • E. Data • F. Theory of Computation

  8. ACM-CCS Taxonomy - Уровень 2, 9 категорий • I. Computing Methodologies • I.0 GENERAL • I.1 SYMBOLIC AND ALGEBRAIC MANIPULATION • I.2 ARTIFICIAL INTELLIGENCE • I.3 COMPUTER GRAPHICS • I.4 IMAGE PROCESSING AND COMPUTER VISION • I.5 PATTERN RECOGNITION • I.6 SIMULATION AND MODELING (G.3) • I.7 DOCUMENT AND TEXT PROCESSING (H.4, H.5) • I.m MISCELLANEOUS

  9. ACM-CCS Taxonomy - Уровень 3, 7 категорий I.5 PATTERN RECOGNITION • I.5.0 General • I.5.1 Models • I.5.2 Design Methodology • I.5.3 Clustering • I.5.4 Applications • I.5.5 Implementation (C.3) - горизонтальная ссылка • I.5.m Miscellaneous

  10. ПРОБЛЕМА ПРЕДСТАВИТЬ: • Исследовательскую деятельность департамента или центра Информатики ВЕРХНИМИ УРОВНЯМИ • ACM КлассификацииИнформатики (ACM-CCS)

  11. ЗАЧЕМ? Объективныйцелостный портрет организации: • Позиционирование организации в ACM-CCSтаксономии • Анализ структуры тематики организации • Обозрение проблемных узлов, не вписывающихся в структуру таксономии • Обзор регионального развития (с количественными характеристиками эффективности и недо- и/или пере-оснащенности) • Планирование реорганизации и развития

  12. Иллюстрация: Центр СЕНТРИА(Новый университет Лиссабона) в терминах среднего уровня ACM-CCS Таксономии: Разрабатывается 26 ACM-CCS тем изобщего числа 81

  13. Традиционный подход - пометить темы в таксономии: темы есть, системынет E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8 A E G J K B I CS I1 I2 I3 I4 I5 I6 I7 C D F H

  14. Добиться системности I: Объединить темы ACM-CCS в кластеры по общности разрабатывающих их групп Для этого: • Собрать данные о тематике каждого индивидуального проекта • Оценить сходство между темами по сходству разработчиков • Сформировать тематические (нечеткие) кластеры

  15. Добиться системности II: Тематические кластеры представить в ACM-CCS более общими категориями в зависимости от нестыковок (лифт) Головная тема Пробел Выброс Тема из кластера Минимизировать: HГолТем+ GПробел+ OВыброс

  16. E1 E2 E£ E4 E5 G1 G2 G3 G4 K1 K2 K3 K4 K5 K6 K7 K8 A E B G J K Head subject Subject’s offshoot Gap I CS I1 I2 I3 I4 I5 I6 I7 C D F H C. Computer Systems Organization D. Software and H. Information Systems F. Theory of Computation D. Software H. Information Systems I. Computing Methodologies

  17. Центр СЕНТРИА(Новый университет Лиссабона) • Структура: Шесть перекрывающихся кластеров • Позиционирование: пять Головных тем (ссоответствующимивыбросами и пробелами) • Проблемный узел:Кластер с двумя Головными темами – возникновение Software Engineering, не отраженное в ACM-CCS Taxonomy

  18. Заключение: метод кластер-лифт • Систематическое представление структуры деятельности головными темами, пробелами и выбросами на соответствующей таксономии • Инструмент анализа и планирования • Профиль организации • Интегральное представление региональной структуры деятельности • Необходима организация сбора данных • Через опрос • Через анализ документов – проектов, статей, и пр., включая Интернет (языковый барьер) – предстоит • Работа по организации приложений

  19. Appendix: Technical aspects • E-survey tool over ACM-CCS topics • Similarity between topics • Additive, crisp or fuzzy, clustering • Lifting of thematic clusters in ACM-CCS Taxonomy

  20. Generic e-survey output: Fuzzy membership

  21. Similarity between ACM-CCS topics • Contribution by an individual member: • (f(i)) – membership vector over all subjects i in 3d layer of ACM-CCS from the survey • A(i,j)=f(i)*f(j), the product, for all ACM-CCS 3d layer subjects i and j • Matrices A(i,j) summed up over all individuals weighted according to their span ranges

  22. Similarity between ACMC subjects: example 1 ACMC subjects: i, ii, iii, iv, v, vi Chosen subject memberships for four members i .6 .2 ii .4 .2 .2 iii .2 .4 .2 iv .3 .4 .2 v .5 .2 vi 2/5 3/5 3/5 5/5 – member weights weight = number_of_subjects / max_number_of_subjects

  23. Similarity between ACMC subjects: example 2 i .36 .24 0 0 0 0 0 0 0 0 ii .24 .16 0 0 0 0 0 0 0 0 iii 0.4 0 0 0 0 0 +0.6 0 0 .04 .06 .10 +0.6 .... = iv 0 0 0 0 0 0 0 .06 .09 .15 v 0 0 0 0 0 0 0 .10 .15 .25 1st member’s 2d member’s i 0.184 0.136 0.040 0.040 0.040 ii 0.136 0.128 0.088 0.088 0.040 iii 0.040 0.088 0.160 0.172 0.100 iv 0.040 0.088 0.172 0.190 0.130 v 0.040 0.040 0.100 0.130 0.190 not_diagonal_mean =0.0874

  24. Clustering with no user-defined parameters • Additive clustering with ADDI-S (Mirkin 1976, 1987, 2005) • Additive spectral fuzzy clustering with ADDI-SF (Mirkin and Nascimento 2009)

  25. Additive fuzzy clustering Observed: • SimilarityB=(bij), i,jI To be found: • Cluster membership u=(ui) • Intensity  > 0  Fuzzy cluster similarity A= 2uuT

  26. Additive fuzzy clustering • Model: Similarity B summarizes: • Background cluster g (all entities) • K fuzzy clusters (K unknown) • residuals E B = Ag + A1 +A2+… +AK + E E to be least-squares minimized over unknown clusters

  27. Method: One cluster at a time • Minu, ξt,t∈T (wtt− ξutut)2  • Equivalent to Rayleigh quotient Max uWuT/(uTu) • Spectral approach: find max eigenvalue and its vector, adjust the latter to fuzzy membership

  28. Natural stop-criteria • Negative eigenvalue ξ 2. Contributions T(B) =ξ12 + ξ22 +…+ ξK2+ L2 (●) having reached pre-specified proportions

  29. CS Generalising thematic clusters over ACM-CCS: good and bad cases • Navy cluster is tight, all topics are in one ACM-CCS category (good to generalise) • Red cluster is dispersed over many ACM-CCS categories (bad: difficult to generalise)

  30. Lifting with criterion of parsimony: Minimize the total penalty • # Penalty • Head subject 1 3 • Gap 1 1 • Offshoot 2 0.5 • Total penalty: 5 = 1*H + 1G + 2O

  31. PARENT Gap Head Offsh Not HS Gn Hn On HS Gh Hh Oh CHILD 1 Gap Head Offsh Not HS Gn1 Hn1 On1 HS Gh1 Hh1 Oh1 CHILD 2 Gap Head Offsh Not HS Gn2 Hn2 On2 HS Gh2 Hh2 Oh2 CHILD 3 Gap Head Offsh Not HS Gn3 Hn3 On3 HS Gh3 Hh3 Oh3 Cluster lifting algorithm : Bottom-up recursion

More Related