100 likes | 303 Views
Разработка системы анализа алгоритмов кластеризации. Любимов Дмитрий Александрович, 541 группа Научный руководитель: Шалымов Дмитрий Сергеевич Рецензент: Граничин Олег Николаевич 26 мая 2009 г. Введение.
E N D
Разработка системы анализа алгоритмов кластеризации Любимов Дмитрий Александрович, 541 группа Научный руководитель: Шалымов Дмитрий Сергеевич Рецензент: Граничин Олег Николаевич 26 мая 2009 г.
Введение • Кластеризация - задача разбиения заданного множества объектов (данных) на различные подмножества, называемые кластерами, таким образом, чтобы кластеры были непересекающимися и состояли из схожих по свойствам объектов, при этом объекты разных классов отличались. • Применяется в очень широком спектре научных областей: статистика, финансовая математика, оптимизация, в частности для "интеллектуального" анализа данных , распознавания образов, сжатия данных и др. • Возникает необходимость в программных средствах, предоставляющих гибкие возможности для анализа, как данных, так и работы алгоритмов, а так же для удобного представления результатов.
Существующие средства • Частные некоммерческие разработки, как правило, реализованные в рамках пакетов прикладных вычислительных программ (Matlab, Mapleи т. д.) , и, как следствие, сильно зависящие от них. • Дорогостоящие приложения , предназначенные для статистического анализа, ориентированные на корпоративных клиентов.
Постановка задачи Требуется реализовать систему: • находящуюся в свободномдоступе, • позволяющую анализировать результаты работы алгоритмов кластеризации на различных данных, в том числе через графическое представление • поддерживающую загрузку пользовательских алгоритмов и данных.
Алгоритмы • итеративные методы разделения исходных данных • устойчивы к шумам, выбору метрики • работают для заранее заданного количества кластеров • Например, один из самых распространенных алгоритмов k-means: • на каждой итерации перевычисляетсяцентр масс, для каждого кластера, затем векторы разбиваются на новые классы
Индексные методы оценки • Алгоритм выполняется для k ∈{2,3,...,kmax} . Для каждого разбиения вычисляются индексы, оценивающие его качество, значения которых могут быть сравнены в дальнейшем.
Индексы Krzanowski and Lai index: Сaliński-Harabaszindex: Dunn index:
CAMA (Clustering Algorithms Meta Applier) • Система для анализа алгоритмов кластеризации индексными методами
Заключение • В ходе написания дипломной работы были рассмотрены итеративные алгоритмы кластеризации, а так же индексные методы их оценки . Была разработанасистема, реализующая данные методы. • Существенным отличием от подобных систем является то, что система находится в свободном доступе и не требует от пользователя установки дополнительного программного обеспечения, делает доступным анализ собственных алгоритмов.