System analizy skupień w danych liczbowych

System analizy skupień w danych liczbowych

Promotor • Promotor: dr hab. inż. Jerzy M. Stefanowski • Opiekun laboratorium: mgr inż. Marek Kubiak

Menadżerowie • Studenci TWO nadzorujący projekt: inż. Grzegorz Gębura inż. Szymon Kupiński inż. Robert Nowak inż. Jacek Serafiński

Programiści • Studenci piszący pracę inżynierską: Michał Rej Błażej Sołtowski Jacek Winiecki Robert Ziembicki

Cel projektu • Celem projektu jest stworzenie systemu informatycznego zawierającego implementacje wybranych algorytmów grupowania danych (odpowiednik terminu analiza skupień, cluster analysis). • System ma być przeznaczony jako narzędzie dostępne dla studentów Politechniki Poznańskiej i innych uczelni oraz potencjalnie zainteresowanych pracowników naukowych. Ma umożliwiać przeprowadzanie analizy danych z różnych dziedzin, np. medycyna, biologia, ekonomia i zarządzanie.

Główne założenia • Implementacja podstawowych algorytmów analizy skupień oraz ich wizualizacja: • przedziałowych, takich jak k-średnich • hierarchicznych (wersja aglomeracyjna AHC) • Różne rodzaje raportowania wyników. • Różne typy wczytywanych plików: • XML, CSV, ARFF

Podział zadań Michał Rej -implementacja i wizualizacja algorytmu AHC, kreator aplikacji Błażej Sołtowski - implementacja algorytmu AHC, format ARFF Jacek Winiecki - implementacja algorytmu K-means, operacje na plikach Robert Ziembicki - implementacja i wizualizacja algorytmu K-means, raportowanie wyników

Wykorzystane technologie • Język • Java (JRE 5.0) • Ważniejsze wykorzystane biblioteki: • Pakiet narzędziowy SWING • JAXB (Java Architecture for XML Binding ) • TMX (Translation Memory eXchange) - i18n • JFreeReport • JUnit (biblioteka + narzędzie)

Wykorzystane technologie • Środowisko programistyczne • Eclipse • Narzędzia • Subversion (SVN) • Maven 2, Dotproject • Log4j • Zarządzanie jakością kodu • FindBugs • PMD • Checkstyle

Architektura

Osiągnięcia • Szczegółowy diagram UML klas obejmujących obliczenia algorytmów • Wczytywanie danych z plików - XML, CSV, ARFF • Selekcja atrybutów (standaryzacja, normalizacja) • Grupowanie danych za pomocą algorytmów AHC i K-means – przydział do skupień

Osiągnięcia • Wizualizacja algorytmu AHC w postaci drzewa • Wizualizacja algorytmu K-means w postaci wykresu 2D • Raportowanie wyników w postaci tabelarycznej • Zapis wyników do pliku • Liczne testy JUnitowe

Do zrobienia • Dopracowanie jakości kodu • Dopracowanie raportowania • Dokumentacja użytkownika • Obronienie pracy inżynierskiej

Porażki • „O porażkach się nie mówi.” • Nie udało się zaimplementować sesji

Zapraszamy na prezentację programu

System analizy skupień w danych liczbowych