150 likes | 298 Views
System analizy skupień w danych liczbowych. Promotor. Promotor: dr hab. inż. Jerzy M. Stefanowski Opiekun laboratorium: mgr inż. Marek Kubiak. Menadżerowie. Studenci TWO nadzorujący projekt: inż. Grzegorz Gębura inż. Szymon Kupiński inż. Robert Nowak inż. Jacek Serafiński.
E N D
System analizy skupień w danych liczbowych
Promotor • Promotor: dr hab. inż. Jerzy M. Stefanowski • Opiekun laboratorium: mgr inż. Marek Kubiak
Menadżerowie • Studenci TWO nadzorujący projekt: inż. Grzegorz Gębura inż. Szymon Kupiński inż. Robert Nowak inż. Jacek Serafiński
Programiści • Studenci piszący pracę inżynierską: Michał Rej Błażej Sołtowski Jacek Winiecki Robert Ziembicki
Cel projektu • Celem projektu jest stworzenie systemu informatycznego zawierającego implementacje wybranych algorytmów grupowania danych (odpowiednik terminu analiza skupień, cluster analysis). • System ma być przeznaczony jako narzędzie dostępne dla studentów Politechniki Poznańskiej i innych uczelni oraz potencjalnie zainteresowanych pracowników naukowych. Ma umożliwiać przeprowadzanie analizy danych z różnych dziedzin, np. medycyna, biologia, ekonomia i zarządzanie.
Główne założenia • Implementacja podstawowych algorytmów analizy skupień oraz ich wizualizacja: • przedziałowych, takich jak k-średnich • hierarchicznych (wersja aglomeracyjna AHC) • Różne rodzaje raportowania wyników. • Różne typy wczytywanych plików: • XML, CSV, ARFF
Podział zadań Michał Rej -implementacja i wizualizacja algorytmu AHC, kreator aplikacji Błażej Sołtowski - implementacja algorytmu AHC, format ARFF Jacek Winiecki - implementacja algorytmu K-means, operacje na plikach Robert Ziembicki - implementacja i wizualizacja algorytmu K-means, raportowanie wyników
Wykorzystane technologie • Język • Java (JRE 5.0) • Ważniejsze wykorzystane biblioteki: • Pakiet narzędziowy SWING • JAXB (Java Architecture for XML Binding ) • TMX (Translation Memory eXchange) - i18n • JFreeReport • JUnit (biblioteka + narzędzie)
Wykorzystane technologie • Środowisko programistyczne • Eclipse • Narzędzia • Subversion (SVN) • Maven 2, Dotproject • Log4j • Zarządzanie jakością kodu • FindBugs • PMD • Checkstyle
Osiągnięcia • Szczegółowy diagram UML klas obejmujących obliczenia algorytmów • Wczytywanie danych z plików - XML, CSV, ARFF • Selekcja atrybutów (standaryzacja, normalizacja) • Grupowanie danych za pomocą algorytmów AHC i K-means – przydział do skupień
Osiągnięcia • Wizualizacja algorytmu AHC w postaci drzewa • Wizualizacja algorytmu K-means w postaci wykresu 2D • Raportowanie wyników w postaci tabelarycznej • Zapis wyników do pliku • Liczne testy JUnitowe
Do zrobienia • Dopracowanie jakości kodu • Dopracowanie raportowania • Dokumentacja użytkownika • Obronienie pracy inżynierskiej
Porażki • „O porażkach się nie mówi.” • Nie udało się zaimplementować sesji