130 likes | 265 Views
DATA MINING. w ekonomii, finansach i towaroznawstwie. Data Mining. spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, „przekopywanie” danych, „męczenie” danych
E N D
DATA MINING w ekonomii, finansach i towaroznawstwie
Data Mining • spotykane określenia: zgłębianie danych, eksploracyjna analiza danych, „przekopywanie” danych, „męczenie” danych • proces wykrywania zależności w zbiorach danych poprzez połączenie metod statystyki i sztucznej inteligencji (AI) z zarządzaniem bazami danych • przejście od (obszernych) danych surowych do wiedzy (Knowledge Discovery in Databases - KDD)
Data mining czerpie z: • statystyczna analiza wielowymiarowa • uczenie maszynowe (Machine Learning) / sztuczna inteligencja (AI) / metody obliczeń miękkich (Soft Computing) • analiza szeregów czasowych • logika matematyczna • metody numeryczne • systemy baz danych (relacyjne bazy danych)
Postępowanie w ramach DM • eksploracyjny data mining (eksploracyjna analiza danych, „drążenie danych”) • predykcyjny data mining (konstrukcja modeli opisujących prawidłowości odkryte w poprzednim etapie postępowania)
Metody stosowane w ramach DM • sztuczne sieci neuronowe (ANN) • metody sztucznej inteligencji (m. in. algorytmy genetyczne) • drzewa decyzyjne (metoda RP) • metody logiki rozmytej • metody statystycznej analizy wielowymiarowej (metoda składowych głównych, analiza kanoniczna, analiza dyskryminacyjna) • analiza skupień (klasteryzacja) • skalowanie wielowymiarowe / wizualizacja danych • analiza asocjacji i sekwencji • relacyjny data mining • text mining oraz web mining • modele zespołowe / modele hybrydowe
Podobieństwa i różnice pomiędzy „klasyczną” analizą statystyczną a data mining • podejście modelowe w rozwiązywaniu zagadnienia • podejście konfirmacyjne (statystyka) / podejście indukcyjne (DM) • zastosowanie metod parametrycznych (statystyka) / zastoosowanie metod nieparametrycznych (DM) • zastosowanie miar statystycznych dla pomiaru jakości dopasowania i jakości prognostycznej modelu • weryfikacja dobroci dopasowania modelu w oparciu o dane, które posłużyły do estymacji modelu (statystyka) / weryfikacja modelu w oparciu o niezależną próbę testową (DM) • podejście ilościowe do analizy danych • pośrednia (statystyka) / bezpośrednia (DM) możliwość optymalizacji modelu w oparciu o kryterium merytoryczne np. finansowe
Zastosowania DM w finansach • systemy scoringu kredytowego, fraudowego (modele zmiennej jakościowej, ANN, SVM, logika rozmyta) • modele wczesnego ostrzegania np. przed bankructwem (modele zmiennej jakościowej, ANN) • Systemy transakcyjne (systemy spekulacyjne oparte o modele AI, pair trading/ arbitraż statystyczny, wykrywanie formacji analizy technicznej, text mining) • grupowanie spółek akcyjnych podobnych na gruncie analizy fundamentalnej (analiza skupień)
Zastosowania DM w ekonomii • wielowymiarowa analiza rozwoju gospodarczego krajów, regionów i innych jednostek terytorialnych (analiza skupień, mierniki syntetyczne, skalowanie wielowymiarowe) • aCRM (segmentacja rynku, marketing bezpośredni) • wycena nieruchomości, ocena stanu technicznego nieruchomości • mikroekonometria (modelowanie decyzji jednostkowych) • modele wczesnego ostrzegania przed kryzysem walutowym
Zastosowania DM w towaroznawstwie • SPC / QC Data Mining (badanie stabilności statystycznej procesu, wczesne ostrzeganie przed rozregulowaniem procesu wieloetapowego) • chemometria (czerpie z metod statystyki wielowymiarowej) • statystyczne zapewnianie jakości analiz laboratoryjnych (walidacja parametrów, kalibracja, analityczne karty kontrolne) • przetwarzanie sygnałów w analizie instrumentalnej (analiza widmowa)
Przykładowe pozaekonomiczne zastosowania DM • biostatystyka • meteorologia i monitoring stanu powietrza (np. modele opadu-przepływu, prognozowanie szczytowego zanieczyszczenia) • dynamiczne badanie poparcia politycznego (testowanie występowania procesu o długiej pamięci ARFIMA) • oraz wiele, wiele innych
Oprogramowanie statystyczne i data miningowe • R – język i środowisko programowania • STATISTICA • gretl • EViews • STATA • SAS • SPSS • MATLAB • Weka • JMulTi • GAUSS • Mplus • inne
Terminy powiązane • PMML (Predictive Model Markup Language) • SQL • MQL5 (MetaQuotes Language)/MetaTrader – dla Algotradingu • LATEX (LeD) – sporządzanie publikacji