Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN - PowerPoint PPT Presentation

sztuczne sieci neuronowe w do wiadczeniach nad fizyk spinow w cern n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN PowerPoint Presentation
Download Presentation
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

play fullscreen
1 / 32
Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN
166 Views
Download Presentation
finley
Download Presentation

Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Sztuczne sieci neuronowe w doświadczeniach nad fizyką spinową w CERN Beata Pawlukiewicz Seminarium Fizyki Wysokich Energii Warszawa 05.10.2007 • Plan seminarium: • Eksperymenty SMC i COMPASS • Detekcja procesów fuzji fotonowo-gluonowej • Wyniki analiz SMC/COMPASS, w których użyto sieci neuronowych • Sieci neuronowe • Budowa sieci • Trening sieci • Przykład klasyfikacji w doświadczeniach SMC i COMPASS • Przykład aproksymacji w doświadczeniu COMPASS

  2. slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz

  3. z Monte-Carlo B. Pawlukiewicz

  4. z Monte-Carlo G/G w kanale mezonów powabnych slajdy z prezentacji G. Brony, 08.06.07 B. Pawlukiewicz

  5. Wyniki otrzymane przy użyciu sieci neuronowych SMC, high pT (Q2>1 GeV2), 1993-1996 Phys.Rev.D70:012002,2004 COMPASS w kanale mezonów powabnych, 2000-2004 praca doktorska G. Brona B. Pawlukiewicz

  6. Sieci neuronowe – co to jest? B. Pawlukiewicz

  7. w1 w2 S w3 NEURON http://www.mindcreators.com/NeuronBasics.htm Sztucznesiecineuronowe • Uproszczony model mózgu - zespół powiązanych ze sobą komórek równolegle przetwarzających informacje • Neuron: • oblicza sumę ważoną sygnałów wejściowych • zwraca odpowiedź w postaci pojedynczego sygnału • przesyła odpowiedź do kolejnych elementów • Neurony tworzą warstwy B. Pawlukiewicz

  8. nieliniowy liczby funkcja aktywacji E Q2   y f(S) wektor wejściowy Pojedynczy neuron liniowy wektor wag 1 w1 x1 w0 x2 w2 y S wn xn odpowiedź neuronu pobudzenie neuronu B. Pawlukiewicz

  9. f()  Nieliniowe funkcje aktywacji • dyskretne (signum, skok jednostkowy...) • ciągłe: każda funkcja ograniczona, monotoniczna, niewielomianowa • sigmoidalna (prosta postać pochodnej!) B. Pawlukiewicz

  10. x1 w0 w1 w2 x2 y S wn xn f()  Neuron dyskretny • pobudzenie neuronu • odpowiedź sieci y = • (n-1)-wymiarowa hiperpłaszczyzna • dzieli przestrzeń na dwie podprzestrzenie B. Pawlukiewicz

  11. W0 1 Znaczenie dodatkowej wagineuron dyskretny x1 w1 . y S w2 x2 x2 . . . . . c=0 . . c=1.5 . . . . . x1 . . . . . B. Pawlukiewicz

  12. 1 1 1 w10 x1 w11 f(S) S wji w1n f(S) S f(S) y S f(S) S f(S) S xn f(S) S warstwa wyjściowa warstwy ukryte warstwa wejściowa Wielowarstwowa sieć neuronów nieliniowych MLP (multi-layer perceptron) B. Pawlukiewicz

  13. Dowolny podział przestrzeni przy użyciu neuronów dyskretnych http://nc25.troja.mff.cuni.cz/~soustruznik/talks.html B. Pawlukiewicz

  14. Trening sieci neuronowej • z nauczycielem – znamy pożądaną odpowiedź sieci dla danych wejściowych (np. z symulacji Monte Carlo) • cel uczenia: otrzymanie prawidłowych odpowiedzi dla zbioru, który nie był wykorzystywany w procesie uczenia (GENERALIZACJA) • metoda: minimalizacja różnicy pomiędzy oczekiwanymi a otrzymanymi odpowiedziami sieci za pomocą iteracyjnego procesu adaptacji wag B. Pawlukiewicz

  15. Trening sieci z nauczycielem.Pierwsze kroki. • przygotowanie danych wejściowych • ustalona architektura sieci • losowanie początkowych wag w B. Pawlukiewicz

  16. Przygotowanie danych wejściowych f’()  • podział wektorów wejściowych i pożądanych odpowiedzi na podzbiory: uczący i testowy • przygotowanie danych: • przeskalowanie do takiego zakresu, żeby wypadkowe pobudzenie neuronu pokrywało się z zakresem, w którym pochodna funkcji aktywacji jest istotnie różna od zera • eliminacja zbędnych zmiennych • wygładzenie rozkładów szybkozmiennych B. Pawlukiewicz

  17. Trening sieci z nauczycielem algorytm rozbudowy miara błędu sieci: poprawa architektury tak Q spełnia „STOP”? tak nie KONIEC nie poprawa wag B. Pawlukiewicz

  18. Warunek zatrzymania uczenia błąd sieci zbiór testowy zbiór uczący liczba iteracji • wagi stają się stabilne • błąd sieci dla zbioru uczącego przestaje maleć • błąd sieci dla zbioru testowego zaczyna rosnąć • w dobrych warunkach statystycznych => oba błędy przestają maleć en.wikipedia.org B. Pawlukiewicz

  19. Minimalizacja funkcji błędu • szukamy takiego wektora w, dla którego Q(w) osiąga globalne minimum • używamy metod gradientowych • zmiana j-tej wagi w kroku (i+1) proporcjonalna do składowej gradientu: błąd j-tego neuronu z warstwy wyjściowej: a błąd neuronu z warstwy ukrytej? B. Pawlukiewicz

  20. 1 1 1 x1 f(S) suma po wszystkich wyjściach neuronu ukrytego f(S) f(S) y f(S) f(S) xn f(S) idea: błąd propaguje się od warstwy ostatniej do pierwszej wystarczy wiedza o gradiencie dla warstwy późniejszej Algorytm wstecznej propagacji błędu błądm-tegoneuronu warstwy ukrytej: B. Pawlukiewicz

  21. Przykładowa powierzchnia błędu prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

  22. Szukanie minimum globalnego funkcji błędu – rożne algorytmy gradientowe prezentacja R. Suleja, seminarium IPJ, 2005 B. Pawlukiewicz

  23. Wady i zalety sieci neuronowej Zalety: • pozwala rozwiązywać problemy bez znajomości analitycznej zależności między danymi wejściowymi a oczekiwanymi wyjściami • skuteczna w rozwiązywaniu problemów nieseparowalnych • zdolność generalizacji • różnorodność zastosowań: • rozpoznawanie pisma, mowy, analizy finansowe rynku... Wady: • brak dowodów zbiegania do globalnego minimum metodami gradientowymi • kłopotliwe dla niedoświadczonego użytkownika, jeśli sam ustala algorytm, parametry algorytmu oraz architekturę sieci • niebezpieczeństwo przetrenowania lub niedouczenia sieci B. Pawlukiewicz

  24. Sieci użyte w analizie problemów fizycznych sieci ze względu na funkcję aktywacji liniowe nieliniowe dyskretne ciągłe sieci nieliniowe ze względu na architekturę http://www.ire.pw.edu.pl/~rsulej/NetMaker/ jednokierunkowe rekurencyjne wielowarstwowe jednowarstwowe uczenie ze względu na rodzaj uczenia z nauczycielem bez nauczyciela z krytykiem B. Pawlukiewicz

  25. Zadanie klasyfikacji typowe zadanie klasyfikacji: odseparowanie sygnału od tła • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • sigmoidalna fakt neuronu wyjściowego jakość nauki określają dwa współczynniki: trafność (purityr) i sprawność (efficiencyh) B. Pawlukiewicz

  26. Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC krzywa ciągła – sygnał krzywe przerywane - tło praca doktorska K. Kowalik, IPJ B. Pawlukiewicz

  27. Selekcja przypadków PGFpara hadronów z dużym pT, dane SMC Phys.Rev.D70:012002,2004 B. Pawlukiewicz

  28. Selekcja przypadków PGFpara hadronów z dużym pT, dane COMPASS-owe Meas. Sci. Technol., Vol. 18 (2007) B. Pawlukiewicz

  29. aproksymacja nieznanej zależności między zmiennymi wejściowymi a pożądanymi odpowiedziami • zadanie realizuje sieć: • dwie warstwy ukryte + wyjściowa • liniowa fakt neuronu wyjściowego Zadanie aproksymacji jakość aproksymacji określa współczynnik korelacji: B. Pawlukiewicz

  30. Zadanie aproksymacji allkanał mezonów powabnych, COMPASS RNN = 0.82 DIS 2006, COMPASS, G. Mallot B. Pawlukiewicz

  31. Podsumowanie • sieci zostały użyte do zadań detekcji sygnału i estymacji nieznanej funkcji • użyto sieci typu MLP trenowanych z nauczycielem • w obu zastosowaniach wyniki sieci okazały się nieznacznie • lepsze od wyników otrzymanych metodami tradycyjnymi • analiza danych COMPASS-a z użyciem sieci (m.in. separacja PGF w kanale D0 od tła) w toku. B. Pawlukiewicz

  32. Serdecznie dziękuję R. Sulejowi i prof. B. Badełek za pomoc w przygotowaniu tego seminarium  B. Pawlukiewicz