Sieci neuronowe
Download
1 / 44

SIECI NEURONOWE - PowerPoint PPT Presentation


  • 315 Views
  • Uploaded on
  • Presentation posted in: General

Wprowadzenie w tematyke sieci neuronowych. Siec neuronowa jest paradygmatem matematycznym modelujacym czynnosci biologicznego systemu neuralnego i sluzacym do obliczen. W 1943 roku McCulloch, neurobiolog, i Pitts, statystyk, opublikowali papier zatytulowany

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha

Download Presentationdownload

SIECI NEURONOWE

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Sieci neuronowe l.jpg

SIECI NEURONOWE

Wykad III


Wprowadzenie w tematyk sieci neuronowych l.jpg

Wprowadzenie w tematyk sieci neuronowych

Sie neuronowa jest paradygmatem matematycznym modelujcym czynnoci biologicznego systemu neuralnego i sucym do oblicze. W 1943 roku McCulloch, neurobiolog, i Pitts, statystyk, opublikowali papier zatytuowany A logical calculus of ideas imminent in nervous activity. w biuletynie bio - fizyki matematycznej. Papier ten zainspirowa rozwj nowoczesnych komputerw, lub jak nazwa je John von Neumann mzgw elektronicznych. W mniej wicej tym samym okresie Frank Rosenblatt zainspirowany t publikacj rozpocz badania nad modelem matematycznym oka, co ostatecznie doprowadzio do opisania pierwszej generacji sieci neuronowych, znanych pod nazw perceptronw.


Slide3 l.jpg

PODSTAWY BIOLOGICZNE DZIAANIA NEURONU

Jako obiekt bada sieci neuronowe stanowi bardzo uproszczony, ale bogaty i ciekawy model rzeczywistego biologicznego systemu nerwowego - pewnych fragmentw naszego mzgu.

Podstawowym elementem strukturalnym, z ktrego buduje si sieci neuronowe s sztuczne neurony. Ich pierwowzorem s komrki neuronowe budujce mzg czowieka. Kady z neuronw jest specjalizowan komrk biologiczna, mogc przenosi i przetwarza zoone sygnay elektrochemiczne.


Slide4 l.jpg

Rys. 1 Budowa biologicznego neuronu

Jdro - "centrum obliczeniowe" neuronu.

Akson - "wyjcie" neuronu.

Wzgrek aksonu - std wysyany jest sygna wyjciowy.

Dendryt wejcie neuronu.

Synapsa - . Moe ona zmieni moc sygnau napywajcego poprzez dendryt.


Slide5 l.jpg

Model neuronu McCullocha i Pittsa.

Wszystkie z wielu istniejcych modeli sieci neuronowych opisanych w przecigu 50 lat od ich wymylenia posiadaj wsplny element znany pod nazw neuronu oraz poczenia o strukturze sieciowej pomidzy neuronami.

Wejcia to dendryty, lub cilej: sygnay przez nie nadchodzce. Wagi to cyfrowe odpowiedniki modyfikacji dokonywanych na sygnaach przez synapsy. Blok sumujcy to odpowiednik jdra, blok aktywacji to wzgrek aksonu, a wyjcie - to akson. Zaznaczam, e fakt, i na rysunku s trzy dendryty, jest czysto przypadkowy.


Model neuronu mcculloch a i pitts a l.jpg

Model neuronu McCullocha i Pittsa.

Na przedstawionym rysunku, kady z neuronw skada si z funkcji sieci i funkcji aktywacji. Funkcja sieci okrela w jaki sposb wejcia sieci { yj; 1 j N }s czone wewntrz neuronu. Na rysunku jest przedstawiona kombinacja liniowa opisana wzorem

{ wj ; 1 j N } s parametrami nazywanymi wagami synaptycznymi. Wielko jest nazywana biasem lub progiem.


Slide7 l.jpg

W literaturze zostay opisane inne metody kombinacji wejcia, s one zestawione w tabeli poniej:


Slide8 l.jpg

Wyjcie neuronu, oznaczone przez ai na powyszym rysunku jest powizane z wejciem neuronu o oznaczeniu ui poprzez liniowe lub nieliniowe przeksztacenie zwane funkcj aktywacji:

a = f(u)

Tabela przedstawia zarwno funkcje aktywacji jak i ich pochodne (o ile takowe istniej). Zarwno w przypadku funkcji sigmoidalnej jak i tangensa hiperbolicznego pochodna moe by obliczona wprost na podstawie znajomoci f(u).


Slide9 l.jpg

funkcja

Wzr funkcji

Wzr pochodnej

Sigmoida

Tangens hiperboliczny

Sinusoida

Cosinusoida

(bez nazwy)

Tabela 1wzory nieliniowych funkcji aktywacji i ich pochodnych


Slide10 l.jpg

Ryscharakterystyki sigmoidalnych funkcji aktywacji

Rys funkcja aktywacji liniowa i skoku jednostkowego


Slide11 l.jpg

Wybr funkcji aktywacji zaley od rodzaju problemu jaki stawiamy przed sieci do rozwizania. Dla sieci wielowarstwowych najczciej stosowane s funkcje nieliniowe, gdy neurony o takich charakterystykach wykazuj najwiksze zdolnoci do nauki, polegajce na moliwoci odwzorowania w sposb pynny dowolnej zalenoci pomidzy wejciem a wyjciem sieci. Umoliwia to otrzymanie na wyjciu sieci informacji cigej a nie tylko postaci: TAK - NIE.


Topologia sieci neuronowej l.jpg

Topologia sieci neuronowej.

  • Wymagane cechy funkcji aktywacji to:

    • cige przejcie pomidzy swoj wartoci maksymaln a minimaln (np. 0 - 1)

    • atwa do obliczenia i ciga pochodna

    • moliwo wprowadzenia do argumentu parametru beta do ustalania ksztatu krzywej

  • Najczciej stosowanymi s funkcje: sigmoidalna zwana te krzyw logistyczn ( o charakterze unipolarnym; przyjmuje ona wartoci pomidzy 0 a 1 ) oraz tangens hiperboliczny (o charakterze bipolarnym; wartoci pomidzy -1 a 1). Oczywicie kad z nich mona przeskalowa tzn. sigmoid do bipolarnej a tangensoid do unipolarnej.


Topologia sieci neuronowej13 l.jpg

Topologia sieci neuronowej.

W sieci neuronowej wiele neuronw jest poczonych ze sob wzajemnie dla przeprowadzenia oblicze rozproszonych. Konfiguracja wzajemnych pocze moe by opisana za pomoc grafu skierowanego. Graf skierowany skada si z wzw (w przypadku sieci neuronowych z neuronw jak i wyj) i krzywych skierowanych (w przypadku sieci neuronowych s to poczenia synaptyczne).

Topologia moe by skategoryzowana zarwno jako cykliczna lub acykliczna. Sie neuronowa z topologi acykliczn nie posiada ptli sprzenia zwrotnego. Tego rodzaju sie neuronowa jest uywana najczciej do nieliniowej aproksymacji pomidzy jej wejciami i wyjciami.


Slide14 l.jpg

Jak pokazano na rys. cykliczna sie neuronowa zawiera co najmniej jedno poczenie utworzone przez krzyw skierowan. Sie taka jest take znana pod nazw sieci rekurencyjnej. Posiadanie przez sie rekurencyjn ptli sprzenia zwrotnego prowadzi do stworzenie systemu modelowania nieliniowego zawierajcego pami wewntrzn. Rekurencyjne sieci neuronowe czsto charakteryzuj si skomplikowanym zachowaniem i pozostaj do dzisiejszego dnia powanym przedmiotem bada w dziedzinie sieci neuronowych.

(a) topologia acykliczna(b) topologia cykliczna


Topologia sieci neuronowej15 l.jpg

Topologia sieci neuronowej.

  • W sieci neuronowej moemy rozrni kilka rodzajw neuronw:

    • warstwy wejciowej

    • warstw ukrytych

    • warstwy wyjciowej

  • z tym, e jest to podzia bardziej formalny ni merytoryczny, gdy rnice funkcjonalne pomidzy tymi typami raczej nie wystpuj. Mona natomiast stosowa w rnych warstwach rne funkcje aktywacji i wspczynniki beta.


Slide16 l.jpg

  • PODSTAWOWE ARCHITEKTURY SIECI NEURONOWYCH

  • Sposoby poczenia neuronw midzy sob i ich wzajemnego wspdziaania spowodoway powstanie rnych typw sieci. Kady typ sieci jest z kolei cile powizany z odpowiedni metod doboru wag (uczenia).

  • Sie jednokierunkowa jednowarstwowa

  • Waciwoci sieci:

  • W sieci tej neurony uoone s w jednej warstwie, zasilanej jedynie z wej.

  • Poczenie wzw wejciowych z neuronami warstwy wyjciowej jest zwykle pene (kade wejcie jest poczone z kadym neuronem).

  • Przepyw sygnaw wystpuje w jednym kierunku, od wejcia do wyjcia.


Slide17 l.jpg

  • Wzy wejciowe nie tworz warstwy neuronw poniewa nie zachodzi w nich aden proces obliczeniowy.

  • Sie tego rodzaju nazywa si perceptronem jednowarstwowym.

neurony warstwy wyjciowej

Wzy wejciowe

Rys chemat jednokierunkowej jednowarstwowej sieci neuronowej


Slide18 l.jpg

  • Sie jednokierunkowa wielowarstwowa

  • Waciwoci sieci:

  • Wystpuje co najmniej jedna warstwa ukryta neuronw, poredniczca w przekazywaniu sygnaw miedzy wzami wejciowymi a warstw wyjciow.

  • Sygnay wejciowe s podawane na pierwsz warstw ukryt neuronw, a te z kolei stanowi sygnay rdowe dla kolejnej warstwy.

  • Sieci jednokierunkowe wielowarstwowe wykorzystuj najczciej funkcj aktywacji o nieliniowoci typu sigmoidalnego.

  • Sie tego rodzaju nazywana jest perceptronem wielowarstwowym.


Slide19 l.jpg

Rys Schemat jednokierunkowej wielowarstwowej sieci neuronowej.


Slide20 l.jpg

Zostao udowodnione, e przy odpowiedniej liczbie neuronw, sie MLP posiadajca tylko dwie warstwy ukryte jest zdolna do aproksymacji dowolnie zoonego odwzorowania okrela si tak sie neuronow terminem uniwersalnego aproksymatora..


Nauka sieci mlp przy u yciu algorytmu wstecznej propagacji l.jpg

Nauka sieci MLP przy uyciu algorytmu wstecznej propagacji.

Kluczowym problemem w zastosowaniu sieci MLP jest dobranie odpowiedniej macierzy wag. Zakadajc warstwow struktur sieci MLP, wagi przekazujce dane do kadej kolejnej warstwy sieci tworz macierz wag (warstwa wejcia nie posiada wag z uwagi na brak neuronw w tej warstwie). Wartoci tych wag s obliczane przy uyciu algorytmu nauczania ze wsteczn propagacj.


Znajdowanie wag dla przypadku sieci mlp sk adaj cej si z pojedynczego neuronu l.jpg

Znajdowanie wag dla przypadku sieci MLP skadajcej si z pojedynczego neuronu.

Dla wygody, rozwaymy prosty przypadek sieci skadajcej si z pojedynczego neuronu w celu zilustrowania tej metody. Dla uproszczenia wyjanie rysunek przedstawia neuron rozdzielony na dwie czci: cz sumacyjn obliczajc funkcj sieci u, oraz nieliniow funkcj aktywacji z = f(u).


Slide23 l.jpg

Wyjcie z jest porwnywane z podan wartoci celu d, a ich rnica e = d z, jest obliczana. Istniej dwa wejcia x1 oraz x2 z odpowiadajcymi im wagami w1, w2. Wejcie oznaczone sta 1 jest biasem oznaczanym na poprzednich rysunkach za pomoc symbolu . Na tym rysunku bias jest oznaczony symbolem w0. Funkcja sieci jest obliczana na podstawie wzoru:

gdzie x0 = 1, W = [ w1 w2 w3 ] jest macierz wag i x = [ 1 x1 x2 ]T jest wektorem wejciowym.


Slide24 l.jpg

Majc do dyspozycji zestaw przykadw do nauki sieci {(x(k),d(k));1kK}, nauka sieci MLP ze wsteczn propagacj bdu rozpoczyna si od podania na wejcie sieci K przykadw i obliczenia odpowiednich wyj{z(k);1kK}. W tym przypadku uywamy pocztkowego oszacowania dla macierzy wag. Nastpnie suma bdw kwadratowych jest obliczana na podstawie wzoru:

Celem jest dopasowanie macierzy wag W tak by zmniejszy bd E. Prowadzi to do problemu nieliniowej optymalizacji metod najmniejszych kwadratw. Istnieje wiele algorytmw optymalizacyjnych, ktre mona zastosowa do rozwizania tego problemu.


Slide25 l.jpg

Zazwyczaj te algorytmy opieraj si na podobnej iteracyjnej zalenoci:

Gdzie W(t) jest korekt biecych wartoci wag W(t). Rne algorytmy uywaj odmiennych form W(t).

Ta cz koncentruje si na metodzie najwyszego spadku gradientu, ktra jest take podstaw algorytmu nauczania ze wsteczn propagacj. Pochodna skalarnej wielkoci E z uwzgldnieniem poszczeglnych wag jest obliczana w nastpujcy sposb:

dla i = 0, 1, 2...


Slide26 l.jpg

gdzie:

Std:

Podstawiajc

powysze rwnanie moe by wyraone jako:


Slide27 l.jpg

(k) jest bdem sygnau e(k) = d(k) z(k) modulowanego przez pochodn funkcji aktywacji f(u(k)) i w zwizku z tym przedstawia wielko korekty potrzebnej do zastosowania wzgldem wagi wi dla przykadu xi(k). Wynikajcy z tego wzr korekty wagi ma posta:

Jeeli uyjemy funkcji sigmoidalnej to (k) jest obliczane jako:


Slide28 l.jpg

Naley zauway, e pochodna f(u) moe by obliczona dokadnie bez uycia aproksymacji. Wagi zostaj poprawiane w kadej epoce. W tym przypadku K przykadw do nauki sieci jest uytych do poprawienia wartoci wag jeden raz. W zwizku z tym mwimy, e ilo epok jest rwna K. W praktyce, ilo epok moe si waha od jednej do max iloci przykadw.


Wsteczna propagacja w sieci mlp l.jpg

Wsteczna propagacja w sieci MLP

Jak dotd zostao omwione jak dopasowa wagi sieci skadajcej si z pojedynczego neuronu. Ta sekcja opisuje sposb nauczania sieci skadajcej si z wielu neuronw. Na pocztek kilka nowych oznacze zostaje wprowadzonych na podstawie, ktrych bdzie dokonywanie rozrnienie neuronw na rnych warstwach sieci. Na rysunku poniej funkcja sieci i wyjcie odpowiadajce k - temu przykadowi j tego neuronu (L 1) tej warstwy s oznaczone jako oraz . Warstwa wejciowa jest oznaczona jako warstwa zerowa.


Slide30 l.jpg

W szczeglnoci .

Wyjcie jest podane do i tego neuronu L tej warstwy poprzez wag synaptyczn oznaczon , lub dla uproszczenia poniewa bdziemy si zajmowa wzorem na korekt wagi dla pojedynczej epoki nauczania.


Slide31 l.jpg

Aby znale rwnanie adaptacji wagi, naley obliczy

W powyszym rwnaniu wyjcie moe zosta obliczone poprzez zaprezentowanie k tego przykadu x(k) na sie MLP z wagami ustawionymi do .

Jednake bd nie jest znany i musi by obliczony osobno.

Przypominamy, e bd jest rwny . Rysunek poniej przedstawia jak w sposb iteracyjny oblicza si z oraz z wag (L + 1) tej warstwy sieci.


Slide32 l.jpg

Naley zauway, e jest podawane do wszystkich M neuronw (L + 1) - tej warstwy sieci

Std:


Slide33 l.jpg

Rwnanie z poprzedniego slajdu opisuje wsteczn propagacj, ktra oblicza zmian bdu wstecz od warstwy wyjciowej w kierunku do warstwy wejciowej, przechodzc od warstwy do warstwy.


Dopasowanie warto ci wag z uwzgl dnieniem momentu i szumu l.jpg

Dopasowanie wartoci wag z uwzgldnieniem momentu i szumu.

Znajc warto zmiany bdu, wagi zostan dopasowane do zmodyfikowanej zalenoci opisujcej warto wag:

Po prawej stronie rwnania, drugie wyraenie jest gradientem redniego bdu kwadratowego obliczonego wzgldem


Slide35 l.jpg

Trzeci czon jest okrelany mianem momentu. Zapewnia on mechanizm do adaptacyjnego dopasowywania rozmiaru kroku.

Gdy wektory gradientw w kolejnych epokach wskazuj na ten sam kierunek, efektywny rozmiar kroku bdzie si zwiksza (nabiera momentu). Kiedy kolejne wektory gradientw tworz ciek poszukiwania o ksztacie amanej, kierunek gradientu bdzie regulowany przez ten czon momentu w celu zminimalizowania redniego bdu kwadratowego.


Slide36 l.jpg

Istniej dwa parametry, ktrych wartoci musz zosta okrelone: stopie uczenia (lub rozmiar kroku , oraz staa momentu . Oba te parametry powinny mie wartoci z zakresu [ 0 1 ]. W praktyce czsto przyjmuje mniejsze wartoci, np. 0 < < 0.3, a jest zazwyczaj wiksze,

np. 0.6 < < 0.9.

Ostatni czon opisuj losowy szum, ktry ma mae znaczenie jeeli drugi lub trzeci czon maj wiksze wartoci. Kiedy poszukiwanie kryterium podziau osiga lokalne minimum lub paszczyzn, wielko odpowiadajcego mu wektora gradientu lub wartoci momentu najprawdopodobniej obniy si. W takiej sytuacji czon szumu moe pomc algorytmowi uczenia wyj z lokalnego minimum i kontynuacj poszukiwania globalnie optymalnego rozwizania.


Slide37 l.jpg

W trakcie uczenia sieci czsto utykaj w minimach lokalnych, dla ktrych wartoci sygnaw wyjciowych sieci y rni si znacznie od wartoci danych d tych sygnaw. Mwi si wwczas, e sie nie zostaa prawidowo nauczona. Utykanie to jest spowodowane wielomodalnoci funkcji celu, ktra wobec zaoonych nieliniowych zalenoci obowizujcych wewntrz sieci, moe charakteryzowa si ogromn liczb minimw lokalnych.

Poniszy rysunek (po lewej) przedstawia trjwymiarowy wykres funkcji celu zdefiniowanej jako bd redniokwadratowy

Dla jednego neuronu o 2 wagach W0 i W1 realizujcych dwu klas danych.


Slide38 l.jpg

Na rysunku (po prawej) odpowiadajcy mu wykres linii ekwipotencjalnych. W zalenoci od punktu startu trajektoria rozwizania zda albo do minimum globalnego na rodku wykresu, albo trafia na wsk dolin wyprowadzajc rozwizanie poza zakres objty rysunkiem


Slide40 l.jpg

Przykad sieci neuronowej w matlabie

%Program projekt sieci neuronowej typu BP o dwch warstwach.

%definicja wektora wejciowego;

P= [0:5:85];

%definicja wektora celu

T=[0 20 47 67 83 93 96 93 88 83 75 60 35 15 3 0 0 0 ]

% inicjalizacja sieci

S1 = 65; %ilo neuronw warstwy pierwszej

[w1,b1,w2,b2] = initff(P,S1,tansig,T,purelin);

%przyjcie wartoci wag i biasw

w1

b1

w2

b2

%trening sieci;

% Parametry treningu;

df = 100;

me = 8000;

eg = 0.02;

lr = 0.0001;

tp = [df me eg lr];

%trwa trening sieci.

[w1,b1,w2,b2,ep,tr] = trainbp(w1,b1,tansig,w2,b2,purelin,P,T,tp);

A = simuff(P, w1,b1,tansig,w2,b2,purelin)

echo off


Slide41 l.jpg

Przykad wykorzystanie sieci neuronowych

Aproksymacja funkcji

Punkty co 10mm;

S1= 40 (neurony);

5000 epok


Slide42 l.jpg

Krzywa bdu


Slide43 l.jpg

Punkty co 5mm;

S1 = 10;

5000 epok


Slide44 l.jpg

5mm;

50 neuronw;

5000 epok


ad
  • Login