slide1 n.
Download
Skip this Video
Download Presentation
شبکه های عصبی مصنوعی

Loading in 2 Seconds...

play fullscreen
1 / 58

شبکه های عصبی مصنوعی - PowerPoint PPT Presentation


  • 179 Views
  • Uploaded on

شبکه های عصبی مصنوعی. Instructor : Saeed Shiry. مقدمه. شبکه عصبی مصنوعی روشی عملی برای یادگیری توابع گوناگون نظیر توابع با مقادیر حقیقی ، توابع با مقادیر گسسته و توابع با مقادیر برداری میباشد .

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'شبکه های عصبی مصنوعی' - lauren


Download Now An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

شبکههایعصبیمصنوعی

Instructor : Saeed Shiry

slide2

مقدمه

  • شبکهعصبیمصنوعیروشیعملیبراییادگیریتوابعگوناگوننظیرتوابعبامقادیرحقیقی،توابعبامقادیرگسستهوتوابعبامقادیربرداریمیباشد.
  • یادگیریشبکهعصبیدربرابرخطاهایدادههایآموزشیمصونبودهواینگونهشبکههاباموفقیتبهمسائلینظیرشناسائیگفتار،شناسائیوتعبیرتصاویر،ویادگیریروباتاعمالشدهاست.
slide3
شبکهعصبیچیست؟
  • روشیبرایمحاسبهاستکهبرپایهاتصالبههمپیوستهچندینواحدپردازشیساختهمیشود.
  • شبکهازتعداددلخواهیسلولیاگرهیاواحدیانرونتشکیلمیشودکهمجموعهورودیرابهخروجیربطمیدهند.
slide4
شبکهعصبیچهقابلیتهائیدارد؟
  • محاسبهیکتابعمعلوم
  • تقریبیکتابعناشناخته
  • شناسائیالگو
  • پردازشسیگنال
  • یادگیری
slide5

مسائلمناسببراییادگیریشبکههایعصبیمسائلمناسببراییادگیریشبکههایعصبی

  • خطا در داده های آموزشی وجود داشته باشد. مثلمسائلی که داده های آموزشی دارای نویز حاصل از دادهای سنسورها نظیر دوربین و میکروفن ها هستند.
  • مواردی که نمونه ها توسط مقادیر زیادی زوج ویژگی-مقدار نشان داده شده باشند. نظیر داده های حاصل از یک دوربین ویدئوئی.
  • تابع هدف دارای مقادیر پیوسته باشد.
  • زمان کافی برای یادگیری وجود داشته باشد. این روش در مقایسه با روشهای دیگر نظیر درخت تصمیم نیاز به زمان بیشتری برای یادگیری دارد.
  • نیازیبهتعبیرتابعهدفنباشد. زیرابهسختیمیتواناوزانیادگرفتهشدهتوسطشبکهراتعبیرنمود.
slide6
الهامازطبیعت
  • مطالعهشبکههایعصبیمصنوعیتاحدزیادیملهمازسیستمهاییادگیرطبیعیاستکهدرآنهایکمجموعهپیچیدهازنرونهایبههممتصلدرکاریادگیریدخیلهستند.
  • گمانمیرودکهمغزانسانازتعداد 10 11نرونتشکیلشدهباشدکههرنرونباتقریبا 104نروندیگردرارتباطاست.
  • سرعتسوئیچنگنرونهادرحدود 10-3ثانیهاستکهدرمقایسهباکامپیوترها 10 -10 ) ثانیه ( بسیارناچیزمینماید. بااینوجودآدمیقادراستدر 0.1 ثانیهتصویریکانسانرابازشناسائینماید. اینقدرتفوقالعادهبایدازپردازشموازیتوزیعشدهدرتعدادیزیادیازنرونهاحاصلشدهباشد.
slide7

Perceptron

  • نوعیازشبکهعصبیبرمبناییکواحدمحاسباتیبهنام پرسپترونساختهمیشود. یک پرسپترونبرداریازورودیهایبامقادیرحقیقیراگرفتهویکترکیبخطیازاینورودیهارامحاسبهمیکند. اگرحاصلازیکمقدارآستانهبیشتربودخروجی پرسپترونبرابربا 1 ودرغیراینصورتمعادل -1 خواهدبود.

x1

w1

x2

w2

{1 or –1}

Σ

w0

wn

xn

X0=1

slide8

یادگیرییک پرسپترون

  • خروحی پرسپترونتوسطرابطهزیرمشخصمیشود:
  • کهبرایسادگیآنرامیتوانبصورتزیرنشانداد:

1 if w0 + w1x1 + w2x2 + … + wnxn > 0

-1 otherwise

O(x1,x2,…,xn) =

O(X) = sgn(WX) where

Sgn(y) =

1 if y > 0

-1 otherwise

یادگیری پرسپترونعبارتاستاز:

پیداکردنمقادیردرستیبرای W

بنابراینفضایفرضیه H دریادگیری پرسپترونعبارتاستازمجموعهتماممقادیرحقیقیممکنبرایبردارهایوزن.

slide9

توانائیپرسپترون

  • پریسپترونرامیتوانبصورتیکسطحتصمیم hyperplane درفضای n بعدینمونههادرنظرگرفت. پرسپترونبراینمونههاییکطرفصفحهمقدار 1 وبرایمقادیرطرفدیگرمقدار -1 بوجودمیاورد.

Decision boundary (WX = 0)

+

+

+

-

-

-

slide10

توابعیکه پرسپترونقادربهیادگیریآنهامیباشد

  • یک پرسپترونفقطقادراستمثالهائیرایادبگیردکهبصورتخطیجداپذیرباشند. اینگونهمثالهامواردیهستندکهبطورکاملتوسطیک hyperplaneقابلجداسازیمیباشند.

+

+

+

+

+

-

-

+

-

-

-

-

Linearly separable

Non-linearly separable

slide11

توابعبولیو پرسپترون

  • یک پرسپترونمیتواندبسیاریازتوابعبولیرانمایشدهدنظیر AND, OR, NAND, NOR
  • امانمیتواند XORرانمایشدهد.
  • درواقعهرتابعبولیرامیتوانباشبکهایدوسطحیاز پرسپترونهانشانداد.

x1

AND:

W1=0.5

Σ

W2=0.5

W0 = -0.8

x2

X0=1

slide12
اضافه کردن بایاس
  • افزودن بایاس موجب میشود تا استفاده از شبکه پرسپترون با سهولت بیشتری انجام شود.
  • برای اینکه برای یادگیری بایاس نیازی به استفاده از قانون دیگری نداشته باشیم بایاس را بصورت یک ورودی با مقدار ثابت 1 در نظر گرفته و وزن W0 را به آن اختصاص میدهیم.
slide13

آموزش پرسپترون

  • چگونهوزنهاییک پرسپترونواحدرایادبگیریمبهنحویکه پرسپترونبرایمثالهایآموزشیمقادیرصحیحراایجادنماید؟
  • دوراهمختلف :
      • قانون پرسپترون
      • قانوندلتا
slide14

آموزش پرسپترون

الگوریتمیادگیری پرسپترون

  • مقادیریتصادفیبهوزنهانسبتمیدهیم
  • پریسپترونرابهتکتکمثالهایآموزشیاعمالمیکنیم. اگرمثالغلطارزیابیشودمقادیروزنهای پرسپترونراتصحیحمیکنیم.
  • آیاتمامیمثالهایآموزشیدرستارزیابیمیشوند:
    • بله پایانالگوریتم
    • خیربهمرحله 2 برمیگردیم
slide15

قانون پرسپترون

  • براییکمثالآموزشیX = (x1, x2, …, xn)درهرمرحلهوزنهابراساسقانونپرسپترونبصورتزیرتغییرمیکند:

wi = wi + Δwi

کهدرآن

Δwi = η ( t – o ) xi

t: target output

o: output generated by the perceptron

η: constant called the learning rate (e.g., 0.1)

اثباتشدهاستکهبراییکمجموعهمثالجداپذیرخطیاینروشهمگراشدهو پرسپترونقادربهجداسازیصحیحمثالهاخواهدشد.

delta rule
قانوندلتا Delta Rule
  • وقتیکهمثالهابصورتخطیجداپذیرنباشندقانون پرسپترونهمگرانخواهدشد. برایغلبهبراینمشکلازقانوندلتااستفادهمیشود.
  • ایدهاصلیاینقانوناستفادهاز gradient descent برایجستجودرفضایفرضیهوزنهایممکنمیباشد. اینقانونپایهروش Backpropagation استکهبرایآموزششبکهباچندیننرونبههممتصلبکارمیرود.
  • همچنیناینروشپایهایبرایانواعالگوریتمهاییادگیریاستکهبایدفضایفرضیهایشاملفرضیههایمختلفپیوستهراجستجوکنند.
delta rule1
قانوندلتا Delta Rule
  • برایدرکبهتراینروشآنرابهیک پرسپترونفاقدحدآستانهاعمالمیکنیم. درانجالازماستابتداتعریفیبرایخطایآموزشارائهشود. یکتعریفمتداولاینچنیناست:

E = ½ Σi (ti – oi) 2

  • کهاینمجموعبرایتماممثالهایآموزشیانجاممیشود.
gradient descent
الگوریتم gradient descent
  • باتوجهبهنحوهتعریف E سطحخطابصورتیکسهمیخواهدبود. مابدنبالوزنهائیهستیمکهحداقلخطاراداشتهباشند . الگوریتم gradient descent درفضایوزنهابدنبالبرداریمیگرددکهخطاراحداقلکند. اینالگوریتمازیکمقداردلبخواهبرایبرداروزنشروعکردهودرهرمرحلهوزنهاراطوریتغییرمیدهدکهدرجهتشیبکاهشیمنحنیفوقخطاکاهشدادهشود.

E(W)

w1

w2

gradient descent1
بدستآوردنقانون gradient descent
  • ایدهاصلی: گرادیانهموارهدرجهتافزایششیب E عملمیکند.
  • گرادیان E نسبتبهبرداروزن w بصورتزیرتعریفمیشود:

E (W) = [ E’/w0, E’/w1, …, E’/wn]

  • کهدرآن E (W) یکبردارو E’مشتقجزئینسبتبههروزنمیباشد.

Δ

Δ

delta rule2
قانوندلتا Delta Rule
  • براییکمثالآموزشیX = (x1, x2, …, xn)درهرمرحلهوزنهابراساسقانوندلتابصورتزیرتغییرمیکند:

wi = wi + Δwi

Where Δwi = -η E’(W)/wi

η: learning rate (e.g., 0.1)

علامتمنفینشاندهندهحرکتدرجهتکاهششیباست.

slide21
محاسبهگرادیان
  • بامشتقگیریجزئیازرابطهخطامیتوانبسادگیگرادیانرامحاسبهنمود:

E’(W)/ wi = Σi (ti – Oi) (-xi)

  • لذاوزنهاطبقرابطهزیرتغییرخواهندنمود.

Δwi = η Σi (ti – oi) xi

slide22
خلاصهیادگیریقانوندلتا

الگوریتمیادگیریبااستفادهازقانوندلتابصورتزیرمیباشد.

  • بهوزنهامقدارتصادفینسبتدهید
  • تارسیدنبهشرایطتوقفمراحلزیرراادامهدهید
    • هروزن wiرابامقدارصفرعدددهیاولیهکنید.
    • برایهرمثال: وزن wiرابصورتزیرتغییردهید:

wi = wi + η (t – o) xi

مقدارwiرابصورتزیرتغییردهید:

wi = wi + wi

تاخطابسیارکوچکشود

Δ

Δ

Δ

Δ

Δ

gradient descent2
مشکلاتروش gradient descent
  • ممکناستهمگراشدنبهیکمقدارمینیممزمانزیادیلازمداشتهباشد.
  • اگردرسطحخطاچندینمینیمممحلیوجودداشتهباشدتضمینیوجودنداردکهالگوریتممینیمممطلقراپیدابکند.

درضمناینروشوقتیقابلاستفادهاستکه:

  • فضایفرضیهدارایفرضیههایپارامتریکپیوستهباشد.
  • رابطهخطاقابلمشتقگیریباشد
gradient descent3
تقریبافزایشی gradient descent
  • میتوانبجایتغییروزنهاپسازمشاهدههمهمثالها،آنهارابازاهرمثالمشاهدهشدهتغییرداد. دراینحالتوزنهابصورتافزایشی incremental تغییرمیکنند. اینروشراstochastic gradient descent نیزمینامند.

wi = η (t-o) xi

دربعضیمواردتغییرافزایشیوزنهامیتواندازبروزمینیمممحلیجلوگیریکند. روشاستانداردنیازبهمحاسباتبیشتریدارددرعوضمیتواندطول step بزرگتریهمداشتهباشد.

Δ

slide25
مقایسه آموزش یکجا و افزایشی
  • آموزش یکجا (Batch learning)
  • آموزش افزایشی (Online learning)

w1

w1

w2

w2

slide26
شبکههایچندلایه

برخلاف پرسپترونهاشبکههایچندلایهمیتوانندبراییادگیریمسائلغیرخطیوهمچنینمسائلیباتصمیمگیریهایمتعددبکارروند.

Output nodes

Internal nodes

Input nodes

slide28
یکسلولواحد

برایاینکهبتوانیمفضایتصمیمگیریرابصورتغیرخطیازهمجدابکنیم،لازماستتاهرسلولواحدرابصورتیکتابعغیرخطیتعریفنمائیم. مثالیازچنینسلولیمیتواندیکواحدسیگموئیدباشد:

x1

w1

x2

net

w2

Σ

O = σ(net) = 1 / 1 + e -net

w0

wn

xn

X0=1

slide29
تابعسیگموئید

خروجیاینسلولواحدرابصورتزیرمیتوانبیاننمود:

O(x1,x2,…,xn) =

σ ( WX )

where: σ ( WX ) = 1 / 1 + e -WX

تابعσتابعسیگموئیدیالجستیکنامیدهمیشود. اینتابعدارایخاصیتزیراست:

d σ(y) / dy = σ(y) (1 – σ(y))

back propagation
الگوریتم Back propagation
  • براییادگیریوزنهاییکشبکهچندلایهازروش Back Propagation استفادهمیشود. دراینروشبااستفادهاز gradient descent سعیمیشودتامربعخطایبینخروجیهایشبکهوتابعهدفمینیممشود.
  • خطابصورتزیرتعریفمیشود:

مرادازoutputs خروجیهایمجموعهواحدهایلایهخروجیو tkdو okdمقدارهدفوخروجیمتناظربا k امینواحدخروجیومثالآموزشی d است.

back propagation1
الگوریتم Back propagation
  • فضایفرضیهموردجستجودراینروشعبارتاستازفضایبزرگیکهتوسطهمهمقادیرممکنبرایوزنهاتعریفمیشود. روش gradient descent سعیمیکندتابامینیممکردنخطابهفرضیهمناسبیدستپیداکند. اماتضمینیبرایاینکهاینالگوریتمبهمینیمممطلقبرسدوجودندارد.
slide32
الگوریتم BP
  • شبکهایبا ninگرهورودی، nhiddenگرهمخفی،و noutگرهخروجیایجادکنید.
  • همهوزنهارابایکمقدارتصادفیکوچکعدددهیکنید.
  • تارسیدنبهشرطپایانی ) کوچکشدنخطا( مراحلزیرراانجامدهید:

برایهر xمتعلقبهمثالهایآموزشی:

مثال X رابهسمتجلودرشبکهانتشاردهید

خطای E رابهسمتعقبدرشبکهانتشاردهید.

هرمثالآموزشیبصورتیکزوج (x,t) ارائهمیشودکهبردار x مقادیرورودیوبردار t مقادیرهدفبرایخروجیشبکهراتعیینمیکنند.

slide33
انتشاربهسمتجلو
  • برایهرمثال X مقدارخروجیهرواحدرامحاسبهکنیدتابهگرههایخروجیبرسید.

Output nodes

Compute sigmoid

function

Internal nodes

Input nodes

Example X

slide34
انتشاربهسمتعقب
  • برایهرواحدخروجیجملهخطارابصورتزیرمحاسبهکنید: δk = Ok (1-Ok)(tk – Ok)
  • برایهرواحدمخفیجملهخطارابصورتزیرمحاسبهکنید: δh = Oh (1-Oh) Σk Wkh δk
  • مقدارهروزنرابصورتزیرتغییردهید:

Wji = Wji + ΔWji

کهدرآن :

ΔWji = η δj Xji

ηعبارتاستازنرخیادگیری

slide35
شرطخاتمه

معمولاالگوریتم BP پیشازخاتمههزارانباربااستفادههماندادههایآموزشیتکرارمیگرددشروطمختلفیرامیتوانبرایخاتمهالگوریتمبکاربرد:

  • توقفبعدازتکراربهدفعاتمعین
  • توقفوقتیکهخطاازیکمقدارتعیینشدهکمترشود.
  • توقفوقتیکهخطادرمثالهایمجموعهتائیدازقاعدهخاصیپیروینماید.

اگردفعاتتکرارکمباشدخطاخواهیمداشتواگرزیادباشدمسئله Overfitting رخخواهدداد.

slide37
مرورالگوریتم BP
  • اینالگوریتمیکجستجوی gradient descent درفضایوزنهاانجاممیدهد.
  • ممکناستدریکمینیمممحلیگیربیافتد
  • درعملبسیارموثربودهاست

برایپرهیزازمینیمممحلیروشهایمختلفیوجوددارد:

    • افزودنممنتم
    • استفادهازstochastic gradient descent
    • استفادهازشبکههایمختلفبامقادیرمتفاوتیبرایوزنهایاولیه
slide38
افزودنممنتم
  • میتوانقانونتغییروزنهاراطوریدرنظرگرفتکهتغییروزندرتکرار n امتاحدیبهاندازهتغییروزندرتکرارقبلیبستگیداشتهباشد.

ΔWji (n) = η δj Xji + αΔWji (n-1)

کهدرآنمقدارممنتمα بصورت0 <= α <= 1میباشد.

افزودنممنتمباعثمیشودتاباحرکتدرمسیرقبلیدرسطحخطا:

    • ازگیرافتادندرمینیممحلیپرهیزشود
    • ازقرارگرفتندرسطوحصافپرهیزشود
    • باافزایشتدریجیمقدارپلهتغییرات،سرعتجستجوافزایشیابد.

قانونتغییروزن

عبارتممنتم

slide39
قدرتنمایشتوابع
  • گرچهقدرتنمایشتوابعبهتوسطیکشبکه feedforward بستهبهعمقوگستردگیشبکهدارد،بااینوجودمواردزیررامیتوانبهصورتقوانینکلیبیاننمود:
  • توابعبولی: هرتابعبولیرامیتوانتوسطیکشبکهدولایهپیادهسازینمود.
  • توابعپیوسته: هرتابعپیوستهمحدودرامیتوانتوسطیکشبکهدولایهتقریبزد. تئوریمربوطهدرموردشبکههائیکهازتابعسیگموئیددرلایهپنهانولایهخطیدرشبکهخروجیاستفادهمیکنندصادقاست.
  • توابعدلخواه:هرتابعدلخواهرامیتوانبایکشبکهسهلایهتاحدقابلقبولیتفریبزد.

بااینوجودبایددرنظرداستکهفضایفرضیهجستجوشدهتوسطروش gradient deescent ممکناستدربرگیرندهتماممقادیرممکنوزنهانباشد.

slide40
فضایفرضیهوبایاساستقرا
  • فضایفرضیهموردجستجورامیتوانبصورتیکفضایفرضیهاقلیدسی n بعدیازوزنهایشبکهدرنظرگرفت )کهn تعدادوزنهاست(
  • اینفضایفرضیهبرخلاففضایفرضیهدرختتصمیمیکفضایپیوستهاست.
  • بایاساستقرااینروشرامیتوانبصورتزیربیانکرد:

“smooth interpolation between data points”

بهاینمعناکهالگوریتم BP سعیمیکندتانقاطیراکهبههمنزدیکترهستنددریکدستهبندیقراردهد.

slide41
مثال

x2

x1

Smooth regions

slide42

ورودی

خروجی

قدرتنمایشلایهپنهان
  • یکیازخواص BP ایناستکهمیتوانددرلایههایپنهانشبکهویژگیهایناآشکاریازدادهورودینشاندهد.

برایمثالشبکه 8x3x8 زیرطوریآموزشدادهمیشودکهمقدارهرمثالورودیراعینادرخروجیبوجودآورد )تابع f(x)=x رایادبگیرد(. ساختارخاصاینشبکهباعثمیشودتاواحدهایلایهوسطویژگیهایمقادیرورودیرابهنحویکدبندیکنندکهلایهخروحیبتواندازآنانبراینمایشمجدددادههااستفادهنماید.

slide43
قدرتنمایشلایهپنهان

10000000

01000000

00100000

00010000

00001000

00000100

00000010

00000001

دراینآزمایشکهبهتعداد 5000 بارتکرارشدهاز 8 دادهمختلفبهعنوانورودیاستفادهشدهوشبکهبااستفادهازالگوریتم BP موفقشدهتاتابعهدفرابیاموزد.

10000000

01000000

00100000

00010000

00001000

00000100

00000010

00000001

Hidden nodes

بامشاهدهخروجیواحدهایلایهمیانیمشخصمیشودکهبردارحاصلمعادلانکدینگاستاندارددادهههایورودیبودهاست (000,001,,...,111)

slide44
نمودارخطا

Different units

Error

iterations

Different weights

weight

iterations

overfitting
قدرتتعمیمو overfitting
  • شرطپاینالگوریتم BP چیست؟
  • یکانتخابایناستکهالگوریتمراآنقدرادامهدهیمتاخطاازمقدارمعینیکمترشود. اینامرمیتواندمنجربه overfitting شود.

Validation set error

Error

Training set error

Number of weight updates

overfitting1
دلایلرخدادن overfitting
  • overfitting ناشیازتنظیموزنهابرایدرنظرگرفتنمثالهاینادریاستکهممکناستباتوزیعکلیدادههامطابقتنداشتهباشند. تعدادزیادوزنهاییکشبکهعصبیباعثمیشودتاشبکهدرجهآزادیزیادیبرایانطباقبااینمثالهاداشتهباشد.
  • باافزایشتعدادتکرار،پیچیدگیفضایفرضیهیادگرفتهشدهتوسطالگوریتمبیشتروبیشترمیشودتاشبکهبتواندنویزومثالهاینادرموجوددرمجموعهآموزشرابدرستیارزیابینماید.
slide47
راهحل
  • استفادهازیکمجموعهتائید Vallidation وتوقفیادگیریهنگامیکهخطادراینمجموعهبهاندازهکافیکوچکمیشود.
  • بایاسکردنشبکهبرایفضاهایفرضیهسادهتر: یکراهمیتوانداستفادهاز weight decayباشدکهدرآنمقداروزنهادرهربارتکرارباندازهخیلیکمیکاهشدادهمیشود.
  • k-fold cross validation وقتیکهتعدادمثالهایآموزشیکمباشدمیتوان m دادهآموزشیرابه K دستهتقسیمبندینمودهوآزمایشرابهتعداد k دفعهتکرارنمود. درهردفعهیکیازدستههابعنوانمجموعهتستوبقیهبعنوانمجموعهآموزشیاستفادهخواهندشد. تصمیمگیریبراساسمیانگیننتایجانجاممیشود.
slide48
روشهایدیگر

راههایبسیارمتنوعیبرایایجادشبکههایجدیدوجودداردازجمله:

  • استفادهازتعاریفدیگریبرایتابعخطا
  • استفادهازروشهایدیگریبرایکاهشخطادرحینیادگیری
    • Hybrid Global Learning
    • Simulated Annealing
    • Genetic Algorithms
  • استفادهازتوابعدیگریدرواحدها
    • Radial Basis Functions
  • استفادهازساختارهایدیگریبرایشبکه
    • Recurrent Network
slide49
فرض کنید بخواهیم با استفاده از یک شبکه دو لایه ارقام دستنویس را تشخیص دهیم.

نرونهای لایه اول شدت روشنائی پیکسلها را تقریب میزنندو

نرونهای لایه آخر شکل ارقام را تعیین میکنند.

مثال: تشخیص ارقام

0 1 2 3 4 5 6 7 8 9

slide50
روشی که وزنها یاد گرفته میشوند:

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

تصویر به شبکه ارائه شده و وزنهای پیکسلهای فعال بتدریج اضافه میشوند. وزن پیکسلهای غیر موثر نیز بتدریج کاهش میابد.

slide51
شکل گیری وزنها:

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

slide52

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

slide53

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

slide54

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

slide55

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

the learned weights
The learned weights

1 2 3 4 5 6 7 8 9 0

تصویر ورودی

slide57
در این مثال یک شبکه با دو لایه معادل با استفاده از یک سری template یا قالب است که شبکه قالبی را که بهترین تطبیق با ورودی را داشته باشد بر میگزیند!

اما برای مسئله ارقام دستنویس شکلهای ورودی بسیار متنوع هستند لذا یک قالب ساده که با همه ورودیها سازگار باشد وجود ندارد. در نتیجه چنین شبکه ای هم نمیتواند راه حل مسئله در حالت کلی باشد!

برای اینکه بتوان مسئله را در حالت کلی حل نمود بایدشکل های ورودی به مجموعه ای از ویژگی ها تبدیل شده و شبکه را بر اساس ویژگی ها آموزش داد.

شبکه چه چیزی را یاد میگیرد؟