Fundamental intelligence

Fundamental intelligence Computational neural Computational fuzzy Machine Learning Computational evolution Computational intelligence Multi-agent systems Expert sysyetm Swarm intelligence دانشگاه خواجه نصیرالدین طوسی- دانشکده برق گروه کنترل- آزمایشگاه سیستم های هوشمند سال تحصیلی 89 -1388

بسمه تعالی محمّد تشنه لب سال تحصیلی 89 -1388 شبکه های عصبی دانشگاه خواجه نصیرالدین طوسی- دانشکده برق گروه کنترل- آزمایشگاه سیستم های هوشمند

تمرينها همزمان با معرفي بخشهاي مختلف درس 10 سري تمرين در طول ترم داده خواهد شد. قسمتي از اين تمرينات به فرم پروژه هاي کوچک (mini project) کامپيوتري، قابل انجام با نرم افزار MATLAB خواهد بود. هدف آشنايي بيشتر با الگوريتمهايآموزش، ساختارهاي متفاوت شبکه هاي عصبي و کاربرد هاي گوناگون شبکه هاي معرفي شده، ميباشد.

پروژه نهايي مهمترين قسمت درس و خروجي نهايي آن پروژه اي تحقيقاتي در زمينه کاربرد شبکه هاي عصبي است. پروژه به صورت تک نفره تعريف و انجام مي شود. محدوديتي در انتخاب موضوع پروژه وجود ندارد، به غير از آنکه حتما بايد از روشها و موضوعات مطرح شده در درس استفاده شود و سعي کنيد از موضوعات جديد و نو استفاده کنيد. تعريف پروژه خود را حتما با منهماهنگ کنيد و آنرا به صورت يک پيشنهاد پروژه در يک برگ A4 در سه قسمت 1-عنوان پروژه 2-شرح مختصر و نوآوري مد نظر شما 3-کارهاي انجام شده در اين زمينه (حداقل 4 مرجع اصلي خود را ذکر کنيد). موضوع پروژه خود را حداکثر تا تاريخ 10 آذرانتخاب نموده و به من e-mailبزنيد. مهلت تحويل پروژه حداکثر تا تاريخ 1اسفند مي باشد و به هيچ عنوان تمديد نخواهدشد.

امتحان ميان ترم و پايان ترم در 7آذر ماه امتحان ميان ترم برگزار مي شود که بخش عمده آن به مباحث تئوري و نظري شبکه هاي عصبي مر بوط مي شود و امتحان پايان ترم بموقع است. شيوه ارسال e-mail تکاليف و پروژه هاي خود را به آدرس network.neural@gmail.comارسال کنيد و در عنوان e-mailخود حتما شماره پروزه را ذکر کنيد. همچنين تمام فايالها و کد نوشته شده را zip نموده و نام خود را به آن فايل اختصاص دهيد.

شيوه ارزيابي تمرينات و امتحان پايان ترم:% 45 امتحان ميان ترم: % 0 3 پروژه نهايي:% 25

فهرست مطالب فصل اول : مقدمه ای بر شبکه هاي عصبي فصل دوم : ارائه ساختارهای مختلف شبکه هاي عصبي فصل سوم : ارائه مفاهیم پایه در آموزش شبکه هاي عصبي بر اساس الگوریتم پس انتشار خطا فصل چهارم : بررسي روشهاي مختلف آموزش در شبکه هاي عصبي فصل پنجم : بهبود الگوریتم پس انتشار خطا فصل ششم : شبکه هاي عصبي بازگشتی

فهرست مطالب فصل هفتم : شبكه هاي حافظه داروگاما فصل هشتم : شبکه های عصبی مدل مخچه فصل نهم : شبکه عصبی بیزین فصل دهم : شبکه عصبی مثلثاتی فصل یازدهم : شبکه عصبی ویولت فصل دوازدهم : شبکه عصبی کانولوشنال فصل سیزدهم : کاربرد شبکه های عصبی در شناسایی، پیش بینی و کنترل سیستم ها

فصل اول : مقدمه ای بر شبکه هاي عصبي

سیستم های پیچیده سیستم های پیچیده از بخش های مختلف تشکیل شده اند که کلیه بخش ها با یکدیگر درارتباطند و همچنین بخش های سیستم ها با خارج در ارتباط هستند و در کنش و واکنش می باشند. انواع سیستم های پیچیده سیستم های حمل و نقل(زمینی، دریایی و هوایی) سیستم های هواشناسی (منطقه ای، محلی و جهانی) سیستم های بیمارستانی (بخش ها، تخصصها و ارتباط بین آنها و بیمارستانهای دیگر و بیمه و...) سیستم های اقتصادی(تحت تأثیرعواملی چون نیازها، درخواستها، موجودیها و بحرانها ... می باشد.) جوامع (فرهنگهای مختلف، تحصیلات، دارایی، فقر و امکانات فردی و اجتماعی) سیستم های بیولوژیکی(شامل مغز، مخچه، سلولها و ... می باشد)

شبکه عصبی: شبکه های عصبی بر اساس رفتار شناسیماشین های بیولوژیکی موجودات زنده طراحی شده است. هدف از شبکه های عصبی مصنوعی : ارائه روشهائی جهت استفاده از سخت افزارها ( مدارات ) و نرم افزارها( الگوریتم ها) برای ایجاد قابلیت های هوشمند به دستگاه ها، روبوت ها، برنامه ها و غیره .... می باشد که قادر به یادگیری حین فرآیند می باشد. در این درس هدف آشنایی فقط با الگوریتم ها و نحوه چگونگی اضافه نمودن آن به نرم/ سخت افزار می باشدکه در این راستا برنامه ها (الگوریتم) قادر به یادگیریمی باشند.

مفهوم هوش چیست؟ با توجه به اینکه محققان تا کنون نتوانسته اند دربارهعملکرد مغز انسان که در واقع محلتجزیه و تحلیل( اتاق فرمان) ماشین بیولوژیکی موجودات زندهخصوصا انسان تعریف واقعی ارائه نمایند، لذا پاسخ به این سوال به سادگیامکان پذیر نمی باشد و نمی توان پاسخی روشن وشفاف ارائه نمود. در هر حال ماشین بیولوژیکی را با قابلیت های زیر می توان مورد بررسی قرار داد:

مفهوم هوش چیست؟ آموزشی پذیری از طریق دریافت داده ها ( اطلاعات ) و یا الگوها یا ترکیبی از داده ها و الگو ها در حافظه نگهداری نمودن تجربیات آموزش و غیره و قابل بازسازی نمودن آنها. تصمیم گیری مناسب و منطقی براساس یادگیری و تجربیات آموزش دیده گذشته. ابراز نظر( احساسات ) براساس وجودواقعیت گذشته و حال. خود سازمانده هی/ شکل پذیری درونی براساس نیازهای فردی و جمعی. ارتباط برقرار کردن منطقی الگوها براساس آموزش گذشته، به عنوان مثال، هوای ابری تصویری از امکان وجود بارندگی را در ذهن انسان تداعی می کند. ارائه پاسخی مناسب به نحوی که محرک های خارجی از خود یک عکس العمل مناسبی ارائه دهند.

بررسی ساختمان سلول عصبی بیولوژیک شکل و ساختمان جسم سلولی نورون سوما (soma)cell body دندريت (dendrite)input cell آکسون (axon)output cell

Dendrites Cell body Axon Synapse Biology Inspiration • Neurons respond slowly – 10-3 s compared to 10-9 s for electrical circuits • The brain uses massively parallel computation – »1011 neurons in the brain – »104 connections per neuron Human nervous system is built of cells call neuron Each neuron can receive, process and transmit electrochemical signals Dendrites extend from the cell body to other neurons, and the connection point is called synapse Signals received among dendrites are transmitted to and summed in the cell body If the cumulative excitation exceed a threshold, the cell fires, which sends a signal down the axon to other neurons

مقدمه‎ای بر شبکه‎های عصبی و قابلیت‎ها و تاریخچه آن مفهوم پایه شبکه‎های عصبی چیست؟ چرا شبکه‎های عصبی قابلیت یادگیری دارند؟ چرا شبکه‎های عصبی قابلیت تعمیم پذیری ساختار دارند؟ شبکه‎های عصبی تقریبی از رفتار مغز و اعصاب در قسمت‎های مختلف بدن موجودات زنده هستند. شبکه‎های عصبی دارای قابلیت‎های مختلف بر اساس کاربرد می‎باشند. شبکه‎های عصبی یک پردازشگر موازی است که در یک لحظه دارای آموزش و اعمال می‎باشند.

ارزش و قابلیت یادگیری در شبکه‎های عصبی دارای محاسبات قوی و ارزشمند از داده و اطلاعات هستند. در ساختار شبکه‎های عصبی که دارای نرون‎ها و لایه‎های زیاد هستند باعث انعطاف پذیری و درجه آزادی زیاد در سیستم عصبی می‎شوند ولی زمان محاسبات طولانی‎تر خواهد شد. دارای توانایی زیاد در اصلاح و تعمیم پذیری می‎باشند. دارای قابلیت حذف اغتشاش و نویز هستند. قابلیت تولید الگوریتم تطبیق پذیر هوشمند بر پایه کاربرد را دارند.

ویژگیهای شبکه های عصبی تاکنون مدل های مختلف با ساختار و الگوریتم های متنوعی از شبکه های عصبی ارائه شده است و هر چند این مدل ها با یکدیگر تفاوت دارند، اما تمام این مدل ها یک هدف مشترک را دنبال می کنند. به طور کلی سلول های عصبی که تشکیل دهنده یک شبکه عصبی می باشند ماشین های محاسباتی هستند، که از اجزای ساده(سلول) و زنجیره ای تشکیل می شوند و دارای خواص زیرند: قابلیت یادگیری و تطبیق پذیری قابلیت تعمیم پذیری پردازش موازی مقاوم بودن قابلیت تقریب عمومی

قابلیت یادگیری و تطبیق پذیری قابلیت یادگیری یعنی توانایی تنظیم پارامترهای شبکه عصبی. برای این منظور نمونه های اولیه را به شبکه اعمال می کنند شبکه، پارامترها را بر اساس این نمونه ها تنظیم می کند. اگر نمونه های جدید به این شبکه که به این طریق آموزش دیده، اعمال شود، خروجی مناسب را با درصد خطای کوچکمی توان بدست آورد. با این ترتیب شبکه های عصبی می توانند با تغییر شرایط به صورت هوشمندانه، خود را تطبیق یا اصلاح نماید.

قابلیت تعمیم پذیری: پس از آنکه نمونه های اولیه به شبکه آموزش داده شد، شبکه می تواند در مقابل ورودیهای آموزش داده نشده (ورودیهای جدید) قرار گیرد و یک خروجی مناسب تولید نماید. این خروجی بر اساس مکانیسم تعمیم، که چیزی جز فرایند درونیایی نیست به دست می آید. پردازش موازی: هنگامی که شبکه عصبی در قالب سخت افزار پیاده می شود سلولهایی که در یک تراز قرار می گیرند می توانند به طور همزمان به ورودیهای آن تراز پاسخ دهند. این ویژگی باعث افزایش سرعت پردازش می شود. در واقع در چنین سیستمی، وظیفه کلی پردازش بین پردازنده های کوچکتر مستقل از یکدیگر توزیع می گردد.

مقاوم بودن: در یک شبکه عصبی رفتار کلی آن مستقل از رفتار هر سلول در شبکه می باشد درواقع رفتار کلی شبکه برآیند رفتارهای محلی تک تک سلولهای شبکه می باشد که این امرباعث می شود تا خطا های محلی سلولها از چشم خروجی نهایی دور بمانند. این خصوصیت باعث افزایش قابلیت مقاوم بودن در شبکه عصبی می گردد. قابلیت تقریب عمومی: شبکه های عصبی چند لایه، با یک یا چندلایه مخفی به شرط آن که تعداد نرونهای لایه ها مخفی کافی داشته باشند، می توانند هر تابع غیر خطی پیوسته ای را در فضای ترکیبی تخمین بزنند.

Applications Aerospace High performance aircraft autopilots, flight path simulations, aircraft control systems, autopilot enhancements, aircraft component simulations, aircraft component fault detectors Automotive Automobile automatic guidance systems, warranty activity analyzers Banking Check and other document readers, credit application evaluators Defense Weapon steering, target tracking, object discrimination, facial recognition, new kinds of sensors, sonar, radar and image signal processing including data compression, feature extraction and noise suppression, signal/image identification Electronics Code sequence prediction, integrated circuit chip layout, process control, chip failure analysis, machine vision, voice synthesis, nonlinear modeling

Applications Financial Real estate appraisal, loan advisor, mortgage screening, corporate bond rating, credit line use analysis, portfolio trading program, corporate financial analysis, currency price prediction Manufacturing Manufacturing process control, product design and analysis, process and machine diagnosis, real-time particle identification, visual quality inspection systems, beer testing, welding quality analysis, paper quality prediction, computer chip quality analysis, analysis of grinding operations, chemical product design analysis, machine maintenance analysis, project bidding, planning and management, dynamic modeling of chemical process systems Medical Breast cancer cell analysis, EEG and ECG analysis, prosthesis design, optimization of transplant times, hospital expense reduction, hospital quality improvement, emergency room test advisement

Applications Robotics Trajectory control, forklift robot, manipulator controllers, vision systems Speech Speech recognition, speech compression, vowel classification, text to speech synthesis Securities Market analysis, automatic bond rating, stock trading advisory systems Telecommunications Image and data compression, automated information services, real-time translation of spoken language, customer payment processing systems Transportation Truck brake diagnosis systems, vehicle scheduling, routing systems

فصل دوم : ارائه ساختارهای مختلف شبکه هاي عصبي Multi-layer Perceptron (MPL)

هر شبکه عصبی دارای سه ویژگی زیر می باشد: مدل سلول عصبی (نوع تابع) ساختار شبکه عصبی (نوع توپولوژی) آموزش در شبکه عصبی (نوع آموزش) خودسازماندهی ساختار درحین آموزش

مدل سلول عصبی توابع انتقال خروجی واقعی به تابع انتقال ويژه ای که انتخاب شده بستگی دارد و بايد معيار های مورد نظر مسئله ای که سلول عصبی برای حل آن استفاده می شود را، برآورده کند. سه نوع از پرکاربرد ترين آنها عبارتند از: تابع انتقال سخت محدود تابع انتقال خطی تابع انتقال لگاريتمی سيگموئيد

مدل سلول عصبی توابع انتقال از آنجايی که تابع انتقال لگاريتمی سيگموئيد، يک تابع مشتق پذير است، عموماً از آن در شبکه های چند لايه ای استفاده می شود که با استفاده از الگوريتم پس انتشار خطا ( Backpropagation ) آموزش می پذيرند. نمونه ای از اين تابع به صورت زير است: مطابق اين عبارت، ورودي اين تابع انتقال مي تواند هر مقداري بين منفي بينهايت تا مثبت بينهايت باشد در حاليکه خروجي آن در بازه صفر و 1 محدود شده است.

توابع انتقال hardlim(n) = 1 if n >=0 =0 otherwise logsig(n) = 1 / (1 + exp(-n)) hardlims(n) = 1 if n >= 0, -1 otherwise. poslin(n) = n, if n >= 0 = 0, if n <= 0

توابع انتقال purelin(n) = n satlin(n) = 0, if n <= 0 = n, f 0 <= n <= 1 =1, if 1 <= n satlins(n) = -1, if n <= -1 = n, if -1 <= n <= 1 = 1, if 1 <= n

توابع انتقال tansig(n) = 2/(1+exp(-2n))-1 tribas(n) = 1 - abs(n), if -1 <= n <= 1 = 0, otherwise radbas(n) = exp(-n^2)

مدل سلول عصبی مدل سلول عصبی تک ورودی اگر اين مدل ساده را با سلول عصبی بيولوژيکی که پيش از اين شرح داديم مقايسه کنيم، وزن w مطابقت دارد با سيناپس، بدنه سلول به وسيله عمل جمع و تابع انتقال بيان شده و خروجی سلول عصبی يا همان a نمايانگر سيگنال آکسون است.

مدل سلول عصبی با چند ورودی سلول عصبی چند ورودی عموماً يک سلول عصبی بيش از يک ورودی دارد. هر کدام از ورودی های مجزا در وزن متناظر خود ضرب می شوند. بنابراين می توان ورودی ها را به صورت بردار p و وزن ها را به صورت ماتريس W تعريف نمود.

مدل سلول عصبی با چند ورودی و چند خروجی

ساختار های شبکهعصبی يک لايه از سلول عصبی يک سلول عصبی، حتی با ورودی های زياد ممکن است نیاز ما را براورده نکند. معمولاً به تعدادی از آنها که به صورت موازی عمل می کنند نيار می باشد که به آن يک شبکه يک لايه گفته می شود.

Layer of Neurons

Abbreviated Notation

ساختار شبکه عصبی چند لایه R – S1 – S2 – S3 Network

ساختار های شبکه لايه های چند گانه از سلول عصبی در يک شبکه چند لايه، هر لايه ماتريس وزن W ويژه خود، بردار باياس b خود، يک بردار ورودی n مربوط به خود و يک بردار خروجی a ويژه خود را دارد. لايه های مختلف می توانند تعداد نرون های متفاوتی داشته باشند. لايه ای که خروجی آن، خروجی شبکه است، يک لايه خروجی ناميده می شود. لايه های ديگر، لايه های پنهان نام دارند. شبکه های چند لايه قدرتمند تر از شبکه های تک لايه هستند. برای نمونه، يک شبکه دو لايه که شامل يک لايه اول سيگموئيد و يک لايه دوم خطی می باشد، می تواند به منظور تقريب اکثر توابع اختياری آموزش داده شود. بيشتر شبکه های کاربردی تنها دو يا سه لايه دارند.

First active layer Second active layer x1 x2 x3 (a) General structure with two activation layers

∑ ∑ ∑ x1 x2 x3 (b) Specific structure with two activation layers

Nonlinear mapping 4.3 : Two-layered neural network: nonlinear mapping for input ( ) to output ( )

∑ ∑ ∑ x0 =1

First activation layer Second activation layer Neural inputs Neural outputs (Hidden layer) (Output layer) A two-layered feedforward neural network : n1 hidden neurons, and n2 output neurons

Feedforward part ∑ _ + Backpropagation part 4.8 : The matrix representation of backpropagation learning for two-layered feedforward neural network with linear output neurons

O1n 0 0 0 O12 O11 Xc1 Xc2 . . . Xcn2 f2 d1 d2 . . . dn f1 X1 X2 . . . Xn1 f2 f1 . . . . . . . . . f2 f1 W1 W2

فصل سوم : ارائه مفاهیم پایه در آموزش شبکه هاي عصبي بر اساس الگوریتم پس انتشار

قوانين يادگيری شبکه هاي عصبي يادگيری بدون مربی يادگيری تقويتی يادگيری با مربی يادگيری با مربی در يادگيری با مربی قانون يادگيری به وسيله مجموعة مثالهايی ( مجموعة آموزشی ) از رفتارهای مناسب شبکه، ايجاد می شود: {x1, t1} , {x2, t2} , … , {xQ, tQ}

الگوریتم انتشار به عقب اين الگوريتم می تواند در آموزش پرسپترونهای چند لايه که قادر به حل مسائل غيرخطی هستند بکار رود. پرسپترون چند لايه که با الگوريتم انتشار به عقب آموزش ديده باشد در حال حاضر پرکاربرد ترين شبکه عصبی است که به طور گسترده استفاده می شود. تقريب تابع شبكه‌هاي عصبي به عنوان شناساگر و كنترلر سيستمهاي ديناميكي كاربردهاي فراواني دارند. شبكه‌هاي عصبي پرسپترون چند لايه به عنوان يك تقريب گر عمومي شناخته مي‌شوند و اين قابليت در آنها نهفته است که به عنوان يك گزينه بسيار مناسب و مشهور جهت كنترل غيرخطي و همچنين شناسایی و مدلسازي سيستمهاي غيرخطي مطرح هستند. بنابراین شبکه های عصبی به عنوان تقريب زننده های توابع به کار می روند. برای مثال در سيستمهای کنترل، هدف يافتن يک تابع بازخورد مناسب است که خروجی های اندازه گيری شده را به ورودی های کنترل نگاشت کند.

الگوریتم انتشار به عقب روش آموزش بر مبنای الگوريتم انتشار به عقب در شبکه های چند لايه، خروجی يک لايه، ورودی لايه بعدی را تشکيل می دهد. os+1 = f s+1 ( Ws+1 o s + b s+1 ) For s= o,1,…, M-1 شاخص عملکرد شاخص عملکرد در اين الگوريتم، خطای ميانگين مربعات می باشد. J(x) = E[eTe] = E[(t-o)T(t-o)]

الگوریتم انتشار به عقب الگوريتم شيبدارترين نزول (GD)برای تقريب خطای ميانگين (w) For s=1, It means in first active layer the summation of weigthed input is;

of is; The size

And the output of first active layer is:

الگوریتم انتشار به عقب الگوريتم شيبدارترين نزول (GD)برای تقريب خطای ميانگين (w)

الگوریتم انتشار به عقب الگوريتم شيبدارترين نزول (GD)برای تقريب خطای ميانگين(b)

الگوریتم انتشار به عقب قانون زنجيره ای برای شبکه چند لايه، خطا تابع صريحی از وزن ها در لايه های پنهان نمی باشد، بنابراين مشتقات به آسانی قابل محاسبه نيستند.

الگوریتم انتشار به عقب قانون زنجيره ای

الگوریتم انتشار به عقب حساسیت ها برای محاسبه حساسيت ها به کاربرد ديگری از قانون زنجيره ای نياز داريم:

الگوریتم انتشار به عقب حساسیت ها اکنون می توانيم بخشی را مشاهده کنيم که الگوريتم انتشار به عقب نام خود را از آن گرفته است. حساسيت ها در شبکه به سمت عقب از آخرين لايه به اولين لايه انتشار می يابند:

الگوریتم انتشار به عقب حساسیت ها نقطه آغاز برای ارتباط بازگشتی معادله قبل، از معادله زير به دست می آيد:

الگوریتم انتشار به عقب انتخاب ساختار شبکه شبکه های چند لايه تقريباً می توانند برای تقريب هر تابعی استفاده شوند به شرطی که به تعداد کافی نورون در لايه های پنهان داشته باشيم. اگر بخواهيم تابعی را تقريب بزنيم که تعداد بسيار زيادی نقطه خميدگی دارد، نيازمند آن خواهيم بود که تعداد بسيار زيادی نورون در لايه پنهان داشته باشيم.

الگوریتم انتشار به عقب همگرايی هنگامی که الگوريتم انتشار به عقب همگرا می شود، نمی توانيم مطمئن باشيم که يک جواب بهينه داريم. بهتر اين است که چندين وضعيت اوليه متفاوت را به منظور اطمينان از اينکه جواب بهينه به دست آمده است، امتحان کرد. تعميم دادن شبکه بايد بتواند آنچه را ياد گرفته است به کليه حالت ها (جمعيت ورودی) تعميم دهد. برای اينکه يک شبکه بتواند تعميم دهد بايد پارامتر های کمتری از نقاط داده موجود در مجموعه آموزش داشته باشد. در شبکه های عصبی، در تمام مسائل مدل کردن، ما می خواهيم از ساده ترين شبکه ای استفاده کنيم که بتواند به طور مناسب مجموعه آموزش را ارائه دهد.

اصلاح های اکتشافی الگوریتم انتشار به عقب الگوريتم انتشار به عقب يک جهش بزرگ در پژوهش های شبکه عصبی بود. به هر حال الگوريتم پايه برای اکثر کاربرد های عملی بسيار کند است. ايرادهای انتشار به عقب سطح کارايی برای يک شبکه چند لايه ممکن است شامل چندين نقطه کمينه محلی باشد و انحنای آن می تواند در نواحی مختلف از فضای پارامتر کاملاً تغيير کند. در مسائلی که انحنا شديداً روی فضای پارامتر تغيير می کند، انتخاب يک نرخ آموزش مناسب برای الگوريتم آموزش مشکل خواهد بود. برای نواحی مسطح يک نرخ آموزش بزرگ نياز می باشد درحاليکه برای نواحی با انحنای زياد نيازمند يک نرخ آموزش کوچک هستيم. رويه هايی جهت بهبود الگوريتم انتشار به عقب جنبش آنی اين روش با هموار کردن نوسانات منحنی فضای پارامترها همگرايی را بهبود می دهد که اين کار را می توان با استفاده از يک فيلتر پايين گذر انجام داد.

2 2 1/5 1/5 1 1 0/5 0/5 0 0 0 50 100 150 200 0 50 100 150 200 a) γ=0/9 b) γ=0/98 اصلاح های اکتشافی الگوریتم انتشار به عقب مثالی از استفاده فيلتر پايين گذر در فرمول زير w(k)ورودی فيلتر و y(k)خروجی فيلتر و ضريب جنبش آنی است. برای اين مثال ورودی فيلتر موج سينوسی در نظر گرفته شده است. تاثير اين فيلتر در شکلهای زير ديده می شود:

اصلاح های اکتشافی الگوریتم انتشار به عقب استفاده از فيلتر پايين گذر درمورد شبکه عصبی زمانی که فيلتر جنبش آنی به تغييرات پارامتر در به روز رسانی وزن ها و باياس ها اضافه می شود، معادلات زير برای جنبش آنی اصلاحی انتشار به عقب به دست می آيد: با استفاده از جنبش آنی توانايی استفاده از نرخ آموزش بزرگتر با حفظ ثبات الگوريتم را داريم خصوصيت ديگر جنبش آنی اين است که در مدتی که منحنی در يک جهت ثابت باشد تمايل به تسريع همگرايی دارد و دليل نامگذاری جنبش آنی به اين خاطر است که تمايل به واداد کردن منحنی به ادامه در جهت مشابه دارد. هرچه مقدار بيشتر باشد، منحنی دارای جنبش آنی بيشتری است.

اصلاح های اکتشافی الگوریتم انتشار به عقب نرخ آموزش متغير با استفاده از افزايش نرخ آموزش در سطوح هموار و سپس کاهش آن زمانيکه شيب افزايش می يابد می توان همگرايی را بيشتر کرد. بنابراين می توان همگرايی را توسط تنظيم نرخ آموزش، در مدت آموزش افزايش داد. تعيين زمان تغيير نرخ آموزش و اينکه چه مقدار آن را تغيير دهيم، يک لم است.

قوانين الگوريتم انتشار به عقب با نرخ آموزش متغيير اگر خطای آموزشی بيشتر از يک ميزان معين ζ (بطور نمونه 1 تا 5 درصد) بعد از به روز رسانی وزن ها افزايش يابد، به روز رسانی وزن ها رها شده، نرخ آموزش در فاکتور<10<ρضرب می شود و ضريب جنبش آنی صفر مقدار دهی می شود. اگر خطای مربعی بعد از به روز رسانی وزن ها کاهش يابد، به روز رسانی وزنها مورد قبول بوده و نرخ آموزشی در فاکتور>1ήضرب می شود. اگر ضريب جنبش آنی قبلاً صفر شده باشد، با مقدار اصليش دوباره مقدار دهی می شود. اگر خطای مربعی کمتر از ζ کاهش يابد، به روز رسانی وزن ها مورد قبول واقع شده اما نرخ آموزش و ضريب جنبش آنی بدون تغيير می مانند.

1/5 60 Squared Error Learning Rate 1 40 0/5 20 0 0 100 101 102 100 101 102 103 Iteration Number Iteration Number اصلاح های اکتشافی الگوریتم انتشار به عقب مثالی از تغيير ترخ آموزش در شکل زير ديده می شود:

اصلاح های اکتشافی الگوریتم انتشار به عقب اشکالات روش های اصلاحی اصلاحهای اکتشافی می تواند معمولاً همگرايی بسيار سريعتری را برای برخی از مسائل فراهم کند. به هرحال دو اشکال اصلی برای اين روشها وجود دارد: اين اصلاحات نياز به مقدار دهی چندين پارامتر دارند و کارايی الگوريتم حساس به تغييرات اين پارامتر هاست. اين اصلاحات بعضی مواقع ممکن است در همگرايی مسئله موفق نشود.

روش پیشنهادی برای افزایش سرعت همگرایی الگوريتم ترکيبی در اين روش يک الگوريتم ترکيبی برای آموزش با مربی شبکه های عصبی پيشخور ارائه شده است. اين الگوريتم برای يک شبکه دو لايه ارائه شده اما می توان آن را برای شبکه های چند لايه نيز به کار برد. الگوريتم ارائه شده برای افزايش سرعت آموزش، در الگوريتم انتشار به عقب پايه استفاده شده است. در اين الگوريتم دو روش مختلف برای به روز کردن وزن ها استفاده شده است: يکی از روش های آموزش استاندارد برای لايه اول استفاده از رابطه زير در آموزش لايه دوم e و d از روابط زير به دست می آيند: e = d – (Wx + b) d = f-1(d)

روش پیشنهادی برای افزایش سرعت همگرایی با استفاده از جايگزينی طرف راست رابطه اصلی، در الگوريتم آموزش، وزن های لايه آخر در تابع غير خطی لايه آخر ظاهر نمی شوند. در اين روش، ابعاد فضای جستجوی مؤثر برای الگوريتم غير خطی کاهش می يابد. بنابراين تعداد تکرار های آموزش کمتر خواهد شد.

روش پیشنهادی برای افزایش سرعت همگرایی گام های الگوريتم ترکيبی انتخاب وزن ها و باياس ها به طور تصادفی و يا با استفاده از روش های مقدار اوليه به روز کردن وزن ها و باياس ها با اسفاده از يک روش استاندارد مانند الگوريتم انتشار به عقب پايه بررسی قانون توقف و پايان دادن به آموزش در صورت ارضا شدن اين قانون يا رفتن به قدم 4 در غير اينصورت در الگوريتم ارائه شده ابتدا پارامتر های هر دو لايه از روش استاندارد برای آموزش استفاده می کنند اما در صورت کم شدن تغييرات خطا، از روش ترکيبی استفاده شده که روش آموزش پارامترهای لايه دوم تغيير کرده و به صورتی که ارائه شد آموزش می بيند.

فصل چهارم : بررسي روشهاي مختلف آموزش در شبکه هاي عصبي

Learning Rules Supervised Learning Network is provided with a set of examples of proper network behavior (inputs/targets) Reinforcement Learning Network is only provided with a grade, or score, which indicates network performance Unsupervised Learning Only network inputs are available to the learning algorithm. Network learns to categorize (cluster) the inputs.

Learning Rules Supervised Learning Early learning algorithms First order gradient methods Second order gradient methods Early learning algorithms Designed for single layer neural networks Generally more limited in their applicability Some of them are Perceptron learning LMS or Widrow- Hoff learning Grossberg learning

McCulloch-Pitts Perceptron

Perceptron Architecture AGAIN!!!!

Unified Learning Rule

Multiple-Neuron Perceptrons

Perceptron Rule Capability The perceptron rule will always converge to weights which accomplish the desired classification, assuming that such weights exist.

Rosenblatt’s single layer perceptron is trained as follow: Randomly initialize all the networks weights. Apply inputs and find outputs ( feedforward). compute the errors. Update each weight as Repeat steps 2 to 4 until the errors reach the satisfictory level.

Recurrent Network

Hamming Network

Feed Forward Layer

Recurrent Layer

Hamming Operation

Hopfield Network

Performance Optimization Gradient based methods

Basic Optimization Algorithm

Steepest Descent (first order Taylor expansion)

Example Plot

LMS or Widrow- Hoff learning First introduce ADALINE (ADAptive LInear NEuron) Network

LMS or Widrow- Hoff learningor Delta Rule ADALINE network same basic structure as the perceptron network

Approximate Steepest Descent

Approximate Gradient Calculation

LMS AlgorithmThis algorithm inspire from steepest descent algorithm

Multiple-Neuron Case

Difference between perceptronlearningand LMS learning DERIVATIVE Linear activation function has derivative but sign (bipolar, unipolar) has not derivative

Grossberg learning (associated learning) Sometimes known as instar and outstar training Updating rule: Where could be the desired input values (instar training, example: clustering) or the desired output values (outstar) depending on network structure. Grossberg network (use Hagan to more details)

First order gradient methodBack propagation

Multilayer Perceptron R – S1 – S2 – S3 Network

Function Approximation Example

Nominal Response

Parameter Variations

Multilayer Network

Performance Index

Chain Rule

Gradient Calculation

Steepest Descent

Jacobian Matrix

Backpropagation (Sensitivities)

Initialization (Last Layer)

Summary

Summary Back-propagation training algorithm Backprop adjusts the weights of the NN in order to minimize the network total mean squared error. Network activation Forward Step Error propagation Backward Step

Example: Function Approximation

Network

Initial Conditions

Forward Propagation

Transfer Function Derivatives

Backpropagation(BP)

Weights Update

Choice of Architecture

Choice of Network Architecture

ConvergenceGlobal minimum (left)local minimum (right)

Generalization

Disadvantage of BP algorithm Slow convergence speed Sensitivity to initial conditions Trapped in local minima Instability if learning rate is too large Note: despite above disadvantages, it is popularly used in control community. There are numerous extensions to improve BP algorithm.

Improved BP algorithms First Order Gradient Method Second Order Gradient Method

فصل پنجم : بهبود الگوریتم پس انتشار خطا Improved BP algorithms

Improved BP algorithms First Order Gradient Method BP with momentum Delta- bar- delta Decoupled momentum RProp Adaptive BP Trianary BP BP with adaptive gain Extended BP

1- BP with momentum (BPM) The basic improvement to BP (Rumelhart 1986) Momentum factor alpha selected between zero and one Adding momentum improves the convergence speed and helps network from being trapped in a local minimum.

Modification form: Proposed by nagata 1990 Beta is a constant value decided by user Nagata claimed that beta term reduce the possibility of the network being trapped in the local minimum This seems beta repeating alpha rule again!!! But not clear

2- Delta-bar-delta (DBD) Use adaptive learning rate to speed up the convergence The adaptive rate adopted base on local optimization Use gradient descent for the search direction, and use individual step sizes for each weight

3- RProp Jervis and Fitzgerald (1993) and limit the size of the step

Improved BP algorithms Second Order Gradient Method Newton Gauss-Newton Levenberg-Marquardt Quickprop Conjugate gradient descent Broyde –Fletcher-Goldfab-Shanno

Performance Surfaces Taylor Series Expansion

Example

Plot of Approximations

Vector Case

Matrix Form

Performance Optimization Steepest Descent Basic Optimization Algorithm

Minimizing Along a Line

1- Newton’s Method

Example

Non-Quadratic Example

Different Initial Conditions

DIFFICULT Inverse a singular matrix!!! Complexity

Newton’s Method

Matrix Form

Hessian

2-Gauss-Newton Method

3-Levenberg-Marquardt

Adjustment of μk

Application to Multilayer Network

Jacobian Matrix

Computing the Jacobian

Marquardt Sensitivity

Computing the Sensitivities

LMBP Present all inputs to the network and compute the corresponding network outputs and the errors. Compute the sum of squared errors over all inputs. Compute the Jacobian matrix. Calculate the sensitivities with the backpropagation algorithm, after initializing. Augment the individual matrices into the Marquardt sensitivities. Compute the elements of the Jacobian matrix. Solve to obtain the change in the weights. Recompute the sum of squared errors with the new weights. If this new sum of squares is smaller than that computed in step 1, then divide mk by u, update the weights and go back to step 1. If the sum of squares is not reduced, then multiply mk by u and go back to step 3.

Example LMBP Step

LMBP Trajectory

5-Conjugate Gradient

LRLS Method Recursive least square method based method, does not need gradient descent.

LRLS Method Cont.

Example for compare methods

IGLS (Integration of the Gradient and Least Square) The LRLS algorithm has faster convergence speed than BPM algorithm. However, it is computationally more complex and is not ideal for very large network size. The learning strategy describe here combines ideas from both the algorithm to achieve the objectives of maintaining complexity for large network size and reasonably fast convergence. The out put layer weights update using BPM method The hidden layer weights update using BPM method

فصل ششم : شبکه عصبی بازگشتیRecurrent Networks

Recurrent Networks Feed forward networks: Information only flows one way One input pattern produces one output No sense of time (or memory of previous state) Recurrency Nodes connect back to other nodes or themselves Information flow is multidirectional Sense of time and memory of previous state(s) Biological nervous systems show high levels ofrecurrency (but feed-forward structures exists too)

z-1 z-1 z-1 Recurrent Networks Recurrent Network with hidden neuron: unit delay operator z-1 is used to model a dynamic system input hidden output

Rabinson and Fallside

Jordan

Elman and Jordan

Jordan Learning

Elman and Jordan Learning

Jordan with Neuron Feedback

Flexible NNNeuron Functions (Unipolar)

Flexible NNNeuron Functions (Bipolar)

Flexible NN Structure

Feed Forward of FNN

Learning

Recurrent Flexible NN

فصل هفتم :شبكه هاي حافظه دار TDLV وگاما

حافظه درشبكه عصبي شبكه‌هاي عصبي مي توانند بهتر از روشهاي كلاسيك خطي مشخصات پيچيده سري‌هاي زماني را مدل كنند. به صورت تئوري نيازي به اين كه آيا سري زماني ايستا است يا خير جهت مدلسازي با شبكه‌هاي عصبي نداريم. شبكه‌هاي عصبي نياز به تعداد عظيمي از داده‌هاي به عنوان ورودي ندارند بر عكس روش AR.

پيش بيني با كمك MLP شكل اعمال ورودي شكل اعمال خروجي

شبكه هاي حافظه دارTDLوگاما سند برگ ( 1997) :هر تغيير زماني در يك نگاشت ديناميكي مي‌تواند به طور تقريباُ كاملي توسط يك ساختاري كه داراي 2 بلوك است كه بلوك اول بانك فيلترهاي خطي شبكه ميباشد و بلوك استاتيكي بعدي خود را تغذيه مي‌كند مدل شود. فيلترهاي FIR , IIR مشكلات IIR: بوجود آمدن ناپايداري ها در آموزش FIR : ظرفيت محدود مدلسازي مزايا IIR : كم بودن پارامترها در حوزه هاي بزرگ زمان FIR : پايداري شبكه

اعمال حافظه به لايه هاي مياني و خروجي

مزايا و توپولوژي اعمال فيلتر داشتنبیشازیکوزنتحتآموزشدرهرسیناپس دردسترسبودندادههایزمانهایگذشته آموزشپارامترهایفیلتردیجیتالدرصورتوجود

توپولوژيومحاسبات پيشروTDL

آموزش شبكه گاما(BP)

نمودار پيش بيني با شبكه هاي حافظه دار شبكهTDL شبكه گاما

مقايسه روشها

هنگامي كه واحد حافظه را به داخل شبكه انتقال دادیم جوابها بسيار بهتر شدند.اما نكته مهم اينجاست كه نتايج روش TDL تقريباً به گاما بسيارنزديك بوده اين امر ميزان اهميت ورجحان وزنها را برپارامترعمق حافظه مي رساند. درشبكه هاي حافظه دار(TDL، گاما)اهميت فوق العاده لايه مياني دارا مي باشد. روشهاي سري زماني غيرخطي شبكه هاي عصبي برتري خاصي برروشهاي غيرشبكه عصبي دارند (همانطوركه انتظارداشتيم). بزرگترين مشكل در روش كلاسيك يافتن جواب بهينه به صورت سعي وخطا ميباشدوشبكه هاي عصبي نيزاين مشكل را دريافتن تعداد لايه هاي مياني بهينه دارند. نتيجه گيري

فصل هشتم : شبکه عصبی مدل مخچه CMAC Neural Network and TD-CMAC

CMAC Neural Network and TD-CMAC Introduction Time Series Cerebellar Model Arithmetic Computer (CMAC) Time-Delay CMAC (TD-CMAC) 1- Output Mapping 2- Learning Algorithm Evaluation of TD-CMAC Conclusion

مدل مصنوعي، شبيه ساز ساختار مخچه معماريCMAC كوانتيزه كردن وروديها بلوك لايهها شيفت بلوكها فوق مكعب يا سلول حافظه مساحت ايجاد شده توسط بلوكهاي در لايه هاي متناظر كد كردن متغيرهاي دقت بالا و انتقال روي تعداد زيادي كانالهاي با دقت كم حمل تنها قسمت كوچكي از اطلاعات محتوي يك متغير در هر كانال در حالت ماكزيمم فعال بودن هر بلوك، تنها در يك دامنه محدود

CMAC Model Block diagram of CMAC

CMAC Model (Example) The CMAC structure with two inputs

بكارگيري جدول جستجوي هوشمند نگاشت خروجي و الگوريتم يادگيري در CMAC خروجي، مجموع وزنهاي فوق مكعبهاي فعال شده است. تنظيم وزنها ويژگيهاي CMAC: تنها تنظيم وزنهاي فوق مكعبهاي فعال شده

Time Series Modeling Converting prediction of time series to function approximation

TD-CMAC Model block diagram of TD-CMAC model

TD-CMAC Model The structure details of TD-CMAC model

TD-CMAC Model 1- Output Mapping 2- Learning Algorithm

X(t-2) X(t-1) X(t) CMAC11 X(t+1) Σ CMAC12 CMAC22 TD-CMAC (Example) File, Time Series : 6, 3, 4, 2, 1 ,6 ,… Weight table: W[i][j][Nb][Nb][Ne] For (i=1,2) For (j=i,2) Time Series: S[d+2] W[2][2][3][3][3] , S[4] TD-CMAC Model d=2 (Number of delay) Nb=3 (Number of block) Ne=3 (Number of layer) α= (Learning rate) Error = 0.001

TD-CMAC (Example) File, Time Series : 6, 3, 4, 2, 1 ,6 ,… The first time series data for training of model The next data for evaluation of model (prediction) 1) d+1 input for X(t) to X(t-1) X(t-2) -> S[1]=6 X(t-1) -> S[2]=3 X(t) -> S[3]=4 2) Next data for X(t+1) X(t+1) -> S[4]=2 3) Weight Initialization to zero

X(t-1)=3 CMAC11 State(4,3) X(t)=4 A) Output Calculating X(t-2) -> S[1]=6 X(t-1) -> S[2]=3 X(t) -> S[3]=4 X(t+1)-> S[4]=2 y(s) = w[1][1][2][2][1] + w[1][1][3][2][2] + w[1][1][2][2][3] +…

State(4,6) X(t-2)=6 CMAC12 X(t)=4 A) Output Calculating X(t-2) -> S[1]=6 X(t-1) -> S[2]=3 X(t) -> S[3]=4 X(t+1)-> S[4]=2 y(s) = +… + w[1][2][2][1][1] + w[1][2][3][1][2] + w[1][2][2][1][3] +…

State(3,6) CMAC22 X(t-2)=6 X(t-1)=3 A) Output Calculating X(t-2) -> S[1]=6 X(t-1) -> S[2]=3 X(t) -> S[3]=4 X(t+1)-> S[4]=2 y(s) = +… + w[2][2][2][1][1] + w[2][2][2][1][2] + w[2][2][2][1][3] = 0

B) Weight Adjusting y(s) = 0 = X(t+1)=S[4]=2 CMACij w[1][1][2][2][1]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066 w[1][1][3][2][2]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066 w[1][1][2][2][3]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066 CMAC11 w[1][2][2][1][1]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033 w[1][2][3][1][2]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033 w[1][2][2][1][3]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033 CMAC12 w[2][2][2][1][1]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016 w[2][2][2][1][2]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016 w[2][2][2][1][3]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016 CMAC22

C) Repeat A, B with new weights A) Output Calculating y(s) = 0.066+0.066+0.066+0.033+0.033+0.033+0.016+0.016+0.016 = 0.35 y(s) = 0.35 = X(t+1)=S[4]=2 error = 0.001 End) Until (ERROR< error)

C) Repeat A, B with new weights B) Weight Adjusting y(s) = 0 = X(t+1)=S[4]=2 w[1][1][2][2][1]new=w[1][1][3][2][2]new=w[1][1][2][2][3]new=0.066+(0.1/3)*(1/(1*1))*(2-0.35) = 0.1 w[1][2][2][1][1]new=w[1][2][3][1][2]new=w[1][2][2][1][3]new=0.033+(0.1/3)*(1/(1*2))*(2-0.35) = 0.060 w[2][2][2][1][1]new=w[2][2][2][1][2]new=w[2][2][2][1][3]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.030

C) Repeat A, B with new weights A) Output Calculating y(s) = 0.1+0.1+0.1+0.06+0.06+0.06+0.03+0.03+0.03 = 0.57 y(s) = 0.57 = X(t+1)=S[4]=2 error = 0.001 End) Until (ERROR< error)

CO(ppm) One hour ahead prediction Six hour ahead prediction

CO(ppm) One day ahead prediction

NOx(ppm) SO2(ppm) One hour ahead prediction One hour ahead prediction

فصل نهم : شبکه عصبی بیزین Bayesian Neural Network

1 . معرفی شبکه عصبی بیزین تک لایه 2 . توسعه شبکه عصبی بیزین تک لایه به چندلایه 2-1 روش قسمت بندی (Partitioning) 2-2 روش روی هم افتادگی (Overlapping) 3 . ویژگی های پیوسته و شبکه عصبی بیزین

معرفی شبکه عصبی بیزین تک لایه: هدف نهایی که در این شبکه به دنبال آن هستیم، محاسبه احتمال تمامی کلاس ها به ازای داده های ورودی به شبکه، و انتخاب کلاس با بیشترین مقدار احتمال برای هر داده، به عنوان کلاسی که داده متعلق به آن است، می باشد.

معرفی شبکه عصبی بیزین تک لایه: تئوری بیز برای محاسبه P(y|x):

معرفی شبکه عصبی بیزین تک لایه: فرض کنید مقادیر N ویژگی مستقل مربوط به داده x، x={x1 , x2 , …,xN}، در دست باشد. در اینصورت احتمال x می تواند به صورت زیر نوشته شود : همچنین احتمال شرطی p(x|y) نیز بصورت زیر نوشته می شود:

معرفی شبکه عصبی بیزین تک لایه: احتمال هر کلاس به ازای مشاهده داده ورودی، به صورت زیر محاسبه خواهد شد :

معرفی شبکه عصبی بیزین تک لایه: معادله اخیر پایه کلاسیفیر ساده بیز می باشد. طراحی بیز ساده مربوط به اوقاتی می شود که فرض مستقل بودن ورودی ها را داریم.

معرفی شبکه عصبی بیزین تک لایه: رابطه زیر همواره برقرار است : 1

معرفی شبکه عصبی بیزین تک لایه: با جایگذاری و لگاریتم گرفتن از رابطه (1) به رابطه زیر خواهیم رسید: مزیت فرم لگاریتمی خطی بودن آن است. بدین معنی که کلاسیفیر ساده بیز می تواند با یک تابع تمایز خطی و بنابراین با یک شبکه عصبی تک لایه پیاده سازی شود.

معرفی شبکه عصبی بیزین تک لایه: معادله معمولی برای پخش سیگنال در یک شبکه عصبی صورت زیر است:

معرفی شبکه عصبی بیزین تک لایه: نمای شبکه عصبی بیزین تک لایه برای حالتی که در آن ویژگی های مربوط به داده ها، گسسته ( دارای چند مقدار محدود ) می باشند:

معرفی شبکه عصبی بیزین تک لایه: a b c X

معرفی شبکه عصبی بیزین تک لایه: 1. hair Boolean 2. feathers Boolean 3. eggs Boolean 4. milk Boolean 5. airborne Boolean 6. aquatic Boolean 7. predator Boolean 8. toothed Boolean 9. backbone Boolean 10. breathes Boolean 11. venomous Boolean 12. fins Boolean13. legs Numeric (set of values: {0,2,4,5,6,8}) 14. tail Boolean 15. domestic Boolean 16. capsize Boolean17. type Numeric (integer values in range [1,7])

Y Y11 Y12 Y13 Y17 β1 β2 β7 β3 1 2 3 4 5 6 1 2 1 2 1 2 X13 (legs: 0 2 4 5 6 8) X16 X1 . . X2 X3

معرفی شبکه عصبی بیزین تک لایه: به احتمال شرطی نتیجه متغیر yi به شرط مشاهده ویژگی داده xi،یعنی P(yj|xi)اشاره کند:

معرفی شبکه عصبی بیزین تک لایه: حال می توانیم دو فرم رابطه زیر را با هم مقایسه کنیم:

معرفی شبکه عصبی بیزین تک لایه: آموزش شبکه عصبی بیزین:

معرفی شبکه عصبی بیزین تک لایه: مثال: فرض کنید داده ورودی به شبکه به صورت زیر باشد: Antelope(بز کوهی): 1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1

Y13 Y11 Y12 Y17 β1 β2 β7 β3 X11 X12 X21 X22 X31 X32 X13 (legs: 0 2 4 5 6 8) X16 X1 . . X2 X3

X1 2 X1 =1  X2 1 X2 =0  Y1 =1 X3 =0  X3 1 Y1 1 …. …… X13 3 X13 =4  ….

Y13 Y11 Y12 Y13 Y17 β1 β2 β7 β3 X11 X12 X21 X22 X31 X32 . . 1 0 0 4

شمارنده های ورودی((cI C 1 2=C 1 2+1 C 2 1=C 2 1+1 …………….. C 13 3=C 13 3+1

شمارنده های توام((cIi’,jj’ C 1 2,1 1=C 1 2,1 1+1 C 1 2,1 1=C 1 2,1 1+1 C 13 3,1 1=C 13 3,1 1+1

شمارنده های خروجی((cj C 1 1=C 1 1+1

معرفی شبکه عصبی بیزین تک لایه: تخمین کلاسیک:

معرفی شبکه عصبی بیزین تک لایه: تخمین بیزین:

توسعه شبکه عصبی بیزین تک لایه به چندلایه

توسعه شبکه عصبی بیزین تک لایه به چندلایه: اگر ویژگی های ورودی به یکدیگر وابسته باشند، شبکه عصبی تک لایه جواب خوبی بدست نمی دهد. برای جبران وابستگی ها در میان لایه ورودی و لایه خروجی از یک لایه پنهان استفاده می کنیم که این لایه از ترکیب ستون های ورودی ( آنهایی که به هم وابسته هستند) حاصل می شود.

توسعه شبکه عصبی بیزین تک لایه به چندلایه: بطور کلی برای تشکیل شبکه عصبی بیزین چند لایه از دو معماری می توان سود جست : الف ) Partitioning ب ) Overlapping

شبکه عصبی چند لایه )Partitioning(

ویژگی های اولیه وابستگی X1 X2 X3 X1 X2 X3 U1 X3

U1 X3 لایه پنهان

مثالی از ترکیب ویژگی های ورودی در حالت قسمت بندی

Y شبکه عصبی بیزین چند لایه ( پارتیشنینگ) X1 X2 X3

توسعه شبکه عصبی بیزین تک لایه به چندلایه: می توان توزیع را بروی تمام حوزه به عنوان یک ضرب که شامل متغیرهای uk می شود بیان کنیم :

شبکه عصبی چند لایه )Overlapping(

نمونه ای از وابستگی بین ویژگی ها d a c f b e

گراف وابستگی نوشتن وابستگی ها:

توجه به وابستگی های مستقیم :

یک شبکه عصبی بیزین چند لایه در حالت روی هم افتادگی: در این نوع معماری شبکه عصبی بیزین چند لایه ستون (ویژگی) های اولیه پس از ترکیب بطور مستقیم نیز با لایه خروجی ارتباط دارد .

Y شبکه عصبی بیزین چند لایه (Overlapping) X1 X2 X3

بدست آوردن وابستگی میان ویژگی ها : اطلاعات متقابل میان دو ویژگی X,Y به صورت زیر تعریف می شود : اگر مقدار معیار بالا از یک threshold بیشتر شود ، دو ویژگی وابسته تلقی می شوند و یک ستون پیچیده برای ترکیب آنها درنظر گرفته می شود .

نتایج پیاده سازی برای پایگاه دادهmonk’s problem:

نتایج پیاده سازی برای پایگاه دادهMushroom:

ویژگی های پیوسته و شبکه عصبی بیزین

تقسیم بندی سخت بازه و آموزش شبکه عصبی :

فعال و غیر فعال شدن واحدها در حین دسته بندی: 0 0 1 0 0

تقسیم بندی نرم بازه: تابع چگالی احتمال بروی متغیر پیوسته z می تواند به وسیله یک تعداد متناهی از جمع تقریب زده شود:

تقسیم بندی نرم بازه و آموزش شبکه عصبی : % 65 % 35

فعال و غیر فعال شدن واحدها در حین دسته بندی: 0. 65 * 0.30 =0.195 0.35 * 0.60 = 0.21 0.60 0.30 % 65 % 35

هر مقدار در بازه به درجه متفاوتی از جزء متفاوتی "متعلق" خواهد بود:

؟ W مدل ترکیبی

مدل ترکیبی : یک سری از توابع که اجتماع دامنه های آنها یک بازه را پوشش می دهد. در این کار، تبدیل یک متغیر پیوسته به تعدادی متغیر گسسته که بتوانند به عنوان ورودی شبکه عصبی بیزین استفاده شوند، توسط مدل ترکیبی با توابع گوسین صورت می گیرد.

توزیع گوسین با بردار میانگین خود، µ و ماتریس کوواریانس خود، Σ، شناخته می شود و دارای تابع توزیع زیر است :

مسئله ای که مطرح است، تخمین پارامترهای ترکیبات مدل ترکیبی گوسین است.

πi=P(vi) 4 1 2 3

ExpectationMaximization با فرض برخی مقادیر اولیه تصادفی برای پارامترها، از معادله (4) می توان برای محاسبه مقدار تعلق هر نمونه به هر جزء، استفاده کرد. این مرحله، مقدار مورد انتظار است. سپس پارامترهای تخمین زده شده با معادلات (1) تا (3) مقادیر معادله (4) را بدست می دهند. این مرحله، ماکزیمم سازی است. این دو مرحله تا زمانی که پارامترها همگرا شوند، تکرار می شوند.

بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار: الگوریتم ماکزیمم سازی مقدار مورد انتظار دارای ضعف هایی همانند زیر می باشد. *)این روش یک روش محلی، و نسبت به پارامترهای اولیه انتخاب شده بسیار حساس می باشد و ممکن است به یک محدوده پارامترها که تخمین های نادرست را ارائه می دهد همگرا شود. برای حل این مسئله چندین روش مورد بررسی قرار گرفته است که از یک یا ترکیبی از استراتژی هایی همانند چندین نقطه شروع تصادفی و انتخاب تخمین نهایی بطوریکه آن تخمین دارای بالاترین احتمال باشد و یا انتخاب اولیه پارامترها به وسیله الگوریتم خوشه بندی استفاده می کنند.

بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار: *)مسئله دیگری که کارایی ماکزیمم سازی مقدار مورد انتظار را تحت تاثیر قرار می دهد مشخص نبودن تعداد ترکیبات است. برای تخمین تعداد بهینه ترکیبات نیز مطالعات زیادی صورت گرفته است. برای مثال معیار اطلاعات Akaike (AIC)، استنتاج بیزین Schwarz (BIC) ، معیار احتمال دسته بندی مجتمع (ICL).

الگوریتم K-Means 1. مرحله اول : پیدا کردن مرکز دسته اول به صورتی که رابطه زیر را ماکزیمم کند :

الگوریتم K-Means 2. مرحله دوم : به شرط داشتن (k-1)امین ترکیب، معیار هر داده کاندید برای مرکز ترکیب kام می تواند بصورت زیر نوشته شود:

تخمین تعداد بهینه ترکیبات : هنگامی که یک جزء اضافه می شود، اگر ارتباط میان kامین جزء و اجزاء قبلی هنوز هم مستقل باشد، پارامترها با تخمین دوباره از k جزء بدست می آیند. برعکس اگر حداقل یکی از اجزا با جزء اضافه شده همبسته باشد، باید پارامترها را در مدل ترکیبی (k-1) ملاحظه کنیم و تعداد ترکیبات را حداقل (k-1) مشخص کنیم.

رابطه متقابل میان اجزاء :

رابطه متقابل میان اجزاء : رابطه ی متقابل ممکن است دارای سه مقدار باشد: منفی، صفر و یا مثبت اگر دارای مقدار مثبت باشد، بدین معنی است که i و k بطور آماری به یکدیگر وابسته اند.

الگوریتم تخمین تعداد بهینه ترکیبات :

پیاده سازی بروی داده های مصنوعی :

پیاده سازی و آزمایش GMM : داده glass :

نتیجه دستهبندی با استفاده از شبکه عصبی بیزین تکلایه

نتیجه دستهبندی با استفاده از شبکه عصبی بیزین چندلایه در حالت قسمت بندی

دستهبندی با استفاده از شبکه عصبی بیزین چندلایه در حالت روی هم افتادگی

فصل دهم : شبکه عصبی مثلثاتی

فصل یازدهم : شبکه عصبی ویولت Wavelet Neural Network

فصل دوازدهم : شبکه عصبی کانولوشنال

فصل دوازدهم : کاربرد شبکه های عصبی در شناسایی، پیش بینی و کنترل سیستم ها

شناسایی، پیش بینی و کنترل شبکه های عصبی به عنوان شناساگر شبکه های عصبی در پیش بینی سیستم ها شبکه های عصبی به عنوان کنترلر

کنترلر عصبی کنترلر عصبی تقليدگر کنترلر و شناساگر مستقیم کنترلر و شناساگر معکوس كنترل معكوس تطبيقي كنترل مدل داخلي غيرخطي كنترل تطبيقي عصبي نقاد تطبيقي کنترلر PID خود تنظیم شبكه عصبي به عنوان جبرانگر كنترلر تطبيقي مدل مرجع عصبي مستقيم كنترل مدل پيش بين

کنترلر ترکیبی كنترلر ترکیبی از کنترل ساختار متغیر و کنترل عصبي كنترل تطبيقي مستقيم پايدار خطي سازي فيدبك تطبيقي عصبي کنترلر ترکیبی از کنترل فیدبک و کنترل عصبی آموزش خطای پسخور کنترلر ترکیبی از کنترل کنترل بهره ثابت و کنترل عصبی کنترلر شبکه عصبی بر پایه مُد لغزشی کنترلر بهینه عصبی

پایان

Fundamental intelligence

Fundamental intelligence

Presentation Transcript

Fundamental Particles, Fundamental Questions

Psicologia Fundamental

!FUNDAMENTAL!

Fundamental Truth

Fundamental Biotechnology

Fundamental niche

Fundamental Positions

Fundamental Freedoms

Fundamental analysis

Teologia Fundamental

FUNDAMENTAL SKILLS

Tableau Certification – A fundamental for Business Intelligence Industry

Fundamental Concepts

FUNDAMENTAL

Fundamental Freedoms

FundaMENTAL Health

Fundamental Programming

Fundamental Questions

Tableau Certification – A fundamental for Business Intelligence Industry

AI-900: Azure Artificial Intelligence Fundamental

fundamental of Artificial Intelligence