第一章

第一章 類神經網路之簡介

前言 • 程序建立系統數學模型process modeling • 基本模式: 基本物理化學定律 • 經驗模式: 曲線擬合curve fitting • 類神經不同於經驗統計建模 • 過濾功能: 每一個節點只映射出一個微特徵 • 適應性學習能力: 隨時調整權重值 • 多輸入多輸出系統: 任意數目輸出入節點 • MATLAB Neural Network >> nntool

1.1 為什麼要用類神經網路 • 電腦的有效性仍然令我們失望，譬如說在影像辨識、語音辯認、以及決策處理等方面的問題上。 • 在於數位電腦基本架構的限制，因其本質上就只能根據使用者撰寫的電腦程式來執行運算。 • 期望能夠設計出一部能像人類大腦一樣，能夠學習及具有智慧的機器，如此一來，許多複雜難解、或有生命危險等高難度的工作，便可以交由此等智慧型的機器來完成。

1.2 生物神經網路(1) • 如何藉助生物神經系統處理資訊的模式及架構，來設計出有智慧的機器是一大挑戰。圖1.1 ：人類神經系統示意圖。

1.2 生物神經網路 (2) • 基本上，有兩種不同的途逕來嘗試研究大腦的功能。第一種屬於由下而上的方式，通常生物神經學家(neurobiologists) 採用此種方式，藉由對單一神經細胞的刺激與反應(stimulus-response) 特徵的瞭解，進而對由神經細胞聯結而成的網路能有所認識；而心理學家(psychologists) 採取的是由上而下的途逕，他們從知覺(cognition) 與行為反應來瞭解大腦。 • 目前我們對大腦運作模式的瞭解仍然十分有限。 • 人類的神經系統可視為三個子系統所互相協調而成的複合系統，如圖1.1所示。

1.3 生物神經細胞 (1) • 人類的大腦是由大約1011個神經細胞(nerve cells) 所構成，每個神經細胞又經由約104個突觸(synapses) 與其它神經細胞互相聯結成一個高度非線性且複雜，但具有平行處理能力的資訊處理系統。 • 一個典型的神經元可分為(1)細胞本體(soma)、(2)軸突(axon)、以及(3)樹突(dendrites) 等三部份。圖1.2：生物神經細胞示意圖。

1.3 生物神經細胞 (2) • 樹突的主要功能就是接受其它神經元所傳遞而來的信號。 • 若導致位於軸突丘的細胞膜電位超過某一特定閥值(threshold)時，則所謂的「活化電位」(action potential) 的脈衝就會被激發出來。 • 藉由管狀似的軸突傳遞至其它相連接的神經元。 • 軸突的終點處是「突觸」，這種細胞間的信號傳遞以化學性的方式居多。圖1.3：神經信號之傳遞。

1.3.1 生物電位 (1) • 細胞內外充滿了含有陰離子(如：氯離子，Cl- )及陽離子(如：鈉離子、鉀離子、鈣離子，Na+, K+, 及Ca+2等)的電解液。 • 細胞的外圍是一層半滲透性的組織，此組織稱為細胞膜。 • 這些離子在(1)滲透壓和(2)電場效應的影響下，最後會達到一種平衡狀態，使得鉀離子大部份位在細胞體內，而鈉離子大部份位在細胞體外，這時細胞便呈現約-85mv 的「休止電位」(resting potential)。圖1.4：理想化之細胞模型。

1.3.1 生物電位 (2) • 大多數的哺乳類動物的神經細胞，其休止電位差大約都接近-70mv。 • 當神經細胞被刺激時，在樹突部位的細胞膜的特性會被改變，使得鈉離子可以進入細胞內，導致細胞膜電位的改變，這種電位稱為「層次電位」，其振幅與刺激強度成正比，並且會隨著傳遞距離的增加而衰減。 • 所有位於樹突上，因刺激而引起的電位變化，都會朝向位於細胞本體上之軸突丘方向傳遞，若這些信號的綜合效果，導致軸突丘的細胞膜電位的增加，而且超過某一特定的閥值(如-55mv)時，則「活化電位」會被激發。

1.3.1 生物電位 (3) • 「活化電位」以一種振幅大小不變的方式，沿著軸突方向傳遞。刺激強度的資訊與活化電位的發生頻率有關，而與其振幅的大小無關，其傳遞的速度與(1)軸突的直徑大小以及(2)軸突上之細胞膜的電容及電阻性有關。圖1.5：活化電位示意圖

1.3.2 神經元之連接模式 (1) • 發散(divergent) 型：「傳入型神經元」(afferent neurons) 採取此種發散型模式，以便將所獲得之資訊，以平行之方式快速地傳達至大腦。圖1.7：神經元的連接模式：發散型。

1.3.2 神經元之連接模式 (2) • 收斂(convergent) 型：大致上，所謂的「輸出型神經元」(efferent neurons) 與神經末稍之間的連接方式是屬於此種模式。圖1.8：神經元的連接模式：收斂型。

1.3.2 神經元之連接模式 (3) • 鏈接及迴路(chains and loops) 型：大腦裏的神經元為了處理傳送而來的複雜資訊，發展出這種複雜的連接模式，其中有正迴授與負迴授等情形發生。圖1.9：神經元的連接模式：鏈接及迴路型。

範例1.1：神經元的連接方式 • (1)當四個突觸同時被激發時，四個突觸所產生的電位總合並未超過激發此神經元的閥值，因此神經元不被激發，如圖1.10(b)所示； • (2)當四個突觸被激發的順序為：D，C，B，與A時，四個突觸所產生的電位總合超過激發此神經元的閥值，因此神經元處於激發狀態，如圖1.10(c)所示。圖1.10：本圖摘自：M. Arbib, The Metaphorical Brain : Neural Networks and Beyond, John Wiley & Sons, Inc., 1989.)

1.4 單一類神經元的模型(1) • 個別的神經元透過是否激發出活化電位的機制，使其本身就具備處理部份資訊的能力。 • 至於我們要如何向生物神經網路借鏡呢？當然，第一步是設法模仿單一神經元的運作模式。圖1.11：類神經元之數學模型。

1.4 類神經元的模型(2) • 鍵結值(synaptic weights)：突觸的效果實際上可分為兩種： (1) 刺激性的突觸：此種突觸會使得被連接的神經元容易被激化，因而導致活化電位的產生。 (2) 抑制性的突觸：此種突觸會使得被連接的神經元的細胞膜電位值，變得更負(即遠離閥值)，因而導致此神經元不容易產生活化電位。 • 正值的鍵結值代表是刺激性的突觸，而抑制性的突觸則由負值的鍵結值所代表，另外，突觸影響性的大或小，則與鍵結值的絕對值成正比。

1.4 類神經元的模型(3) • 加法單元：產生於樹突頂端的「層次電位」，會從四面八方朝向軸突丘傳遞，此時軸突丘會執行「空間及時域」(spatio-temporal) 的整合處理，這是個十分複雜的過程，在簡單的類神經元的模型中，我們通常以一個加法單元來簡化此過程；而複雜一點的，可以用一個「有限脈衝響應濾波器」(finite impulse response filter) 來近似此過程。圖1.5: 時空性相加

1.4 類神經元的模型(3) • 活化函數(activation function)：在軸突丘部位所呈現的整體細胞膜電位，若超過閥值，則「活化電位」脈衝會被激發，整個傳遞而來的資訊在這裏被調變(modulation) 處理，軸突丘將資訊編碼於(1)活化電位的是否產生及(2)活化電位脈衝的產生頻率中。因此，我們將經過權重相加的輸入，透過活化函數的轉換，使得類神經元的輸出代表短期間之平均脈衝頻率。

1.4 類神經元的模型(4) 我們可以用以下的數學式子來描述類神經元的輸入輸出關係： (1.3) (1.4) 其中代表第i 維輸入至第j 個類神經元的鍵結值；代表這個類神經元的閥值；代表p 維的輸入；代表第j 個類神經元所獲得的整體輸入量，其物理意義是代表位於軸突丘的細胞膜電位；代表活化函數；則代表了類神經元的輸出值，也就是脈衝頻率。

1.4 單一類神經元的模型(5) • 如果我們用代表，則上述式子可改寫為： • 及 • 其中和。

1.4 類神經元的模型(6) 所用的活化函數型式，常見的有以下四種型式： • 嚴格限制函數(hard limiter or threshold function)： • 區域線性函數(piecewise linear function)：圖1.12：嚴格限制函數。圖1.13：區域線性函數。

1.4 類神經元的模型(7) • s-字型函數(sigmoid function)： • 高斯函數(Gaussian function)：圖1.14：s-字型函數。圖1.15：高斯函數。

試驗簡單神經元和各種不同的轉移函數 • 具有單一個輸入元素的神經元>> nnd2n1 • 具有兩個輸入元素的神經元>> nnd2n2

類神經網路如何運作 • 網路如何學習即是網路如何決定權重值W和閥值(偏權值) θ? 基本上類神經網路運作分成兩個過程: • 訓練過程—決定網路的權重值與閥值 • 模擬過程—決定網路的預測輸出值或驗證網路的準確度 • 類神經網路就是透過訓練不斷調整節點之間的權重值與閥值, 使網路所計算的輸出為目標輸出

類神經網路架構 • 類神經網路是一種計算系統,由許多高度連結的節點所組成,用來處理資訊並對外部的輸入以網路動態來回應 • 一般類神經網路具有三層:輸入層,隱藏層,輸出層

1.5 網路架構(1) • 單層前饋網路(single-layer feedforward networks)：如圖1.16所示，整個網路由一層具有處理資訊能力的類神經元所組成，通常此種網路的功能性較差，只能處理線性的問題。圖1.16：單層前饋網路。

1.5 網路架構(2) • 多層前饋網路(multi-layer feedforward networks)：根據鍵結的聯接方式，此種網路又可細分為(1)部份連結(partially connected) 網路，如圖1.17(a)或(2)完全連結(fully connected) 網路，如圖1.17(b)，此種網路可處理複雜性高的問題。圖1.17：多層前饋網路：(a)部份連結；(b)完全連結。

1.5 網路架構(3) • 循環式網路(recurrent networks)：此網路的輸出會透過另一組鍵結值，聯結於網路的某處(如輸入層或隱藏層)而迴授至網路本身。圖1.18：循環式網路。

1.5 網路架構(4) • 晶格狀網路(lattice networks)：基本上，此種網路屬於前饋型網路，只不過其輸出層的類神經元是以矩陣方式所排列。圖1.19：二維的33之晶格狀網路。

1.6 學習與記憶 • 「學習」(learning)是自然生物或人造系統之所以有智慧的一個極為重要的特徵。 • 學習與記憶是密不可分的，因為有學習行為的發生才導致記憶的形成；能夠記憶才產生學習的效果。人類的記憶有以下的一些特點： • 人類的記憶屬於分散式 (distributed)的儲存，並且是屬於聯想式的記憶 (associate memory)。 • 人類易於記憶，但卻難於回想(recall)。 • 人類的記憶，根據儲存的期間長短又分為三種：(1) 立即計憶(immediate memory) ；(2) 短程記憶 (short-term memory) ； (3) 長程記憶 (long-term memory)。

1.7 類神經網路的學習規則(1) 學習的策略(strategies) 可分為以下幾種： • 機械式的背誦學習(rote learning) 。 • 指令式的學習(learning by instruction) 。 • 類推式的學習(learning by analogy) 。 • 歸納式的學習(learning by induction)：此種學習又可分為以下兩種方式： (1) 從範例中學習 (learning from examples)：又稱為監督式 (supervise) 學習。 (2) 從觀察及發現中學習(learning from observation and discovery)：又稱為非監督式(unsupervised) 學習。

1.7 類神經網路的學習規則(2) 我們以數學式來描述通用型的學習規則其中及分別代表原先的及調整後的鍵結值；代表此類神經元受到刺激後，為了達成學習效果，所必須採取的改變量。改變量，通常是(1)當時的輸入、(2)原先的鍵結值及(3)期望的輸出值(desired output) di (若屬於非監督式學習，則無此項) 的某種函數關係 (1.12)

1.7.1 Hebbian 學習規則 • 神經心理學家(neuropsychologist) Hebb 在他的一本書中寫著[7] 當神經元A 的軸突與神經元B 之距離，近到足以激發它的地步時，若神經元A 重複地或持續地扮演激發神經元B 的角色，則某種增長現象或新陳代謝的改變，會發生在其中之一或兩個神經元的細胞上，以至於神經元A 能否激發神經元B 的有效性會被提高。 • 因此我們得到以下的學習規則： (1.14) 這種Hebbian 學習規則屬於前饋(feedforward) 式的非監督學習規則。以下是最常使用的型式： (1.15)

1.7.2 錯誤更正法則 (1) • 錯誤更正法則的基本概念是，若類神經元的真實輸出值與期望的目標值不同時，則兩者之差，定義為誤差信號： • 我們可以選擇一特定的「代價函數」(cost function) 來反應出誤差信號的物理量； • 錯誤更正法則的終極目標，就是調整鍵結值使得代價函數值越來越小，亦即使類神經元的真實輸出值，越接近目標值越好，一般都採用梯度坡降法(gradient decent method) 來搜尋一組鍵結值，使得代價函數達到最小。

1.7.2 錯誤更正法則 (2) 一、Windrow-Hoff 學習法代價函數定義為：因此根據梯度坡降法可得：此學習規則，有時候亦被稱為最小均方演算法(least square error algorithm)。 (1.18) (1.19)

1.7.2 錯誤更正法則 (3) 二、Delta 學習法使用此種學習法的類神經網路，其活化函數都是採用連續且可微分的函數型式，而代價函數則定義為：因此根據梯度坡降法可得： • 實際上，若時，則Widrow-Hoff 學習可視為Delta 學習法的一項特例。 (1.20) (1.21)

1.7.3 競爭式學習法 • 競爭式學習法有時又稱為「贏者全拿」(winner-take-all) 學習法。步驟一：得勝者之篩選假設在此網路中有K個類神經元，如果那麼第k個類神經元為得勝者。步驟二：鍵結值之調整 (1.22) (1.23)

第一章

第一章

Presentation Transcript