370 likes | 535 Views
第一章. 類神經網路之簡介. 前言. 程序建立系統數學模型 process modeling 基本模式 : 基本物理化學定律 經驗模式 : 曲線擬合 curve fitting 類神經不同於經驗統計建模 過濾功能 : 每一個節點只映射出一個微特徵 適應性學習能力 : 隨時調整權重值 多輸入多輸出系統 : 任意數目輸出入節點 MATLAB Neural Network >> nntool. 1.1 為什麼要用類神經網路. 電腦的有效性仍然令我們失望,譬如說在影像辨識、語音辯認、以及決策處理等方面的問題上。
E N D
第一章 類神經網路之簡介
前言 • 程序建立系統數學模型process modeling • 基本模式: 基本物理化學定律 • 經驗模式: 曲線擬合curve fitting • 類神經不同於經驗統計建模 • 過濾功能: 每一個節點只映射出一個微特徵 • 適應性學習能力: 隨時調整權重值 • 多輸入多輸出系統: 任意數目輸出入節點 • MATLAB Neural Network >> nntool
1.1 為什麼要用類神經網路 • 電腦的有效性仍然令我們失望,譬如說在影像辨識、語音辯認、以及決策處理等方面的問題上。 • 在於數位電腦基本架構的限制,因其本質上就只能根據使用者撰寫的電腦程式來執行運算。 • 期望能夠設計出一部能像人類大腦一樣,能夠學習及具有智慧的機器,如此一來,許多複雜難解、或有生命危險等高難度的工作,便可以交由此等智慧型的機器來完成。
1.2 生物神經網路(1) • 如何藉助生物神經系統處理資訊的模式及架構,來設計出有智慧的機器是一大挑戰。 圖1.1 :人類神經系統示意圖。
1.2 生物神經網路 (2) • 基本上,有兩種不同的途逕來嘗試研究大腦的功能。第一種屬於由下而上的方式,通常生物神經學家(neurobiologists) 採用此種方式,藉由對單一神經細胞的刺激與反應(stimulus-response) 特徵的瞭解,進而對由神經細胞聯結而成的網路能有所認識;而心理學家(psychologists) 採取的是由上而下的途逕,他們從知覺(cognition) 與行為反應來瞭解大腦。 • 目前我們對大腦運作模式的瞭解仍然十分有限。 • 人類的神經系統可視為三個子系統所互相協調而成的複合系統,如圖1.1所示。
1.3 生物神經細胞 (1) • 人類的大腦是由大約1011個神經細胞(nerve cells) 所構成,每個神經細胞又經由約104個突觸(synapses) 與其它神經細胞互相聯結成一個高度非線性且複雜,但具有平行處理能力的資訊處理系統。 • 一個典型的神經元可分為(1)細胞本體(soma)、(2)軸突(axon)、以及(3)樹突(dendrites) 等三部份。 圖1.2:生物神經細胞示意圖。
1.3 生物神經細胞 (2) • 樹突的主要功能就是接受其它神經元所傳遞而來的信號。 • 若導致位於軸突丘的細胞膜電位超過某一特定閥值(threshold)時,則所謂的「活化電位」(action potential) 的脈衝就會被激發出來。 • 藉由管狀似的軸突傳遞至其它相連接的神經元。 • 軸突的終點處是「突觸」,這種細胞間的信號傳遞以化學性的方式居多。 圖1.3:神經信號之傳遞。
1.3.1 生物電位 (1) • 細胞內外充滿了含有陰離子(如:氯離子,Cl- )及陽離子(如:鈉離子、鉀離子、鈣離子,Na+, K+, 及Ca+2等)的電解液。 • 細胞的外圍是一層半滲透性的組織,此組織稱為細胞膜。 • 這些離子在(1)滲透壓和(2)電場效應的影響下,最後會達到一種平衡狀態,使得鉀離子大部份位在細胞體內,而鈉離子大部份位在細胞體外,這時細胞便呈現約-85mv 的「休止電位」(resting potential)。 圖1.4:理想化之細胞模型。
1.3.1 生物電位 (2) • 大多數的哺乳類動物的神經細胞,其休止電位差大約都接近-70mv。 • 當神經細胞被刺激時,在樹突部位的細胞膜的特性會被改變,使得鈉離子可以進入細胞內,導致細胞膜電位的改變,這種電位稱為「層次電位」,其振幅與刺激強度成正比,並且會隨著傳遞距離的增加而衰減。 • 所有位於樹突上,因刺激而引起的電位變化,都會朝向位於細胞本體上之軸突丘方向傳遞,若這些信號的綜合效果,導致軸突丘的細胞膜電位的增加,而且超過某一特定的閥值(如-55mv)時,則「活化電位」會被激發。
1.3.1 生物電位 (3) • 「活化電位」以一種振幅大小不變的方式,沿著軸突方向傳遞。刺激強度的資訊與活化電位的發生頻率有關,而與其振幅的大小無關,其傳遞的速度與(1)軸突的直徑大小以及(2)軸突上之細胞膜的電容及電阻性有關。 圖1.5:活化電位示意圖
1.3.2 神經元之連接模式 (1) • 發散(divergent) 型:「傳入型神經元」(afferent neurons) 採取此種發散型模式,以便將所獲得之資訊,以平行之方式快速地傳達至大腦。 圖1.7:神經元的連接模式:發散型。
1.3.2 神經元之連接模式 (2) • 收斂(convergent) 型:大致上,所謂的「輸出型神經元」(efferent neurons) 與神經末稍之間的連接方式是屬於此種模式。 圖1.8:神經元的連接模式:收斂型。
1.3.2 神經元之連接模式 (3) • 鏈接及迴路(chains and loops) 型:大腦裏的神經元為了處理傳送而來的複雜資訊,發展出這種複雜的連接模式,其中有正迴授與負迴授等情形發生。 圖1.9:神經元的連接模式:鏈接及迴路型。
範例1.1:神經元的連接方式 • (1)當四個突觸同時被激發時,四個突觸所產生的電位總合並未超過激發此神經元的閥值,因此神經元不被激發,如圖1.10(b)所示; • (2)當四個突觸被激發的順序為:D,C,B,與A時,四個突觸所產生的電位總合超過激發此神經元的閥值,因此神經元處於激發狀態,如圖1.10(c)所示。 圖1.10:本圖摘自:M. Arbib, The Metaphorical Brain : Neural Networks and Beyond, John Wiley & Sons, Inc., 1989.)
1.4 單一類神經元的模型(1) • 個別的神經元透過是否激發出活化電位的機制,使其本身就具備處理部份資訊的能力。 • 至於我們要如何向生物神經網路借鏡呢?當然,第一步是設法模仿單一神經元的運作模式。 圖1.11:類神經元之數學模型。
1.4 類神經元的模型(2) • 鍵結值(synaptic weights):突觸的效果實際上可分為兩種: (1) 刺激性的突觸:此種突觸會使得被連接的神經元容易被激化,因而導致活化電位的產生。 (2) 抑制性的突觸:此種突觸會使得被連接的神經元的細胞膜電位值,變得更負(即遠離閥值),因而導致此神經元不容易產生活化電位。 • 正值的鍵結值代表是刺激性的突觸,而抑制性的突觸則由負值的鍵結值所代表,另外,突觸影響性的大或小,則與鍵結值的絕對值成正比。
1.4 類神經元的模型(3) • 加法單元:產生於樹突頂端的「層次電位」,會從四面八方朝向軸突丘傳遞,此時軸突丘會執行「空間及時域」(spatio-temporal) 的整合處理,這是個十分複雜的過程,在簡單的類神經元的模型中,我們通常以一個加法單元來簡化此過程;而複雜一點的,可以用一個「有限脈衝響應濾波器」(finite impulse response filter) 來近似此過程。 圖1.5: 時空性相加
1.4 類神經元的模型(3) • 活化函數(activation function):在軸突丘部位所呈現的整體細胞膜電位,若超過閥值,則「活化電位」脈衝會被激發,整個傳遞而來的資訊在這裏被調變(modulation) 處理,軸突丘將資訊編碼於(1)活化電位的是否產生及(2)活化電位脈衝的產生頻率中。因此,我們將經過權重相加的輸入,透過活化函數的轉換,使得類神經元的輸出代表短期間之平均脈衝頻率。
1.4 類神經元的模型(4) 我們可以用以下的數學式子來描述類神經元的輸入輸出關係: (1.3) (1.4) 其中 代表第i 維輸入至第j 個類神經元的鍵結值; 代表這個類神經元的閥值; 代表p 維的輸入; 代表第j 個類神經元所獲得的整體輸入量, 其物理意義是代表位於軸突丘的細胞膜電位; 代表活化函數; 則代表了類神經元的輸出值,也就是脈衝頻率。
1.4 單一類神經元的模型(5) • 如果我們用代表,則上述式子可改寫為: • 及 • 其中 和 。
1.4 類神經元的模型(6) 所用的活化函數型式,常見的有以下四種型式: • 嚴格限制函數(hard limiter or threshold function): • 區域線性函數(piecewise linear function): 圖1.12:嚴格限制函數。 圖1.13:區域線性函數。
1.4 類神經元的模型(7) • s-字型函數(sigmoid function): • 高斯函數(Gaussian function): 圖1.14:s-字型函數。 圖1.15:高斯函數。
試驗簡單神經元和各種不同的轉移函數 • 具有單一個輸入元素的神經元>> nnd2n1 • 具有兩個輸入元素的神經元>> nnd2n2
類神經網路如何運作 • 網路如何學習即是網路如何決定權重值W和閥值(偏權值) θ? 基本上類神經網路運作分成兩個過程: • 訓練過程—決定網路的權重值與閥值 • 模擬過程—決定網路的預測輸出值或驗證網路的準確度 • 類神經網路就是透過訓練不斷調整節點之間的權重值與閥值, 使網路所計算的輸出為目標輸出
類神經網路架構 • 類神經網路是一種計算系統,由許多高度連結的節點所組成,用來處理資訊並對外部的輸入以網路動態來回應 • 一般類神經網路具有三層:輸入層,隱藏層,輸出層
1.5 網路架構(1) • 單層前饋網路(single-layer feedforward networks):如圖1.16所示,整個網路由一層具有處理資訊能力的類神經元所組成,通常此種網路的功能性較差,只能處理線性的問題。 圖1.16:單層前饋網路。
1.5 網路架構(2) • 多層前饋網路(multi-layer feedforward networks):根據鍵結的聯接方式,此種網路又可細分為(1)部份連結(partially connected) 網路,如圖1.17(a)或(2)完全連結(fully connected) 網路,如圖1.17(b),此種網路可處理複雜性高的問題。 圖1.17:多層前饋網路:(a)部份連結;(b)完全連結。
1.5 網路架構(3) • 循環式網路(recurrent networks):此網路的輸出會透過另一組鍵結值,聯結於網路的某處(如輸入層或隱藏層)而迴授至網路本身。 圖1.18:循環式網路。
1.5 網路架構(4) • 晶格狀網路(lattice networks):基本上,此種網路屬於前饋型網路,只不過其輸出層的類神經元是以矩陣方式所排列。 圖1.19:二維的33之晶格狀網路。
1.6 學習與記憶 • 「學習」(learning)是自然生物或人造系統之所以有智慧的一個極為重要的特徵。 • 學習與記憶是密不可分的,因為有學習行為的發生才導致記憶的形成;能夠記憶才產生學習的效果。人類的記憶有以下的一些特點: • 人類的記憶屬於分散式 (distributed)的儲存,並且是屬於聯想式的記憶 (associate memory)。 • 人類易於記憶,但卻難於回想(recall)。 • 人類的記憶,根據儲存的期間長短又分為三種:(1) 立即計憶(immediate memory) ;(2) 短程記憶 (short-term memory) ; (3) 長程記憶 (long-term memory)。
1.7 類神經網路的學習規則(1) 學習的策略(strategies) 可分為以下幾種: • 機械式的背誦學習(rote learning) 。 • 指令式的學習(learning by instruction) 。 • 類推式的學習(learning by analogy) 。 • 歸納式的學習(learning by induction):此種學習又可分為以下兩種方式: (1) 從範例中學習 (learning from examples):又稱為監督式 (supervise) 學習 。 (2) 從觀察及發現中學習(learning from observation and discovery):又稱為非監督式(unsupervised) 學習。
1.7 類神經網路的學習規則(2) 我們以數學式來描述通用型的學習規則 其中 及 分別代表原先的及調整後的鍵結值; 代表此類神經元受到刺激後,為了達成學習效果,所必須採取的改變量。 改變量,通常是(1)當時的輸入、(2)原先的鍵結值 及(3)期望的輸出值(desired output) di (若屬於非監督式學習,則無此項) 的某種函數關係 (1.12)
1.7.1 Hebbian 學習規則 • 神經心理學家(neuropsychologist) Hebb 在他的一本書中寫著[7] 當神經元A 的軸突與神經元B 之距離,近到足以激發它的地步時,若神經元A 重複地或持續地扮演激發神經元B 的角色,則某種增長現象或新陳代謝的改變,會發生在其中之一或兩個神經元的細胞上,以至於神經元A 能否激發神經元B 的有效性會被提高。 • 因此我們得到以下的學習規則: (1.14) 這種Hebbian 學習規則屬於前饋(feedforward) 式的非監督 學習規則。以下是最常使用的型式: (1.15)
1.7.2 錯誤更正法則 (1) • 錯誤更正法則的基本概念是,若類神經元的真實輸出值與期望的目標值不同時,則兩者之差,定義為誤差信號: • 我們可以選擇一特定的「代價函數」(cost function) 來反應出誤差信號的物理量; • 錯誤更正法則的終極目標,就是調整鍵結值使得代價函數值越來越小,亦即使類神經元的真實輸出值,越接近目標值越好,一般都採用梯度坡降法(gradient decent method) 來搜尋一組鍵結值,使得代價函數達到最小。
1.7.2 錯誤更正法則 (2) 一、Windrow-Hoff 學習法代價函數定義為: 因此根據梯度坡降法可得: 此學習規則,有時候亦被稱為最小均方演算法(least square error algorithm)。 (1.18) (1.19)
1.7.2 錯誤更正法則 (3) 二、Delta 學習法使用此種學習法的類神經網路,其活化函數都是採用連續且可微分的函數型式,而代價函數則定義為: 因此根據梯度坡降法可得: • 實際上,若時,則Widrow-Hoff 學習可視為Delta 學習法的一項特例。 (1.20) (1.21)
1.7.3 競爭式學習法 • 競爭式學習法有時又稱為「贏者全拿」(winner-take-all) 學習法。 步驟一:得勝者之篩選 假設在此網路中有K個類神經元,如果 那麼第k個類神經元為得勝者。 步驟二:鍵結值之調整 (1.22) (1.23)