ç¥žç»ç½‘ç»œåœ¨åŠ¨æ€ç³»ç»Ÿè¾¨è¯†ä¸çš„åº”ç”¨

神经网络在动态系统辨识中的应用

摘要 • 本文提出了一个实用的系统辨识方法，即用神经网络同时对动态系统的正逆模型(direct and inverse transfer function)进行辨识。并且进行了仿真和实验，结果表明这种辨识方法的有效性。在实际的应用中，顺向辨识器应用于动态系统的非线性模拟(nonlinear simulator)，而逆向辨识器则对顺向辨识器的连接权值进行初始化。

1.控制系统的分类 • 在如右两图所示的分类中，前馈控制器(feedforward controller)和反馈控制器(feedback controller)都是通过对象(plant)的参数来调整的，而对象的参数则由辨识器（observer）获得。图1为并联型控制系统[4]，该系统中的前馈控制器为神经网络，图2为串联型控制系统，该系统中的前馈控制单元类似于动态滤波器(dynamic filter)。机器人操纵竿(robot manipulator)的逆向动力学(kinematics solver)模型就是一个典型的前馈控制系统。

PDP型神经网络是通过最小化误差能量函数(error energy functions)来训练网络的，按误差能量函数的定义来分，神经网络辨识器分为两类。一类称为顺向辨识器(direct transfer function identifier)，误差为神经网络输出和对象输出的差值，如图3所示，在这类辨识器中网络的输出收敛于对象的输出。第二类称为逆向辨识器(inverse transfer function identifier)，误差定义为网络输出与对象输入的差值，如图4所示，网络的输出收敛于对象的输入。

根据学习方法也可将辨识器分为两类 [10]。一类叫做自适应型，如图5所示，网络在每个采样时刻进行学习，一定的采样周期后网络的输出收敛于教师信号(teaching signal)。另一类叫做学习型，如图6所示，网络进行多次试验，在每个试验期进行学习，在若干次试验后网络输出收敛于教师信号。

2. 基本概念 • 基本PDP模型的神经网络控制器的设计需要考虑以下问题。 • 1）由于对象的输入与输出为模拟信号，故神经网络需要有处理模拟信号的能力。 • 2）虽然理论已经证明只要神经元的个数无穷多，神经网络都能够再现任何非线性函数[2]，但是，在一个实际的系统中是实现神经元个数无穷大很困难的。因此，就需要确定神经元的个数。 • 3）为了使网络达到非线性映射能力，神经网络的激活函数定为S型函数(Sigmoid function)，而这又为神经网络的分析带来了一定的难度。 • 4）当应用一个神经网络来辨识未知对象时，就需要知道对象的输入和输出，以作为教师信号和网络的输入。然而，未知对象的输入输出阶次是未知的，从而又需要建立一个新的实用设计方法，使得学习的结果不依赖于对象输入输出的阶次。

解决办法： • 对于第一点，我们假设神经网络能够处理模拟信号。根据第二点，我们将所需要的神经元个数转化为使得神经元连接权值矩阵的维数最小化，这样就能使得网络的输出能与教师信号相匹配。至于第三点，我们可将目标对象的主要部分假设为线性，从而对线性系统进行神经网络设计。然后在此线性系统的基础上研究其非线性部分，此时就可应用激活函数为非线性的S函数的神经网络进行仿真和实验（这样也解决了第四点）。而教师信号的选择则根据辨识器的类型，对于顺向型选用对象输出，逆向型选用对象输入，同时将教师信号分为两部分，即未知对象的参数向量和网络的输入向量I，如下式所示当网络是线性时，网络的输出由权值矩WT阵和网络输入向量I构成，如下式所示而误差则为网络与实际对象的差给出，如下式所示

3.控制器设计方法 • 本文主要是针对SISO线性系统，神经网络的基本结构是3层网络，目标对象的传递函数假设如下式如示： • 其中ai和bi是待辨识参数，d是截止时间，且待辨识对象的阶次n,m和截止时间d均已知。 • 对象的输出如下式所示：

A 顺向辨识器 • 对象的输入作为网络的输入，网络的输出收敛于对象的输出，且对象的输出作为教师信号，网络的输入向量和待辨识参数向量有如下式所示：且教师信号如下式所示其中输入向量和参数向量的维数均是v[=n+m+1]，同时由于网络是线性的，故其输出可写为：其中的两个权值矩阵的维数分别为V*1,V*V。误差定义如下式所示：

本文假设n=2,m=1,d=1，则顺向辨识器的方框图如图8所示.本文假设n=2,m=1,d=1，则顺向辨识器的方框图如图8所示. • 由（6）式可知，网络的输入是对象的输入与输出的组合，网络的训练是根据（11）~（14）进行的，图8中的虚线是一个反馈回路，能使系统稳定，且能保证网络输入的有限性，如果对象本身是有限的，则可不需要这条反馈路线。 • 图9是一个非线性模拟器，该仿真器的作用是利用图8所得到的顺向辨识器来模拟目标对象的输出。该图的反馈路线根据图8中是否有反馈路线而定。

B 逆向辨识器 • 对象的输出作为网络的输入，网络的输出收敛于对象的输入，同时选择对象的输入作为教师信号，则（5）式改为如下式：网络输入向量和参数向量定义如下：误差定义如下：

与顺向辨识器类似，权值的修正方法也是应用公式（11）~（14）。与顺向辨识器类似，权值的修正方法也是应用公式（11）~（14）。 • 图10为应用一个实际对象进行辨识的方框图，对象阶次仍为：n=2,m=1,d=1。 • 由于顺向控制器的权值矩阵容易陷入局部最小值[8]，即当网络在开始训练一些网络权值矩阵的初始值时，误差往往不能达到0，为了避免这种现象，就必须训练其初始权值矩阵。如果将逆向辨识器的结果作为顺向辨识器的权值初始值，就能够使顺向网络的收敛性得到提高。

5. 仿真 • 本文仿真的对象是一个二阶对象，其差分方程如下式所示：式中最后两个参数a3、Cnon分别是高次谐波系数和非线性部分的系数，且令a1=-1.3，a2=0.3，b=0.7.

A 顺向辨识器的仿真 图11为仿真结果，且假设了对象是线性的，即a3=0,Cnon=0，且网络没有用非线性S函数。从图可以看出，经过一段时间的训练，网络的输出收敛于对象的输出，这证明了本文所提出的顺向辨识器的可实现性。。图12与11仿真的条件一样，只是网络权值的初始值不同，从图12中可以看出输出的误差随着网络的学习而降低。从仿真的结果可以看出在学习停止后，网络输出仍然存在一个相对较大的误差，这是因为网络进入了一个局部最优值状态，网络权值收敛于不同的参数。这个结果就意味着传统的控制理论如自适应控制就不能使用神经网络学习权值来作为辨识对象的参数。因为同一个实际对象通过神经网络学习出来的权值不同。

式中Xg可以改变非线性函数的形状，如果图14所示，当Xg接近无穷大时，f（x）就接近x[7][8]。从图13的学习结果可以看出，网络的输出收敛于对象的输出。式中Xg可以改变非线性函数的形状，如果图14所示，当Xg接近无穷大时，f（x）就接近x[7][8]。从图13的学习结果可以看出，网络的输出收敛于对象的输出。图15所示为利用从图13所得到的辨识器进行非线性模拟的结果，该图的曲线为实际对象的输出与非线性模拟器的输出曲线，反馈增益Kp取0.2。从图中可以看出，尽管非线性模拟器有再现对象的输出的能力，但仍然存在一个相对较小的误差。图16与图15也是实际对象的输出与非线性模拟器的输出曲线，所不同的是Kp取0.4。这个结果证明本文所提的非线性模拟器的可用性。 • 图13是对一个非线性对象进行仿真的结果，其中a3=0.05,Cnon=0.1。且只有网络的隐层为非线性函数，如下式所示

B 逆向辨识器的仿真 • 图17为逆向辨识器的学习结果，对象与网络均为线性，从该图中可以看出，通过学习网络的输出收敛于对象的输入，这证明了本文所提出的逆向辨识器的可实现性。在第四节中我们提出用逆向辨识器学习得到的权值作为顺向辨识器的权值初始值，如图18所示为无学习的前向控制器系统框图。在这种情况下，需要增加一个比例控制的反馈环节，以调整辨识的误差。如图19所示，即为对象输出与期望值的关系，其中反馈增益Kp=0。从图中可以看出在由于没有对前向控制器进行学习，对象的输出与期望值之间有一定的误差残留。图20则为当Kp=0.3时的结果，该图中的误差比图19中的误差更大。图21为在与图20相同条件下的反馈回路输出与网络输出的关系图。当反馈回路输出的信号与网络输出的信号相同，从而使反馈回路的误差增大。这个结果表明输出的误差增加可能是因为增加了一条前向控制器的反馈回路。这种现象是由于把对象的前一刻输出作为了网络的输入而造成的。

6. 实验 • 本文的实验是将辨识器应用到一个自由力控制系统，如图22所示即为该实验装置的示意图。在该控制系统中，由于存在摩擦力，电机不能准确地控制接触力，因此，必须用自适应或自学习控制来估计接触物体的硬度。我们如下式子来表示该自由力控制系统的传递函数G(z)：其中Ts为采样周期，Km为系统增益，Tm为系统时间常数，Ke为接触物体的硬度，图23为顺向辨识器的实验结果，图中网络输出收敛于实际对象的输出，这个结果证明本文所提出的顺向辨识器的实用性。图24显示了S函数的影响，纵坐标为500个采样误差点的均方差的根，从该图中可以看出当Xg为7时达到最小。图25则为非线性模拟器在应用图24中的顺向辨识器所得的实验结果，从图25可以看出该模拟器能很好地跟踪实际对象，证明了本文所提的非线性模拟器在实际系统的有用性。

7. 讨论 • 在第5节中指出顺向辨识器存在局部最小值的问题，传统的控制如自适应控制就不能用这种辨识方法所得到的结果来作为实际对象的参数，这是这种辨识器存在的一个弱点。但是由于顺向辨识器拥有其它的优点，如其非线性映射能力能实现非线性模拟，而这正是用传统控制方法如自适应方法所不能达到的。 • 尽管仿真的结果也表明逆向辨识器的可实现性，但它仍然有一个局部最小值的问题，在训练结束后可能仍然存在输出误差。从仿真的结果看出在前向控制器中增加反馈回路反而使输出误差增大，这种现象是由于在对象中存在死区时间，从而使网络的输出相位滞后于反馈回路的输出。因此要得到理想的对象模型，就必须消除相位滞后，然而这在实际中是不可能存在的。因此，在实际应用中，顺向辨识器的有用的。另外，利用逆向辨识器可以训练顺向辨识器的初始权值，从而减小由于辨识误差带来的残留误差[8]。

ç¥žç»ç½‘ç»œåœ¨åŠ¨æ€ç³»ç»Ÿè¾¨è¯†ä¸­çš„åº”ç”¨