1 / 35

近期科研汇报

近期科研汇报. 报告人: 纪爱兵. 汇报内容:. 第一部分:基于模糊训练数据的支持向量机与模糊线性回归 第二部分:基于模糊 Choquet 积分的非线性模糊回归. 1. 问题提出. 支持向量机( SVM ) ( Support Vector Machine ) 是 Vapnik 等人根据统计学习理论提出的一种新的通用学习方法,支持向量机分为分类型支持向量机和回归型支持向量机,在分类型支持向量机中,训练样本的输入是实数值向量,输出是类别,用表示 。 . 1. 问题提出.

cooper
Download Presentation

近期科研汇报

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 近期科研汇报 报告人: 纪爱兵

  2. 汇报内容: • 第一部分:基于模糊训练数据的支持向量机与模糊线性回归 • 第二部分:基于模糊Choquet积分的非线性模糊回归

  3. 1.问题提出 • 支持向量机(SVM)(Support Vector Machine)是Vapnik等人根据统计学习理论提出的一种新的通用学习方法,支持向量机分为分类型支持向量机和回归型支持向量机,在分类型支持向量机中,训练样本的输入是实数值向量,输出是类别,用表示 。

  4. 1.问题提出 考虑到训练样本集中的噪音,Chun-fu Lin[4]引入了一种模糊支持向量机,其训练样本的输入仍是实数值向量,输出是带有隶属度的类别,他用一个隶属度来表示一个训练样本隶属于正类或负类的程度,但本质上来说,它还是Vapnik 意义上的普通支持向量机。

  5. 1.问题提出 • 事实上,由于噪音和测量的误差,训练样本数据常常是不确定的或是模糊的,对于训练数据是模糊数据的情况迄今尚无人研究,因此研究基于模糊训练数据的支持向量机非常有意义。 • 在本文中,我们将首次引入训练数据是模糊数的分类型支持向量机的理论,主要包括模糊线性可分和模糊近似线性可分的概念以及基于模糊训练样本的支持向量机的数学模型,并给出它的求解方法。

  6. 1.问题提出 • 而普通的支持向量机是它的一个特殊情况。然后将此方法应用于冠心病的鉴别诊断。最后,我们应用基于模糊训练数据的支持向量机理论来研究模糊线性回归问题,给出了模糊输入、模糊输出的模糊线性回归问题的一种新的解法。

  7. 2.准备知识 • 这里主要给出两分类型支持向量机的有关知识,对于训练样本集: • 分别表示正类和负类。如果存在(w,b)使得 • (1) • 则称训练样本是线性可分的。(1)式可以简化为 • (2) • 分类的决策规则为:

  8. 2.准备知识 为了使得决策规则具有好的推广能力,我们应使分类间隔最大,以上机器学习的问题可转化为一个凸二次规划问题: • 此问题有全局最优解,它的对偶问题为:

  9. 2.准备知识 • Maximize • s.t. • 当样本不是线性可分时,我们可以通过一个映射将数据映射到一个高维特征空间H,并在高维特征空间上构造分类超平面。

  10. 2.准备知识 记 称 为核函数 • 考虑到一些样本可能被错分,我们引进松弛变量 。则此问题可转化 • 这里 C为惩罚参数,它可以平衡最大间隔和错分样本。 • 以上二次规划 的对偶问题为:

  11. 2.准备知识 • Maximize • s.t. (8) • 此时的决策函数为:

  12. 3 模糊数和可能性测度 • 定义3.1设 X为非空集,P(X) 为X的幂集, 映射Pos: P(X) [0,1], 如果满足: • (1) Pos( )=0 (2) Pos(X)=1 • (3) Pos( )= Pos( ) • 则称Pos为可能性测度。 • 定义3.2设 为模糊数,它的隶属函数为:

  13. 3 模糊数和可能性测度 (其中 为实数),则称 为三角形模糊数,记为 ( )。 定义 3.3设 为模糊数,模糊事件的可能性测度定义为: 特殊地, 当b 为实数时,模糊事件的可能性测度为: 。 类似地, 。

  14. 3 模糊数和可能性测度 如果 均为模糊数,则称 为n维模糊数向量,以 表示n维模糊数向量的全体。特别地,如果 均为三角形模糊数,则 称为n维三角形模糊数向量。以 表示n维三角形模糊数向量的全体。 由Zadeh扩展原则,对于n元函数f: 和模糊数向量 , 为模糊数,其隶属函数为:

  15. 3 模糊数和可能性测度 特别地,当 为模糊数时,类似可定义 且易得: • 定理3.1 设 , 为三角形模糊数, 为实数,则 • (1) ; (2)

  16. 3 模糊数和可能性测度 定理 3.2设 为三角形模糊数,则 定理 3.3设 为三角形模糊数,则对给定的置信水平 , , 等价 于 : 。

  17. 4. 基于模糊训练数据的分类型支持向量机 考虑模糊训练样本S= , 其中, , , 当 称为正类;当 则称 为负类,基于模糊训练样本集 S= 的分类就是寻找一个决策函数 ,使得正类和负类能以最低的分类错误被分开并且具有好的推广能力。 4.1 基于模糊线性可分训练样本集的支持向量机

  18. 4. 基于模糊训练数据的分类型支持向量机 定义4.1对模糊训练样本集S= , 如果对给定的置信水平 ,存在 ,使得 (9) 则称模糊训练样本集S= 是关于置信水平 模糊线性可分的。 定理4.1如果模糊训练样本集S= 是关于置信水平 为模糊线性可分的,

  19. 4. 基于模糊训练数据的分类型支持向量机 其中 且 为三角形模糊数,则式(9)等价于 (10) (证明略) 基于模糊现行可分训练样本集的支持向量机就是求解以下模糊机会约束规划: s.t. (11) ,

  20. 4. 基于模糊训练数据的分类型支持向量机 • 我们可以利用混合智能算法[17,18],求解模糊机会约束规划(11)。由定理4.1模糊机会约束规划(11)可以转化为以下经典的凸二次规划问题: • s.t . • (12) • (12)的对偶问题为: • Maximize (13)

  21. 4. 基于模糊训练数据的分类型支持向量机 s.t. 这里 , 其中 为规划 (13)的解 4.2. 基于近似模糊线性可分训练样本集的支持向量机 考虑到可能有一些样本被错分(按置信水平 ,不满足(9)式),我们引进松弛变量 ,其中 。对模糊训练样本集S= ,如果对给定的置信水平 ,如果存在 , 使得 ,则称模糊训练样本集 S关于置信水平 为近似模糊线性可分的。

  22. 4. 基于模糊训练数据的分类型支持向量机 • 为了求 ,我们可以用混合智能算法求解下面模糊机会约束规划: • s.t. (14) • 类似地,利用定理4.1,以上模糊机会约束规划可转化为下面的经典凸二次规划问题:

  23. 4. 基于模糊训练数据的分类型支持向量机 s.t . (15) (其中C为惩罚参数)。 规划(15)的对偶问题为: Maximize s. t. (16)

  24. 4. 基于模糊训练数据的分类型支持向量机 可以利用优化软件如Lingo来求解规划问题(15)(16),得到 。 则对于未知类别的样本,其决策规则为: 若对 给定的置信水平 , 如果 , 则 为正类 ;如果 , 则 为负类。 • 应用实例 • 下面,我们将应用以上基于模糊训练样本的两分类支持向量机的理论于冠心病的鉴别诊断。我们收集了34名患者的资料,以24名患者的资料作为训练样本,其中一半为正常人,表示为 =1,另一半为冠心病患者,表示为 =-1,数据见表1,其中 舒张期血压, 表示血浆胆固醇含量,且 和 为三角形模糊数。

  25. 4. 基于模糊训练数据的分类型支持向量机 表1:冠心病人和正常人舒张期血压和血浆胆固醇含量数据

  26. 4. 基于模糊训练数据的分类型支持向量机 取参数C=0.1, ,利用以上数据来训练以上规划(15)或(16),可得解 , b=-6.962587, 则可以得到冠心病的鉴别诊断规则:对给定的置信水平 , 如果 , 则 为冠心病患者; 如果 ,则 为正常人。利用此鉴别诊断规则来拟合表1种的数据,只有三例被错分,诊断正确率为87.5%。用另外10例患者的资料作为测试样本,经测试正确率为90%。由此充分说明基于模糊训练样本的支持向量机具有好的拟合效果和高的预测精度。

  27. 5. 基于模糊支持向量机的模糊线性回归 设输入 为模糊数向量, 输出为模糊数 。 为简单起见,我们设 ) 和 均为三角型模糊数。所谓模糊线性回归就是确定关系: 对于模糊训练集S= , 其中 , 。 对给定的 , 令 为正类集, 为负类集。

  28. 5. 基于模糊支持向量机的模糊线性回归 以 为模糊训练集,则模糊线性回归问题可以转化为基于模糊训练集的支持向量机的分类问题。 如果关于置信水平 为模糊近似线性可分的, 则由上面基于模糊训练集的支持向量机分类问题的理论,我们只需解下面的模糊机会约束规划: s.t. (19) 假定 , , , 则与规划(19)等价的经典的二次规划为:

  29. 5. 基于模糊支持向量机的模糊线性回归 s.t. (20) 用Lingo 80 求解以上二次规划得 。 由定理3.4, 规划(19)的约束条件等价于:

  30. 5. 基于模糊支持向量机的模糊线性回归 则在置信水平 下,得到关系: 或 则 应用实例 利用文献[28]中的数据作为模糊训练集,见表2,当参数C=0.1, , 求解二次规划(20),可得模糊线性回归关系: 且当 , 即 , 为经典实数时,恰好与普通的线性回归相一致。

  31. 5. 基于模糊支持向量机的模糊线性回归 • 表2

  32. 6. 结论 本文讨论了训练数据为模糊数的支持向量机分类理论,并且给出了具体的求解方法,它极大扩展了普通支持向量机的理论和应用范围,V.N. Vapnik的支持向量机是它的一个特殊形式。并且,我们应用基于模糊训练数据的支持向量机分类理论,通过将模糊线性回归问题转化为基于模糊训练数据的支持向量机分类问题 给出了一种求解模糊线性回归的新方法。进一步我们将研究非可分模糊训练数据的支持向量机理论。

  33. References • [1] V.N. Vapnik, The Nature of Statistical Learning Theory,Springer-Verlag, New York, 1995. • [2] V.N. Vapnik, Statistical Learning Theory, Wiley, New York,1998. • [3] C. Cortes, V.N. Vapnik, Support vector networks, Mach.Learn. 20 (3) (1995) 273–297. • [4] Chun-fu Lin, Sheng-de Wang ,Training algorithms for fuzzy support vector machines with noisy data,Pattern Recognition Letters 25 (2004) 1647–1656 • [5] J.M. Keller, D.J. Hunt, Incorporating fuzzy membershipfunctions into the perceptron algorithm, IEEE Trans. PAMI7 (1985) 693–699. • [6] J.-H. Chen, C.-S. Chen, Fuzzy kernel perceptron, IEEE Trans.Neural Networks 13 (6) (2002) 1364–1373. • [7] W. Shitong, Fuzzy Systems and Fuzzy Neural Networks and Their Programming, Press of Shanghai Science and technologies, Shanghai, 1998 (1st ed.), 2000 (2nd ed.). • [8] C. Angulo, X. Parra, A. Catala, K-SVCR: a support vector machine for multiclass classification, J. Neurocomput., in press (download the paper from http://www.computerscience • Web.com). • [9] D. Tsujinishi, S. Abe, Fuzzy least square SVM for multiclass problems, J. Neural Networks 16 (2003) 785–792. • [10] Tomonori Kikuchi, Shigeo Abe, Comparison between error correcting output codes and fuzzy support vector machines,Pattern Recognition Letters 26 (2005) 1937–1945 • [11] Daisuke Tsujinishi,Shigeo Abe, Fuzzy least squares support vector machines for multiclass problems, Neural Networks 16(2003)785-792 • [12] Dug Hun Hong,Changha Hwang, Support vector fuzzy regression machines, Fuzzy Sets and Syetems 138(2003) 271-281

  34. References • [13] Jin-TsongJeng,Chen-Chia Chuang,Shun-FengSu, Support vector interval regression networks for interval regression analysis, Fuzzy Sets and Systems 138 (2003) 283–300 • [14] Zadeh LA. Fuzzy sets as a basis for a theory of possibility. Fuzzy Sets and Systems 1978;1:3–28. • [15] Dubois D, Prade H. Possibility theory. New York: Plenum Press; 1988. • [16] Klir GJ. On fuzzy-set interpretation of possibility theory. Fuzzy Sets andSystems 1999;108:263–373. • [17] Liu B. Uncertain programming. New York: Wiley; 1999. • [18] Liu B. Theory and practice of uncertain programming. Heidelberg: Physica; 2002. • [19] Liu B. Minimax chance constrained programming models for fuzzy decision systems. Information Sciences 1998;112:25–38. • [20] Liu B. Dependent-chance programming in fuzzy environments. Fuzzy Sets and Systems 2000;109(1):97–106. • [21] Liu B. Fuzzy random chance-constrained programming. IEEE Transactions on Fuzzy Systems 2001;9(5):713–20. • [22] Liu B. Fuzzy random dependent-chance programming. IEEE Transactions on Fuzzy Systems 2001;9(5):721–6. • [23] Liu YK, Liu B. Fuzzy random variable: a scalar expectedvalue operator. Fuzzy Optimization and Decision Making 2003;2(2):143–60. • [24] P. Diamond, Fuzzy least squares, Inform. Sci. 46 (1988) • [25] H. Tanaka, Fuzzy data analysis by possibilistic linear models, Fuzzy Sets and Systems 24(1987) • [26] H. Tanaka, S. Uejima, K. Asia, Linear regression analysis with fuzzy model, IEEE Trans.Systems, Man Cybernet. • [27] M. Sakawa, H. Yano, Multiobjective fuzzy linear regression analysis for fuzzy input–output data, Fuzzy Sets and Systems 47 (1992) • [28] HSIEN-CHUNG Wu,Linear Regression Analysis for Fuzzy Input and Output Data • Using the Extension Principle, Computers and Mathematics with Applications 45 (2003) • [29] Scholkoph B,Smola A J,Bartlett P L, New support vector Algorithms, Neural Computation,2000,12(5)

  35. 本论文需进一步考虑的工作 • 本文只是基于模糊训练数据的线性可分或近似线性可分的情况下的支持向量机理论。当模糊训练数据集是非线性可分的情况下,是否可通过模糊核函数(经典核函数通过Zadeh扩展原理得到),映射到高维模糊模糊特征空间,从而得到基于模糊训练数据的一般支持向量机理论? • 在本文中,进一步可考虑分类是模糊类或类与类之间界限不分明的基于模糊训练数据的支持向量机理论 • 将文中的可能性测度Pos换为可信性测度是否会得到更好的分类器(因为可信性测度具有自对偶性,而可能性测度不具有) • 利用可能性测度或可信性测度研究基于模糊数据的回归型支持向量机理论

More Related