280 likes | 581 Views
网络流量分类研究. 演讲人:衡丽花 导 师:王宗敏 指导老师: 陈 刚. 主要内容. 研究背景、意义和现状 流量分类基本概念 当前流量分类进展 几种分类方法的比较 流量分类未来发展预测 下一步工作. 研究背景. 自 P2P 网络出现以来,网络流量越来越大; 网络流量管理技术可以帮助网络运营商提供更好的服务质量,还能对网络进行有效的监督管理。. 研究意义. 通过流分类,可以获悉各类网络应用所占比例,研究新的协议与应用,预测网络业务的发展趋势,合理规划网络;
E N D
网络流量分类研究 演讲人:衡丽花 导 师:王宗敏 指导老师: 陈 刚
主要内容 • 研究背景、意义和现状 • 流量分类基本概念 • 当前流量分类进展 • 几种分类方法的比较 • 流量分类未来发展预测 • 下一步工作
研究背景 • 自P2P网络出现以来,网络流量越来越大; • 网络流量管理技术可以帮助网络运营商提供更好的服务质量,还能对网络进行有效的监督管理。
研究意义 • 通过流分类,可以获悉各类网络应用所占比例,研究新的协议与应用,预测网络业务的发展趋势,合理规划网络; • 定期分析重要的特定流量,了解流入流出信息,发现设备故障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。
现有的网络流量分类产品 • Niksun公司的NetDetector 提供实时、连续的流量记录和分析; 需时较长,工程规模复杂,费用极高; • FLUKE公司的网络协议分析仪OPV_WGA 提供对网络的从一层到七层的全部分析; 基于端口的传统协议; • 华为3Com公司的NTA(Network Traffic Analysis) 基于三层协议号、端口号,可以识别上千种应用; 无法分析四层至七层的应用流量; • Cisco公司的SCE 采用DPI对应用层协议进行识别; 只能识别已知的非加密协议;
不同层面(粒度)的流量分析 • a)Bit-level:关注网络流量的数据特征 • b)Packet-level:关注数据包(packet)的特征及其到达过程、延迟和丢包率等 • c)Flow-level:依据地址和应用协议划分,关注流的到达过程、到达间隔及其局部特性等 • d)Stream-level:关注主机对之间的应用流量
流量分类度量标准 TP(True Positives),属于类别X并被正确预测为类别X的百分比; FN(False Negatives), 属于类别X但被预测为不是类别X的百分比; FP(False Positives),不属于类别X但被预测为类别X的百分比; TN(True Negatives),不属于类别X并被预测为不是类别X的百分比。 Accuracy: TP+TN TP+FN+FP+TN Recall: TP TP+FN Precision: TP TP+FP
基于端口号的流量分类 • 依赖TCP或UDP数据包中的端口号,将熟知的端口号进行映射来识别不同的应用类型。分类器只需找到一次TCP连接中的SYN包,并从这个SYN包中找到目的端口号即可。UDP也使用类似的方法。
基于特征字段的流量分类 • 根据网络应用在传输过程中所具有的特征来区分不同的应用,需要解析数据包中的特征字段。主要用于识别P2P协议流量。
基于传输层主机行为的流量分类 主要分析三个层次的内容: 社会层:分析某台主机与哪些主机进行相互通信; 功能层:研究主机在网络中的功能,即它是做为一个提供者还是请求者,或者是两者兼有; 应用层:捕获特定主机间的相互作用,利用一个四元组通过观察流的特性来细化分类。 分析主机在传输层的行为模式,主要有三个特点:不需要访问数据包的载荷内容;无需识别端口号;只需采集当前的流量信息。
基于机器学习的流量分类—分类 也称监督机器学习方法,根据已标记样本的特点构造分类规则或分类器,将未知类别的样本映射到给定类别中的一个。它的输入为一些已经分好类的样本实体的集合,输出为通过这些样本产生的一个分类模型。主要包括两个过程:训练过程和分类过程。 目前,分类模型的构造方法主要包括决策树、朴素贝叶斯、支持向量机、关联规则学习、神经网络、NN算法、LDA算法和遗传算法等。
基于机器学习的流量分类—聚类 无监督学习,它是最终要发现相似数据点的结合,相对于有监督的机器学习法,无监督学习不需要事先有待分类对象的先验知识,只是根据待分类对象的相似度分类。 目前常用的聚类算法也有很多,如:k-means算法、DBSCAN、AutoClass和EM算法等。
流量分类未来发展预测 可以总结为以下几点: 逐步避免依赖端口号; 无需检测用户数据包的负载内容; 能迅速得到新型应用的识别特征; 在高速骨干网络环境中,对流量进行实时精确地分类; 为避免涉及用户隐私问题,对加密流量的分类; 更细粒度的层次上对网络流量进行分类; 协议动态变化时的流量分类。
下一步工作 • 对机器学习中的几种算法通过实验进行性能比较 • 找出一种效率及准确率更高的流量分类算法
参考文献 [1]熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望 [J].集成技术,2012 [2]彭芸,刘琼.Internet流分类方法的比较研究[J].计算机科学,2007 [3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008. [4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004. [5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005. [6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel traffic classification in the dark.In ACM. October 1st 2005. [7]徐鹏,林森.基于C4.5决策树的流量分类算法[J].软件学报,2009. [8]胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学,2010. [9]席讴婕,李茹.基于k-means和自适应谐振理论的网络流量分类方法.内蒙古大学.2010.