网络流量分类研究

网络流量分类研究 演讲人：衡丽花导师：王宗敏指导老师：陈刚

主要内容 • 研究背景、意义和现状 • 流量分类基本概念 • 当前流量分类进展 • 几种分类方法的比较 • 流量分类未来发展预测 • 下一步工作

研究背景 • 自P2P网络出现以来，网络流量越来越大； • 网络流量管理技术可以帮助网络运营商提供更好的服务质量，还能对网络进行有效的监督管理。

研究意义 • 通过流分类，可以获悉各类网络应用所占比例，研究新的协议与应用，预测网络业务的发展趋势，合理规划网络； • 定期分析重要的特定流量，了解流入流出信息，发现设备故障、链路拥堵、用户带宽的使用及发现入侵和恶意攻击等。

现有的网络流量分类产品 • Niksun公司的NetDetector 提供实时、连续的流量记录和分析；需时较长，工程规模复杂，费用极高； • FLUKE公司的网络协议分析仪OPV_WGA 提供对网络的从一层到七层的全部分析；基于端口的传统协议； • 华为3Com公司的NTA（Network Traffic Analysis）基于三层协议号、端口号，可以识别上千种应用；无法分析四层至七层的应用流量； • Cisco公司的SCE 采用DPI对应用层协议进行识别；只能识别已知的非加密协议；

不同层面（粒度）的流量分析 • a）Bit-level：关注网络流量的数据特征 • b）Packet-level：关注数据包（packet）的特征及其到达过程、延迟和丢包率等 • c）Flow-level：依据地址和应用协议划分，关注流的到达过程、到达间隔及其局部特性等 • d）Stream-level：关注主机对之间的应用流量

流量分类度量标准 TP(True Positives),属于类别X并被正确预测为类别X的百分比； FN(False Negatives), 属于类别X但被预测为不是类别X的百分比； FP(False Positives),不属于类别X但被预测为类别X的百分比； TN(True Negatives),不属于类别X并被预测为不是类别X的百分比。 Accuracy： TP+TN TP+FN+FP+TN Recall: TP TP+FN Precision: TP TP+FP

基于端口号的流量分类 • 依赖TCP或UDP数据包中的端口号，将熟知的端口号进行映射来识别不同的应用类型。分类器只需找到一次TCP连接中的SYN包，并从这个SYN包中找到目的端口号即可。UDP也使用类似的方法。

基于特征字段的流量分类 • 根据网络应用在传输过程中所具有的特征来区分不同的应用，需要解析数据包中的特征字段。主要用于识别P2P协议流量。

基于传输层主机行为的流量分类 主要分析三个层次的内容：社会层：分析某台主机与哪些主机进行相互通信；功能层：研究主机在网络中的功能，即它是做为一个提供者还是请求者，或者是两者兼有；应用层：捕获特定主机间的相互作用，利用一个四元组通过观察流的特性来细化分类。分析主机在传输层的行为模式，主要有三个特点：不需要访问数据包的载荷内容；无需识别端口号；只需采集当前的流量信息。

基于机器学习的流量分类—分类 也称监督机器学习方法，根据已标记样本的特点构造分类规则或分类器，将未知类别的样本映射到给定类别中的一个。它的输入为一些已经分好类的样本实体的集合，输出为通过这些样本产生的一个分类模型。主要包括两个过程：训练过程和分类过程。目前，分类模型的构造方法主要包括决策树、朴素贝叶斯、支持向量机、关联规则学习、神经网络、NN算法、LDA算法和遗传算法等。

基于机器学习的流量分类—聚类 无监督学习，它是最终要发现相似数据点的结合，相对于有监督的机器学习法，无监督学习不需要事先有待分类对象的先验知识，只是根据待分类对象的相似度分类。目前常用的聚类算法也有很多，如：k-means算法、DBSCAN、AutoClass和EM算法等。

几种分类方法比较

流量分类未来发展预测 可以总结为以下几点：逐步避免依赖端口号；无需检测用户数据包的负载内容；能迅速得到新型应用的识别特征；在高速骨干网络环境中，对流量进行实时精确地分类；为避免涉及用户隐私问题，对加密流量的分类；更细粒度的层次上对网络流量进行分类；协议动态变化时的流量分类。

下一步工作 • 对机器学习中的几种算法通过实验进行性能比较 • 找出一种效率及准确率更高的流量分类算法

参考文献 [1]熊刚，孟姣，曹自刚，王勇，郭莉，方滨兴.网络流量分类研究进展与展望 [J].集成技术，2012 [2]彭芸，刘琼.Internet流分类方法的比较研究[J].计算机科学，2007 [3] Thuy T.T.Nguyen,Grenville Armitage.A survey of techniques for internet traffic classification using machine learning.In IEEE,2008. [4] Sen S, Spatscheck O, Wang D. Accurate, scalable in network identifi cation of P2P traffi c using application signatures [C] //In WWW2004. New York(USA), 2004. [5] Moore A, Papagiannaki K. Toward the accurate identification of network applications [C] //Proceedings of Passive and Active Measurement Workshop ( PAM2005).Boston(USA), 2005. [6]Karagiannis T,Papagiannaki K,Faloutsos M.BLINC:Multilevel traffic classification in the dark.In ACM. October 1st 2005. [7]徐鹏，林森.基于C4.5决策树的流量分类算法[J].软件学报，2009. [8]胡婷，王勇，陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学，2010. [9]席讴婕,李茹.基于k-means和自适应谐振理论的网络流量分类方法.内蒙古大学.2010.

谢谢大家！

网络流量分类研究

网络流量分类研究

Presentation Transcript