非网页数字资源分类

非网页数字资源分类 山东大学邵海敏, 王川川, 陈军报告人: 陈竹敏 2008.4

任务描述 • 给定资源实体，预测其内容类别。 • 方法: 利用资源中包含的文件、子目录的名字、大小、内部目录结构等信息，合理形成特征，找到适当的分类方法，预测资源的内容类别。

实现过程 cwt_cdal_train.9346 cwt_cdal_test.6223 解压预处理特征选择特征表示分类模型分类结果

特征选择 • 原始特征: • 文件格式 • 文件数量 • 文件名字 • 特征选择就是对这些原始特征进行处理, 选择, 扩展. • 文件大小 • 资源名字

文件格式 从训练集中出现的所有文件格式中选择了100个构成格式特征空间 • 首先去掉出现频率很低的文件格式 • 合并语义相同的格式(如 .r01, .r02等, 只保留一个.r01) • 格式特征提取类别Ci(i=1 to 26),格式Fj(j=1 to m),根据格式Fj的资源在类别Ci(i=1 to 26)的资源中所占的比例, 取出区分力度大的前100个格式

文件格式、文件大小和文件数量 两种方式 • 格式相关 {文件格式,文件数量,文件大小},即{Fj, N(r, Fj), AS(r, Fj)} N(r, Fj)资源r中包含的格式为Fj的文件数量 AS(r,Fj)资源r中包含的格式为Fj的文件的平均大小 • 格式无关 {资源r的总大小},即{∑(j=1 to 100)(N(r, Fj)*AS(r, Fj))}

资源名字和文件名字(1) • 名字的特点 • 资源的名字都是专有的,资源名字,文件名字,路径名都太短,信息不足,难以利用 • 两个类别相同的资源, 其名字之间并没有太大的共性,但其上下文环境应该大体相似 • 名字上下文 • 获取上下文，分析同类资源的共性和不同类资源的差异

资源名字和文件名字(2) 名字上下文的获取 • 名字上下文: 使用名字作为关键字在百度中搜索得到的一条结果称为一个名字上下文(只是利用了百度的搜索结果页面, 而没有去爬取结果对应的页面)。 • 关键字的选择 • 首选完整的资源名,若失败 • 则使用净化处理后的资源名(比如,存在书名号的,只保留书名号之内的文字;若名字中有中英文,则其中的英文字符去掉等), 若失败则使用随机的一个文件名, 若仍失败 • 打印错误报告，退出 • 99%以上的资源可以成功获取30个上下文

资源名字和文件名字(3) 基于名字上下文的特征选择 • 首先,取资源r的上下文中出现频率>2的词, 表示为FS1 • 然后, 取属于FS1, 且在某类的20%以上的上下文中出现的词, 表示为FS2 • 然后, 基于方差的方法, 从中选出对类区分度大的词构成特征空间(维数200)

资源名字和文件名字(4) 特征扩展 (应用在第3组结果) • 取前100个特征词，添加到特征空间FS • 使用FS对测试集进行分类 • 计算每个类别对的误判率ER(ci,cj) ,如果大于阈值10% • 从ci和cj的特征词中选取N1*log2(ER(ci,cj)*N2+1)个词添加到FS • 再次使用FS进行分类. 若总的误判率没有下降，则FS回滚一次, 算法结束; 否则跳转到3

资源名字和文件名字(5) 特征词权重计算 • 对FS中的每个词t，计算t在资源r的上下文中出现的频率F(t, r) • 权重w(t,r) • Z=log2(F(t, r) + 1) • w(t,r) = Z > 4 ? 1 : Z/5

提交3组结果 • 从训练集中随机抽取1/3的样本,作为测试集,剩余2/3作为训练集,分别采用KNN和SVM构建分类器,利用测试集,逐步调整特征向量,对分类器进行优化. • 提交3组结果 • 1. CWT_CDRC_IRSDU_TDS1.txt (KNN分类器) • 2. CWT_CDRC_IRSDU_TDS2.txt (SVM分类器) • 3. CWT_CDRC_IRSDU_TDS3.txt(SVM分类器) • 1, 3 完全自动实现; 2在特征选择的过程中加入了部分人工确认; 3采用了特征扩展的方法

非网页数字资源分类

非网页数字资源分类

Presentation Transcript