100 likes | 280 Views
2013 数据挖掘课程设计与报告. 邮件提交到: qiliuql@ustc.edu.cn ( 请记得注明姓名和学号 ). 基本安排. 三类设计与报告 基本设计( 3 个候选) ---- 粘帖主要代码与实验报告 扩展设计( 2 个候选) ---- 粘帖主要代码与实验报告 课程报告( 3 个候选) ---- 提交最终报告 以上 8 个候选中可任意选一个完成 如果完成多个候选任务,可以用来弥补平时成绩与期末成绩的不足 完成时间: 第一个 Deadline: 2014.1.26 日 最后一个 Deadline: 2014.2.14 日
E N D
2013数据挖掘课程设计与报告 邮件提交到:qiliuql@ustc.edu.cn (请记得注明姓名和学号)
基本安排 • 三类设计与报告 • 基本设计(3个候选)----粘帖主要代码与实验报告 • 扩展设计(2个候选) ----粘帖主要代码与实验报告 • 课程报告(3个候选) ----提交最终报告 • 以上8个候选中可任意选一个完成 • 如果完成多个候选任务,可以用来弥补平时成绩与期末成绩的不足 • 完成时间: • 第一个Deadline: 2014.1.26日 • 最后一个Deadline:2014.2.14日 • 提交方式:邮件到qiliuql@ustc.edu.cn(我会回复确认收到) • 要求: • 只需要独立完成、写出自己的认识即可 • 课程设计没有代码量限制,可以借助Weka等开源工具 • 课程报告至少撰写2000字
基本设计 • 候选1:分类算法 • 独立完成至少以下两个分类算法:KNN、Bayes、Decision Tree、SVM或ANN,并在Iris数据(http://mlr.cs.umass.edu/ml/datasets/Iris)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的分类算法,实现的分类算法越多,得分越高 • 如果能使用Ensemble算法(如Boosting、Adaboost)提升分类效果,也有额外加分 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述
基本设计 • 候选2:聚类算法 • 独立完成至少两个聚类算法,如K-means、EM、DBSCAN等,并在Protein-data数据(http://archive.ics.uci.edu/ml/datasets/Protein+Data)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的聚类算法,实现的聚类算法越多,得分越高 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述
基本设计 • 候选3:关联规则 • 实现Aprior、FP-Growth或PrefixSpan频繁模式挖掘算法,并在UCI Slice Dataset (http://archive.ics.uci.edu/ml/datasets/Molecular+Biology+%28Splice-junction+Gene+Sequences%29) 进行验证,提交主要实验代码以及找到的频繁模式。 • 支持度与置信度等参数可以自己设置与调节 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述
扩展设计 • 候选4:有原始数据,有明确的数据挖掘问题 • 数据:http://staff.ustc.edu.cn/~qiliuql/files/DM2013/NetworkData.zip • 数据描述:这是从DBLP下载的科学家发表论文的合作网络数据,包含两个文件 • AuthorList.txt 科学家名字以及网络中的ID • Network.txt 科学家ID、科学家ID、合作紧密度(即两个科学家对应网络结点间的连边权重) • 问题:在这个已知的科学家合作网络中,找到你认为最重要的一组结点(如Top-10科学家)。 • 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。(可以google一下你所找到的科学家名字,看看他们是不是真的非常有学术地位)
扩展设计 • 候选5:有原始数据,自己寻找数据挖掘问题 • 数据:利用候选4中的数据 • 问题:可以在这个网络中进行社团发现、链接预测、重要结点识别、为一些给定结点找到与其关系最紧密的结点、或者其他任何你认为有意思的问题 • 也可以完成针对相关算法的增量式、分布式算法设计等 • 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。
课程报告 • 候选6:大数据与数据挖掘调研报告 • 写出你对“大数据”的理解,给出你在工作和生活中所遇到的大数据以及数据挖掘问题,同时解释一下数据挖掘方法在处理大数据问题时发挥的作用(结合实际场景)。 • 你怎么理解大数据与数据挖掘的核心价值。 • 你怎么看数据挖掘未来的机遇与挑战。
课程报告 • 候选7:智能服务中的群组效应(Group-effect)分析 • 背景:在智能服务中,我们经常会面对“群组”现象。如,推荐(检索)系统中的推荐(检索)结果是以群组的形式出现,社交网络中找到的影响力最大的一组用户也是以群组的形式展现。群组中的个体组合到一起发挥着功效(例如,左右用户对产品的选择),所以有必要从组合的观点分析和挖掘群组的效应,以及群组中个体的作用。 • 要求:请介绍一下,你在工作和生活中遇到的其他以群组形式出现的实际例子,同时给出在该应用下进行群组生成、分析与挖掘中存在的研究问题,以及可能的数据挖掘解决方案。
课程报告 • 候选8:数据挖掘可能的学科交叉点调研报告 • 背景:随着数据的积累,数据挖掘技术已经可以进行广泛应用。然而,当前数据挖掘的主要研究者多是来自于计算机学科,受学科局限性,在数据挖掘的理论提炼、技术更新、应用拓展等方面仍有诸多不足。作为一个开放性的领域,其他学科的相关成果必然可以用来指导数据挖掘技术的进一步改善。例如,经济学中的投资组合理论就用来完善推荐结果的组合优化问题。 • 要求: • 结合自己工作与生活中的知识积累,寻找你认为其他学科(任何领域都可以,如社会学、经济学、心理学、历史学、地理学、生化、物理。。。)中可能与数据挖掘的思想进行结合的地方,并进行简单的阐述。 • 也可以结合例子解释一下,如何将数据挖掘技术应用于其他学科。