2013 数据挖掘课程设计与报告

2013数据挖掘课程设计与报告 邮件提交到：qiliuql@ustc.edu.cn (请记得注明姓名和学号)

基本安排 • 三类设计与报告 • 基本设计（3个候选）----粘帖主要代码与实验报告 • 扩展设计（2个候选） ----粘帖主要代码与实验报告 • 课程报告（3个候选） ----提交最终报告 • 以上8个候选中可任意选一个完成 • 如果完成多个候选任务，可以用来弥补平时成绩与期末成绩的不足 • 完成时间： • 第一个Deadline: 2014.1.26日 • 最后一个Deadline:2014.2.14日 • 提交方式：邮件到qiliuql@ustc.edu.cn(我会回复确认收到) • 要求： • 只需要独立完成、写出自己的认识即可 • 课程设计没有代码量限制，可以借助Weka等开源工具 • 课程报告至少撰写2000字

基本设计 • 候选1：分类算法 • 独立完成至少以下两个分类算法：KNN、Bayes、Decision Tree、SVM或ANN，并在Iris数据(http://mlr.cs.umass.edu/ml/datasets/Iris)上进行测试，对比算法优劣，最后提交实验报告，并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的分类算法，实现的分类算法越多，得分越高 • 如果能使用Ensemble算法(如Boosting、Adaboost)提升分类效果，也有额外加分 • 可以使用自有数据（如工作中遇到的数据），但要给出大体的数据描述

基本设计 • 候选2：聚类算法 • 独立完成至少两个聚类算法，如K-means、EM、DBSCAN等，并在Protein-data数据(http://archive.ics.uci.edu/ml/datasets/Protein+Data)上进行测试，对比算法优劣，最后提交实验报告，并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的聚类算法，实现的聚类算法越多，得分越高 • 可以使用自有数据（如工作中遇到的数据），但要给出大体的数据描述

基本设计 • 候选3：关联规则 • 实现Aprior、FP-Growth或PrefixSpan频繁模式挖掘算法，并在UCI Slice Dataset (http://archive.ics.uci.edu/ml/datasets/Molecular+Biology+%28Splice-junction+Gene+Sequences%29) 进行验证，提交主要实验代码以及找到的频繁模式。 • 支持度与置信度等参数可以自己设置与调节 • 可以使用自有数据（如工作中遇到的数据），但要给出大体的数据描述

扩展设计 • 候选4：有原始数据，有明确的数据挖掘问题 • 数据:http://staff.ustc.edu.cn/~qiliuql/files/DM2013/NetworkData.zip • 数据描述：这是从DBLP下载的科学家发表论文的合作网络数据，包含两个文件 • AuthorList.txt 科学家名字以及网络中的ID • Network.txt 科学家ID、科学家ID、合作紧密度（即两个科学家对应网络结点间的连边权重） • 问题：在这个已知的科学家合作网络中，找到你认为最重要的一组结点（如Top-10科学家）。 • 要求：完成实验报告、请附主要算法思想、实验代码与实验结果。（可以google一下你所找到的科学家名字，看看他们是不是真的非常有学术地位）

扩展设计 • 候选5：有原始数据，自己寻找数据挖掘问题 • 数据：利用候选4中的数据 • 问题：可以在这个网络中进行社团发现、链接预测、重要结点识别、为一些给定结点找到与其关系最紧密的结点、或者其他任何你认为有意思的问题 • 也可以完成针对相关算法的增量式、分布式算法设计等 • 要求：完成实验报告、请附主要算法思想、实验代码与实验结果。

课程报告 • 候选6：大数据与数据挖掘调研报告 • 写出你对“大数据”的理解，给出你在工作和生活中所遇到的大数据以及数据挖掘问题，同时解释一下数据挖掘方法在处理大数据问题时发挥的作用（结合实际场景）。 • 你怎么理解大数据与数据挖掘的核心价值。 • 你怎么看数据挖掘未来的机遇与挑战。

课程报告 • 候选7：智能服务中的群组效应(Group-effect)分析 • 背景：在智能服务中，我们经常会面对“群组”现象。如，推荐（检索）系统中的推荐（检索）结果是以群组的形式出现，社交网络中找到的影响力最大的一组用户也是以群组的形式展现。群组中的个体组合到一起发挥着功效（例如，左右用户对产品的选择），所以有必要从组合的观点分析和挖掘群组的效应，以及群组中个体的作用。 • 要求：请介绍一下，你在工作和生活中遇到的其他以群组形式出现的实际例子，同时给出在该应用下进行群组生成、分析与挖掘中存在的研究问题，以及可能的数据挖掘解决方案。

课程报告 • 候选8：数据挖掘可能的学科交叉点调研报告 • 背景：随着数据的积累，数据挖掘技术已经可以进行广泛应用。然而，当前数据挖掘的主要研究者多是来自于计算机学科，受学科局限性，在数据挖掘的理论提炼、技术更新、应用拓展等方面仍有诸多不足。作为一个开放性的领域，其他学科的相关成果必然可以用来指导数据挖掘技术的进一步改善。例如，经济学中的投资组合理论就用来完善推荐结果的组合优化问题。 • 要求： • 结合自己工作与生活中的知识积累，寻找你认为其他学科（任何领域都可以，如社会学、经济学、心理学、历史学、地理学、生化、物理。。。）中可能与数据挖掘的思想进行结合的地方，并进行简单的阐述。 • 也可以结合例子解释一下，如何将数据挖掘技术应用于其他学科。

2013 数据挖掘课程设计与报告