1 / 10

2013 数据挖掘课程设计与报告

2013 数据挖掘课程设计与报告. 邮件提交到: qiliuql@ustc.edu.cn ( 请记得注明姓名和学号 ). 基本安排. 三类设计与报告 基本设计( 3 个候选) ---- 粘帖主要代码与实验报告 扩展设计( 2 个候选) ---- 粘帖主要代码与实验报告 课程报告( 3 个候选) ---- 提交最终报告 以上 8 个候选中可任意选一个完成 如果完成多个候选任务,可以用来弥补平时成绩与期末成绩的不足 完成时间: 第一个 Deadline: 2014.1.26 日 最后一个 Deadline: 2014.2.14 日

masako
Download Presentation

2013 数据挖掘课程设计与报告

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 2013数据挖掘课程设计与报告 邮件提交到:qiliuql@ustc.edu.cn (请记得注明姓名和学号)

  2. 基本安排 • 三类设计与报告 • 基本设计(3个候选)----粘帖主要代码与实验报告 • 扩展设计(2个候选) ----粘帖主要代码与实验报告 • 课程报告(3个候选) ----提交最终报告 • 以上8个候选中可任意选一个完成 • 如果完成多个候选任务,可以用来弥补平时成绩与期末成绩的不足 • 完成时间: • 第一个Deadline: 2014.1.26日 • 最后一个Deadline:2014.2.14日 • 提交方式:邮件到qiliuql@ustc.edu.cn(我会回复确认收到) • 要求: • 只需要独立完成、写出自己的认识即可 • 课程设计没有代码量限制,可以借助Weka等开源工具 • 课程报告至少撰写2000字

  3. 基本设计 • 候选1:分类算法 • 独立完成至少以下两个分类算法:KNN、Bayes、Decision Tree、SVM或ANN,并在Iris数据(http://mlr.cs.umass.edu/ml/datasets/Iris)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的分类算法,实现的分类算法越多,得分越高 • 如果能使用Ensemble算法(如Boosting、Adaboost)提升分类效果,也有额外加分 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述

  4. 基本设计 • 候选2:聚类算法 • 独立完成至少两个聚类算法,如K-means、EM、DBSCAN等,并在Protein-data数据(http://archive.ics.uci.edu/ml/datasets/Protein+Data)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 • 也可以实现教材或课程中没涉及的聚类算法,实现的聚类算法越多,得分越高 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述

  5. 基本设计 • 候选3:关联规则 • 实现Aprior、FP-Growth或PrefixSpan频繁模式挖掘算法,并在UCI Slice Dataset (http://archive.ics.uci.edu/ml/datasets/Molecular+Biology+%28Splice-junction+Gene+Sequences%29) 进行验证,提交主要实验代码以及找到的频繁模式。 • 支持度与置信度等参数可以自己设置与调节 • 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述

  6. 扩展设计 • 候选4:有原始数据,有明确的数据挖掘问题 • 数据:http://staff.ustc.edu.cn/~qiliuql/files/DM2013/NetworkData.zip • 数据描述:这是从DBLP下载的科学家发表论文的合作网络数据,包含两个文件 • AuthorList.txt 科学家名字以及网络中的ID • Network.txt 科学家ID、科学家ID、合作紧密度(即两个科学家对应网络结点间的连边权重) • 问题:在这个已知的科学家合作网络中,找到你认为最重要的一组结点(如Top-10科学家)。 • 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。(可以google一下你所找到的科学家名字,看看他们是不是真的非常有学术地位)

  7. 扩展设计 • 候选5:有原始数据,自己寻找数据挖掘问题 • 数据:利用候选4中的数据 • 问题:可以在这个网络中进行社团发现、链接预测、重要结点识别、为一些给定结点找到与其关系最紧密的结点、或者其他任何你认为有意思的问题 • 也可以完成针对相关算法的增量式、分布式算法设计等 • 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。

  8. 课程报告 • 候选6:大数据与数据挖掘调研报告 • 写出你对“大数据”的理解,给出你在工作和生活中所遇到的大数据以及数据挖掘问题,同时解释一下数据挖掘方法在处理大数据问题时发挥的作用(结合实际场景)。 • 你怎么理解大数据与数据挖掘的核心价值。 • 你怎么看数据挖掘未来的机遇与挑战。

  9. 课程报告 • 候选7:智能服务中的群组效应(Group-effect)分析 • 背景:在智能服务中,我们经常会面对“群组”现象。如,推荐(检索)系统中的推荐(检索)结果是以群组的形式出现,社交网络中找到的影响力最大的一组用户也是以群组的形式展现。群组中的个体组合到一起发挥着功效(例如,左右用户对产品的选择),所以有必要从组合的观点分析和挖掘群组的效应,以及群组中个体的作用。 • 要求:请介绍一下,你在工作和生活中遇到的其他以群组形式出现的实际例子,同时给出在该应用下进行群组生成、分析与挖掘中存在的研究问题,以及可能的数据挖掘解决方案。

  10. 课程报告 • 候选8:数据挖掘可能的学科交叉点调研报告 • 背景:随着数据的积累,数据挖掘技术已经可以进行广泛应用。然而,当前数据挖掘的主要研究者多是来自于计算机学科,受学科局限性,在数据挖掘的理论提炼、技术更新、应用拓展等方面仍有诸多不足。作为一个开放性的领域,其他学科的相关成果必然可以用来指导数据挖掘技术的进一步改善。例如,经济学中的投资组合理论就用来完善推荐结果的组合优化问题。 • 要求: • 结合自己工作与生活中的知识积累,寻找你认为其他学科(任何领域都可以,如社会学、经济学、心理学、历史学、地理学、生化、物理。。。)中可能与数据挖掘的思想进行结合的地方,并进行简单的阐述。 • 也可以结合例子解释一下,如何将数据挖掘技术应用于其他学科。

More Related