1 / 12

云计算与大数据

云计算与大数据. 研究方向. 云 计算与大数据 国内外最热门的研究方向 工业界: Google, Microsoft, IBM, HP, EMC, 百度 , 腾讯 学术界:学术会议,新建实验室,开设专业 偏向于系统方向的研究 综合数据挖掘、数据库、分布式计算等 编程工作量较大 推荐相关课程:分布式操作系统, 分布式数据库 , ,数据挖掘. 学习方法. 如果硕士毕业后想去大企业 增强动手能力 参与开源项目 发表论文 如果读博,继续做科研 培养对科研的兴趣 提高学术论文的阅读和写作能力 增强动手能力 找 对研究方向 发表论文. 建议.

gay-gomez
Download Presentation

云计算与大数据

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 云计算与大数据

  2. 研究方向 • 云计算与大数据 • 国内外最热门的研究方向 • 工业界:Google, Microsoft, IBM, HP, EMC, 百度, 腾讯 • 学术界:学术会议,新建实验室,开设专业 • 偏向于系统方向的研究 • 综合数据挖掘、数据库、分布式计算等 • 编程工作量较大 • 推荐相关课程:分布式操作系统,分布式数据库,,数据挖掘

  3. 学习方法 • 如果硕士毕业后想去大企业 • 增强动手能力 • 参与开源项目 • 发表论文 • 如果读博,继续做科研 • 培养对科研的兴趣 • 提高学术论文的阅读和写作能力 • 增强动手能力 • 找对研究方向 • 发表论文

  4. 建议 • 如何提高动手能力? • Just do it! • Just google it! • 读些优秀的开源项目 • 在已有代码之上修改 • 如何提高科研能力? • 读高水平论文(OSDI, NSDI, SOSP, SIGMOD, VLDB, SOCC, KDD, SIGCOMM) • Critical Review • Think big problem/Find new challenge • “学而不思则罔,死而不学则殆”

  5. 阅读材料 • Crafting Your Research Future——A Guide to Successful Master's and Ph.D. Degrees in Science & Engineering http://faculty.neu.edu.cn/cc/zhangyf/资源分享

  6. 科学态度 • 实事求是 • 杜绝数据造假,抄袭 • 踏实勤奋 • 避免眼高手低 • 合理安排时间 • 知难而进 • 量力而行 • 团队合作 • 集体荣誉感 • 重视交流讨论,避免闭门造车

  7. 定期组会 • 每周一次 • 每次由一位研究生主讲,介绍论文

  8. 云存储项目

  9. 假期作业 • 学会用Hadoop • 3个编程作业 • 熟悉Hadoop指定模块源代码 • MapReduce核心流程 • 数据处理 • 网络 • HDFS • 读paper,熟悉研究方向

  10. 作业1 • 利用Hadoop,提取出Twitter数据集的tweet(微博)中出现频率最高的100个word • 200GB的Twitter数据集 • 提取Twitter数据集中的tweet数据 • 要排除stop word • 976803048

  11. 作业2 • 利用Hadoop,实现PageRank算法,在给定数据集上计算PageRank,输出PageRank排序的结果 • 熟悉PageRank算法 • 真实网页连接图数据集 • Google webgraph • Berkeley & stanfordwebgraph • 取迭代100次后的结果或自己设计收敛条件

  12. 作业3 • 实现B+ Tree索引,构建Twitter数据集的索引。输入用户ID,返回该用户发过的所有微博 • 熟悉B+ Tree数据结构 • Twitter数据集 • 按发表时间返回微博

More Related