基于用户行为挖掘的数据中心系统的设计与实现

基于用户行为挖掘的数据中心系统的设计与实现基于用户行为挖掘的数据中心系统的设计与实现学生姓名：朱海波指导教师：刘秉权答辩日期：2009.10

1. 课题的来源及研究的目的和意义 3. 主要研究内容 2. 国内外研究现状 4. 结论 5. 致谢报告的主要内容

课题来源 • 本课题来源于迅雷网络商业智能部研发的“迅雷数据中心系统 ” • 该系统的目标是建立公司统一的数据采集分析和展现系统，并实现： 1、基于数据仓库的数据聚合 2、产品数据监控及决策支持 3、面向迅雷用户的行为分析

课题的目的和意义 • 解决了产品数据混乱不一致的问题，实现了数据的统一采集、统一存储和统一访问 • 完成了对数据指标进行有效梳理，为产品的发展提供数据监控和决策支持 • 实现了对用户行为数据中有价值信息的提取，为用户提供个性化增值服务

国内外研究现状 • 数据挖掘技术得到广泛应用 • 数据挖掘的研究重点逐渐从发现方法转向系统应用，注重多种发现策略和技术的集成，以及多种学科之间的相互渗透。 • 数据挖掘已经形成很多成熟的分析方法，如决策树分析、聚类分析、关联规则等。

国内外研究现状 • 用户行为分析理论已经开展较多研究 • 国防科技大学提出基于EOEM模型，综合考虑服务器的应用逻辑设计、页面拓扑结构及用户浏览路径等多个数据源，算法主要应用于用户访问模式及电子商务中潜在顾客群的挖掘。 • 中国科技大学提出基于神经网络的Web用户行为聚类分析方法，即Web服务器日志文件进行分析，再进行会话分析，从会话向量中找出频繁数据集，进行归一化处理后生成模式向量，采用SOFM模型进行聚类，最后生成用户聚类。

国内外研究现状 • 用户行为挖掘在互联网的应用 • Google通过对收集到的大量用户行为进行分析，进而优化搜索排名算法，使得搜索结果更加智能化、个性化。 • Amazon公司通过E-CRM系统，对每位用户的原始资料和历史交易纪录进行分析，推断用户的消费习惯、消费心理、消费层次、忠诚度和潜在价值。 • Facebook依托其拥有的庞大用户数据和即时的行为数据，建立了一个开放的基于用户行为的广告系统，代表了网络广告营销领域的最新趋势。

本课题研究的主要内容 • 数据中心系统设计：在进行需求分析的基础上，对数据中心系统进行总体设计，并结合实际情况对数据预处理过程和联机分析处理进行了详细分析 • 基于下载行为的用户细分：基于数据中心中用户下载行为数据，结合聚类方法，对下载用户进行有效细分 • 视频内容个性化推荐：基于数据中心中用户点播行为数据，将协同过滤方法应用到迅雷看看视频推荐系统 • 数据中心系统实现：实现了数据预处理模块和数据访问模块

数据访问层 通过多样化的前端分析展示工具，实现对数据仓库中数据的分析和处理，形成市场经营和决策工作所需要的科学、准确、及时的业务信息和知识。数据存储层实现对企业数据仓库中数据和元数据的集中存储与管理，并可根据需求建立面向分析主题的数据集市。数据获取层将各渠道、各产品和其它外部数据源中的数据进行抽取、清洗、转换，并加载到数据仓库。数据中心系统设计（体系结构）

数据中心系统设计（体系结构图）

数据中心系统设计（网络结构） • 系统网络结构 • 数据中心系统以下载数据、流媒体数据以及运维数据为主要数据源，辅以其他数据源，采用集中模式，实行数据统一存储。由于业务服务器分布于电信和网通节点，我们定期将数据抽取到双路机房数据仓库服务器进行清洗及汇总。系统使用人员通过互联网络或企业局域网访问数据中心应用服务器，不同产品的业务人员使用不同的权限获取各自所需的信息。

数据中心系统设计（网络结构图）

数据中心系统设计（功能结构图）

数据中心系统设计（数据预处理） • ETL技术 • 通过将所用到的多方面的数据集中在统一的数据仓库中，从而解决数据分散的问题。 • 通过数据清洗，解决数据不清洁的问题。

数据中心系统设计（联机分析处理）

基于下载行为的用户细分 • 用户细分目标 • 下载行为数据能直接反映下载用户的业务需求差异，基于用户下载行为的细分标准对实际应用来讲更具有意义 • 通过聚类分析方法中的K-means算法构建下载用户细分模型

基于下载行为的用户细分 • 数据预处理 • 清除文件小于256k的记录 • 清除下载时间小于1s的记录 • 清除下载速度大于1M的记录 • 选取2008年11月区间的记录 • 统计用户日均下载次数 • 统计用户下载文件大小均值 • 统计用户平均下载速度 • 定义p2p比率大于90%的文件为死链，统计用户日均下载死链个数

基于下载行为的用户细分 • 聚类过程 • 聚类对象包括下载量、平均下载速度、平均下载文件大小、死链数量四个维度 • 将k分别设置成从3到7的五个值，对抽样数据进行聚类计算，得到五个结果集。对结果集进行分析，发现当k大于5，继续增加k值而产生的聚类对于用户细分来说无太大意义。因此，将k值设置为5，即将下载用户细分成为5个类别

基于下载行为的用户细分 • 结果评价 • A类和B类用户属于优质用户群，应当提供优质的服务防止该类用户流失。 • D类用户和E类用户属于潜力用户群，应当在防止该类用户流失的情况下，采取相应策略，比如推荐热门资源等方式将其向优质用户转化。

视频内容个性化推荐 • 个性化推荐主要是为了缓解视频内容数量不断增长与无法有效展现给用户之间的矛盾 • 主要工作是视频推荐引擎的开发，该引擎主要功能是对视频项目进行相似度计算，从而得到项目之间的关系结构，在用户访问某视频项目的同时，为其推荐与该项目最相似的项目

视频内容个性化推荐 • 协同过滤 • 利用整个用户-项目评分数据集，比较内容项与内容项之间的相似度 • 将协同过滤运算得到的结果数据生成为项目关联表

视频内容个性化推荐 • 页面生成 • 页面生成程序根据项目关联表进行静态页面构造。当用户访问某部影片详细信息页面时，其右侧“也许您会喜欢看”部分的推荐影片即是从离线推荐引擎生成的项目关联表中抓取的关联度最高的前六部影片，从而实现视频推荐功能

数据中心系统实现 • 数据预处理模块 • 使用Pentaho Data Integration提供的数据结算工具进行ETL功能的实现

数据中心系统实现 • 数据访问模块 • 实现了MDX可配置化的数据输出组件

结论 • 建立了基于用户下载行为的用户细分模型，并使用聚类分析进行了用户细分，通过反复实验找到两类优质用户群体。 • 在对用户视频点播行为以及用户对视频内容的评分数据进行分析的基础上，建立了基于协同过滤技术的个性化推荐引擎，并成功的将应用到视频点播业务中 • 采用了分布式计算结合流程调度的方法进行海量数据的预处理工作，提高了计算效率，并在实际应用中取得了很好的效果 • 在数据访问层设计并实现了基于MDX的配置化图表输出组件，从而有效的改善了人机接口，减少了开发人员定义报表的工作量，满足了决策人员对多维数据复杂的分析需求

致谢 • 感谢我的导师刘秉权教授悉心指导和教诲； • 感谢吴岩老师对我的指导和帮助； • 感谢各位评阅老师。

The end ! 请各位老师批评指正

基于用户行为挖掘的数据中心系统的设计与实现

基于用户行为挖掘的数据中心系统的设计与实现

Presentation Transcript