1 / 68

DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 yingzswg@cn.ibm

DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 yingzswg@cn.ibm.com. 数据挖掘方法论及挖掘项目的调优 电信业数据挖掘主题 DB2 DWE 及其 Mining 特性介绍. Agenda. 数据挖掘方法论及挖掘项目的调优. 不同的角度看数据挖掘. 业务的角度--数据挖掘是啤酒和尿布的佳话 专家的角度--数据挖掘是算法的集合 厂商的角度--数据挖掘是软件解决方案 数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程 DWE 提供了平台 , 基于 DWE 很容易实现挖掘应用. 数据挖掘方法论.

deon
Download Presentation

DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 yingzswg@cn.ibm

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. DB2 DWE 在电信业数据挖掘中的应用软件部 张 英 yingzswg@cn.ibm.com

  2. 数据挖掘方法论及挖掘项目的调优 电信业数据挖掘主题 DB2 DWE及其Mining特性介绍 Agenda

  3. 数据挖掘方法论及挖掘项目的调优

  4. 不同的角度看数据挖掘 • 业务的角度--数据挖掘是啤酒和尿布的佳话 • 专家的角度--数据挖掘是算法的集合 • 厂商的角度--数据挖掘是软件解决方案 • 数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程 • DWE提供了平台,基于DWE很容易实现挖掘应用

  5. 数据挖掘方法论 • 实际工程中指导项目实施的方法 • 每一阶段的目标、采用方法、输出结果形式 • 人员安排、方法、时间进度安排等 • 实施数据挖掘方法论所要达到的目的 • 针对不同行业的数据挖掘方法论是挖掘项目开展的标准和指南指南 • 控制数据挖掘工程项目中的风险,确保项目的成功实施,提供了保障

  6. 价值、行为为导向的数据挖掘方法论 • 挖掘主题确定 • 数据调查与收集 • 构建挖掘宽表 • 数据探索与处理 • 构建挖掘模型 • 挖掘模型的分析与升华 • 营销策略的制定、执行与评估

  7. 挖掘主题确定 • 分析对象:神州行?、全球通?、动感地带? 、固话、小灵通、公话… • 挖掘模式:客户分群?流失预测?交叉销售?欺诈识别?… • 挖掘主题是否符合公司当年的营销战略?是否可以解决当前面临问题?

  8. 数据调查与收集 • 用户及客户的基本信息变量 • 客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等。 • 价值变量 • 基本通话费用、月均国内长途费用、月租费、 GPRS使用费、SMS费用、MMS费用、WAP费用、优惠费用、新业务、信息费和卡类、结算费用、缴欠费费用等。 • 行为变量 • 时长、次数、发话不同号码数、时长集中度(当月、近三月、近六月)、次数集中度(当月、近三月、近六月)、拨打10086次数、WAP次数、SMS次数、缴费方式、欠费次数等。

  9. 基础表数据 挖掘建模表 2 5 中间表模块 数据仓库原表 3 1 宽表 4 构建挖掘宽表 数据仓库/PDM 基础表数据集市 客户分群 宽表一 中间表模块库 流失预测 宽表二

  10. 数据有质量可能有问题!! • OK 数据探索与处理 • 检查有效性 • 检查以下项目:数据分布、 丢失值 • 无效值、 非正常值、 相关性检查 • 通过可视化统计查看工具很方便地发现数据中非正常、缺失、无效值

  11. 构建挖掘模型

  12. 构建挖掘模型

  13. 挖掘模型的分析与升华

  14. 挖掘模型的分析与升华 将分群数学刻画,转化为营销学中可以理解的特征刻画。局部/整体特征刻画法-通过对比每一类的分布和全部样本的分布来刻画每一类样本的特征。

  15. 数据挖掘营销派单流程 营销策略的制定、执行与评估 • 确定营销目标群 • 预测打分的方式 • 循环调优的方法确定目标群体 • 营销渠道、流程设计 • 确定营销渠道、渠道组合 • 营销单派发、流转、报表、考核 • IT支撑的开发 • 软件开发 • 营销脚本设计 • 营销策略执行与评估 • 选择合适营销时段 • 及时统计营销成功率

  16. 数据挖掘项目的调优 • 数据挖掘项目的成功需要不断地优化挖掘流程 • 营销流程调优 • 挖掘建模流程调优 • 数据准备流程调优 • 营销流程的调优 • 目标客户群的调整 • 套餐定价/组合的更改 • 更改营销渠道与流程 • 根据不同生活习惯的人群选择外呼的时段

  17. 挖掘建模流程调优 • 挖掘建模数据集的划分 • 合理的数据采样、分层采样、随即采样、顺序采样,处理小概率事件 • 训练集、测试集、校验集合 • 模型训练数据、测试数据采用相同的尺度变换 • 算法调优 • 根据数据分布特性选择不同的算法 • 避免盲目追求算法精度、选择合适学习率、避免模型过拟合 • 模型校验集用于最大化模型泛化能力 • 不平衡样本的算法及类别权值确定,必要时改变挖掘模式 • 两个定理 • “奥卡姆剃刀”定理--简单就是最好的 • “没有免费午餐”定理 • “丑小鸭”定理

  18. 分群过程中的建模流程调优 • 群体数目确定 • 群体数目奇数为佳,一般为5-9个左右,加减2进行调整 • 如需减少群体数目,加入总量变量,减少分量变量,减少相似度阈值 • 增加群体数目,减少总量变量,增加分量变量,加大相似度阈值 • 如果某类包含个体数量超过50%,考虑进行迭代分群 • 输入变量的调整 • 变量取值大部分为0或其他固定值的变量不建议使用 • 多个聪明变量之间相互重叠导致类别相互重叠时,增加变量个数 • 排除业务上有重叠的变量,如夜间通话时长和打折时段通话时长 • 算法调优 • K-Means 孤立点敏感、群体重叠、差别大时效果差;局部最优;可扩展性好,大数据集 • Kohonan 结果对样本次序有关、初始参数值的选择 • DBSCAN 可以发现任意形状边界,处理孤立点、需要更多的内存、I/O消耗 • Distribution-Based Cluster 可以自动发现群体个数,孤立点不敏感 • Neural Cluster 有时候会陷入局部最优解 • SVC可以自动确定群体个数,任意形状边界群,复杂性和字段数无关

  19. 数据准备流程调优 • 数据调优增加数据质量 • 数据探索:发现数据中的异常点,了解数据分别模式 • 处理缺失值,属性变换,离散值变连续值 • 解决数据分布不一致的问题,[0-1]变换、Z变换 • 从业务角度看,无意义的变量不建议做挖掘模型的输入变量 • 变量之间的相关性 • 发现输入样本的变量之间的相关性 • 变量之间耦合性强的变量不建议选取 • 设计派生变量 • 尽量反映动态的特性,加入时长、趋势、占比、集中度 • 派生变量要适当,总量和分量、占比变量不宜同时出现

  20. 传统的数据挖掘方法面临的挑战 • 孤立点 • 局部极值 • 过拟合 • 欠学习 • “维度灾难“ • “黑箱模型” • …… K-means Nerual

  21. 数据挖掘中的新方法—Support Vector Machine(SVM) 结构风险 经验风险 SVM具有以下独有的特点: • 解决局部极值问题-求解二次优化,得到全局最优解, • 解决非线性难题-将复杂的非线性问题转变为线性求解; • 解决小样本学习难题-基于小样本统计学习理论; • 解决海量数据难题-理论上复杂度与样本维数无关; • 解决欠学习、过学习难题-同时优化算法复杂性和学习精度;

  22. 电信业中的数据挖掘主题

  23. 电信业中的挖掘主题 • 客户分群 • 客户流失预测 • 客户欺诈识别 • 客户价值分析 • 交叉销售 • 事件营销 • 新产品、业务潜在客户预测

  24. 数据挖掘贯穿于整个客户生命周期模型中 潜在客户 获得: 顾客特征 目标市场 市场细分 关联分析 预测: 流失预测 成熟客户 新客户 维持: 交叉销售 市场细分 客户忠诚和保持 客户价值分析 客户受益分析 欺诈识别

  25. 电信业中的数据挖掘主题 • 客户分群 • 对客户群体进行划分,了结客户群体的构成; • 针对不同客户群的特征,开发不同的营销策略,建立针对性的主 动营销体系; • 客户流失预测 • 识别近期可能发生流失的客户名单; • 发现流失客户的共同特征,采取措施进行挽留; • 交叉销售 • 分析移动通信各类业务之间的关联; • 开发各类业务的套餐捆绑策略;

  26. 电信业中的数据挖掘主题 • 客户欺诈检测 • 识别可能发生的欺诈行为、异常行为 • 异常行为发生前采取措施进行预防 • 客户价值分析 • 客户信用等级的评定 • 客户价值及风险分析 • 事件营销 • 捕捉客户各种行为,识别可能的营销机会 • 为渠道系统提供及时的营销建议 • 新产品、业务潜在客户的预测 • 预测可能使用新业务的客户,为市场人员提供清单 • 开发针对新业务使用人员的营销策略

  27. 客户分群 • 电信运营商面临巨大客户群,每个客户需求不一样; • “一对一”营销模式; • 最大化组间差异性,最小化组内差异性; • 了解客户的构成,发现客户的需求,提高营销的针对性。

  28. 客户流失预测模型 • 客户流失预测背景 • 客户流失率高, 移动每月2.2%, 每年损失将近27%客户; • 吸引新客户成本高,吸引新客户/保留现有客户=6-8倍。 • 客户流失预测内容 • 明确哪些客户近期内最有可能流失; • 确定可能流失的客户中公司需要保留那些客户; • 哪些因素造成了客户的流失; • 开发客户保持策略防止这些客户的流失。

  29. 客户流失可能性 客户呼叫行为趋势 客户满意度 竞争对手营销策略 呼叫频率 呼叫模式 呼叫时长 服务质量 客户类型 白天呼叫次数 来电次数 客户服务质量 呼叫质量 优惠时段呼叫次数 接通率 中断呼叫次数 语音质量 客户流失预测模型 现有客户中那些存在 近期内流失的风险?

  30. 客户欺诈预测模型 • 为了减少因电信欺诈和恶意欠费造成的巨大损失,大多采取行政防范和技术防范两大类防范措施。 • 行政防范:电信运营商采用行政手段进行清缴用户欠费的做法。这在一定程度上起到了积极的作用,具体的做法有: • 通过客户的详细资料来盯住客户; • 采用预付费的方式; • 通过法律措施; • 采用舆论手段来监督。 • 技术防范:行政防范不能做到及时防范,往往在损失出现后才进行清缴,清缴工作量大, 对忠诚用户的感情是一种伤害。国内外许多通信运营商开始关注采用技术手段防范电信欺诈问题。

  31. 客户欺诈预测模型 • 消费行为异常监控 • 平时话费正常,突然变成低话费或0次户; • 话费波动异常,话费突然大量增加; • 话务量上升、收入反而下降; • 不法行为的监控 • 同一身份证开通多个号码,长时间拨打国外声讯台; • 使用200卡长时间、大量拨打他网用户; • 群发短信诈骗; 采用数据挖掘防欺诈技术,建立实时的监控模型,最大限度防止欺诈行为发生。

  32. 客户欺诈预测模型 客户欺诈识别的数据挖掘主题: • 超额长途费用欺诈 • 他网结算欺诈 • 非法提供公话服务 • 盗打声讯电话欺诈 • 后付费小灵通欺诈 • 欠费分析 • 。。。

  33. 客户欺诈预测模型 超额长途费用欺诈 • 境外分子勾结境内分子利用voip技术、通过互联网、语音网关将呼入的国际长途落地,然后转接到世界各地 • 从消费现象上看,某合同号之前无任何话费,突然某天产生的国际长话呼叫次数或话费很高; • 从营业受理记录看,客户同时申请安装多部同址固定电话,并开通国际长话权限,并且后付费(同一合同号); • 客户可能同时申请包月电信宽带(网通宽带);

  34. 客户欺诈预测模型 非法提供公话服务 • 有些用户以假身份证开通一批固定电话,以超低价格非法提供公用电话服务,过一段时间就换一个地方故伎重演,给电信公司造成很大的损失,这些用户的特征为: • 以住宅用户名义申请安装电话; • 电话使用频繁,通话量比较大; • 费用很高; • 呼叫目的地比较分散,几乎没有相同的被叫地; • 一般在同个地方安装多个电话; • IP和直拨长途情况都很多;

  35. 客户欺诈预测模型 客户欺诈识别的数据挖掘方法: • 决策数归纳法 常用的决策数算法如C4.5、C5等。 • 孤立点检测方法 孤立点检测有基于距离的方法和基于偏差的方法两种。

  36. 客户欺诈可能性 客户呼叫行为趋势 客户信誉度 呼叫频率 客户性质 客户行为准则 客户平均通信费用 呼叫时长 呼叫模式 优惠时段呼叫次数 白天呼叫次数 来电次数 交费方式 交费及时性 污点行为 客户欺诈预测模型 采用数据挖掘技术,根据以上现象构建客户欺诈的决策数模型,对现有的某类业务的客户群进行实时监控,及时识别可能的欺诈行为 那些客户会发生欺诈行为呢?

  37. 客户欺诈预测模型 采用孤立点检测的数据挖掘方法,直接从现有客户群中,寻找异常的客户,

  38. 客户欺诈预测模型应用 数据仓库 中的表 客户信用评分模型 数据预处理 支撑系统 数据过滤 数据提取 欺诈识别建模 源系统 数据交换平台 生成欺诈评分文件 防欺诈处理 告警 渠道、客服系统

  39. 客户对企业的价值是不尽相同的,帕累托的80/20法则:公司80%的赢利只来自其20%的客户。 客户对企业的价值是不尽相同的,帕累托的80/20法则:公司80%的赢利只来自其20%的客户。 客户价值分析:评估客户的价值,使得企业能够找到最为宝贵的客户资源,发现最具价值的客户,以便于能够有的放矢的开展营销,有效利用定价策略,针对性地实施战略。 客户价值分析模型

  40. 客户价值 潜在价值 当前价值 80.4% 19.6% 客户忠诚度 客户信用度 客户收益 客户成本 80.7% 19.3% 74.6% 25.4% ARPU值 在网时长 36.6% 历史欠费的次数 呼入通话比例 61.2% 离网概率 19.0% 呼出通话时长 新业务的费用比例 16.2% 57.4% 100% 20.9% 忙时集中度 长话的呼出通话时长 业务的开通数量 15.1% 10.8% 异网IP呼出时长 6.0% 42.6% 网外呼入时长 呼入的不同号码数 7.1% 7.1% 客户价值分析模型

  41. 交叉销售模型 • 关联规则挖掘: • 从数据集中寻找有趣的、关联和相关性、频繁出现的模式; • A:区间通话 • B:宽带 • C:彩铃 • D:一号双机 • E:小灵通

  42. 七彩铃音 一号双机 来电 显示 11808 一号通 ADSL 星级家庭 交叉销售模型 交叉销售模型-- 产品--产品的正关联与负关联

  43. 七彩铃音 ADSL 一号双机 11808 星级家庭 一号通 来电显示 交叉销售模型 用户-产品关联

  44. 交叉销售模型-产品业务关联关系 根据产品业务关联性评分表,形成某一产品与其他产品关联关系图,以形象说明本产品与其他产品之间的关联关系(正相关或是负相关)及其关联性强弱。 一号双机关联评分表 正向关联 考虑产品捆绑销售 相关性强 相关性弱 替代性弱 负向关联 客户取消产品时作为替补品 替代性强

  45. 新产品、业务的潜在客户预测 • 预测可能使用新业务的客户,为市场人员提供清单 使用新业务的人员有那些共同的特征? 那些客户可能是PushMail的客户? 那些客户是blackbery业务的客户? 目前客户中有那些可能是未来3G业务的潜在客户? • 开发针对新业务使用人员的营销策略 如何根据这些特征制定营销策略?

  46. 事件监控和事件营销 • 数据挖掘中经常为找不到合适的对象而烦恼,经常打进10086的客户也许就是最佳的营销对象 • 套餐到期等能够自动去触发营销事务比如套餐续约提示,适合该用户的其他业务 • 用户取消某些业务,触发营销事务,自动推荐其他替代产品 • 客户来电抱怨信号不好,经常错过一些关键电话,根据挖掘预先设定的规则,推荐来电助手业务 • …

  47. 电信业其他数据挖掘主题

  48. DB2 DWE & Mining Feature

  49. 解决方案模板(Basel II、REDW) Design Studio (Eclipse) Admin Console (Web) 数据仓库 工具 挖掘 OLAP 分析 报表 BI 平台(共享基础设施,Websphere) 支持Linux、Unix 及Windows 的DB2 UDB DWE v9 概念架构 • 集成的、供基于 DB2 数据仓库的分析使用的平台 • 组件化的架构 • 共享工具和元数据 • 共享运行时基础设施 • 基于 Web 的嵌入式分析 • 集成的数据建模、OLAP 、数据 挖掘、仓库工具

  50. DWE Intelligent Miner 挖掘特征 • Data explore in DWE Design Studio • Data mining functions in DWE Design Studio • Data mining functions in DWE Administration console • Intelligent Miner Easy Mining • Intelligent Miner™ Modeling • Intelligent Miner Scoring • Intelligent Miner Visualization • Miningblox

More Related