680 likes | 830 Views
DB2 DWE 在电信业数据挖掘中的应用 软件部 张 英 yingzswg@cn.ibm.com. 数据挖掘方法论及挖掘项目的调优 电信业数据挖掘主题 DB2 DWE 及其 Mining 特性介绍. Agenda. 数据挖掘方法论及挖掘项目的调优. 不同的角度看数据挖掘. 业务的角度--数据挖掘是啤酒和尿布的佳话 专家的角度--数据挖掘是算法的集合 厂商的角度--数据挖掘是软件解决方案 数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程 DWE 提供了平台 , 基于 DWE 很容易实现挖掘应用. 数据挖掘方法论.
E N D
DB2 DWE 在电信业数据挖掘中的应用软件部 张 英 yingzswg@cn.ibm.com
数据挖掘方法论及挖掘项目的调优 电信业数据挖掘主题 DB2 DWE及其Mining特性介绍 Agenda
不同的角度看数据挖掘 • 业务的角度--数据挖掘是啤酒和尿布的佳话 • 专家的角度--数据挖掘是算法的集合 • 厂商的角度--数据挖掘是软件解决方案 • 数据挖掘是方法论--是三者的结合,在特定的业务背景下,采用软件建立起一系列数据挖掘的流程 • DWE提供了平台,基于DWE很容易实现挖掘应用
数据挖掘方法论 • 实际工程中指导项目实施的方法 • 每一阶段的目标、采用方法、输出结果形式 • 人员安排、方法、时间进度安排等 • 实施数据挖掘方法论所要达到的目的 • 针对不同行业的数据挖掘方法论是挖掘项目开展的标准和指南指南 • 控制数据挖掘工程项目中的风险,确保项目的成功实施,提供了保障
价值、行为为导向的数据挖掘方法论 • 挖掘主题确定 • 数据调查与收集 • 构建挖掘宽表 • 数据探索与处理 • 构建挖掘模型 • 挖掘模型的分析与升华 • 营销策略的制定、执行与评估
挖掘主题确定 • 分析对象:神州行?、全球通?、动感地带? 、固话、小灵通、公话… • 挖掘模式:客户分群?流失预测?交叉销售?欺诈识别?… • 挖掘主题是否符合公司当年的营销战略?是否可以解决当前面临问题?
数据调查与收集 • 用户及客户的基本信息变量 • 客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等。 • 价值变量 • 基本通话费用、月均国内长途费用、月租费、 GPRS使用费、SMS费用、MMS费用、WAP费用、优惠费用、新业务、信息费和卡类、结算费用、缴欠费费用等。 • 行为变量 • 时长、次数、发话不同号码数、时长集中度(当月、近三月、近六月)、次数集中度(当月、近三月、近六月)、拨打10086次数、WAP次数、SMS次数、缴费方式、欠费次数等。
基础表数据 挖掘建模表 2 5 中间表模块 数据仓库原表 3 1 宽表 4 构建挖掘宽表 数据仓库/PDM 基础表数据集市 客户分群 宽表一 中间表模块库 流失预测 宽表二
数据有质量可能有问题!! • OK 数据探索与处理 • 检查有效性 • 检查以下项目:数据分布、 丢失值 • 无效值、 非正常值、 相关性检查 • 通过可视化统计查看工具很方便地发现数据中非正常、缺失、无效值
挖掘模型的分析与升华 将分群数学刻画,转化为营销学中可以理解的特征刻画。局部/整体特征刻画法-通过对比每一类的分布和全部样本的分布来刻画每一类样本的特征。
数据挖掘营销派单流程 营销策略的制定、执行与评估 • 确定营销目标群 • 预测打分的方式 • 循环调优的方法确定目标群体 • 营销渠道、流程设计 • 确定营销渠道、渠道组合 • 营销单派发、流转、报表、考核 • IT支撑的开发 • 软件开发 • 营销脚本设计 • 营销策略执行与评估 • 选择合适营销时段 • 及时统计营销成功率
数据挖掘项目的调优 • 数据挖掘项目的成功需要不断地优化挖掘流程 • 营销流程调优 • 挖掘建模流程调优 • 数据准备流程调优 • 营销流程的调优 • 目标客户群的调整 • 套餐定价/组合的更改 • 更改营销渠道与流程 • 根据不同生活习惯的人群选择外呼的时段
挖掘建模流程调优 • 挖掘建模数据集的划分 • 合理的数据采样、分层采样、随即采样、顺序采样,处理小概率事件 • 训练集、测试集、校验集合 • 模型训练数据、测试数据采用相同的尺度变换 • 算法调优 • 根据数据分布特性选择不同的算法 • 避免盲目追求算法精度、选择合适学习率、避免模型过拟合 • 模型校验集用于最大化模型泛化能力 • 不平衡样本的算法及类别权值确定,必要时改变挖掘模式 • 两个定理 • “奥卡姆剃刀”定理--简单就是最好的 • “没有免费午餐”定理 • “丑小鸭”定理
分群过程中的建模流程调优 • 群体数目确定 • 群体数目奇数为佳,一般为5-9个左右,加减2进行调整 • 如需减少群体数目,加入总量变量,减少分量变量,减少相似度阈值 • 增加群体数目,减少总量变量,增加分量变量,加大相似度阈值 • 如果某类包含个体数量超过50%,考虑进行迭代分群 • 输入变量的调整 • 变量取值大部分为0或其他固定值的变量不建议使用 • 多个聪明变量之间相互重叠导致类别相互重叠时,增加变量个数 • 排除业务上有重叠的变量,如夜间通话时长和打折时段通话时长 • 算法调优 • K-Means 孤立点敏感、群体重叠、差别大时效果差;局部最优;可扩展性好,大数据集 • Kohonan 结果对样本次序有关、初始参数值的选择 • DBSCAN 可以发现任意形状边界,处理孤立点、需要更多的内存、I/O消耗 • Distribution-Based Cluster 可以自动发现群体个数,孤立点不敏感 • Neural Cluster 有时候会陷入局部最优解 • SVC可以自动确定群体个数,任意形状边界群,复杂性和字段数无关
数据准备流程调优 • 数据调优增加数据质量 • 数据探索:发现数据中的异常点,了解数据分别模式 • 处理缺失值,属性变换,离散值变连续值 • 解决数据分布不一致的问题,[0-1]变换、Z变换 • 从业务角度看,无意义的变量不建议做挖掘模型的输入变量 • 变量之间的相关性 • 发现输入样本的变量之间的相关性 • 变量之间耦合性强的变量不建议选取 • 设计派生变量 • 尽量反映动态的特性,加入时长、趋势、占比、集中度 • 派生变量要适当,总量和分量、占比变量不宜同时出现
传统的数据挖掘方法面临的挑战 • 孤立点 • 局部极值 • 过拟合 • 欠学习 • “维度灾难“ • “黑箱模型” • …… K-means Nerual
数据挖掘中的新方法—Support Vector Machine(SVM) 结构风险 经验风险 SVM具有以下独有的特点: • 解决局部极值问题-求解二次优化,得到全局最优解, • 解决非线性难题-将复杂的非线性问题转变为线性求解; • 解决小样本学习难题-基于小样本统计学习理论; • 解决海量数据难题-理论上复杂度与样本维数无关; • 解决欠学习、过学习难题-同时优化算法复杂性和学习精度;
电信业中的挖掘主题 • 客户分群 • 客户流失预测 • 客户欺诈识别 • 客户价值分析 • 交叉销售 • 事件营销 • 新产品、业务潜在客户预测
数据挖掘贯穿于整个客户生命周期模型中 潜在客户 获得: 顾客特征 目标市场 市场细分 关联分析 预测: 流失预测 成熟客户 新客户 维持: 交叉销售 市场细分 客户忠诚和保持 客户价值分析 客户受益分析 欺诈识别
电信业中的数据挖掘主题 • 客户分群 • 对客户群体进行划分,了结客户群体的构成; • 针对不同客户群的特征,开发不同的营销策略,建立针对性的主 动营销体系; • 客户流失预测 • 识别近期可能发生流失的客户名单; • 发现流失客户的共同特征,采取措施进行挽留; • 交叉销售 • 分析移动通信各类业务之间的关联; • 开发各类业务的套餐捆绑策略;
电信业中的数据挖掘主题 • 客户欺诈检测 • 识别可能发生的欺诈行为、异常行为 • 异常行为发生前采取措施进行预防 • 客户价值分析 • 客户信用等级的评定 • 客户价值及风险分析 • 事件营销 • 捕捉客户各种行为,识别可能的营销机会 • 为渠道系统提供及时的营销建议 • 新产品、业务潜在客户的预测 • 预测可能使用新业务的客户,为市场人员提供清单 • 开发针对新业务使用人员的营销策略
客户分群 • 电信运营商面临巨大客户群,每个客户需求不一样; • “一对一”营销模式; • 最大化组间差异性,最小化组内差异性; • 了解客户的构成,发现客户的需求,提高营销的针对性。
客户流失预测模型 • 客户流失预测背景 • 客户流失率高, 移动每月2.2%, 每年损失将近27%客户; • 吸引新客户成本高,吸引新客户/保留现有客户=6-8倍。 • 客户流失预测内容 • 明确哪些客户近期内最有可能流失; • 确定可能流失的客户中公司需要保留那些客户; • 哪些因素造成了客户的流失; • 开发客户保持策略防止这些客户的流失。
客户流失可能性 客户呼叫行为趋势 客户满意度 竞争对手营销策略 呼叫频率 呼叫模式 呼叫时长 服务质量 客户类型 白天呼叫次数 来电次数 客户服务质量 呼叫质量 优惠时段呼叫次数 接通率 中断呼叫次数 语音质量 客户流失预测模型 现有客户中那些存在 近期内流失的风险?
客户欺诈预测模型 • 为了减少因电信欺诈和恶意欠费造成的巨大损失,大多采取行政防范和技术防范两大类防范措施。 • 行政防范:电信运营商采用行政手段进行清缴用户欠费的做法。这在一定程度上起到了积极的作用,具体的做法有: • 通过客户的详细资料来盯住客户; • 采用预付费的方式; • 通过法律措施; • 采用舆论手段来监督。 • 技术防范:行政防范不能做到及时防范,往往在损失出现后才进行清缴,清缴工作量大, 对忠诚用户的感情是一种伤害。国内外许多通信运营商开始关注采用技术手段防范电信欺诈问题。
客户欺诈预测模型 • 消费行为异常监控 • 平时话费正常,突然变成低话费或0次户; • 话费波动异常,话费突然大量增加; • 话务量上升、收入反而下降; • 不法行为的监控 • 同一身份证开通多个号码,长时间拨打国外声讯台; • 使用200卡长时间、大量拨打他网用户; • 群发短信诈骗; 采用数据挖掘防欺诈技术,建立实时的监控模型,最大限度防止欺诈行为发生。
客户欺诈预测模型 客户欺诈识别的数据挖掘主题: • 超额长途费用欺诈 • 他网结算欺诈 • 非法提供公话服务 • 盗打声讯电话欺诈 • 后付费小灵通欺诈 • 欠费分析 • 。。。
客户欺诈预测模型 超额长途费用欺诈 • 境外分子勾结境内分子利用voip技术、通过互联网、语音网关将呼入的国际长途落地,然后转接到世界各地 • 从消费现象上看,某合同号之前无任何话费,突然某天产生的国际长话呼叫次数或话费很高; • 从营业受理记录看,客户同时申请安装多部同址固定电话,并开通国际长话权限,并且后付费(同一合同号); • 客户可能同时申请包月电信宽带(网通宽带);
客户欺诈预测模型 非法提供公话服务 • 有些用户以假身份证开通一批固定电话,以超低价格非法提供公用电话服务,过一段时间就换一个地方故伎重演,给电信公司造成很大的损失,这些用户的特征为: • 以住宅用户名义申请安装电话; • 电话使用频繁,通话量比较大; • 费用很高; • 呼叫目的地比较分散,几乎没有相同的被叫地; • 一般在同个地方安装多个电话; • IP和直拨长途情况都很多;
客户欺诈预测模型 客户欺诈识别的数据挖掘方法: • 决策数归纳法 常用的决策数算法如C4.5、C5等。 • 孤立点检测方法 孤立点检测有基于距离的方法和基于偏差的方法两种。
客户欺诈可能性 客户呼叫行为趋势 客户信誉度 呼叫频率 客户性质 客户行为准则 客户平均通信费用 呼叫时长 呼叫模式 优惠时段呼叫次数 白天呼叫次数 来电次数 交费方式 交费及时性 污点行为 客户欺诈预测模型 采用数据挖掘技术,根据以上现象构建客户欺诈的决策数模型,对现有的某类业务的客户群进行实时监控,及时识别可能的欺诈行为 那些客户会发生欺诈行为呢?
客户欺诈预测模型 采用孤立点检测的数据挖掘方法,直接从现有客户群中,寻找异常的客户,
客户欺诈预测模型应用 数据仓库 中的表 客户信用评分模型 数据预处理 支撑系统 数据过滤 数据提取 欺诈识别建模 源系统 数据交换平台 生成欺诈评分文件 防欺诈处理 告警 渠道、客服系统
客户对企业的价值是不尽相同的,帕累托的80/20法则:公司80%的赢利只来自其20%的客户。 客户对企业的价值是不尽相同的,帕累托的80/20法则:公司80%的赢利只来自其20%的客户。 客户价值分析:评估客户的价值,使得企业能够找到最为宝贵的客户资源,发现最具价值的客户,以便于能够有的放矢的开展营销,有效利用定价策略,针对性地实施战略。 客户价值分析模型
客户价值 潜在价值 当前价值 80.4% 19.6% 客户忠诚度 客户信用度 客户收益 客户成本 80.7% 19.3% 74.6% 25.4% ARPU值 在网时长 36.6% 历史欠费的次数 呼入通话比例 61.2% 离网概率 19.0% 呼出通话时长 新业务的费用比例 16.2% 57.4% 100% 20.9% 忙时集中度 长话的呼出通话时长 业务的开通数量 15.1% 10.8% 异网IP呼出时长 6.0% 42.6% 网外呼入时长 呼入的不同号码数 7.1% 7.1% 客户价值分析模型
交叉销售模型 • 关联规则挖掘: • 从数据集中寻找有趣的、关联和相关性、频繁出现的模式; • A:区间通话 • B:宽带 • C:彩铃 • D:一号双机 • E:小灵通
七彩铃音 一号双机 来电 显示 11808 一号通 ADSL 星级家庭 交叉销售模型 交叉销售模型-- 产品--产品的正关联与负关联
七彩铃音 ADSL 一号双机 11808 星级家庭 一号通 来电显示 交叉销售模型 用户-产品关联
交叉销售模型-产品业务关联关系 根据产品业务关联性评分表,形成某一产品与其他产品关联关系图,以形象说明本产品与其他产品之间的关联关系(正相关或是负相关)及其关联性强弱。 一号双机关联评分表 正向关联 考虑产品捆绑销售 相关性强 相关性弱 替代性弱 负向关联 客户取消产品时作为替补品 替代性强
新产品、业务的潜在客户预测 • 预测可能使用新业务的客户,为市场人员提供清单 使用新业务的人员有那些共同的特征? 那些客户可能是PushMail的客户? 那些客户是blackbery业务的客户? 目前客户中有那些可能是未来3G业务的潜在客户? • 开发针对新业务使用人员的营销策略 如何根据这些特征制定营销策略?
事件监控和事件营销 • 数据挖掘中经常为找不到合适的对象而烦恼,经常打进10086的客户也许就是最佳的营销对象 • 套餐到期等能够自动去触发营销事务比如套餐续约提示,适合该用户的其他业务 • 用户取消某些业务,触发营销事务,自动推荐其他替代产品 • 客户来电抱怨信号不好,经常错过一些关键电话,根据挖掘预先设定的规则,推荐来电助手业务 • …
解决方案模板(Basel II、REDW) Design Studio (Eclipse) Admin Console (Web) 数据仓库 工具 挖掘 OLAP 分析 报表 BI 平台(共享基础设施,Websphere) 支持Linux、Unix 及Windows 的DB2 UDB DWE v9 概念架构 • 集成的、供基于 DB2 数据仓库的分析使用的平台 • 组件化的架构 • 共享工具和元数据 • 共享运行时基础设施 • 基于 Web 的嵌入式分析 • 集成的数据建模、OLAP 、数据 挖掘、仓库工具
DWE Intelligent Miner 挖掘特征 • Data explore in DWE Design Studio • Data mining functions in DWE Design Studio • Data mining functions in DWE Administration console • Intelligent Miner Easy Mining • Intelligent Miner™ Modeling • Intelligent Miner Scoring • Intelligent Miner Visualization • Miningblox