340 likes | 717 Views
数据挖掘软件 CLEMENTINE 介绍. Clementine 产品介绍. Clementine 是 ISL(Integral Solutions Limited) 公司开发的数据挖掘工具平台。 1999 年 SPSS 公司收购了 ISL 公司, 对 Clementine 产品进行重新整合和开发,现在 Clementine
E N D
Clementine产品介绍 Clementine是ISL(Integral Solutions Limited)公司开发的数据挖掘工具平台。1999年SPSS公司收购了ISL公司, 对Clementine产品进行重新整合和开发,现在Clementine 已经成为SPSS公司的又一亮点。作为一个数据挖掘平台, Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。 强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。 同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。
Clementine中的Data Mining 的方法 分类 目标变量(因变量、反应变量数)为类別的狀況 信用卡公司將既有资料分为「伪卡」「非伪卡」找出伪卡的模式 预测 和分类推估类似,不同在于是预測未來,將新资料带入既有资料建立的模型预见結果 銀行新申请信用卡的客戶要給多少额度 聚类 非监督式,未知有几类,将性质类似的资料加以区分,把顾客资料分群对不同群体采用不同推销手法 • Classification • Clustering • Estimation • Prediction • Market Basket Analysis • Description 相关技术 决策树规则 各类图表 等等 相关技术 K-Means 两步骤 Kohonen 等等 相关技术 神经网络 决策树 (C5.0 C&RT) Logistic 回归 等等 相关技术 分类跟估计的所有方法 相关技术 Apriori GRI 等等 估计 和分类的不同在於目标变量为连续值,常和分类配合 用分类判断为会贷款客户后再推估会贷款的金額 购物篮分析 找出哪些事件会一起发生 超級市场发現男性客戶会一起购买啤酒跟尿布 描述 增进对于资料的认识,图形视觉化呈现,或规則、决策树等
Income>$40K Yes NO Debt<10% of Income Debt=0% Yes NO NO Yes Good Credit Risks Bad Credit Risks Good Credit Risks Q Q 5 6 Q Q 3 4 I I 1 2 factor n factor 1 factor 2 数据挖掘应用----业务建摸 决策树 Decision Trees 序列分析 Sequence Analysis • 倾向性分析 Add New Product Decrease Usage ??? Open Accn’t Time • 客户保留 • 客户生命周期管理 • 目标市场 • 价格弹性分析 关联分析 Association 神经网络 Neural Networks 聚类分析 Clustering • 市场组合分析 • 套装产品分析 • 目录设计 • 交叉销售 • 客户细分 • 市场细分 • 倾向性分析 • 客户保留 • 目标市场 • 欺诈检测
Clementine的使用 • 1打开一个流文件
Clementine流文件的建立 在节点区,双击文件读入 节点,在流区出现其图标 • 1读取数据文件1 再在流工作区,双击 文件读入节点,读入 所需数据文件。
4 1 2 5 • 对数据进行处理 3 增加新变量:Na_to_K=Na/K 6 去掉两个变量Na、K
在节点区双击Type节点, 使之在流区中出现 • 定义变量的方向 把Drug的 Direction 从in(输入) 改为out (输出)
读取文本数据与查看数据 文本格式数据 SPSS/SAS数据 Excel,Access,dBase,Foxpro,Oracle, SQL Server,DB2等数据库 用户输入数据 文件读入节点: • Clementine可以读入的数据文件
读取文本数据与查看数据 • 查看数据1 点击Data 和Types,出现数据的属性
查看数据2 点击Table,使之出现在流 工作区,再点击Execute (执行),得到右面图表:
Clementine中的字段类 离散型 二分 eg:sex:m/f 多分 eg: 等级:好/中/差 离散 eg: 连续型 整数 实数 日期、时间 其它
数据理解之数据质量 • 缺失值的检查:quality节点 点击Quality节点,使之 出现在工作区,再执行 Quality,出现数据质量 表,从中可以看出, 数据100%有效,一共 有200个有效数据。
2 • Distribution节点----初步 理解字符型字段的分布 1 3 4
简单数据整理 根据原有字段值生成新字段值 • Derive节点介绍 2 增加新变量: Na_to_K=Na/K
对某些字段进行重命名或丢弃某些无意义的字段对某些字段进行重命名或丢弃某些无意义的字段 • Filter节点介绍 去掉两个变 量Na、K
数据理解之数据间简单关系 • Web节点----研究字符型字段间关系1
执行后,得到字符间的网状连系,其中粗线条,表示执行后,得到字符间的网状连系,其中粗线条,表示 字符之间的强联系。 • Web节点----研究字符型字段间关系2
Statistics节点----研究连 续型字段间线性相关关系 得到Na_to_K的统计属性,及它 与Age的线性关系