聚类分析 Cluster Analysis

聚类分析Cluster Analysis

内容提要 • 聚类分析简介 • 聚类分析有关统计量 • 分层聚类法步骤 • K均值聚类法步骤 • 两步聚类法步骤 • 案例分析

聚类分析的定义 • 依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。 • 各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。 • 各指标之间具有一定的相关关系。 • 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy) • 变量类型：定类变量、定量（离散和连续）变量

聚类方法 • 层次聚类（Hierarchical Clustering） • 合并法 • 分解法 • 树状图 • 非层次聚类 • K均值聚类法（K-means Clustering） • 智能聚类法

聚类分析的有关统计量 • 聚合过程表 • 群重心 • 群中心 • 群间距离

分层聚类分析的步骤 • 定义问题与选择分类变量 • 聚类方法 • 确定群组数目 • 聚类结果评估 • 结果的描述、解释

K-means Cluster(快速样品聚类)过程 • 属于非层次聚类法的一种 • 方法原理 • 选择（或人为指定）某些记录作为凝聚点 • 按就近原则将其余记录向凝聚点凝集 • 计算出各个初始分类的中心位置（均值） • 用计算出的中心位置重新进行聚类 • 如此反复循环，直到凝聚点位置收敛为止

K-means Cluster过程 • 方法特点 • 要求已知类别数 • 可人为指定初始位置 • 节省运算时间 • 样本量大于100时有必要考虑 • 只能使用连续性变量

K均值聚类法分析步骤 • 定义问题 • 确定群组数目 • 结果的描述、解释

TwoStep Cluster过程 • 特点： • 处理对象：分类变量和连续变量 • 自动决定最佳分类数 • 快速处理大数据集 • 前提假设： • 变量间彼此独立 • 分类变量服从多项分布，连续变量服从正态分布 • 模型稳健 • 算法原理： • 第一步：逐个扫描样本，每个样本依据其与已扫描过的样本的距离，被归为以前的类，或生成一个新类 • 第二步，对第一步中各类依据类间距离进行合并，按一定的标准，停止合并

判别分析 Discriminant Analysis 介绍：判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。

判别分析DA • 概述 • DA模型 • DA有关的统计量 • 两组DA • 案例分析

判别分析 • 判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。

判别分析 • 不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。 • DA适用于定类变量（因）、任意变量（自） • 两类：一个判别函数； • 多组：一个以上判别函数

DA目的 • 建立判别函数 • 检查不同组之间在有关预测变量方面是否有显著差异 • 决定哪个预测变量对组间差异的贡献最大 • 根据预测变量对个体进行分类

二、判别分析模型 • 要先建立判别函数 Y=a1x1+a2x2+...anxn，其中:Y为判别分数(判别值)，x1 x2...xn为反映研究对象特征的变量，a1 a2...an为系数

三、有关统计量 • 判别系数 • 标准化判别系数 • 结构相关系数

三、有关统计量 • 典型相关系数 • 特征值 • Wilk's (0, 1) = SSw/SSt for X • 组重心 • 分类矩阵

四、两组判别 • 定义问题 • 估计DA函数系数 • 确定DA函数的显著性 • 解释结果 • 评估有效性

定义问题 • 判别分析的第一步 • 第二步就是将样本分为： • 分析样本 • 验证样本

估算判别函数系数 • 直接法（direct method）就是同时用所有的预测变量估计判别函数，此时每个自变量都包括在内，而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。 • 逐步判别分析（stepwise discriminant analysis），预测变量依据其对组别的判别能力被逐步引入。

确定显著性 • 零假设：总体中各组所有判别函数的均值相等。 • 特征值 • 典型相关系数 • Wilk‘s (0, 1) 转换成卡方值检验 • 见travel.spo

解释结果 • 系数的符号无关紧要，但能够表示每个变量对判别函数值的影响，以及与特定组的联系。 • 我们可以通过标准化判别函数系数的绝对值初步判断变量的相对重要性。 • 通过考察结构相关系数，也可以对预测变量的相对重要性进行判断。 • 组重心

评估判别分析的有效性 • 根据分析样本估计出的判别权数，乘以保留样本中的预测变量值，就得出保留样本中每个样本的判别分。 • 可以根据判别分及适当的规则划分为不同的组别。 • 命中率（hit ratio）或称样本正确分类概率，就是分类矩阵对角线元素之和与总样本数的比例。 • 比较样本正确分类百分比与随机正确分类百分比。

因子分析 Factor Analysis

因子分析 • 因子分析模型 • 因子分析有关统计量 • 因子分析步骤 • 案例分析

一、因子分析模型（FA） • 基本思想 • 因子分析模型

FA的基本思想 • “因子分析”于1931年由Thurstone提出，概念起源于Pearson和Spearmen的统计分析 • FA用少数几个因子来描述多个变量之间的关系，相关性较高的变量归于同一个因子； • FA利用潜在变量或本质因子（基本特征）去解释可观测变量

FA模型 X1=a11F1+a12F2+ …+a1pFp+v1 X2=a21F1+a22F2+ …+a2pFp+v2 X＝AF+V Xi=ai1F1+ai2F2+ …+aipFp+vi Xm=ap1F1+ap2F2+ …+ampFm+vm Xi —第i个标准化变量 aip —第i个变量对第p个公因子的标准回归系数 F —公因子 Vi —特殊因子

公因子模型 F1=W11X1+W12X2+ …+W1mXm F2=W21X1+W22X2+ …+W2mXm Fi=Wi1X1+Wi2X2+ …+WimXm Fp=Wp1X1+Wp2X2+ …+WpmXm Wi —权重，因子得分系数 Fi—第i个因子的估计值（因子得分）

二、有关统计量 • Bartlett氏球体检验:各变量之间彼此独立 • KMO值：FA合适性 • 因子负荷：相关系数 • 因子负荷矩阵 • 公因子方差（共同度） • 特征值 • 方差百分比（方差贡献率） • 累计方差贡献率 • 因子负荷图 • 碎石图

三、FA步骤 • 定义问题 • 检验FA方法的适用性 • 确定因子分析方法 • 因子旋转 • 解释因子 • 计算因子得分

注意事项 • 样本量不能太小 • 变量相关性 • 公因子有实际意义

聚类分析 Cluster Analysis