SPSS数据的聚类分析概要.ppt
文本预览下载声明
zf zf 聚类分析 (Cluster Analysis) 例1:谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(如用性别、年龄等变量来刻画) 例2:谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 如何实现聚类? ---聚类分析的基本思想和方法 1、什么是聚类分析? 聚类分析: 是根据“物以类聚”的道理,对样品或指标进行分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强的一种多元统计分析方法。 聚类分析的目的:把相似的研究对象归成类;即:使类内对象的相似性最大化和类间对象的差异性最大化。 系统聚类(又称为层次聚类Hierarchical cluster):凝聚式系统聚类、分解式系统聚类 非系统聚类(又称为非层次聚类non- hierarchical cluster ):如K-均值法(快速聚类法) 二、相似性度量 1、相似性的度量指标: 相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-1,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; 距离:变量或样本间的距离越近,说明其相似性越高,应归为一类;距离越远则说明相似性越弱,应归为不同的类。 常用距离: 1)明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: 1a)绝对距离(Block距离):当g=1时 1b)欧氏距离(Euclidean distance):当g=2时 1c)切比雪夫距离:当 时 例:横轴 代表重量(单位:kg),纵轴 代表长度(单位:cm)。有四个点A,B,C,D,见图。 以上几种距离主要有以下两个缺点: 距离的值受到各指标的量纲的影响,具有一定的人为性。 距离的定义没有考虑各个变量之间的相关性和重要性。 标准化处理:当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中: 为第j个变量的样本均值; 为第j个变量的样本方差。 改进距离的定义,运用马氏距离。 2)马氏距离 三、类和类之间的距离度量 1、最短距离(Nearest Neighbor) G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海} 采用欧氏距离得到的距离矩阵: 1 2 3 4 5 1 0 2 11.67 0 D1= 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 d78=min{d71,d72}=12.80 7 8 D4= 7 0 8 12.8 0 河南3 甘肃4 青海5 辽宁1 浙江2 2、最长距离(Furthest Neighbor ) (3)组间平均连接(Between-group Linkage) (4)组内平均连接( Within-group Linkage) (5)重心法 (Centroid method): (6)离差平方和法 (Ward’s method ) 红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接,黄红首先连接。 四、系统聚类法 系统聚类法是一种其聚类过程可以用所谓的谱系结构或树形结构来描绘的方法。——事先不用确定分多少类 SPSS系统聚类法:凝聚式系统聚类法 1、所有的研究对象各自算作一类,将最“靠近” 的首先聚类 2、再将这个类和其它类中最“靠近”的结合,直至所有的对象都合并为一类为止
显示全部