SPSS数据的聚类分析选编.ppt
文本预览下载声明
聚类分析 (Cluster Analysis);例1:谁经常光顾商店,谁买什么东西,买多少?
按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类
这样商店可以….
识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)
刻画不同的客户群的特征(如用性别、年龄等变量来刻画);例2:谁是银行信用卡的黄金客户?
利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”!
这样银行可以……
制定更吸引的服务,留住客户!比如:
一定额度和期限的免息透资服务!
百盛的贵宾打折卡!
在他或她生日的时候送上一个小蛋糕!;如何实现聚类? ---聚类分析的基本思想和方法;系统聚类(又称为层次聚类Hierarchical cluster):凝聚式系统聚类、分解式系统聚类
非系统聚类(又称为非层次聚类non- hierarchical cluster ):如K-均值法(快速聚类法)
;凝聚式;二、相似性度量;常用距离:
1)明考夫斯基距离(Minkowski distance)
明氏距离有三种特殊形式:
1a)绝对距离(Block距离):当g=1时
; 1b)欧氏距离(Euclidean distance):当g=2时
1c)切比雪夫距离:当 时
;例:横轴 代表重量(单位:kg),纵轴 代表长度(单位:cm)。有四个点A,B,C,D,见图。
;zf;以上几种距离主要有以下两个缺点:
距离的值受到各指标的量纲的影响,具有一定的人为性。
距离的定义没有考虑各个变量之间的相关性和重要性。;标准化处理:当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:
其中: 为第j个变量的样本均值;
为第j个变量的样本方差。
改进距离的定义,运用马氏距离。;;1、最短距离(Nearest Neighbor)
; 例1:为了研究辽宁省5省区某年城镇居民生活消费的
分布规律,根据调查资料做类型划分;G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}
采用欧氏距离得到的距离矩阵:
1 2 3 4 5
1 0
2 11.67 0
D1= 3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0;d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06
d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0;d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
河南3
甘肃4
青海5
辽宁1
浙江2
;2、最长距离(Furthest Neighbor );(3)组间平均连接(Between-group Linkage);(4)组内平均连接( Within-group Linkage)
;(5)重心法 (Centroid method):;(6)离差平方和法 (Ward’s method )
;红绿(2,4,6,5)8.75
离差平方和增加8.75-2.5=6.25
黄绿(6,5,1,5)14.75
离差平方和增加14.75-8.5=6.25
显示全部