第九章 对应分析.doc
文本预览下载声明
第九章 对应分析
第一节 对应分析的基本思想
我们知道,因子分析有R型因子分析和Q型因子分析。R型因子分析是对变量(指标)作因子分析,研究的是变量之间的相互关系;Q型因子分析是对样品作因子分析,研究的是样品之间的相互关系,也就是说对指标作因子分析和对样品作因子分析是分开进行的。在错综复杂的实际问题中,不仅要了解变量之间的关系,样品之间的关系,还需要了解变量与样品之间的对应关系。如对某一行业所属的企业进行经济效益评价时,不仅要研究经济效益指标间的关系,还要将企业按照经济效益的好坏进行分类,研究哪些企业与哪些经济效益指标的关系更为密切,这可为决策部门正确指导企业的生产经营活动提供更多的信息。这就需要有一种统计方法,将企业和指标放在一块进行分析、分类。1970年法国统计学家J.P.Beozecri提出了对应分析,解决了上述的问题。
对应分析是将R型因子分析和Q型因子分析结合起来进行分析的一种多元统计分析方法,它是从R型因子分析出发,直接获得Q型因子分析的结果,可以将变量和样品同时反映到相同的坐标轴(因子轴)的一张图形上,以此来说明变量与样品之间的对应关系。比如在图形上邻近的一些样品点表明它们的关系密切归为一类,同样邻近的一些变量点表明它们的关系密切归为一类,而且属于同一类型的样品点,可用邻近的变量点来表征。因此,概括起来说对应分析可提供指标之间的关系、样品之间的关系、指标与样品之间的关系。
其基本思想为:R型因子分析和Q型因子分析是从不同的角度出发对同一个整体进行研究的,它们之间一定存在着一定的内在联系,对应分析通过一个过渡型矩阵Z将二者有机地结合起来。具体地说,首先给出变量点的协差阵和样品点的协差阵, 由于和有相同的非0特征根,记为,,如果A的特征根对应的特征向量为,则B的特征根对应的特征向量为就是,根据这个结论就可以很方便的借助R型因子因子分析而得到Q型因子分析的结果。因此,求出A的特征根和特征向量后就可以很容易的写出变量点协差阵对应的因子载荷阵,将它记为F,则
这样,样品点协差阵B对应的因子载荷矩阵就是
由于A和B具有相同的非零特征根,而这些特征根又正是各个公共因子的方差,因此可以用相同的因子轴同时表示变量点和样品点,即把变量点和样品点同时反映在具有相同坐标轴的因子平面上,以便对变量点和样品点一起考虑进行分类。
第二节 对应分析方法的原理
在处理实际问题时,如果指标的量纲不同以及数量级相差很大时,通常先将指标做标准化处理,而这种标准化处理对样品是不适应的。也就是说,标准化处理对指标和样品是非对等的,为了使之有对等性,以便将R型与Q型分析建立起联系,就要设法将原始数据阵变换成矩阵,使对指标和样品具有对等性。这样的矩阵应该如何给出?
在用列联表进行独立性检验时,给出了统计量(见第12章)
在它的启发下,将原始数据阵作如下的变换,给出矩阵,其中
了便于理解此变换,作如下解释:
设有个样品,每个样品有项指标,原始资料阵为
假定矩阵X的元素,否则,对所有的数据同加上一个数,便可满足这个要求,然后写出X的行和、列和与总和,分别写成、和,即
用去除矩阵X中的每一个元素,即,使变量与样品具有相同比例大小,显然,且,因而可解释为“概率”,这样得到一个规格化的“概率”矩阵,将矩阵中的行和、列和分别记为、,即
如果将个样品看成维空间上的点,则个点的坐标用()表示,称为个样品点,这是用各变量在该样品中的相对比例来表示的一种常见方法,这样对个样品的研究就可转化为对个样品点的相对关系的研究,如果要对样品分类,就可用样品点的距离远近来刻划了。若引入欧氏距离,则两个样品点和之间的欧氏距离平方为
为消除各变量的数量级对研究问题的影响,需要计算加权的距离(因为在实际问题中,我们所关心的是每一个变量的相对作用,因此采用加权距离更为合适)。
类似地,可将个变量看成是维空间的点,用()表示个变量的坐标,称为个变量点,这时两个变量与之间的加权距离为
通过计算两两样品点或两两变量点之间的距离,可对样品点或变量点进行分类,但这样做还不能用图形表示出来,为了更直观地表示变量点与样品点之间的关系,需给出变量点与样品点协差阵的定义。
这里先给出样品点中第个变量的均值
()
这里不是求算术平均,而是按概率进行加权,可以验证上式的结果不仅是诸样品平均点坐标,也是各变量的平均值。为此,样品空间中变量点的协差阵
其中
(,)
令
则
即变量点的协差阵可以表示成的形式。
类似的,可求出样品点的协差阵
其中
(,)
(,)
从而
显示全部