koorio.com
海量文库 文档专家
当前位置:首页 >> 数学 >>

第18章 聚类分析_图文

第18章 聚类分析

中国疾病预防控制中心

学习目标
了解聚类分析的基本思想; ? 了解聚类分析的一些常见统计量; ? 掌握聚类分析的基本方法; ? 通过实例练习掌握聚类分析的SAS过程步。
?

概述
聚类分析是将随机现象归类的统计学方法, 已广泛应用于医学科学研究之中。聚类分析 也称群分析、点群分析,他是研究分类的一 种多元统计方法。 ? 例如,我们可以根据学校的师资、设备、学 生的情况,将大学分成一流大学,二流大学 等;国家之间根据其发展水平可以划分为发 达国家、发展中国家;
?

概述
?

这些问题的本质就是希望能找到一种合理的 方法将一批研究对象按其所属特性分门别类。 统计学上用于解决这种分类问题的主要方法 是聚类分析法和判别分析法。这一章主要讨 论聚类分析。

聚类分析的基本思想
?

聚类分析是将样本个体或指标变量按其具有 的特性进行分类的一种统计分析方法。我们 所研究的样品或指标(变量)之间存在程度 不同的相似性(亲疏关系)。于是根据一批 样品的多个观测指标,具体找出一些能够度 量样品或指标之间相似程度的统计量,以这 些统计量为划分类型的依据。

聚类分析的基本思想
?

把一些相似程度较大的样品(或指标)聚合为一类, 把另外一些彼此之间相似程度较大的样品(或指标) 又聚合为另一类,关系密切的聚合到一个小的分类 单位,关系疏远的聚合到一个大的分类单位,直到 把所有的样品(或指标)聚合完毕,这就是分类的 基本思想。由此得知,聚类分析的任务有两个,第 一就是寻找合理的度量事物相似性的统计量;第二 是寻找合理的分类方法。

聚类分析的基本思想
?

在聚类分析中,通常我们将根据分类对象的不同分 为Q型聚类分析和R型聚类分析两大类。Q型聚类分 析是对样本进行分类处理,又称为样本聚类分析; R型聚类分析是对指标进行分类处理,称为指标聚 类分析。对样品进行聚类的目的是将分类不明确的 样品按性质相似程度分为若干组,从而发现同类样 品的共性和不同样品间的差异。对指标进行聚类的 目的是将分类不明确的指标按性质相似程度分成若 干组,从而在尽量不损失信息的条件下,用一组少 量的指标来代替原来的多个指标。

聚类分析的基本思想
?

?

R型聚类分析的主要作用是:①不但可以了解个别 变量之间的关系的亲疏程度,而且可以了解各个指 标组合之间的亲疏程度;②根据变量的分类结果以 及它们之间的关系,可以选择主要变量进行回归分 析或Q型聚类分析。 Q型聚类分析的作用是:①可以综合利用多个变量 的信息对样本进行分类;②分类结果是直观的,聚 类谱系图非常清楚地表现其数值分类结果;聚类分 析所得到的结果比传统分类方法更细致、全面、合 理。

聚类分析的基本思想
?

例如在医生医疗质量研究中,有N个医生参 加医疗质量评比,每一个医生有K个医疗质量 指标被记录。利用聚类分析可以将N个医生 按其医疗质量的优劣分成几类,或者把K个医 疗质量指标所反映的问题侧重点不同分成几 类。前者是聚类分析中的样品聚类,后者是 指标聚类。

聚类分析的统计量
?

?

无论是R型聚类或是Q型聚类的关键是如何定义相似 性,即如何把相似性数量化。聚类的第一步需要给 出两个指标或两个样品间相似性度量的统计量。 聚类分析中用来衡量样本个体之间属性相似程度的 统计量和用来衡量指标变量之间属性相似程度的统 计量是不同的,前者用的统计量是距离系数,后者 用的统计量是相似系数。距离系数的定义有很多, 如欧式距离、极端距离、绝对距离等。相似系数的 定义也很多,如相关系数、列联系数等。下面给出 它们的计算公式。

距离
明氏距离 ? 马氏距离 ? 兰氏距离 ? 类间距离
?

类间距离
最短距离法 ? 最长距离法 ? 重心距离法 ? 平均距离法 ? 中间距离法 ? Ward离均差平方和法
?

相关系数
相关系数是最容易理解的一种统计量,它就 是统计中经常用的两变量之间的简单相关系 数。在聚类分析中,相关系数用来描述两个 指标之间的相似程度。 T x ? ( x , ?, x , ? , x ? x s ? ( x1s ,?, xis ,?, xns ) 是第s个指标变量, 是第t个指标变量,
?
t 1t 2t

)T nt

相关系数
?

两个指标变量和之间的相关系数是:
rst ?

? (x
i ?1 n i ?1

n

is

? x s )( xit ? xt )
2

? ( xis ? x s )

( xit ? xt ) 2 ?
i ?1

n

?

这是一个无量纲统计量。在指标聚类分析中, 两个指标变量之间的相关系数越大,说明这 两个指标变量的性质越相似。

类间相似系数
夹角余弦 ? 相关系数
?

聚类分析的方法
?

聚类分析的方法很多,本章仅介绍常用的系 统聚类法和逐步聚类法。系统聚类法适用于 小样本的样本聚类或指标聚类。逐步聚类法 适用于大样本的样本聚类。对于小样本的样 本聚类,如果采用逐步聚类法,聚类结果将 与样本的顺序有关。

聚类指标
?

一般用系统聚类法来聚类指标,它的基本思想是先 把k个指标看成一类;然后用主成分分析法将它分解 成若干类,分类的原则是使得每一类的类内指标总 变异尽可能多地被该类的类成分所解释;如果每一 类的类内指标总变异被类成分所解释的比例满足事 先给出的要求,则聚类停止;否则,对比例小的类 再继续进行分解,直到所有类的类内指标总变异被 类成分所解释的比例都满足事先给出的要求为止。

聚类指标
系统聚类法对k个指标进行聚类的具体步骤如 下: ? ①确定每一类的类内指标总变异被类成分所 解释的最低比例P; ? ②把所有指标看成一类,计算类内指标总变 异被类成分所解释的比例,如果所解释的比 例大于或等于P,则聚类停止;否则进行③;
?

聚类指标
?

? ?

③将这个类分解成两个类,分类原则是使得每一类 内的指标总变异尽可能地被该类的类成分所解释且 类间相关系数达到最小,计算每一类的类内指标总 变异被类成分所解释的比例,如果所解释的比例大 于或等于P,则聚类停止;否则进行④; ④最解释比例最小的一类在继续进行分解; ⑤重复以上步骤,直到所有类的类内指标总变异被 类成分所解释的比例都大于或等于P为止。

系统聚类法聚类样本
? ?

用系统聚类法聚类样本 用系统聚类法聚类样本的基本思想是先把n个聚类 样本看成n类,然后按类间距离将相似程度最大的 两个类合并为一类,再将所有的类(包括合并形成 的新类)中相似程度最大的两个类合并为一类。重 复此过程,直到所有的类间距离达到一定的要求为 止,或直至所有的样本被合并为一类为止,然后根 据类间距离的要求以及实际意义选择一个适当的分 类。

系统聚类法聚类样本
? ? ? ? ? ?

用系统聚类法对样本进行聚类的具体方法步骤如下: ①把n个样本看成n类,类的个数g=n; ②计算两两类间距离,并将类间距离最小的两个合并为一类, 则g=n-1; ③继续计算两两类间距离,并将类间距离最小的两个合并为 一类,则g=n-2; ④重复上述步骤,直到类间距离达到一定的要求为止,或所 有的样本被合并为一类为止; ⑤根据类间距离的要求以及实际意义选择一个适当的分类。

逐步聚类法聚类样本
?

用逐步聚类法聚类样本的基本思想是先选择若干个 初始凝聚点,这些凝聚点可以是所有样本中的任意 几个样本,也可以是随意确定的几个新样本观察值。 然后把每一个样本按距离大小归入到与该样本最近 的凝聚点所代表的初始类中,再以这些初始类的 “重心”(类内各样本观察值的平均值)作为新的 凝聚点重新将样本归类。重复以上步骤,直到分成 的类再没有什么变化为止。

逐步聚类法聚类样本
? ? ? ? ? ?

用逐步聚类法对样本进行聚类的具体方法步骤如下: ①确定初始凝聚点; ②计算样本与每一个初始凝聚点的距离,并将每一个样本归 入到与该样本最近的凝聚点所代表的初始类中; ③计算上述初始类的新凝聚点,等于类内各样本观察值的平 均值; ④计算样本与上述新凝聚点的距离,并将每一个样本归入到 与该样本最近的新凝聚点所代表的类中; ⑤重复上述步骤,直到新分成的类再没有什么变化为止。

VARCLUS过程
? ? ? ? ? ? ? ?

SAS系统中利用VARCLUS过程步进行指标聚类。 VARCLUS过程的语法格式如下: PROC VARCLUS DATA= OUTTREE= PROPORTION= MAXEIGEN= MAXC= MINC= [选项]; VAR 变量/[选项]; RUN; PROC TREE DATA= HORIZONTAL= PAGE= SPACE= ; ID _NAME_ ; RUN;

VARCLUS过程
? ? ?

DATA语句指定要分析的数据集名及一些选项,它可以是原 SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 PROPORTION选择项用来指定所有类中指标变量的总变异 至少应被类成分解释的比例。等号后面可以给出介于0和1之 间的小数,也可以给出介于1和100之间的正数, PROPORTION=75和PROPORTION=0.75是等价的,表示 聚类的结果必须满足所有类中指标变量的变异至少75%被类 成分所解释,如果一个类的比例小于此值,就要将它继续分 解为两类。

VARCLUS过程
MAXEIGEN选择项用来指定所有类中第二特 征值的最大允许值,超过此值就要分割为两 类。 ? MAXC选择项用来指定允许的最大类别数。 ? MINC选择项用来指定允许的最小类别数。
?

VARCLUS过程
? ? ? ? ? ?

第二个过程步用第一个过程步得到的结果绘制树状图,其中: DATA语句使用的是VARCLUS过程步的输出数据集,即由 OUTTREE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距(行数或列数)。 ID语句给出的变量名用来作为树干刻度的标记,这个变量名 是系统定义的,由指标变量名构成。

CLUSTER过程
? ? ? ? ? ? ? ? ?

SAS系统中利用CLUSTER过程步进行小样本聚类。 CLUSTER过程的语法格式如下: PROC CLUSTER DATA= OUTTREE= METHOD= STANDARD NONORM RSQUARE [选项]; VAR 指标变量/[选项]; ID 样本序号变量 ; RUN; PROC TREE DATA= HORIZONTAL= PAGE= SPACE= ; ID样本序号变量 ; RUN;

CLUSTER过程
? ? ? ?

第一个过程步用于聚类样本中,其中 DATA语句指定要分析的数据集名及一些选项,它可以是原 SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。 OUTTREE选择项用来保存用于绘制树状图的聚类信息。 METHOD选择项用于确定聚类的方法,选择的方法有single、 complete、centroid、average、median、ward,其中 single表示最短距离法,complete表示最长距离法,centroid 表示重心距离平均法,average表示平均距离平方法, median表示中间距离平均法,ward表示最小离均差平方和 法。

CLUSTER过程
? ? ?

?
?

STANDARD指令系统将原始数据标准化。 NONORM表示类间距离不进行标准化。 RSQUARE表述输出每一种聚类的复相关系数的平 方和半偏复相关系数的平方,每一种聚类的复相关 系数的平方等于总体变异被聚类成分所解释的比例, 半偏复相关系数的平方等于由合并两个类引起的复 相关系数平方的减少量。 VAR语句给出用来聚类样本的指标变量。 ID语句给出样本序号变量名。

CLUSTER过程
? ? ? ? ? ?

第二个过程步用第一个过程步得到的结果绘制树状图,其中: DATA语句使用的是VARCLUS过程步的输出数据集,即由 OUTTREE输出的数据集。 HORIZONTAL选择项表示指令树状图的枝干绘制成水平的。 PAGE选择项指定树状图所需的页数。 SPACE选择项指定指标变量之间的间距(行数或列数)。 ID语句给出的变量名也是用来作为树干刻度的标记,但这个 变量名由样本序号构成。

FASTCLUS过程
?

?

用于大样本样品聚类的FASTCLUS过程步使用的是 逐步聚类法,其聚类原则是使得类间距离最小。 和CLUSTER过程步相比,FASTCLUS过程步的缺 点是:
? 没有将原始数据标准化的功能; ? 不能自动确定类别数; ? 需要确定初始凝聚点; ? 不能输出作树状图的聚类信息。

FASTCLUS过程
?

因此,在使用FASTCLUS过程步前,①要用 STANDARD过程步将原始数据标准化,即将 原始数据化为均值为0,标准差为1的标准化 数据;②要根据经验确定类别数;③要根据 经验选取凝聚点,或者在确定类别数的基础 上指令系统自动选取初始凝聚点。

FASTCLUS过程
? ? ? ? ? ? ?

?
?

FASTCLUS过程步的优点是能快速地对大样本进行样本聚类,且聚类后 输出类内指标的均值,用于比较类间的差异,找出每一类的特性。 SAS系统中利用FASTCLUS过程步进行大样本聚类。 FASTCLUS过程的语法格式如下: PROC STANDARD DATA= OUT= MEAN=0 STD=1; VAR 指标变量; RUN; PROC FASTCLUS DATA= MAXC= RADIUS= MAXITER= LIST DISTANCE OUT= OUTSTAT= VARDEF= [选项]; VAR 指标变量; RUN;

FASTCLUS过程
? ? ? ? ? ?

各语句选项说明如下: 第一个过程步用于将数据标准化,标准化的数据存 在新数据集中。 OUT选择项给出含有标准化数据的新数据集名。 MEAN选择项给出标准化数据的均值,一般取 MEAN=0。 STD选择项给出标准化数据的标准差,一般取 STD=1。 VAR语句给出需要标准化的变量。

FASTCLUS过程
? ?

?
?

?
? ?

第二个过程用来聚类样本,使用的数据是上面过程步得到的 标准化变量。 DATA语句给出上面过程步得到的含有标准化变量的新数据 集。 MAXC选择项用来指定允许的最大类别数。 RADIUS给出确定新凝聚点的准则r,即只有当一个点在以原 凝聚点为中心,以r为半径的圆外时,才能被选为新的凝聚 点。如果这样的点不存在,则聚类停止。 MAXITER给出递推运算的次数。 LIST表明列出每一个样品的归类结果。 DISTANCE表明输出类内样品均值间的距离。

本章小节
?

?

聚类分析是将样本个体或指标变量按其具有的特性 进行分类的一种统计分析方法。聚类分析的任务有 两个,第一就是寻找合理的度量事物相似性的统计 量;第二是寻找合理的分类方法。 在聚类分析中,通常我们将根据分类对象的不同分 为Q型聚类分析和R型聚类分析两大类。Q型聚类分 析是对样本进行分类处理,又称为样本聚类分析; R型聚类分析是对指标进行分类处理,称为指标聚 类分析。

本章小节
?

聚类分析中用来衡量样本个体之间属性相似 程度的统计量和用来衡量指标变量之间属性 相似程度的统计量是不同的,前者用的统计 量是距离系数,后者用的统计量是相似系数。 距离系数的定义有很多,如欧式距离、极端 距离、绝对距离等。相似系数的定义也很多, 如相关系数、列联系数等。

本章小节
?

?

聚类分析的方法很多,本章仅介绍常用的系统聚类 法和逐步聚类法。系统聚类法适用于小样本的样本 聚类或指标聚类。逐步聚类法适用于大样本的样本 聚类。本章详细介绍了各种聚类方法的分析步骤。 通过实例介绍了聚类分析的常用四种SAS过程步 (VARCLUS、CLUSTER、FASTCLUS和 ACECLUS过程步)。在学习的过程中掌握这些 SAS过程步的语法格式并会灵活运用。


推荐相关:

第十九章 聚类分析_图文.ppt

第十九章 聚类分析 - 第十九章 聚类分析 (clustering analys


第十八章_判别分析_图文.ppt

第十八章_判别分析 - 第十八章 判别分析 (Discriminant Analysis) 分类学是人类认识世界的基础科学。判别 分析是研究事物分类的基本方法,广泛应用 于自然和社会科学...


第十一章 聚类分析_图文.ppt

第十一章 聚类分析 2016/3/30 陕西师范大学 Shaanxi Normal University ?聚类...18.54 18.97 … 11.56 11.89 … 11.67 11.89 … 20 34.90 20.20 ...


第3章聚类分析_图文.ppt

第3章聚类分析 - 聚类分析 1 ? 系统聚类分析 直观,易懂。 ? 快速聚类 快速,动态。 ? 有序聚类 保序(时间顺序或大小顺序)。 2 §1 什么是聚类分析 例对...


第7章 聚类分析_图文.ppt

第7章 聚类分析 - 多元统计分析 二、 最短距离法(single linkag


第七章 聚类分析_图文.ppt

第七章 聚类分析 - 高级生物统计 第七章 聚类分析 Clustering an


[教育学]第7章 聚类分析_图文.ppt

[教育学]第7章 聚类分析 - 多元统计分析 第三节 系统聚类方法 一、基本思想


聚类分析_图文.ppt

第十五章 聚类分析 Clustering 回顾 一元统计:只有一个变量:t检验,χ2检验。 ...应聘者数学推理能力 空间想象能力 语言理解能力 1 28 29 28 2 18 23 18 3...


SAS软件应用之聚类分析_图文.ppt

SAS软件应用之聚类分析 - 第18章 聚类分析 中国疾病预防控制中心 学习目标 了解聚类分析的基本思想; ? 了解聚类分析的一些常见统计量; ? 掌握聚类分析的基本方法;...


第十三章 聚类分析_图文.ppt

第十三章 聚类分析 - 第十三章 聚类分析 ? 在实际工作中,我们经常会遇到样品


(聚类分析)_图文.ppt

第五章聚类分析 Cluster Analysis 第一节 什么是聚类分析 聚类分析也是一种分类...18 19 20 21 22 23 24 25 26 27 28 29 30 DXBZ 9.30 4.67 .96 ...


聚类分析-_图文.ppt

ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 RED...聚类分析 PPT课件 暂无评价 94页 30.00 第10章 聚类分析 暂无评价 35...


第4章-聚类分析_图文.ppt

第4章-聚类分析_数学_自然科学_专业资料。主编:费宇 中国人民大学出版社 第4...7.18 6.26 7.98 9 10 2015/10/9 6.45 7.5 6.81 7.32 6.52 7.42 主编...


交通数据处理与分析 第三章 聚类分析_图文.ppt

交通数据处理与分析 第三章 聚类分析_数学_自然科学_专业资料。 ? 物以类聚...p x1 1 2 3 4 5 欧氏距离 20 18 10 4 4 x2 7 10 5 5 3 3 x3 ...


第十讲 聚类分析_图文.ppt

第十讲 聚类分析_经济学_高等教育_教育专区。第十讲聚类分析 1 聚类分析 1....? ? 18 比例标度变量 ? 比例标度变量: 在非线性的刻度取正的度量值,近似...


第十讲 聚类分析SPSS操作_图文.ppt

这是我最近看到的关于聚类最好的文章 2018-06-26 15:18:50 文档...第7讲 SPSS的聚类分析 19页 1下载券 SPSS数据分析教程-第10章... 47页...


SPSS聚类分析详解_图文.ppt

2、非系统聚类法---(快速聚类法---K-均值聚类法)(K-means Cluster) 3、两步聚类法---一种探索性的聚类方法(TwoStep Cluster) K-均值聚类分析 K-means Cl...


聚类分析_图文.ppt

18 (3)计算新的聚类中心 1 Z () ? 1 2 N1 1 Z () ? 2 2 N2 1 ...聚类分析 PPT课件 暂无评价 94页 30.00 第10章 聚类分析 暂无评价 35...


第4章 聚类分析及MATLAB实现(2012)_图文.ppt

第4章 聚类分析及MATLAB实现(2012)_数学_自然科学_专业资料。聚类分析及MATLAB...16.18 19.27 14.59 9.42 9.1 8.39 11.05 2.75 1.55 1.82 1.96 2.04...


第二章 聚类分析(20120917)_图文.ppt

第二章 聚类分析(20120917) - 第二章 聚类分析 系统聚类分析 直观,

网站首页 | 网站地图
All rights reserved Powered by 酷我资料网 koorio.com
copyright ©right 2014-2019。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com