基於k-均值聚類法的資料分析系統聚類分析:分類的原理與方法研究

作者:Jingle   審稿:任儒峰  封面:吉江

聚類分析(Cluster Analysis)是一種根據研究物件本身提供的資訊將其進行分類的數理統計方法,其實質是按照距離的遠近將資料分類,使資料資料類別內差異儘量小、類別間差異儘量大,並且在多元統計分析中,透過分類可以達到降維的目的。與K-均值聚類法一樣,系統聚類分析也是聚類分析方法的一種,又稱為譜系分析、層次聚類分析。

1

系統聚類基本原理

系統聚類分析(Hierarchical Cluster Analysis)的基本思想是,按照距離遠近,將距離相近的變數先聚成類,距離較遠的變數後聚成類,依次進行,直到每個變數都歸入合適的類中。

SPSS中系統聚類的過程如下:假設一份資料中有n個變數,第一步確定距離的基本含義和類間距離的計算方式;第二步將這n個變數各自聚成一類,共n類;第三步根據計算好的類間距離將距離相近的變數聚為一類,其他變數仍各自為一類,此時共n-1類;第四步將距離相近的類進一步聚合,此時為n-2類;。。。依次進行,直到資料完全歸為一個類別為止,此過程可以用樹狀圖或譜系圖來表示。

2

類間距離與系統聚類方法

系統聚類分析的前提是計算和確定類間距離,因此類間距離的計算方法不同,系統聚類法也不同。常用的類間距離定義有7種,對應7種系統聚類法,分別為:

1。最短距離法:指用兩個類別中各資料點間最短的距離代表類間距離,依據此最短距離將其併成一類。

2。最長距離法:指用兩個類別中各資料點間最長的距離代表類間距離,再用距離最小的來合併成類。

3。中間距離法:指用介於最長、最短距離之間的距離代表類間距離,再用最小的距離聚類。

4。重心法:指用兩個類別的重心間距離來表示類間距離,“重心”為各類樣品的均值,因而對類有很好的代表性。

5。組間連線法:指用兩個類別中各資料點兩兩之間距離平方的平均數表示類間距離,也稱類平均法,是SPSS預設的方法。

6。組內連線法:指用兩個類別中平均歐式平方距離最小的點間距離表示類間距離。

7。離差平方和法:也稱Ward法,基本思想來自於方差分析,即若分類正確,則類內離差平方和較小、類間離差平方和較大。每次聚類時,離差平方和要增大,此時選擇方差增加最小的兩類進行聚合,直到聚類完成。

以上方法中,最為穩健的類間距離計算方法是SPSS預設的組間連線法,大量實踐證明其在多數情況下表現優異。

3

系統聚類的優缺點

實際的聚類分析工作中,系統聚類是使用最多的一種聚類方法,它既可以對樣品聚類,也可以對變數聚類,變數可以是連續型變數也可以是分類變數。此外,它的類間距離計算方法和結果表示方法也十分豐富,因此得到很多使用者的青睞。其缺陷與其分析過程相關,由於每一步聚類都需要計算類間距離,當變數較多或樣本量較大時,運算速度較慢。

以上就是關於系統聚類分析的理論知識,下一節我們將結合具體的案例來向各位演示如何操作,請期待~

作者簡介

姓名:武亞靜

院校:黑龍江省社會科學院 研究生

擅長迴歸分析、因子分析

提==

學堂正在招募內容主筆、短影片創作者、課程講師,請在公眾號底部選單欄點選“招聘”瞭解詳情!