關于kmeans算法報告總結
一、 背景知識簡介:
Kmeans算法是一種經典的聚類算法,在模式識別中得到了廣泛的應用,基于Kmeans的變種算法也有很多,模糊Kmeans、分層Kmeans等。
Kmeans和應用于混合高斯模型的受限EM算法是一致的。高斯混合模型廣泛用于數據挖掘、模式識別、機器學習、統計分析。Kmeans的迭代步驟可以看成E步和M步,E:固定參數類別中心向量重新標記樣本,M:固定標記樣本調整類別中心向量。K均值只考慮(估計)了均值,而沒有估計類別的方差,所以聚類的結構比較適合于特征協方差相等的類別。
二、 k-means聚類算法
k-means 算法接受參數 k ;然后將事先輸入的n個數據對象劃分為 k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。
K-means算法是最為經典的基于劃分的聚類方法,是十大經典數據挖掘算法之一。K-means算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的'值,直至得到最好的聚類結果。
(1)算法思路:
首先從n個數據對象任意選擇 k 個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然 后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數. k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。
該算法的最大優勢在于簡潔和快速。算法的關鍵在于初始中心的選擇和距離公式。
(2)算法步驟:
step.1---初始化距離K個聚類的質心(隨機產生)
step.2---計算所有數據樣本與每個質心的歐氏距離,將數據樣本加入與其歐氏距離最短的那個質心的簇中(記錄其數據樣本的編號)
step.3---計算現在每個簇的質心,進行更新,判斷新質心是否與原質心相等,若相等,則迭代結束,若不相等,回到step2繼續迭代。
【關于kmeans算法報告總結】相關文章:
算法類論文開題報告11-11
績效工資的算法10-13
失業保險的算法06-10
年假加班工資的算法10-10
辭退員工補償扣稅算法05-17
辭退員工補償的算法05-10
工齡的四種算法12-03
常見的算法面試題解法09-21
個人所得稅計算法09-07