第8章群集分析:基本概念与演算法内容摘要:

預先發掘離群值並刪除它們通常是有用的 Kmeans:其他議題  減少 SSE與後處理 :一個用來減少 SSE的顯著方法是去找尋多個群集,即使用較大的 K。 然而,在許多情況中,我們可能會去改善 SSE,但不會要去增加群集的數量,這通常是可能的,因為 Kmeans基本上會收斂到一個區域最小值。 有很多技術可用來改進所產生的群集,以產生有較小SSE的分群,這樣的策略是著重於個別的群集,因為總和SSE為每個群集對 SSE貢獻的加總 藉由增加群集數量以減少總和 SSE的策略 – 分裂群集:有最大 SSE值的群集通常會被選擇,但也可針對某一個特定屬性,將群體根據最大的標準差進行分割 – 提出新的群集中心點:通常會選擇遠離任何群中心的點。 若記錄每個點對 SSE的貢獻,則可以很簡單地決定這個點。 另一個方法是從所有的點中隨機選擇或從有最大 SSE的點選擇 總和 SSE的增量最小化時,減少群集數量的策略 – 解散群集:這個是藉由移除群集所對應之中心點,以及重新分配資料點給其他群集來達成。 理想上,被分散的群集會增加總和SSE – 合併兩個群集:基本上會選擇最近的群中心,雖然其他方法是去合併兩個群集,使得總和 SSE有最小增量 – 兩個合併策略是相同的,皆使用在階層式分群技術,如中心點方法和 Ward’s method  遞增式更新中心點:為了取代在分配所有的資料點至群集後才會更新群中心的方式,我們可以在每一次分配點給群中心後就進行更新。 要注意的是:因為資料點會移動到新的群集(兩次更新),或停留在它現在的群集(零次更新),因此每一步驟需要零次或兩次更新。 Kmeans與不同類型的群集  Kmeans和它的變型在找尋不同類型的群集時有一些限制,尤其是當群集是非球型( nonspherical shapes),或有各種不同之大小或密度時。 Kmeans在發現「自然的」(natural)群集會有困難 有不同大小之 Kmeans群集 有不同密度之 Kmeans群集 非球狀之 Kmeans群集 優點與缺點  Kmeans很簡單且廣泛地使用在各種不同的資料型態上,即使執行多次也同樣是相當有效率的。 一些變型,包含 bisecting Kmeans,會更有效率且不會受到初始問題的影響  Kmeans並不適用於所有類型的資料,它不能處理非球狀( nonglobular)的群集,或是有不同大小與密度之群集,然而若有足夠多的群集,基本上它可以找到乾淨的子群集  對有包含離群值之資料, Kmeans在做分群時會有困難  Kmeans會因為中心(中心點)的標示而受資料的限制,相關技術 - Kmedoid分群法並沒有這個限制,但是成本很昂貴 凝聚式階層分群  階層分群技術( hierarchical clustering techniques)是第二重要的分群方法類別  如同 Kmeans,這。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。