第8章群集分析：基本概念与演算法

范文 2025-04-21 0° 格式：PPT大小：916.50KB页数：47价格：24

第8章群集分析：基本概念与演算法内容摘要：

預先發掘離群值並刪除它們通常是有用的 Kmeans：其他議題  減少 SSE與後處理：一個用來減少 SSE的顯著方法是去找尋多個群集，即使用較大的 K。然而，在許多情況中，我們可能會去改善 SSE，但不會要去增加群集的數量，這通常是可能的，因為 Kmeans基本上會收斂到一個區域最小值。有很多技術可用來改進所產生的群集，以產生有較小SSE的分群，這樣的策略是著重於個別的群集，因為總和SSE為每個群集對 SSE貢獻的加總藉由增加群集數量以減少總和 SSE的策略 – 分裂群集：有最大 SSE值的群集通常會被選擇，但也可針對某一個特定屬性，將群體根據最大的標準差進行分割 – 提出新的群集中心點：通常會選擇遠離任何群中心的點。若記錄每個點對 SSE的貢獻，則可以很簡單地決定這個點。另一個方法是從所有的點中隨機選擇或從有最大 SSE的點選擇總和 SSE的增量最小化時，減少群集數量的策略 – 解散群集：這個是藉由移除群集所對應之中心點，以及重新分配資料點給其他群集來達成。理想上，被分散的群集會增加總和SSE – 合併兩個群集：基本上會選擇最近的群中心，雖然其他方法是去合併兩個群集，使得總和 SSE有最小增量 – 兩個合併策略是相同的，皆使用在階層式分群技術，如中心點方法和 Ward’s method  遞增式更新中心點：為了取代在分配所有的資料點至群集後才會更新群中心的方式，我們可以在每一次分配點給群中心後就進行更新。要注意的是：因為資料點會移動到新的群集（兩次更新），或停留在它現在的群集（零次更新），因此每一步驟需要零次或兩次更新。 Kmeans與不同類型的群集  Kmeans和它的變型在找尋不同類型的群集時有一些限制，尤其是當群集是非球型（ nonspherical shapes），或有各種不同之大小或密度時。 Kmeans在發現「自然的」（natural）群集會有困難有不同大小之 Kmeans群集有不同密度之 Kmeans群集非球狀之 Kmeans群集優點與缺點  Kmeans很簡單且廣泛地使用在各種不同的資料型態上，即使執行多次也同樣是相當有效率的。一些變型，包含 bisecting Kmeans，會更有效率且不會受到初始問題的影響  Kmeans並不適用於所有類型的資料，它不能處理非球狀（ nonglobular）的群集，或是有不同大小與密度之群集，然而若有足夠多的群集，基本上它可以找到乾淨的子群集  對有包含離群值之資料， Kmeans在做分群時會有困難  Kmeans會因為中心（中心點）的標示而受資料的限制，相關技術－ Kmedoid分群法並沒有這個限制，但是成本很昂貴凝聚式階層分群  階層分群技術（ hierarchical clustering techniques）是第二重要的分群方法類別  如同 Kmeans，這。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签：群集基本概念分析

第8章群集分析：基本概念与演算法

相关推荐

密码登录

账号注册