第8章群集分析:基本概念与演算法内容摘要:
預先發掘離群值並刪除它們通常是有用的 Kmeans:其他議題 減少 SSE與後處理 :一個用來減少 SSE的顯著方法是去找尋多個群集,即使用較大的 K。 然而,在許多情況中,我們可能會去改善 SSE,但不會要去增加群集的數量,這通常是可能的,因為 Kmeans基本上會收斂到一個區域最小值。 有很多技術可用來改進所產生的群集,以產生有較小SSE的分群,這樣的策略是著重於個別的群集,因為總和SSE為每個群集對 SSE貢獻的加總 藉由增加群集數量以減少總和 SSE的策略 – 分裂群集:有最大 SSE值的群集通常會被選擇,但也可針對某一個特定屬性,將群體根據最大的標準差進行分割 – 提出新的群集中心點:通常會選擇遠離任何群中心的點。 若記錄每個點對 SSE的貢獻,則可以很簡單地決定這個點。 另一個方法是從所有的點中隨機選擇或從有最大 SSE的點選擇 總和 SSE的增量最小化時,減少群集數量的策略 – 解散群集:這個是藉由移除群集所對應之中心點,以及重新分配資料點給其他群集來達成。 理想上,被分散的群集會增加總和SSE – 合併兩個群集:基本上會選擇最近的群中心,雖然其他方法是去合併兩個群集,使得總和 SSE有最小增量 – 兩個合併策略是相同的,皆使用在階層式分群技術,如中心點方法和 Ward’s method 遞增式更新中心點:為了取代在分配所有的資料點至群集後才會更新群中心的方式,我們可以在每一次分配點給群中心後就進行更新。 要注意的是:因為資料點會移動到新的群集(兩次更新),或停留在它現在的群集(零次更新),因此每一步驟需要零次或兩次更新。 Kmeans與不同類型的群集 Kmeans和它的變型在找尋不同類型的群集時有一些限制,尤其是當群集是非球型( nonspherical shapes),或有各種不同之大小或密度時。 Kmeans在發現「自然的」(natural)群集會有困難 有不同大小之 Kmeans群集 有不同密度之 Kmeans群集 非球狀之 Kmeans群集 優點與缺點 Kmeans很簡單且廣泛地使用在各種不同的資料型態上,即使執行多次也同樣是相當有效率的。 一些變型,包含 bisecting Kmeans,會更有效率且不會受到初始問題的影響 Kmeans並不適用於所有類型的資料,它不能處理非球狀( nonglobular)的群集,或是有不同大小與密度之群集,然而若有足夠多的群集,基本上它可以找到乾淨的子群集 對有包含離群值之資料, Kmeans在做分群時會有困難 Kmeans會因為中心(中心點)的標示而受資料的限制,相關技術 - Kmedoid分群法並沒有這個限制,但是成本很昂貴 凝聚式階層分群 階層分群技術( hierarchical clustering techniques)是第二重要的分群方法類別 如同 Kmeans,這。第8章群集分析:基本概念与演算法
本资源仅提供20页预览,下载后可查看全文
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。
相关推荐
第8讲文件压缩与解压
缩。 例如: ray@geecy:~$ tar cf /bin 第 8讲 文件压缩与解压 第 6页 共 11页 文件的压缩 (续 ) 命令 gzip可以实现单个文件的压缩。 例如: ray@geecy:~$ gzip 第 8讲 文件压缩与解压 第 7页 共 11页 文件的解压 解压缩可以按照压缩的相反步骤进行 ,即先使用 gzip解压 , 再使用 tar从归并文件中
第8章高级汇编语言技术
言程序设计》 冶金工业出版社 第 8章 高级汇编语言技术 局部符号伪指令 汇编程序中提供伪指令 LOCAL,解决标号的多重定义 问题。 伪指令 LOCAL格式: LOCAL 标号表 在每次宏展开时 , 汇编程序对 LOCAL伪指令说明的 标号或变量用唯一的符号 “ ??XXXX”( XXXX表示 0000FFFF的十六进制数 ) 代替。 《 IBM PC 80X86汇编语言程序设计》
第8章网络的基本概念与设置
设定 IP地址及 TCP/IP基本参数 • 通过 setup或者 config命令可以很方便的设定 IP地址和 TCP/IP基本参数。 • Use dynamic IP configuration (BOOTP/DHCP):设定从 DHCP服务器获取 IP等参数。 • IP address:配置 IP地址。 • Netmask:配置子网掩码。 • Default gateway:配置默认网关。