资料探勘datamining内容摘要:

程  資料探勘常用的技術  資料探勘的模型  資料探勘的應用  資料探勘的工具  資料探勘未來的發展與挑戰 26 知識發現的過程 資料前置處理 資料倉儲建立 資料探勘 樣式評估 結果展示 知識庫 使用者 多維度資料庫 資料庫 原始資料 資料收集 資料庫 27 資料收集  知識發現的第一個步驟  原始資料來源 資料庫系統 Excel表格 文字檔 網際網路 問卷調查 … 等等 28 資料前置處理  原因 真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用  資料探勘有 80%時間花費在前置作業 包含資料的淨化 、 格式轉換、表格的連結等前置作業 29 資料倉儲的建立  決策支援系統的基礎  含整合資料、詳細資料 、 總合性(summarized)資料 、 歷史性資料 、 描述資料 、綱要資料 線上分析處理 ( OnLine Analytical Processing, OLAP) 統計 、 分析功能 可由關聯式資料庫建構  Sybase、 Oracle、 Redbrick等 OLAP 提供多維度結構 (multidimensional structures)  使用者依據不同維度,例如產品、地區 、 其它更透徹的觀察角度做統計 30 資料探勘  用統計與模型化的方法  資料倉儲所提供的資訊,供資料探勘做進ㄧ步挖掘,而萃取隱藏知識後,再轉到知識庫  資料探勘是 知識發現 的一部分  知識發現的過程會影響資料探勘的成功 31 樣式評估  樣式評估 (pattern evaluation) 評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價值的知識供給使用者  範例 「天氣好,旅遊人數就多;天氣差,旅遊人數就少」,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識 32 結果展示  複雜的探勘結果要讓使用者看懂並不容易 需要圖形化介面,把有趣的知識做好的呈現 例如: Microsoft SQL Server 2020的圖形化介面非常豐富  用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態 33 第一章 資料探勘簡介  緣起  何謂資料探勘  資料探勘的演進  資料探勘與其他系統的比較  知識發現的過程  資料探勘常用的技術  資料探勘的模型  資料探勘的應用  資料探勘的工具  資料探勘未來的發展與挑戰 34 資料探勘常用的技術  傳統技術 以統計分析為代表  包括敘述統計、機率論、迴歸分析、類別資料分析  用高等統計學含括的變因分析 (factor analysis)精簡變數  用區隔分析 (discriminated analysis) 來做分類  用群集分析 (cluster analysis) 對象  大多是變數繁多且筆數龐大的資料 35 資料探勘常用的技術 (續 )  改良技術 類神經網路 (artificial neural work) 決策樹 (decision tree) 基因演算法 (geic algorithms) 規則推論法 (rules induction) 模糊理論 (fuzzy logic) 36 類神經網路  何謂類神經網路 模仿生物神經網路,用大量人工神經元 (neuron)模擬 高速的運算功能,有記憶、學習、容錯能力  運算方法 用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生 一組 最佳結果的加權值 (weights)  訓練方法-回溯 (backpropagation)  特性 預測根據不明確 對於測詴資料可以做相當正確的預測,但對於真實資料的預測,準確性差 37 類神經網路 運算範例  n維的輸入向量 x,透過矩陣相乘 (scalar product)和非線性函數映射的方法,對應到變數 y mk f 權重加總 輸入向量 x 輸出 y 活化函數 (Activation Function) 權重向量 w 229。 w0 w1 wn x0 x1 xn 38 決策樹  何謂決策樹 用樹狀結構產生規則 內部節點 (internal node)某項屬性的測詴 分支 (brache)被測詴屬性當中一個可能的值 葉節點 (leaf node)布林函數  運算方法 樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構  特性 適用於所有的分類問題 不一定較準確,但容易了解 39 決策樹範例 購買筆記型電腦 婚姻年齡收入否 是 否 否 是單身 已婚 30 = 30低中高婚姻年齡收入否 是 否 否 是單身 已婚低中高40 基因演算法  1960 年代 John Von Neumann 提出一個「自我複製」 (selfreproducing) 的理論,奠定了基因演算法的基礎  美國密西根大學教授 John Holland 延續此觀念,於 1970 年發展出簡單基因演算法( Simple Geic Algorithms 簡稱 SGA),使 基因演算法的架構有了初步的雛型 41 基因演算法 (續 )  基因演算法 (最佳化空間搜尋法 ) 適合解決最佳化問題 「物競天擇」、「適者生存,不適者淘汰」  運算方法 選擇 (selection)、複製 (reproduction)、 交配(crossover)、 突變 (mutation)進行演化,求最佳解  特性 高度的問題獨立性 不容易陷入局部最佳化 (local optimum),而向整體最佳解收斂 (global optimum) 42 透過適應函數 Fitness function 對每一個個體進行評估,並賦予每一個個體一個適應值 Fitness value 選擇 Selection 複製 Reproduction。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。