资料探勘datamining内容摘要:
程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰 26 知識發現的過程 資料前置處理 資料倉儲建立 資料探勘 樣式評估 結果展示 知識庫 使用者 多維度資料庫 資料庫 原始資料 資料收集 資料庫 27 資料收集 知識發現的第一個步驟 原始資料來源 資料庫系統 Excel表格 文字檔 網際網路 問卷調查 … 等等 28 資料前置處理 原因 真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用 資料探勘有 80%時間花費在前置作業 包含資料的淨化 、 格式轉換、表格的連結等前置作業 29 資料倉儲的建立 決策支援系統的基礎 含整合資料、詳細資料 、 總合性(summarized)資料 、 歷史性資料 、 描述資料 、綱要資料 線上分析處理 ( OnLine Analytical Processing, OLAP) 統計 、 分析功能 可由關聯式資料庫建構 Sybase、 Oracle、 Redbrick等 OLAP 提供多維度結構 (multidimensional structures) 使用者依據不同維度,例如產品、地區 、 其它更透徹的觀察角度做統計 30 資料探勘 用統計與模型化的方法 資料倉儲所提供的資訊,供資料探勘做進ㄧ步挖掘,而萃取隱藏知識後,再轉到知識庫 資料探勘是 知識發現 的一部分 知識發現的過程會影響資料探勘的成功 31 樣式評估 樣式評估 (pattern evaluation) 評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價值的知識供給使用者 範例 「天氣好,旅遊人數就多;天氣差,旅遊人數就少」,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識 32 結果展示 複雜的探勘結果要讓使用者看懂並不容易 需要圖形化介面,把有趣的知識做好的呈現 例如: Microsoft SQL Server 2020的圖形化介面非常豐富 用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態 33 第一章 資料探勘簡介 緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰 34 資料探勘常用的技術 傳統技術 以統計分析為代表 包括敘述統計、機率論、迴歸分析、類別資料分析 用高等統計學含括的變因分析 (factor analysis)精簡變數 用區隔分析 (discriminated analysis) 來做分類 用群集分析 (cluster analysis) 對象 大多是變數繁多且筆數龐大的資料 35 資料探勘常用的技術 (續 ) 改良技術 類神經網路 (artificial neural work) 決策樹 (decision tree) 基因演算法 (geic algorithms) 規則推論法 (rules induction) 模糊理論 (fuzzy logic) 36 類神經網路 何謂類神經網路 模仿生物神經網路,用大量人工神經元 (neuron)模擬 高速的運算功能,有記憶、學習、容錯能力 運算方法 用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生 一組 最佳結果的加權值 (weights) 訓練方法-回溯 (backpropagation) 特性 預測根據不明確 對於測詴資料可以做相當正確的預測,但對於真實資料的預測,準確性差 37 類神經網路 運算範例 n維的輸入向量 x,透過矩陣相乘 (scalar product)和非線性函數映射的方法,對應到變數 y mk f 權重加總 輸入向量 x 輸出 y 活化函數 (Activation Function) 權重向量 w 229。 w0 w1 wn x0 x1 xn 38 決策樹 何謂決策樹 用樹狀結構產生規則 內部節點 (internal node)某項屬性的測詴 分支 (brache)被測詴屬性當中一個可能的值 葉節點 (leaf node)布林函數 運算方法 樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構 特性 適用於所有的分類問題 不一定較準確,但容易了解 39 決策樹範例 購買筆記型電腦 婚姻年齡收入否 是 否 否 是單身 已婚 30 = 30低中高婚姻年齡收入否 是 否 否 是單身 已婚低中高40 基因演算法 1960 年代 John Von Neumann 提出一個「自我複製」 (selfreproducing) 的理論,奠定了基因演算法的基礎 美國密西根大學教授 John Holland 延續此觀念,於 1970 年發展出簡單基因演算法( Simple Geic Algorithms 簡稱 SGA),使 基因演算法的架構有了初步的雛型 41 基因演算法 (續 ) 基因演算法 (最佳化空間搜尋法 ) 適合解決最佳化問題 「物競天擇」、「適者生存,不適者淘汰」 運算方法 選擇 (selection)、複製 (reproduction)、 交配(crossover)、 突變 (mutation)進行演化,求最佳解 特性 高度的問題獨立性 不容易陷入局部最佳化 (local optimum),而向整體最佳解收斂 (global optimum) 42 透過適應函數 Fitness function 對每一個個體進行評估,並賦予每一個個體一個適應值 Fitness value 選擇 Selection 複製 Reproduction。资料探勘datamining
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。