数据挖掘数据挖掘模型评估(编辑修改稿)内容摘要:
本获利参数的输入对话框中,要输入: 总体(。 ) 固定成本(。 ) 单位成本(。 ) 每个收益(。 ):每个小概率事件发生时所得到的获利或是减少的损失。 2020/10/5 32 假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是 250元;而每成功销售一通的话第一年可以为公司净赚 1000元。 所以每打出去一通电话: 销售成功: 1000— 250=收益 750(即正确预测稀有事件) 销售失败:损失 250元 2020/10/5 33 直效行销设定: 总体: 50000;固定成本: 202000;单位成本:250;每个收益: 1000 2020/10/5 34 600000 500000 400000 300000 202000 0 100000 — 15万 535万 假设行销活动针对全体客户进行,获利为15万 从图上看,在概率最高的前 34%39%之间名单进行行销,可以获利的最高点是 535万元。 横轴表示模型会根据行销成功概率由高至低将客户排序 纵轴表示行销收益 下面来看信用评级的预测模型,预测的目标是违约客户,假设每个客户第一年带来的信用卡刷卡手续费以及利息收入为 6000元,每个信用卡违约客户违约时金额为20200元。 所以每预测一个客户违约状态: 违约户:损失为 20200— 6000=损失 14000元 正常户:获利 6000元 2020/10/5 35 信用评等模型设定: 总体: 50000;固定成本: 200,000;单位成本: — 6,000;每个收益: — 20,000 2020/10/5 36 600000 500000 400000 300000 202000 0 100000 横轴表示模型会根据违约概率由高至低将客户排序 本例最低点为 35%,因此,建议该银行针对违约概率最高的 35%客户拒绝发给信用卡 因为前半段都是高违约率客户,因此损失曲线是直线下降 纵轴表示行销收益 增益图和收益图都是用来评估类别变量预测问题的,如果遇到连续变量如何评估。 此时需要散布图。 如果预测的变量是连续型变量时,前面的分类矩阵、增益图和收益图都无法使用。 此时,在 SQL中 “增益图”会自动切换到“散布图”。 2020/10/5 37 体重90807060504030身高1801701601502020/10/5 38 600000 500000 400000 300000 202000 100000 0 0 100000 202000 300000 400000 500000 600000 横轴是实际数值 纵轴是预测数值 当模型越准确时,则代表预测值越接近实际值,也就是越接近45度线 以上介绍的均是分类模型的评估,对于聚类和关联规则并不适用。 聚类本身是无监督学习,并没有目标变量可以预测,只是从资料中找出潜在隐藏的相似性结构,因此聚类本身是一个诠释性的模型,而不具有预测力,所以无法判断准确率。 因此,聚类模型的好与坏就在于其质化的意义,即可诠释性的好与坏。 2020/10/5 39 至于关联规则,通常来说关联规则也是无监督学习,因为它的项目(例如,产品组合)过多,因此,每个选项本身就是小概率事件,所以不适合使用分类矩阵、增益图和收益图等工具来评估。 大多数情况下,通常建议大家使用 SQL2020提供的置信度、支持度以及重要性这三个指标作为关联规则成效的综合评判。 2020/10/5 40 这个公式表明,当“在 B中发生 A的概率”高于“在非 B的状况下发生 A的概率”时,该指标大于零,且此指标越大,表示 A会造成 B出现的概率显著提升。 如果此值为负,则代表在 A下越会抑制 B的发生。 在 SQL2020中,当规则为正值时,重要性图示会是蓝色,如果负值时,重要性规则会是红色;规则重要性排序是根据重要性指标绝对值进行的。 2020/10/5 41 t a n ( ) l o g BAi m p o r c e A BBA在 中 发 生 的 概 率在 非 中 发 生 概 率ta n ( ) l o gl o g 0im p o r c e A B 买 茶 又 买 咖 啡 的 概 率不 买 茶 而 买 咖 啡 的 概 率341 3 1 6负关联规则 2020/10/5 42 一、关于数据挖掘的经典故事和案例 二、数据挖掘入门 三、数据挖掘与统计学的关系 四、数据挖掘软件 43 2020/10/5 正在影响中国管理的 10大技术 从数字中能够得到什么。 一个网络流传的笑话 啤酒与尿布 网上书店关联销售的案例 数据挖掘在企业中的应用 44 2020/10/5 45 2020/10/5 数据挖掘 What are these numbers trying to Tell me??? 99:8179 ,7954 , 舅舅:不要吃酒,吃酒 误事 , 76269 ,8406 ,9405, 吃了二 两 酒,不是 动 怒,就是 动 武, 7918934 ,1 .91817。 吃酒要被酒 杀 死,一 点 酒也不要吃。 2020/10/5 46 7 247。 2 2≦ x≦ 3 40 247。 6 二四六八 0000 1 1 = 1 10002 =100 100 100 7/8 47 不三不四 接二连三 陆续不断 无独有偶 挂万漏一 一成不变 千方百计 七上八下 2020/10/5 客服 :“东东披萨店您好 !请问有什么需要我为您服务。 ” 顾客 :“你 好 , 我想要 …… ” 客服 :“先生,请把您的 AIC会员卡号码告我。 ” 顾客 :“喔 !请等等, 12345678。 ” 48 2020/10/5 ( ) 顾客。数据挖掘数据挖掘模型评估(编辑修改稿)
相关推荐
生成的会可能会 Overfit 太多的分支 , 有些可能是对异常例外的反映 在进行预测的时候准确率比较差 两种 预修剪 : 难点:选择一个域值比较困难 后修建 : 先生成完整的树,然后进行修剪 使用另外一个的一个测试集来决定哪个树最好 2020年 10月 5日星期一 Data Mining: Concepts and Techniques 24 决定最终树大小的方法
空。 其中的判断条件是不科学的。 实际上,当 =maxsize1,时,对列未必满,出现了 “假溢出”现象。 采用循环对列可以解决这一问题。 循环队列 循环队列就是把顺序队列的头和尾相连,构成一个闭环。 (见图) 当尾指针 =max1 时,若要插入 (删除)一个元素, 则要插入到第 0个位置, 即 [(max1)+1] % max=0 (取余数)。 若 max=8 时,要插入一个元素,应插入到第
挖掘:路线图 布尔 vs. 定量 关联 (基于规则中所处理数据的值类型 ) buys(x, ―SQLServer‖) ^ buys(x, ―DMBook‖) buys(x, ―DBMiner‖) [%, 60%] age(x, ―30..39‖) ^ ine(x, ―42..48K‖) buys(x, ―PC‖) [1%, 75%] 单维 vs. 多维 关联
距离的分割是更有“意义”的离散化方法,考虑 : 区间内密度或点的个数 区间内点的“紧密程度 价格( $ )等宽( 宽度 $10)等深( 深度 2) 基于距离7 [ 0 , 1 0 ] [ 7 , 2 0 ] [ 7 , 7 ]20 [ 1 1 , 2 0 ] [ 2 2 , 5 0 ] [ 2 0 , 2 2 ]22 [ 2 1 , 3 0 ] [ 5 1 , 5 3 ] [ 5 0 ,
条形图 饼形图 • 常见的描述连续变量的图形有 直方图 • 常见的描述两个离散变量之间关系的图形有 Web图 条形图 • 常见的描述两个连续变量之间关系的图形有 散点图 • 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图 通过图形可以表现多个变量之间的关系 Chapter 2 Clementine 简介 Chapter 2 Clementine 简介 • 目的: –初步了解
≥0 , s+≥0 54 式中, VP、 VD为规划目标值; ω 、λ 、 μ 为规划决策变量; s+、 s-为松弛变量; x0、 y0为被评价单元已知的输入输出指标向量; ε 为非阿基米德无穷小量,一般取 ε = 10- 6; n为决策单元数。 55 线性规划 Dε可以一次性判断第 j0个决策单元 D M Uj 0是 D E A 有效、弱 D E A 有效或非 D E A 有效。 设