数据挖掘数据挖掘模型评估(编辑修改稿)内容摘要:

本获利参数的输入对话框中,要输入: 总体(。 ) 固定成本(。 ) 单位成本(。 ) 每个收益(。 ):每个小概率事件发生时所得到的获利或是减少的损失。 2020/10/5 32  假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是 250元;而每成功销售一通的话第一年可以为公司净赚 1000元。  所以每打出去一通电话: 销售成功: 1000— 250=收益 750(即正确预测稀有事件) 销售失败:损失 250元 2020/10/5 33  直效行销设定: 总体: 50000;固定成本: 202000;单位成本:250;每个收益: 1000 2020/10/5 34 600000 500000 400000 300000 202000 0 100000 — 15万 535万 假设行销活动针对全体客户进行,获利为15万 从图上看,在概率最高的前 34%39%之间名单进行行销,可以获利的最高点是 535万元。 横轴表示模型会根据行销成功概率由高至低将客户排序 纵轴表示行销收益  下面来看信用评级的预测模型,预测的目标是违约客户,假设每个客户第一年带来的信用卡刷卡手续费以及利息收入为 6000元,每个信用卡违约客户违约时金额为20200元。  所以每预测一个客户违约状态: 违约户:损失为 20200— 6000=损失 14000元 正常户:获利 6000元 2020/10/5 35  信用评等模型设定: 总体: 50000;固定成本: 200,000;单位成本: — 6,000;每个收益: — 20,000 2020/10/5 36 600000 500000 400000 300000 202000 0 100000 横轴表示模型会根据违约概率由高至低将客户排序 本例最低点为 35%,因此,建议该银行针对违约概率最高的 35%客户拒绝发给信用卡 因为前半段都是高违约率客户,因此损失曲线是直线下降 纵轴表示行销收益 增益图和收益图都是用来评估类别变量预测问题的,如果遇到连续变量如何评估。 此时需要散布图。 如果预测的变量是连续型变量时,前面的分类矩阵、增益图和收益图都无法使用。 此时,在 SQL中 “增益图”会自动切换到“散布图”。 2020/10/5 37 体重90807060504030身高1801701601502020/10/5 38 600000 500000 400000 300000 202000 100000 0 0 100000 202000 300000 400000 500000 600000 横轴是实际数值 纵轴是预测数值 当模型越准确时,则代表预测值越接近实际值,也就是越接近45度线  以上介绍的均是分类模型的评估,对于聚类和关联规则并不适用。  聚类本身是无监督学习,并没有目标变量可以预测,只是从资料中找出潜在隐藏的相似性结构,因此聚类本身是一个诠释性的模型,而不具有预测力,所以无法判断准确率。  因此,聚类模型的好与坏就在于其质化的意义,即可诠释性的好与坏。 2020/10/5 39  至于关联规则,通常来说关联规则也是无监督学习,因为它的项目(例如,产品组合)过多,因此,每个选项本身就是小概率事件,所以不适合使用分类矩阵、增益图和收益图等工具来评估。  大多数情况下,通常建议大家使用 SQL2020提供的置信度、支持度以及重要性这三个指标作为关联规则成效的综合评判。 2020/10/5 40  这个公式表明,当“在 B中发生 A的概率”高于“在非 B的状况下发生 A的概率”时,该指标大于零,且此指标越大,表示 A会造成 B出现的概率显著提升。 如果此值为负,则代表在 A下越会抑制 B的发生。 在 SQL2020中,当规则为正值时,重要性图示会是蓝色,如果负值时,重要性规则会是红色;规则重要性排序是根据重要性指标绝对值进行的。 2020/10/5 41 t a n ( ) l o g BAi m p o r c e A BBA在 中 发 生 的 概 率在 非 中 发 生 概 率ta n ( ) l o gl o g 0im p o r c e A B  买 茶 又 买 咖 啡 的 概 率不 买 茶 而 买 咖 啡 的 概 率341 3 1 6负关联规则 2020/10/5 42 一、关于数据挖掘的经典故事和案例 二、数据挖掘入门 三、数据挖掘与统计学的关系 四、数据挖掘软件 43 2020/10/5  正在影响中国管理的 10大技术  从数字中能够得到什么。  一个网络流传的笑话  啤酒与尿布  网上书店关联销售的案例  数据挖掘在企业中的应用 44 2020/10/5 45 2020/10/5  数据挖掘 What are these numbers trying to Tell me???  99:8179 ,7954 ,  舅舅:不要吃酒,吃酒 误事 ,  76269 ,8406 ,9405,  吃了二 两 酒,不是 动 怒,就是 动 武,  7918934 ,1 .91817。  吃酒要被酒 杀 死,一 点 酒也不要吃。 2020/10/5 46  7 247。 2  2≦ x≦ 3  40 247。 6  二四六八  0000  1 1 = 1  10002 =100 100 100  7/8 47  不三不四  接二连三  陆续不断  无独有偶  挂万漏一  一成不变  千方百计  七上八下 2020/10/5  客服 :“东东披萨店您好 !请问有什么需要我为您服务。 ”  顾客 :“你 好 , 我想要 …… ”  客服 :“先生,请把您的 AIC会员卡号码告我。 ”  顾客 :“喔 !请等等, 12345678。 ” 48 2020/10/5 ( )  顾客。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。