spssclementine和knime数据挖掘入门(编辑修改稿)内容摘要:
图 从 web 和 GRI 分析结果来看可以找出三组强连接: ( 1) beer、 cannedveg、 frozenmeal ( 2) wine、 confectionery ( 3) fruitveg、 fish 从而可以归纳出三类客户,通过 derive 节点生成一个标记字段来区别这三类客户,在 derive 节点中增加一个 set 类型字段,如下: 更正:上式中 3 对应得条件应为 (39。 frozenmeal39。 == 39。 T39。 and 39。 beer39。 == 39。 T39。 ) and (39。 cannedveg39。 == 39。 T39。 and 39。 beer39。 == 39。 T39。 ) and (39。 cannedveg39。 == 39。 T39。 and 39。 frozenmeal39。 == 39。 T39。 ) 图 另一种方法:把鼠标放在连线上,线变成红色后点击右键的 generate derive node for link 这时就生成了一个二分变量。 由 web 显示器生成三个二分变量来标记三种客户: 欲描述这些客户群的特征,我们可以通过关联规则或决策树来观察,增加一个 type 节点,把关于客户资料的一些变量设置为 in, beer_beans_pizza 设置为 out,其他的为 none,通过 节点,运行得到结果,可以看出,属于这类群的客户特征 :收入低于 16900 的女性 图 图 assessment 通过节点 analysis 来评价模型,可以使用另一个数据集来进行验证模型,这里继续使用原数据来看模型的效果。 在 analysis 节点中选择 coincidence matices 最后得到的效果如下: Correct 967 % Wrong 33 % Total 1000 图 图 二、客户流失 下面的试验是对客户流失预警的模拟,数据资料来源于 05 年 1 月份以前,我们要做的是在试验当月( 12 月份)根据客户 11 月份及以前的数据,预测用户 1月份的流失状态。 按如下规则抽样:选取在网时长大于 90 天, 11 月份 mou 值大于零,且倒数第二位号码为 0 的客户 10000 人。 用户流失状态按如下定义: 1 月份 mou 值为零则定 义为流失,赋值输出变量为 0,否则为不流失,赋值输出变量为 1。 SQL 读取数据并编辑字段属性 我们选用 SQL 节点从 oracle 中读取数据。 如图 1 在 SQL 节点编辑中首先需要建立数据源和 clementine的连接,在 datasource下选择 add new就会弹出图 窗口,选择我们需要的数据源即可。 图 图 图 中的 datasources 都是已在 ODBC中建立好的连接。 然后在 tablename 中选择数据表,如图 : 图 接着在 type 标签里设置字段的类型和在模型中的角色(输入或输出),如图: 图 其中我们设置最后一个变量为 flag(二值型),并当作目标输出。 如图 所示在添加的 sample 节点中设置随机抽取 50 的样本, 图 由于流失与否的客户在样本中所占比例相差很大(约 3:7),这对许多训练模型来 说会有错误的诱导趋势,使训练结果向比例大的一方转变,而忽视对比例小的一方的学习,比如神经网络等,这里我们用 balance 节点对数据集进行平衡处理,如图 : 图 图 6 中表示的是目标变量为 0 的用户数增为原来的 3 倍,多于的部分复制原有客户即可;目标变量为 1 的客户取原来的 *100%,这样样本中目标为 0 和 1的客户数量就基本持平了。 这里我们选择两个模型,神经网络( NN 节点)和决策树( 节点),分别设置它们的目标变量和输入变量(由于前面都已经设置好了,所以此处用 默认值也可以),如图 :左侧为 ,右侧为 NN,他们选择输入和目标的方法相似,只是在 NN 设置时选择 50%的样本为测试集,如右侧图中 prevent overtraining一栏。 图 到目前为止,我们的整个的处理过程已如下图所示: 图 执行此流我们能得到如下图示的两个模型: 图 首先,把在第 5 步得到的模型( Models)加入到流中,直接从 Model 面板将其拖入流程区即可。 如图 所示连接,在串联了两个 Model 后,再增加一个Analysis 节点,对模型进行评估。 Analysis 节点只能判断模型总的准确率,而我们更关心的是模型对 1 和 0 分别进行预测的正确率,所以在两个 Model 下各自加入一个 Matrix 节点,他们的设置如图 ,其中 $NSYH2NISOMOUZ 和$CSYH2NISOMOUZ 分别是两个模型预测的结果,右面的 Appearance 标签中选中行列百分比。 图 图 运行图 中的 L1 路线(此时 L2 和 L3 都尚未连接,运行 L L3 时同理),对训练集进行测试,会得到如图 12 的 3 个输出,从总可以看出 2 个模型各自的准确率。 Analysis 中输出的是两个模型总的准确率,以及两个预测后重合部分的准确率, Matrix 节点输出的是各模型分别预测 1 和 0 的准确率和覆盖率: row%一行是L1 L3 L2 L3 Table 覆盖率, column%一列是准确率。 图 然后运行 L2 路线,它是抽取了原始样本剩余的 50%的数据对得到的模型进行一下测试,所得结果和图 类似。 只是这里注意样本的抽取技巧,因为我们取的是随机样本,为了避免训练和测试样本重复,作如下设置,训练集的 sample 节点如左侧,测试集如右侧,一个选择 include,一个选择 discard,下面的 random seed 一定要填写相同的随机种子。 图 最后运行 L3 路线,对另一样本集作预测,需要在最后添加一个 Table 节点,以显示预测的结果,如图。 Analysis 输出 两个 Matrix节点输出 图 三、 零售业范例 主要用来处理零售产品以及受促销的影响。 目标:预测将来促销所带来的影响 the Data 每条记录包括字段: Class: 产品类型 Price: 单价 Promotion: 具体促销的计量指标 Before:促 销 前的收入 After:促 销后 的收入 cost:促销的成本 促销前后的差额就是 促销带来的收益,首先通过 derive 节点来增加一个字段increase 表示收入增加百分比 (After Before) / Before*100, 并 通过图形节点观察收益值的分布。 图 收入增加的分布图如下: 图 Cost 与 increase 的散点图如下: 图 Promotion 与 increase 散 点图如下: 图中不同的颜色代表不同产品。 从上面的途中均可以看出促销对不同的产品影响也不同, promotion 与increase 有一定的线性关系,接下来我们可以用神经网络和决策树来对进行分析预测。 用另一个数据集 goods2n 来验证 ,可以把各个模型得到的预测值输出,通过analysis 节点来比较两个模型。 图 图 图 四 、 欺诈发现案例 the Data 背景是关于对农业发展贷款的申请,每一条记录描述的是某一个农场对贷款的申请,我们主要考虑两种贷款问题:土地开发贷款和退耕贷款。 各个字段: id. 唯一的 识 別字 name. 申请 人名 (midlands/north/southwest/southeast) andquality. 农场 主 对 地 产质 量的 声 明 rainfall. 农场 的年降雨量 farmine. 农场 的年 产 量 maincrop. 主要作物 (maize/wheat/potatoes/rapeseed) claimtype. 申请贷款类 (demission_land/arab。spssclementine和knime数据挖掘入门(编辑修改稿)
相关推荐
围小于 .001,所以估计在迭代次数 12 处终止。 SPSS 19(中文版 )统计分析实用教程 电子工业出版社 32 模型分类预测值表 二元 Logistic回归分析 此时模型的预测准确率已达到97%。 表格从左到右依次表示变量及常数项的系数值( B)、标准误差( .)、 Wald卡方值、自由度( df)、相伴概率( Sig.)、 Exp( B)。 由于各回归系数均为正数
频数分析 t 检 验 单样本 t检验 one sample t test 配对资料 t检验 paired samples t test 方差齐性检验 homogeneity test 两独立样本 t检验 tow sample t test for independent sample 校正 t检验 separate variance estimation t test
) 0( | , ) ( 39。 )EWVa r W E εXIε X ε ε GDP Output Production China 2020 [] CobbDouglass Production Function ln(GDP) = a + b ln(L) + g ln(K) + bw W ln(L) + gw W ln(K) + OLS Parameter
wer should be Copyright 169。 The McGrawHill Companies, Inc. Permission required for reproduction or display. Race Condition Time Line T h r e a d A T h r e a d BV a l u e o f a r e a1 1 . 6 6 7+ 3 .
换上平民服装与杜元纪出城东行,登上古坟墓,观望云气。 有人告发李义府窥测灾异,图谋不轨。 他又派遣儿子右司议郎李津找长孙无忌的孙子长孙延,收受七百缗钱后,授给长孙延司津监的官职。 右金吾仓曹参军杨行颖将此事告发。 夏季,四月,乙丑(疑误),朝廷将李义府逮捕入狱,派遣司刑太常伯刘祥道与御史、详刑寺官员共同审讯,还命令司空李世 监督此事。 他所犯罪行都属实。 戊子(初五),唐高宗下诏令
stdt yymmdd10. exchflg $1. stktype $1.。 informat stkcd $6. lstknm $12. lstdt yymmdd10. delistdt yymmdd10. exchflg $1. stktype $1.。 label stkcd=39。 股票代码 |stock code39。 lstknm=39。 最新股票名称 |latest stock