数据挖掘与clementine培训手册(编辑修改稿)内容摘要:

条形图 饼形图 • 常见的描述连续变量的图形有 直方图 • 常见的描述两个离散变量之间关系的图形有 Web图 条形图 • 常见的描述两个连续变量之间关系的图形有 散点图 • 常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图 通过图形可以表现多个变量之间的关系 Chapter 2 Clementine 简介 Chapter 2 Clementine 简介 • 目的: –初步了解 Clementine软件 • 内容: – SPSS Clementine C/S – SPSS Clementine 面板 – SPSS Clementine 可视化程序使用基础 • 节点 – SPSS file 节点 – Table 节点 Clementine C/S • 启动: – Start..Programs..Clementine … • Clementine and Clementine Server –Tools…Server Login 1. 把很多操作放在 数据库层面上执行 2. 不能在数据库中执行的操作 放在强有力的 Server上执行 3. 客户端只用于观察 结果和发出分析挖掘 指令 4. 数据不必在网络上进行 大量无效的传输 . Clementine的结构示意图 Clementine 面板 流区域 Stream canvas 菜单栏 工具栏 面板区 pallete 节点区 node 流、结果、 模型管理区 项目管理区 第二讲:数据简单准备与理解 •数据准备之读入数据 •数据理解之数据质量 •数据理解之数据分布 Chapter 3 读取数据文件 Chapter 3 读取数据文件 • 目的 –掌握 Clementine如何读取文本格式数据 –了解 Clementine可以读取的数据格式 –掌握 Clementine中的字段类型和方向 • 数据 – Chapter 3 读取数据文件 • 内容及节点: – Clementine可以读取的数据格式 – 读取文本数据与查看数据 – 读取 SPSS数据 – 读取数据库数据(专用 spss配置的链接) – Clementine中的字段类型 – Clementine中的字段方向 – 保存 Clementine流 Clementine可以读取的数据格式 • 文本格式数据 • SPSS/SAS数据 • Excel, Access, dBase, Foxpro, Oracle,SQL Server, DB2等数据库(每次只能读一个表) • 用户输入数据 读取文本数据与查看数据 读取文本数据与查看数据 读取文本数据与查看数据 读取文本数据与查看数据 读取文本数据与查看数据 读取 SPSS数据 • 变量标签 • 值标签 读取数据库数据 • ODBC设置 数据库 表 Clementine中的字段类型 • 离散型 – 二分 eg: sex: m/f – 多分 eg:等级:好 /中 /差 – 离散 eg: • 连续型 – 整数 – 实数 – 日期、时间 • 其它 Clementine中的字段方向 读取其它格式的数据 • Sas • Fixed text file:同一字段在各行的同一列 Chapter 4 数据理解之数据质量 Chapter 4 数据理解之数据质量 • 目的: – 掌握如何应用 Clementine发现数据的准确性、完整性 – 熟悉用于数据质量分析的几个节点 • 内容: – 数据理解 – 缺失值定义 – Quality节点介绍 – Distribution节点 初步理解字符型字段的分布 – Histogram/Statistics节点 初步理解数值型字段的分布 • 数据: – – 数据理解的内容 • 对数据质量进行评价 • 对数据进行初步的描述 • 对数据之间的关系进行探索性分析 数据理解 • 在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的 – Histogram/Statistics – Distribution • 数据质量越高,挖掘结果准确性越高 – Quality 缺失值定义 • Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. • 缺失值的定义: type节点 – 系统默认缺失值 on • Null数值型字段 空值 ―‖―$Null‖ • Empty String 字符型字段 空值 ―‖ • White Space 字符型字段 空值以及空格值 ―‖或“ ” 包括 Empty String – 指定缺失值 Blank Value • 系统默认缺失值 • 指定特殊缺失值 ―99‖ • 缺失值的检查: quality节点 缺失值定义 缺失值定义 • 数据缺失情况 –数据量的大小 –包含缺失值的字段的数量 –缺失值的数量 • 缺失值的处理方法 –忽略含缺失值的字段 –忽略含缺失值的记录 –默认值代替缺失值 –根据一定规则填充缺失值 Quality节点介绍 • 查看缺失值情况 • 查看各类型缺失值的分布情况 • Blank Value的指定 Quality节点介绍 • Quality结果 Distribution节点 初步理解字符型字段的分布 • 单个字段的值分布 –例:人群中各种风险等级人数及百分比 • 与其它分类字段合并 –例:分性别显示各种风险等级人数及百分比 –例:各种风险等级中男性女性各占比例 Histogram/Statistics节点初步理解数值型字段的分布 • 单个字段的值分布 – 例:人群收入水平 • 与其它分类字段合并 – 例:显示各种风险等级的收入水平 – 例:显示各收入水平的各风险等级比例 Chapter 5 简单数据整理 Chapter 5 简单数据整理 • 目的: – 掌握 Clementine中的数据整理技术 – 熟悉用于数据整理的几个节点 • 内容 – Clem语言简介 – Select节点介绍 – Filter节点介绍 – Derive节点介绍 – 自动生成操作节点 • 数据 – – Clem语言简介 • Clementine Language of Expression Manipulation • 应用节点: Derive导出 , Select选择 , Filter过滤 • 构建材料:函数、符号、数字、字段 • 记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件 • 两种表达式:条件表达式与计算表达式 Select节点介绍 • 用于根据一定条件选择或丢弃某些记录 • CLEM构建 Filter节点介绍 • 对某些字段进行重命名或丢弃某些无意义的字段 • 无意义字段 –缺失值占大比例 –所有记录有相同值 –中间过程生成的中间变量 Derive节点介绍 • 根据原有字段值生成新字段值 –按公式生成字段 –生成二分型字段 –生成多分型字段 • 对所有记录按同样标准生成新字段 • 对不同记录按不同标准生成新字段 • 对多个字段进行同一转换 Derive节点介绍 可以利用导出把连续数据离散化(导出为标志及集合),以进一步分析 自动生成操作节点 • 自动生成“ Select‖ • 自动生成“ Filter‖ 第三讲主要内容 • 数据理解之数据关系探测 • 基本建模方法简要介绍 Chapter 6 数据理解之 数据间简单关系 Chapter 6 数据理解之数据间简单关系 • 目的: – 掌握如何理解字段间关系 – 熟悉用于字段关系理解的几个节点 • 内容 – Matrix节点 研究字符型字段间关系 – Web节点 研究字符型字段间关系 – Statistics节点 研究连续型字段间线性相关关系 – Plot节点 研究连续型字段间关系 – Histogram节点 研究连续型字段与字符型字段的关系 • 数据 – Chapter 6 数据理解之数据间简单关系 • 解决问题 –风险等级是否与收入有关 –风险等级是否与性别有关 –如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大 Matrix节点 研究字符型字段间关系 • 解决问题 –月付款的人是否比周付款的人风险程度更高 –男性是否比女性风险程序更高 • Matrix节点: –交叉表(列联表)来显示字符型数据间关系 –行字段与列字段的选择 –显示百分比 Matrix节点 研究字符型字段间关系 Web节点 研究字符型字段间关系 • 例:婚姻状态、抵押贷款等是否与风险等级有关 • 几个小概念: –人数 –总数百分比 –大类百分比 –小类百分比 • 强、中、弱相关关系 • 结果解读 Web节点 研究字符型字段间关系 Statistics节点 研究连续型字段间线性相关关系 • 例:收入是否随年龄呈线性增长 • Statistics节点设置 • 结果解读 • 注意: –线性相关关系而非相关关系 (线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究 ) Statistics节点 研究连续型字段间线性相关关系 Plot节点 研究连续型字段间关系 • 例:显示孩子数目与贷款数目的关系 • 用点的大小来反映其代表记录的多少 • 用点的密度来反映其代表记录的多少 • 用不同颜色的点来反映不同类别的记录 Plot节点 研究连续型字段间关系 Histogram节点 研究连续型字段与字符型字段的关系 • 例:不同风险等级的人的收入情况 • 显示某收入水平的各风险等级人数 • 显示某收入水平 各风险等级在该收入水平所占的比例 表格展现数据 表格的元素构成 统计量 行变量 层变量 列变量 汇总行 R S H I G H E S T D E G R E E H I G H S C H O O L5 0 8 3 0 20 6 6 0 3 0 2084 4 0 21 1 4 8 3 0 1142 3 0 7 58 3 0 106 3 4 3 0 21 8 6 6 3 0 20W H I T EB L A C KO T H E RT o t a lR A C E O FR E S P O N D E N TT o t a l N M e a n M in im u m M a x im u mH O U R S P E R D A Y W A T C H I N G T VM A L ET o t a l N M e a n M in im u m M a x im u mH O U R S P E R D A Y W A T C H I N G T VF E M A L ER E S P O N D E N T S S E X表格类型 在 SPSS里实现 • 堆叠表 (Stacking) • 嵌套表 (Nesting) • 交叉表 (Crosstabulation) • 分层表 (Layers) 堆叠表 2 1 62 5 83 6 32784女男性别普通管理人员普通技术人员经理职位类别2 1 6 2 5 8 3 6 3 27 84 女 男性别普通管理人员普通技术人员 经理职位类别嵌套表 2 0 6101 5 72774普通管理人员经理职位类别女普通管理人员普通技术人员经理。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。