sas数据挖掘白皮书(20doc)-经营管理(编辑修改稿)内容摘要:

这都是要首先探索的内容。 进行数据特征的探索、分析,最好是能进行可视化的操作。 SAS 有:SAS/INSIGHT和 SAS/SPECTRAVIEW两个产品给你提供了可视化数据操作的最强有力的工具、方法和图形。 它们不仅能做各种不同类型统计分析显示,而且可做多维、动态、甚至旋转的显示。 这里的数据探索,就 是我们通常所进行的深入调查的过程。 你最终要达到的目的可能是要搞清多因素相互影响的,十分复杂的关系。 但是,这种复杂的关系不可能一下子建立起来。 一开始,可以先观察众多因素之间的相关性;再按其相 SAS 数据挖掘白皮书 8 关的程度,以了解它们之间相互作用的情况。 这些探索、分析,并没有一成不变操作规律性;相反,是要有耐心的反复的试探,仔细的观察。 在此过程中,你原来的专业技术知识是非常有用的,它会帮助你进行有效的观察。 但是,你也要注意,不要让你的专业知识束缚了你对数据特征观察的敏锐性。 可能实际存在着你的先验知识认为不存在的关系。 假如你的数据是真 实可靠的话,那末你绝对不要轻易地否定数据呈现给你的新关系。 很可能这里就是发现的新知识。 有了它,也许会导引你在此后的分析中,得出比你原有的认识更加符合实际的规律性知识。 假如在你的操作中出现了这种情况,应当说,你的数据挖掘已挖到了有效的矿脉。 在这里要提醒你的是要有耐心,做几种分析,就发现重大成果是不大可能的。 所幸的是 SAS 向你提供了强有力的工具,它可跟随你的思维,可视化、快速的作出反应。 免除了数学的复杂运算过程和编制结果展现程序的烦恼和对你思维的干扰。 这就使你数据分析过程集聚于你业务领域的问题,并使你的思维保 持了一个集中的较高级的活动状态,从而加速了你的思维过程,提高了你的思维能力。 Modify──问题明确化、数据调整和技术选择 通过上述两个步骤的操作,你对数据的状态和趋势可能有了进一步的了解。 对你原来要解决的问题可能会有了进一步的明确;这时要尽可能对问题解决的要求能进一步的量化。 问题越明确,越能进一步量化,问题就向它的解决更前进了一步。 这是十分重要的。 因为原来的问题很可能是诸如质量不好、生产率低等模糊的问题,没有问题的进一步明确,你简直就无法进行有效的数据挖掘操作。 在问题进一步明确化的基础上,你就可以按 照问题的具体要求来审视你的数据集了,看它是否适应你的问题的需要。 Gartner group 在评论当前一些数据挖掘产品时特别强调指出:在数据挖掘的各个阶段中,数据挖掘的产品都要使所使用的数据和所将建立模型处于十分易于调整、修改和变动的状态,这才能保证数据挖掘有效的进行。 针对问题的需要可能要对数据进行增删;也可能按照你对整个数据挖掘过程的新认识,要组合或者生成一些新的变量,以体现对状态的有效的描述。 SAS 对数据强有力的存取、管理和操作的能力保证了对数据的调整、修改和变动的可能性。 若使用了 SAS 的数据仓库产品技 术时就更进一步保证了有效、方便的进行这 SAS 数据挖掘白皮书 9 些操作。 在问题进一步明确;数据结构和内容进一步调整的基础上,下一步数据挖掘应采用的技术手段就更加清晰、明确了。 Model──模型的研发、知识的发现 这一步是数据挖掘工作的核心环节。 虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但对 SAS 研究所来说并不是一件新鲜事。 自从 SAS 问世以来,就一直是统计模型市场领域的领头羊,而且年年提供新产品,并以这些产品体现业界技术的最新发展。 按照 SAS 提出的 SEMMA 方法论走到这一步时,你对应采用的技术已有了较明确的方向;你的数据 结构和内容也有了充分的适应性。 SAS 在这时也向你提供了充分的可选择的技术手段:回归分析方法等广泛的数理统计方法;关联分析方法;分类及聚类分析方法;人工神经元网络;决策树 „„ 等。 在你的数据挖掘中使用哪一种方法,用 SAS 软件包中什么方法来实现,这主要取决于你的数据集的特征和你要实现的目标。 实际上这种选择也不一定是唯一的。 好在 SAS 软件运行效率十分高,你不妨多试几种方法,从实践中选出最适合于你的方法。 Assess──模型和知识的综合解释和评价 从上述过程中将会得出一系列的分析结果、模式或模型。 同一个数据源可 以利用多种数据分析方法和模型进行分析, ASSESS 的目的之一就是从这些模型中自动找出一个最好的模型出来,另外就是要对模型进行针对业务的解释和应用。 若能从模型中得出一个直接的结论当然很好。 但更多的时候会得出对目标问题多侧面的描述。 这时就要能很好的综合它们的影响规律性提供合理的决策支持信息。 所谓合理,实际上往往是要你在所付出的代价和达到预期目标的可靠性的平衡上作出选择。 假如在你的数据挖掘过程中,就预见到最后要进行这样的选择的话,那末你最好把这些平衡的指标尽可能的量化,以利你综合抉择。 你提供的决策支持信息适 用性如何,这显然是十分重要的问题。 除了在数据处理过程中 SAS 软件提供给你的许多检验参数外,评价的办法之一是直接使用你 SAS 数据挖掘白皮书 10 原来建立模型的样板数据来进行检验。 假如这一关就通不过的话,那末你的决策支持信息的价值就不太大了。 一般来说,在这一步应得到较好的评价。 这说明你确实从这批数据样本中挖掘出了符合实际的规律性。 另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的。 这次的检验效果可能会比前一种差。 差多少是要注意的。 若是差到你所不能容忍程度,那就要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不 够完善。 这时候可能要对前面的工作进行反思了。 若这一步也得到了肯定的结果时,那你的数据挖掘应得到很好的评价了。 数据取样 S A M P L E 数据探索 EX P L O R E 数据调整 M O D I F Y 模式化 M O D EL 评价 A S S ES S 选数据样本 ? 可视化 数据探索 聚类分析 和因子 分选 数据重组 和细分 添加和拆分 记录 决策树模型 数理统计 分析 人工神经元 网络 时间序列 分析 数据修改 ? 新问题 ? 结论综合 和评价 第三章 深层统计分析与预测套件 SAS “ 深层统计分析与预测套件” 主要是应用 SAS 国际标准的经典统计分析工具对数据进行深层次的分析、加工和预测,进而再生成作为决策支持用的图形和报表。 SAS 既可以采用客户机 /服务器方式,也可以采用浏览器 /服务器方式运行。 下面首先介绍此分析套件的功能,之后再介绍 SAS 的产品配置方案及。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。