硕士学位论文基于sas系统的税务数据挖掘研究内容摘要:
的信息,为各级领导决策提供科学合理的依据、 提高经济税源的分析能力、强化税收征收管理的精细化管理水平,也成为目前 税务体统中亟待解决的问题。 与此同时,随着数据仓库和数据挖掘技术的发展, 对这些数据开发利用成为可能。 1. 2.国内外研究与应用现状 目前国内外数据挖掘 DM 的主要研究内容包括基础理论、发现算法、数 据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和 再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖 掘所发现的知识通常有五类:一是描述性知识,主要指类别特征的概括性描述, 根据数据的微观特性发现其普遍性的,具有较高概念层次的、微观和宏观的知 识,主要通过数据立方体 或 OLAP 、面向属性的规约 类 SQL 语言 等技术 实现;二是关联知识,是指反映某一事件与其它事件的关联或依赖知识,主要 通过 Apdori 等关联规则算法实现;三是分类型知识,主要是通过基于决策树的 分类算法、基于统计的线性回归和线性辨别分析方法、粗糙集等方法,发现同 类事物之间的共同特征和不同事物之间的差异特征,以达 到分类的目的;四是 预测型知识,以时间为关键属性,由历史的和当前的数据预测未来的数据,实 现技术主要有基于统计的随机模型、神经网络和机器学习等,如回归模型、自 回归滑动平均模型和季节调整模型;五是偏差型知识,描述差异和极端特例, 揭示事物偏离常规的异常现象,如比较常用的离群点监测技术。 纵观数据挖掘 的实现技术和挖掘知识的类型,无不深刻揭示了数据挖掘通过预测未来趋势及 行为,做出前摄的、基于知识的决策的功能。 在目前经济和信息全球化的时代,每个企业每天都会产生大量的数据,这 些数据来自不同的数据源,对数据的高效利用成为企业增强竞争力的主要体现。 数据挖掘是对大量的原始数据进行选择、分析和建模,从中发现以前没有发现 2 l 引论 的趋势和模式。 数据挖掘的应用非常广泛,只要一个产业有分析的价值和需求 的数据仓库或数据库,都可以利用数据挖掘工具进行有目的的挖掘分析 n羽。 常 见的应用案例多发生在作业成本管理、法规依从、客户关系管理 n 羽 、财务智能、 绩效管理、盈利能力管理等方面,其中比较典型的是: 1 反洗钱法规要求一自动发现可疑活动并对活动进行分类和显示,这样, 企业就能满足严格的政府法规要求,确保股东信心和良好的社会评价;对市场、 信用和运营风险衡量标准进行计算和总结,在最大限度上减少风险管理的工作 量和投资。 2 随着财务部门的战略重要性不断提高,数据对企业的成功变得非常重 要。 然而发现企业数据背后隐藏的价值却是摆在企业面前的一个挑战。 许多 财务部门仍然通过手动、复杂而且不 准确的报表工具来查看数据,整个企业的 财务流程很难保持统一。 目前国内很多公司在数据挖掘应用方面取得的显著成果,彰显了数据挖掘 强大的生命力:中国海关使用 EAS 系统对目前关税中存在的偷税漏税行为进行 检测、对走私犯罪行为进行严厉打击。 部署利用基于 SAS 的执法评估系统EAS, 可以轻松发现隐藏的管理风险,在使用执法评估系统两年,在 37 个直属海关部 署了这一系统, 2020 年补缴的关税达 2020 万美元 1700 万欧元 ,目前还在研发 更先进的新系统;上海通用汽车有限公司是目前 国内最大的轿车生产商,利用 SAS 提供的保修分析解决方法,该公司建立了质量预警系统,对问题原因的及 时发现能力,较之前有很大提高。 同时在 2020 年,通用公司利用 SAS 提供的数 据挖掘软件,发现了很多问题,所有这些如果没有利用数据挖掘技术和软件, 是不可能在早期被发现的,在时间上较之前提前了 3 个月,同时对保修的分析 周期也同比下降了 70%,仅此几项业务,为通用节省了将近 900 万的保修成本。 利用该数据挖掘方案不仅大大降低了成本,而且实现了预期目标。 1. 3.研究内容 由 于数据挖掘工作在税务数据方面的运用国内是首次开展,尚无比较多的 经验可以借鉴,我们仅能从以前的数据挖掘工作中寻找规律同时结合业务人员 的经验进行探索性分析,初步确定选择两个课题进行实验性研究。 3 1 引论 重点选取了两个方向,第一个是开展预测分析工作,具体内容是使用SAS 工具的建模和挖掘功能,运用各种数据分析方法对各项税收数据的分析,同时 运用决策树、回归等建模方法建立一般纳税人增值税走逃风险评级模型,对一 般纳税人的走逃风险进行评估和分级,为加强一般纳税人管理、避免一般纳税 人走逃提供依据;第二个是通过运用 SAS 工具对一般纳税人专用发票的上下游 关联分析,建立企业交易网格,同时通过聚类分析、孤立点分析等统计学的分 析方法建立模型.企业接受虚抵模型,初步确定可能接受虚开的企业,同时配合 运用关联分析等建立企业交易网格,同过对企业之间交易的可信度、行业置信 度等的分析,精确定位虚开的票据,从而为加强增值税专用发票的管理提 供依 据,同时对可能存在的发票虚开虚抵行为进行预警。 1. 4.研究意义 本文只是利用 SAS 工具进行税务数据分析的一个探索,课题选取了“走 逃 和“虚开 ,探索成功后,还可以以 SAS 工具为基础做其他方面的纵深分析。 例如,一般纳税人增值税走逃风险评级项目,可以进一步做企业风险级别管理 分析,精细化企业管理,针对走逃风险级别不同的企业采取不同的管理措施, 更深层次地分析企业流失,相应地做政策性护税。 还可以做成品油行业虚抵, 运费虚抵等课题,深入挖掘企业虚开等领域。 税务 数据有大量的深度分析课题, 通过 SAS 工具的深度挖掘和分析,至力于提升税务信息化管理水平。 带动数据质量工作,提升数据质量,数据质量的提升反过来会提高深度分 析的准确性。 在用 SAS 工具对数据库中的相关数据进行提取、计算和加工的过 程中,发现部分数据质量问题,而且最后训练的模型也能反映出数据质量方面 的问题。 通过及时修改发现的问题提高数据质量,促进业务和操作的规范性, 推动税收管理,强化薄弱环节。 通过该模型还可以对各地税务机关的一般纳税 人管理水平进行量化评价,有利于税务机 关内部的管理水平的提升。 1. 5.论文的组织结构 论文各章节的组织结构如下: 4 1 引论 第一章引论。 作为论文的绪论部分,本章主要对本次数据挖掘工作的业务 背景、技术背景以及国内外目前的数据挖掘应用情况进行了简要介绍,同时对 本文的主要研究内容、研究意义进行了简单描述。 第二章相关挖掘技术概述。 本章作为论文的技术基础 ,主要对目前数据挖 掘的前景和数据挖掘在税务行业的主要应用方向和相关技术进行了介绍。 同时 对本次数据挖掘工作所涉及到的数据挖掘算法 logistic 回归、系统聚类和聚类相 关的统计量进行了详细描述。 第三章 SAS/ EM 数据挖掘方法论。 本章主要对本次数据挖掘工作所采用的工 具 SAS 系统进行了简单介绍,同时对 SAS 所采用的方法论同时也是本次挖掘工 作流程的 SAS/ EM 进行了详细介绍,作为本次挖掘工作的科学根据。 第四章挖掘建模。 作为论文的核心部分,本章主要对本次数据挖掘 建模工 作的工作过程进行了详细介绍,包括需求分析、系统架构和程序流程等。 同时 对建模结果进行了详细分析,比较各种模型的优劣,结合实际应用,得出最优 模型。 第五章结论和展望。 在文章的最后,重点对本次工作的内容和主要成果进 行了总结分析,对影响数据挖掘结果的因素进行了归纳。 同时对数据挖掘在税 务行业未来可能的应用方向进行了探索。 5 2 相关挖掘技术 概述 2.相关挖掘技术概述 数据挖掘 Data Mining 就是从大量的、随机的、有噪声的、不完整的、 模糊的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在 有用的信息和知识的过程 H1。 是现代社会信息的需要而发展起来的新学科,建立 在数据库、统计学、模式识别、机器学习、人工智能等学科的基础之上嘲。 它与 以往的数据分析的区别主要是数据挖掘是在没有明确假设的情况下去挖掘信 息、发现规则,它所挖掘到得信息有预先未知、 实用、有效等特性。 本章作为 整篇论文的理论基础,重点从以下几个方面进行重点介绍。 首先依照数据挖掘 技术在税务系统中的应用对算法进行分类,然后就本次数据挖掘过程中用到的 数据挖掘方法进行简单介绍,主要有 logistic 回归、系统聚类、常用统计量、关联 规则等。 2. 1.数据挖掘方法分类 目前的数据挖掘分类依据多种多样,常见的主要有两种 H 蝴,分别是依据数 据挖掘的目的或数据挖掘内容来进行划分。 前者是根据挖掘目的是否明确,即 有无目标变量的前提下,将数据挖掘方法分为有监督 的挖掘和无监督的挖掘; 后者是根据数据挖掘的具体内容进行划分的啪 1,主要分为分类分析乜168。 、聚类分 析、关联分析、序列模式与孤立点分析等。 不管是依据挖掘目的还是挖掘内容 来划分,都过于偏颇。 在实际应用中,通常是综合考虑,不能单一的予以判定乜羽, 根据本次税务数据挖掘研究的不同应用,将数据挖掘算法进行分类,具体如表 2. 1 所示。 1 决策树 决策树算法作为决策支持系统的基础与核心,由于其将建模结果通过一系 列规则合集的形式进行展现,使模型简单易懂,从而受到广 大决策者和业务人 员的青睐。 在税务系统中,决策树模型主要针对不熟悉数据挖掘技术的税收业 务人员的,税收业务人员利用决策树的一系列规则来初步判断纳税人员的增值 税票票面额度、每月发放的增值税票数、税员流失的可能性以及潜在的纳税人 员,保证税收政策的有效实施。 6 2 相关挖掘技术概述 2 聚类 聚类作为群体划分的重要方法,在 税务系统中有广泛的应用。 主要有利用 聚类分析识别不同纳税人员潜在的相似特征,同时区分不同的纳税群体特性, 对不同群体的纳税人实施不同的税收政策,从而实现纳税人细分。 聚类分析作 为数据挖掘工作的基础,与其它挖掘算法结合使用。 例如在建模前,通常先对 所有的变量进行聚类,在挖掘建模前将具有相似效用的变量剔除,避免由此引 发的模型效果的膨胀;在进行关联规则挖掘之前,通常将不同纳税人按照不同 行业进行聚类,达到凸显规则的效果,使得在此基础上进行的关联规则挖掘工 作更快速、便捷、有效。 表 2. 1 数据挖掘方法应用分类 算法 商业问题 决策树 预测对象所属的类别,如纳税人员流失、潜在。硕士学位论文基于sas系统的税务数据挖掘研究
相关推荐
智 能 家 居 远 程 控 制 系 统 的 设 计 与 实 现 第 l 章综述 接入互联网, 80%的人在使用手机国。 为了使韩国数字家庭产业在全球范围内保 持领先地位,韩国政府启动了新计划,欲使韩国 rr 业始终走在科技的前沿。 国外的发达国家的智能家居产业能如此高速的发展,背后主要是有它们高端 的信息技术力量支持。 目前国外开发出的 X_10[6]总线技术、基于 EIB[7】总线技术
传输的可靠性不能因为干扰或者信道阻塞而 下降要保证家居主节点与家居设备节点之间安全无差错的数据传输 ZigBee的 MAC 返回给发送方发送方若在规定的时间之内没有接收到返回信息即证明发生了碰撞 数据将会再次重新传输另外 ZigBee 还提供了鉴权和数据校验功能 2 成本在一个家庭中可能有几十甚至上百个家居设备节点对于众多的节点 来说成本是相当可观的目前 ZigBee 芯片的成本大约在 4
....................................................35 串 行 通 信 接 口 电 路 设计 .......................................................................36 .1 RS232 接口电路 .....................................
合比相同的水泥砂浆或减石子 混凝土。 2)浇灌方法:用塔吊吊斗供料时,应先将吊斗降至铁盘 50~ 60cm 处,将混凝土卸在铁盘上,再用铁锹灌入 模内,不应用吊车直接将混凝土卸入模内。 3)浇灌混凝土构造柱时,先将振捣棒插入柱底根部,使其震动,再灌入混凝土。 应分层浇灌振捣,每层厚度不超过 60cm,边下料边振捣,连续作业浇灌到顶。 4)混凝土振捣:振捣构造柱时,振捣棒尽量靠近内墙插入。
值及坡向应符合图纸和规范要求。 ⑵ 水、暖安装前做单项试压,完毕后做通、闭水后试验和打压试验,卫生间闭水试验不少于 24 小时。 ⑶ 电预埋管路宜沿最近线路敷设,应尽量减少弯曲,用线管的弯曲丝接套丝,折扁裂缝焊接,管口应套丝用堵头堵塞。 油漆防腐等均符合图纸各施工规范及质量评定标准。 ⑷ 灯具、插座、开关等器具安装,其标高位置应符合设计要求,表面应平直洁净方正。 ⑸ 灯具、插座
螺栓位置不符,安装时可作微小调整。 施工时,在安装立杆基层部位,用电钻钻孔打入膨胀螺栓后,连接立杆并稍作固定,安装标高有误差时用金属薄垫片调整,经垂直、标高校正后固紧螺帽。 两端立杆安装完毕后,拉通线用同样方法安装其余立杆。 立杆安装必须牢固,不得松动。 立杆焊接以及螺栓连接部位,除不锈钢外,在安装完后,均应进行防腐防锈处理,并且不得外露,应在根部安装装饰罩或盖。 ( 2) 楼梯扶手安装