时间序列数据可视化工具的设计与实现毕业设计(编辑修改稿)内容摘要:
着 Eviews, SAS 等等相当专业的工具。 同样的,这些工具也存在着门槛较高,使用方法较复杂的问题。 在使用这些软件进行专业的统计分析之前,最好的方法是利用样本数据进行相关术语和分析方法的学习。 尤其在计量经济学领域,经济时序数据常常是长期趋势、季节性、周期性都很明显的数据,利用一种简便的工具对样本经济学数据进行分析和学习是很必要的。 研究目标 根据以上背景介绍和分析,本课题的目标便产生了: ( 1)本课题将深入研究时间序列数据,尤其是经济学数据的统计学特征,利用时间序列分析的技术,建立有效而容易理解的统计学模型。 ( 2)利用建立起的统计学模型,本课题将设计和实现一个原型教学工具,展示对于一维时间序列数据进行分析处理,并将最终结果可视化的过程。 本论文组织结构 论文结构分成 9章,包括相关概念和理论知识的介绍、统计研究过程的设计和具体实现,对统计结果的分析以及对本文的总结。 第一章说明了选题的背景意义。 第二章介绍了在课题中所用到的相关技术概念和理论知识的介绍。 第三章介绍了系统的概要设计 和模块划分。 第四 章详述了 系统各模块的 设计与实现。 第五 章 以样本数据为例,演示了本系统的功能。 第六章总结了论文的主要工作,对未来的工作提出了展望。 时间序列数据可视化工具的设计与实现 共 53 页 第 7 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 2 相关概念和理论知识 数据可视化 数据可视化研究范围包括三个方面。 数据类型 数据可视化涉及到数据类型、可视化技术以及对数据进行交互和变形的技术。 这三个要素构成了对数据的可视化。 待可视化的数据类型包括: ( 1)一维数据 一维数据通常有一个密度维,典型的一维数据的例子是时序数据。 在每一个时间点有一个或多个数据值相关联。 ( 2)二维数据 二位数据有两个不同维。 一个典型的例子是地理数据,有两个不同的维 ——精度和纬度。 XY坐标是典型的现实二位数据的方法。 在数据量不是很大的情况下,可以很容易的处理时序数据或地理数据。 ( 3)多维数据 许多数据集包括超过三个的属性,这样就不能简单的作为二维或三维数据来显示。 多维数据的典型例子是关系数据库中的表,标的每一列都表示一个属性。 可以对多维数据进行描述的方法有:平行坐标、密集像素显示技术、散点图矩阵、星型坐标等等。 ( 4)文本和超文本,不是所有的数据都可以靠维数来表示。 文本和超文本是一种重要 的数据类型,这些数据不能轻易的被描述为数字,因此许多标准的可视化技术不能被应用。 多数情况下,首先把该数据转化为向量描述,然后再应用可视化技术。 ( 5)还有一些数据类型,如图形、层次数据、算法和软件等等。 图形可以表示一般数据之间的内部依赖关系。 层次数据类型可视化在专门的论文中有叙述。 算法和软件的可视化目的是为了帮助对算法的理解,以此来支持软件的开发,例如流程图、代码结构图等等。 时间序列数据可视化工具的设计与实现 共 53 页 第 8 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 图 数据可视化的三个方面 可视化技术 可视化技术包含几个方面,下面逐个介绍每种可视化技术。 ( 1)标准的 2D/3D 技术:如 XY(XYZ)坐标,散点图( Scatterplots),条形图( Bar Charts),线条图( Line Graphs)等等,这也是我们最常用到的数据可视化表达方式。 散点图又叫散布图,相关图,它是将两个可能相关的变数资料用点画在座标图上,用成对的资料之间是否有相关性。 这种成对的资料或许是特性 ——原因,特性 ——特性 ——原因的 关系。 通过对其观察分析,来判断两个变数之间的相关关系。 这种生产中也是常见的,例如热处理时淬火温度与工件硬度之间的关系,某种元素在材料中的含量与材料强度的关系等。 这种关系 虽然存在,但又难以用精确的公式或函数,在这种情况下用散点图来分析就是很方便的。 假定有一对变数 x 和 y, x 影响因素, y 表示某一质量特征值,通过实验或收集到的 x 和 y 的资料,上用点表示出来,根据点的分布特点,就可以判断 x 和 y 的相关情况。 在我们的生活及工作中,许多现象和原因,有些呈规则的关联,有些呈不规则连。 我们要了解它,就可借助散点图统计手法来判断它们之间的相关关系。 散点图表示因 变量 随 自变量 而 变化 的大致 趋势 ,据此可以选择合适的 函数对 数据点进行 拟合。 散点图将序列显示为一组点。 值由点在图表中的位置表示。 类别由图表中的不同标记表示。 散点图通 常用于比较跨类别的聚合数据。 时间序列数据可视化工具的设计与实现 共 53 页 第 9 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 图 散点图 折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。 折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。 另外,在折线图中,数据是递增还是递减、增减的速率、增减的规律(周期性、螺旋性等)、峰值等特征都可以清晰地反映出来。 所以,折线图常用来分析数据随时 间的变化趋势,也可用来分析多组数据随时间变化的相互作用和相互影响。 例如可用来分析某类商品或是某几类相关的商品随时间 变化的销售情况,从而进一步 预测 未来的销售情况。 在折线图中,一般水平轴( X 轴)用来表示时间的推移,并且间隔相同;而垂直轴( Y 轴)代表不同时刻的数据的大小。 下图显示了一个包含三个序列的折线图。 图 折线图 时间序列数据可视化工具的设计与实现 共 53 页 第 10 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ( 2)几何转化显示技术( GeometricallyTransformed Displays):几何转化显示技术旨在发现多维数据集的有趣的转化。 几何显 示技术据研究统计主要包括: 点图矩阵 (Scatterplots matrices)、解剖视图 (Prosection Views)、 平行坐标法 (Parallel Coordinates)、星 型坐标法 (Star Coordinates) ( 3)可视化技术还包括 图标显示技术 (Iconic Displays)、 密集象素显示技术 (Dense Pixel Displays)、 层叠式显示技术 (Stacked Displays)等。 散点图与折线图也是本工具所使用的主要可视化技术。 交互和变形技术 除了数据可视化技术,对于有效的数据研究还需要一些交互和变形技术。 交互和变形技术可以使数据分析人员直接和视图交互,并且按照研究对象动态地改变试图。 用户根据领域知识和主观判断利用交互变形技术可以使视图以不同的效果显示出来,从不同的角度对数据进行分析观察,达到很好的数据分析效果。 不同的数据可视化方法,对视图的交互和变形技术也有所不同,如上面介绍的各个数据可视化方法,都有各自的可视化技术供用户在于数据视图进行交互式使用。 下图展示了一个可视化模型: 图 可视化模型 数据挖掘可视化 数据挖掘是从大量的数据中提取或“挖掘”知识。 广义的观点是,数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有意义的知识的过程。 数据挖掘被视为数据管理与分析技术自然进化的产物。 可视化在数据挖掘中是一个多面手,能使人在视觉上理解多维数据中的复杂模式,通过观察数据在多重维数和多重图形窗体中的存在形态,可以直观、迅速地揭示数据趋势,帮助验证数据挖掘模型的可信度。 传统的数据挖掘过程以机器为中心,而融和了可视化技术的数据挖掘过程是以人为中心的。 这样做的好处是,提高了整个数据挖掘过程的灵活性、 时间序列数据可视化工具的设计与实现 共 53 页 第 11 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 有效性、与用 户的交互性。 可视化技术在数据挖掘中能起到以下作用: ( 1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性; ( 2) 利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果; ( 3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。 下图分别说明了可视化技术在数据挖掘不同阶段的应用。 图 可视化技术在数据挖掘中的应用 时间序列数据挖掘和时间序列分析 时间序列 数据 挖掘 简介 时序数据挖掘是数据挖掘的重要内容。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。 而时序数据挖掘则是挖掘时序数据中潜在的有用的知识或信息。 时序数据挖掘已经受到众多学者的关注 , 并已成为信息领域的研究热点之一。 近几年来 , 从事时序数据挖掘研究的学者的研究重点主要集中在如何建立时序预测或分析模型 , 这些研究的共同特点是建立以数学公式形式表示的模型对时间序列执行趋势分析或预测 , 如基于人工神经网络的时序预测模型 ,BoxJenkins Model 时间序列数据可视化工具的设计与实现 共 53 页 第 12 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 以及 ARIMA Models, 各种混合模型 (Hybrid Model) 等。 为建立模型 , 先把时序数据的一部分作为训练集 , 然后对模型进行有指导的学习 , 当认为模型的准确率可以接受时 , 模型就以数学公式的形式确定下来 , 并用它对未知的时序对象进行预测。 本文主要使用时间序列分析中的统计学方法来进行数据的挖掘,以下具体介绍时间序列分析的主要内容以及本文所使用 的数学模型。 时间序列分析 时间序列分析是一种根据动态数据揭示系统动态结构和规律的统计方法,是统计学科的一个分支。 其基本思想是根据系统有限长度的运行记录(观。时间序列数据可视化工具的设计与实现毕业设计(编辑修改稿)
相关推荐
生活垃圾无害化处理率低。 目前生活垃圾只是简单堆放,垃圾堆场无环保措施,已对水、气、土壤造成一定污染,影响了周围居民的生活。 主要表现在裸露的垃圾、纸张和细小颗粒随风飘扬,影响市容环境;渗沥液污染堆场人力车收集 人工装运 中转站 运至垃圾堆放场 倾倒 人工掩盖、灭蝇 市垃圾处理场 可行性研究报告 15 周围地下水、地表水等。 安全性差。 垃圾堆层产生的主要气体是 CH4 和 CO2, CH4
善中小城镇居住环境十分有利。 **********生活垃圾近 4年增长幅度 8%~ 15%,若不建立与之相适应的垃圾处理企业,将会出现严重垃圾包围城市的新式,既不利于城市生活环境的改善,又不利于 **********城市形象的建设。 总之,本项目的建设既符合国 家产业政策,又推进了先进垃圾的处理工艺,且有利于改善周边人居环境,并保证了县域经济的稳定发展,项目建设十分必要。 项目概况 项目建设地点
10r/min;效率 81%;功率 根据实际生产要求,本设计中限定该刮板输送机的理论产量为 106号斗式提升机 由图工艺流程图可见, 106 号斗式提升机经过 104 号刮板输送机的待清理的需粉碎的原料,故 106 号斗式提升机的理论提升量应满足 104号刮板输送机的生产要求。 设原料以 饼粕为 主(物料容重取 γ=), 理论最大产量为。 根据公式 Q = KQ实 (参考文献《粮食工程设计手册》
日处理 1500 吨屠宰废水 吉林化工学院 11 设计条件 ( 1)设计流量 smhmdmQ 3331 ( 2)设计流速 smv 设计计算 ( 1)进水管径 配水井进水管的设计流量为 Q=1500m3/d=17L/s,查《给排水设计手册》第一册确定进水管直径 D=250mm,管内流速 v=。 ( 2)矩形宽顶堰 进水从配水井底中心进入
污水处理程度计算 城市污水排入受纳水体后,经过物理的、化学的和生物的作用,使污水中的污染物浓度降低,受污染的受纳水体部分地或全部地恢复原状,这种现象称为水体自净或水体净化,水体所具有的这种能力称为水体自净能力。 在选择污水处理程度时,既要充分利用水体的自净能力,又要防止水体受到污染,避免污水排入水体后污染下游取水口和影响水体中的水生动植物。 9 污水的 COD 处理程度计算 1 eCCE C
;同时电讯事业发展迅速,目前已拥有国际国内最先进的通讯网络。 本行业及关联产业发展现状 世界乳制品的产量自 20 世纪 90 年代以来,处于一个平稳发展的时期,基本维持在 5 亿吨以上,发达国家的乳制品产量占世界乳制品总产量的 50%以上。 近几年我国乳制 品行业也是发展迅速, 1998 年 2020 年平均每年以 33%的增长率递增。 截止到 2020 年上半年,我国乳制品行业产量达到