时间序列数据可视化工具的设计与实现毕业设计(编辑修改稿)内容摘要:

着 Eviews, SAS 等等相当专业的工具。 同样的,这些工具也存在着门槛较高,使用方法较复杂的问题。 在使用这些软件进行专业的统计分析之前,最好的方法是利用样本数据进行相关术语和分析方法的学习。 尤其在计量经济学领域,经济时序数据常常是长期趋势、季节性、周期性都很明显的数据,利用一种简便的工具对样本经济学数据进行分析和学习是很必要的。 研究目标 根据以上背景介绍和分析,本课题的目标便产生了: ( 1)本课题将深入研究时间序列数据,尤其是经济学数据的统计学特征,利用时间序列分析的技术,建立有效而容易理解的统计学模型。 ( 2)利用建立起的统计学模型,本课题将设计和实现一个原型教学工具,展示对于一维时间序列数据进行分析处理,并将最终结果可视化的过程。 本论文组织结构 论文结构分成 9章,包括相关概念和理论知识的介绍、统计研究过程的设计和具体实现,对统计结果的分析以及对本文的总结。 第一章说明了选题的背景意义。 第二章介绍了在课题中所用到的相关技术概念和理论知识的介绍。 第三章介绍了系统的概要设计 和模块划分。 第四 章详述了 系统各模块的 设计与实现。 第五 章 以样本数据为例,演示了本系统的功能。 第六章总结了论文的主要工作,对未来的工作提出了展望。 时间序列数据可视化工具的设计与实现 共 53 页 第 7 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 2 相关概念和理论知识 数据可视化 数据可视化研究范围包括三个方面。 数据类型 数据可视化涉及到数据类型、可视化技术以及对数据进行交互和变形的技术。 这三个要素构成了对数据的可视化。 待可视化的数据类型包括: ( 1)一维数据 一维数据通常有一个密度维,典型的一维数据的例子是时序数据。 在每一个时间点有一个或多个数据值相关联。 ( 2)二维数据 二位数据有两个不同维。 一个典型的例子是地理数据,有两个不同的维 ——精度和纬度。 XY坐标是典型的现实二位数据的方法。 在数据量不是很大的情况下,可以很容易的处理时序数据或地理数据。 ( 3)多维数据 许多数据集包括超过三个的属性,这样就不能简单的作为二维或三维数据来显示。 多维数据的典型例子是关系数据库中的表,标的每一列都表示一个属性。 可以对多维数据进行描述的方法有:平行坐标、密集像素显示技术、散点图矩阵、星型坐标等等。 ( 4)文本和超文本,不是所有的数据都可以靠维数来表示。 文本和超文本是一种重要 的数据类型,这些数据不能轻易的被描述为数字,因此许多标准的可视化技术不能被应用。 多数情况下,首先把该数据转化为向量描述,然后再应用可视化技术。 ( 5)还有一些数据类型,如图形、层次数据、算法和软件等等。 图形可以表示一般数据之间的内部依赖关系。 层次数据类型可视化在专门的论文中有叙述。 算法和软件的可视化目的是为了帮助对算法的理解,以此来支持软件的开发,例如流程图、代码结构图等等。 时间序列数据可视化工具的设计与实现 共 53 页 第 8 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 图 数据可视化的三个方面 可视化技术 可视化技术包含几个方面,下面逐个介绍每种可视化技术。 ( 1)标准的 2D/3D 技术:如 XY(XYZ)坐标,散点图( Scatterplots),条形图( Bar Charts),线条图( Line Graphs)等等,这也是我们最常用到的数据可视化表达方式。 散点图又叫散布图,相关图,它是将两个可能相关的变数资料用点画在座标图上,用成对的资料之间是否有相关性。 这种成对的资料或许是特性 ——原因,特性 ——特性 ——原因的 关系。 通过对其观察分析,来判断两个变数之间的相关关系。 这种生产中也是常见的,例如热处理时淬火温度与工件硬度之间的关系,某种元素在材料中的含量与材料强度的关系等。 这种关系 虽然存在,但又难以用精确的公式或函数,在这种情况下用散点图来分析就是很方便的。 假定有一对变数 x 和 y, x 影响因素, y 表示某一质量特征值,通过实验或收集到的 x 和 y 的资料,上用点表示出来,根据点的分布特点,就可以判断 x 和 y 的相关情况。 在我们的生活及工作中,许多现象和原因,有些呈规则的关联,有些呈不规则连。 我们要了解它,就可借助散点图统计手法来判断它们之间的相关关系。 散点图表示因 变量 随 自变量 而 变化 的大致 趋势 ,据此可以选择合适的 函数对 数据点进行 拟合。 散点图将序列显示为一组点。 值由点在图表中的位置表示。 类别由图表中的不同标记表示。 散点图通 常用于比较跨类别的聚合数据。 时间序列数据可视化工具的设计与实现 共 53 页 第 9 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 图 散点图 折线图是用直线段将各数据点连接起来而组成的图形,以折线方式显示数据的变化趋势。 折线图可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。 在折线图中,类别数据沿水平轴均匀分布,所有值数据沿垂直轴均匀分布。 另外,在折线图中,数据是递增还是递减、增减的速率、增减的规律(周期性、螺旋性等)、峰值等特征都可以清晰地反映出来。 所以,折线图常用来分析数据随时 间的变化趋势,也可用来分析多组数据随时间变化的相互作用和相互影响。 例如可用来分析某类商品或是某几类相关的商品随时间 变化的销售情况,从而进一步 预测 未来的销售情况。 在折线图中,一般水平轴( X 轴)用来表示时间的推移,并且间隔相同;而垂直轴( Y 轴)代表不同时刻的数据的大小。 下图显示了一个包含三个序列的折线图。 图 折线图 时间序列数据可视化工具的设计与实现 共 53 页 第 10 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ( 2)几何转化显示技术( GeometricallyTransformed Displays):几何转化显示技术旨在发现多维数据集的有趣的转化。 几何显 示技术据研究统计主要包括: 点图矩阵 (Scatterplots matrices)、解剖视图 (Prosection Views)、 平行坐标法 (Parallel Coordinates)、星 型坐标法 (Star Coordinates) ( 3)可视化技术还包括 图标显示技术 (Iconic Displays)、 密集象素显示技术 (Dense Pixel Displays)、 层叠式显示技术 (Stacked Displays)等。 散点图与折线图也是本工具所使用的主要可视化技术。 交互和变形技术 除了数据可视化技术,对于有效的数据研究还需要一些交互和变形技术。 交互和变形技术可以使数据分析人员直接和视图交互,并且按照研究对象动态地改变试图。 用户根据领域知识和主观判断利用交互变形技术可以使视图以不同的效果显示出来,从不同的角度对数据进行分析观察,达到很好的数据分析效果。 不同的数据可视化方法,对视图的交互和变形技术也有所不同,如上面介绍的各个数据可视化方法,都有各自的可视化技术供用户在于数据视图进行交互式使用。 下图展示了一个可视化模型: 图 可视化模型 数据挖掘可视化 数据挖掘是从大量的数据中提取或“挖掘”知识。 广义的观点是,数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有意义的知识的过程。 数据挖掘被视为数据管理与分析技术自然进化的产物。 可视化在数据挖掘中是一个多面手,能使人在视觉上理解多维数据中的复杂模式,通过观察数据在多重维数和多重图形窗体中的存在形态,可以直观、迅速地揭示数据趋势,帮助验证数据挖掘模型的可信度。 传统的数据挖掘过程以机器为中心,而融和了可视化技术的数据挖掘过程是以人为中心的。 这样做的好处是,提高了整个数据挖掘过程的灵活性、 时间序列数据可视化工具的设计与实现 共 53 页 第 11 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 有效性、与用 户的交互性。 可视化技术在数据挖掘中能起到以下作用: ( 1)通过提供对数据和知识的可视化,可以利用人类的模式识别能力评估和提高挖掘出的结果模式的有效性; ( 2) 利用可视化技术建立用户与数据挖掘系统交互的良好沟通通道,使用户能够使用自己丰富的行业知识来规整、约束挖掘过程,改善挖掘结果; ( 3)提供对挖掘结果的可视化显示,使用户对结果模式能够有深刻直观的理解,从而打破传统挖掘算法的黑盒子模式,使用户对挖掘系统的信赖程度大大提高。 下图分别说明了可视化技术在数据挖掘不同阶段的应用。 图 可视化技术在数据挖掘中的应用 时间序列数据挖掘和时间序列分析 时间序列 数据 挖掘 简介 时序数据挖掘是数据挖掘的重要内容。 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。 而时序数据挖掘则是挖掘时序数据中潜在的有用的知识或信息。 时序数据挖掘已经受到众多学者的关注 , 并已成为信息领域的研究热点之一。 近几年来 , 从事时序数据挖掘研究的学者的研究重点主要集中在如何建立时序预测或分析模型 , 这些研究的共同特点是建立以数学公式形式表示的模型对时间序列执行趋势分析或预测 , 如基于人工神经网络的时序预测模型 ,BoxJenkins Model 时间序列数据可视化工具的设计与实现 共 53 页 第 12 页 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 以及 ARIMA Models, 各种混合模型 (Hybrid Model) 等。 为建立模型 , 先把时序数据的一部分作为训练集 , 然后对模型进行有指导的学习 , 当认为模型的准确率可以接受时 , 模型就以数学公式的形式确定下来 , 并用它对未知的时序对象进行预测。 本文主要使用时间序列分析中的统计学方法来进行数据的挖掘,以下具体介绍时间序列分析的主要内容以及本文所使用 的数学模型。 时间序列分析 时间序列分析是一种根据动态数据揭示系统动态结构和规律的统计方法,是统计学科的一个分支。 其基本思想是根据系统有限长度的运行记录(观。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。