第5章利用关联规则挖掘股票之间的关系-中山大学信息科学与技术内容摘要:
, c , d , e} 代表了趋势状况 , ( a , b , c , d , e) 分别代表暴跌、小幅跌、持平、微扬和上扬。 则交易行情记录集 Si 可以按照下列原则映射到交易行情走势集 Ai : 设 Kj = ( Rj +1 Rj) / Rj ,若 Kj ≤ T1 ,则 Aj = a。 若 Kj ∈ ( T1 , T2) ,则 Aj = b。 若 Kj ∈ ( T2 , T3) ,则 Aj = c。 若 Kj ∈ ( T3 , T4) ,则 Aj = d。 若 Kj T4 ,则 Aj = e。 T1 , T2 , T3 , T4 可以根据实际情况进行调节。 [2] 对于股票指数,我们采取类似的处理方法,但考虑到股票每天点数的变化可以很大,不像股票般有涨跌幅限制,所以有必要为股票指数的涨跌情况多分几种情况。 于是,作以下的定义: 定义 3 设 Index 记录了一种股票指数(在这里我们只讨论上证指数)在 n 个时间点的历史行情记录。 Index = { R1 , R2 , R3 , ⋯ ,Rm} , Rj 为该指数在第 j 个时刻的 行情 (1 ≤ j ≤ n) ,可以包括时间、开盘点数、收盘点数、最高点数、最低点数、涨幅、成交量与成交额等内容 (本实验取收盘点数)。 [4] 定义 4 设指数行情趋势集 T = { A1 , A2 , A3 ,⋯ , Am} , 表示当前交易价格与前一个记录时刻的点数记录的比较 ,并将行情映射到若干趋势状况区间中。 其中 Aj∈ { a , b , c , d , e , f , g} 代表了趋势状况 , ( a , b , c , d , e , f , g ) 分别代表暴跌、下挫、小幅跌、持平、微扬、上扬和急升。 则指数行情 记录集 Index可以按照下列原则映射到交易行情走势集 Ai : 设 Kj = Rj +1 Rj ,若 Kj ≤ T1 ,则 Aj = a。 若 Kj ∈ ( T1 , T2) ,则 Aj = b。 若 Kj ∈( T2 , T3) ,则 Aj =c。 若 Kj ∈ ( T3 , T4) ,则 Aj = d。 若 Kj ∈ ( T4 , T5) ,则 Aj = e;若 Kj ∈ ( T5 , T6) ,则 Aj = f ,若 Kj T6 ,则 Aj = g。 T1 , T2 , T3 , T4 , T5 , T6可以根据实际情况进行调节。 [4] 9 定义 5 如果项集的出现频率大于或等于最小支持度 (min sup)与 D 中事务总数的乘积 , 则该项集满足最小支持度 , 称它为频繁项集 (frequent itemset)。 [3] 在我们的实验里,由于股票有每天涨跌幅百分之十的限制,所以我们定义股票跌百分之五以上为暴跌,跌百分之五到千分之五为小幅跌,跌千分之五到涨千分之五为持平,升千分之五到升百分之五为微扬,升百分之五以上为上扬。 即是定义 2 里面的 T1 , T2 , T3 , T4 分别为 , , ,。 而由于股票 指数没有涨跌幅限制的说法,而且波动有可能会很大,所以我们定义跌一百点以上为暴跌,跌一百到五十点为下挫,跌五十点到十点为小幅跌,涨跌十点以内为持平,涨十点到五十点为微扬,涨五十点到一百点为上扬,涨一百点以上为急升。 即是定义 4里面的T1 , T2 , T3 , T4 , T5 , T6分别为 , , , , ,。 有一个值得注意的问题,就是股票有时候会因为停牌,开股东大会等原因停止交易,导致当天没有交易数据,所以在预处理数据的时候要确保股票数据 的日期和股票指数的日期相一致,将缺失交易数据的天数剔除掉。 另外,股票增发、拆股等会导致股价下跌超过百分之十的情况,但考虑到这样的情况极少并且会归类到大跌,不足以影响进一步分析,所以对于这种情况没有采取特殊处理。 关联规则挖掘 经过数据预处理后,得到的是一个股票指数与股票交易数据时间上一一对应的行情趋势集。 因为我们分析的是长达五年的数据,所以无论是股票指数或者股票都肯定会经历足够多的各种涨跌情况,于是挖掘股票指数或者股票各自涨跌趋势的频繁集没有实际意义。 因此,我们直接将股票指数和股票的各种涨跌情况联系起来,当 作1项集。 例如 将 股票指数暴跌,股票小幅跌 看做一项 ,等等。 于是,关联规则阶段只需挖掘出 1项集中的频繁项集,并找出强规则即可。 源程序 见附录 1 10 结果分析 将 000001(深发展 A)和深证指数 399001 比较,得出以下结果: 表 41 深发展 A 和深证指数关联分析结果 0 支持度 1 支持度 2 支持度 3 支持度 4 支持度 0 17 % 54 % 7 % 7 % 1 % 1 2 % 86 % 12 % 11 % 2 % 2 6 % 196 % 60 % 34 % 1 % 3 1 % 79 % 91 % 61 % 2 % 4 0 0% 42 % 80 % 143 % 6 % 5 0 0% 13 % 13 % 83 % 12 % 6 1 % 18 % 15 % 88 % 31 % 得到以下的强规则: 0 1 深证指数暴跌,深发展 A 小幅跌 1 1 深证指数下挫,深发展 A 小幅跌 2 1 深证指数小幅跌,深发展 A 小幅跌 5 3 深证指数上扬,深发展 A 上扬 由此可见深发展 A 是一只非常抗跌的股票,而且在大市上扬的时候有不错的表现。 将 600050(中国联通)和上证指数 000001 比较,得出以下结果: 表 42 中国联通和上证指数关联分析结果 0 支持度 1 支持度 2 支持度 3 支持度 4 支持度 0 17 % 18 % 3 % 1 % 0 0% 1 1 % 23 % 4 % 2 % 0 0% 2 4 % 214 % 38 % 15 % 3 % 3 0 0% 162 % 219 % 144 % 5 % 11 4 0 0% 30 % 63 % 190 % 14 % 5 0 0% 10 % 8 % 39 % 13 % 6 1 % 0 0% 0 0% 26 % 12 % 得到以下强规则: 2 1 上证指数小幅跌,中国联通小幅跌 4 3 上证指数持平,中国联通微扬 6 3 上证指数急升,中国联通微扬 可见中国联通表现平平,从上证指数急升,中国联通微扬可以得知在大市急升的时候中国联通很少被当作炒作的对象。 12 第五章 利用关联规则挖掘股票之间的关系 概述 在第一个应用里面,我们探讨了股票与股票指数的关系,将里面的算法加以扩展,我们可以将它应用到股票与股票之间的研究中去。 由于 上市公司之间由于存在合作、竞争等关系 , 因此某些股票价格在一定时间内会出现相似或相反的趋势。 挖掘这些数据 或股票之间的关联规则有利于投资者了解各种股票的走势及股票之间有关系 , 进一步分析上市公司的各种政策和方案 , 从而做出正确的投资决策。 在笔者所查阅的参考文献里面,比较普遍的做法是利用关联规则研究倾向同时涨跌的股票,对股票的预处理简单地分为涨和跌。 另外有的研究一只股票上涨之后多少天另外一只股票倾向于上涨,这在股票分析中是毫无实用价值的。 本文中只考虑股票之间在同一天之内的涨跌情况,而且将涨跌如第一个应用里一样再细分成几种情况,希望得到进一步的结论。 数据预处理 这里的数据预处理和在利用关联规则研究股票与 股票指数 的关系里面的基本一致 ,可以沿用上一部分的定义 1及定义 2。 在这个实验里, T1 , T2 , T3 , T4 继续沿用上个实验的 , , ,。 由于是多只股票之间关系的数据挖掘,所以对日期的一致性要求更高。 一般可以用两种方法处理,一种是所有日期都录入,如某些日期某一股票因故停牌等就作缺失处理。 挖掘过程中遇到缺失的记录就自动跳过,不影响挖掘的过程。 另一种处理就是只取所有股票都有交易数据的日期。 考虑到程序编写的难度和空间的节约,本实验采取了第二种方法。 另外,在上实验里 所提到的股票增发、拆分等引起股价异常变动的情况在本实验依然存在,但考虑到影响亦不大,所以不作特殊处理。 13 关联规则挖掘 由于本实验用 C++编写程序,如果数据量太大将会引起程序错误,所以规则的支持度不能设定得太低。 但 一旦支持度设定高了,那么单只股票的升跌趋势也有可能不属于频繁项集。 所以我们把单只股票的升跌趋势作为 1项集开始进行数据挖掘,直到不再产生频繁项集为止。 源程序 见附录 2 结果分析 被选入数据库的十只股票分别是: 000538(云南白药)、 600085(同仁堂)、 000858(五粮液)、 600779(水 井坊)、 600642(申能股份)、 000027(深圳能源)、 000651(格力电器)、 000527(美的电器)、 000001(深发展 A)、 600000(浦发银行)。 很明显可以看到,这是五组分别来自与制药、酿酒、能源、电器和银行业的股票。 其中有些是沪市深市各选一只,另外的是来自同一股票市场的。 下面让我们看看数据挖掘的结果。 将支持度设定为 20%,程序生成了 2频繁项集之后便停止了,证明没有 3项的支持度可以超过 20%。 结果如下(随后标出关联的两只股票): 2 1, 3 1 五粮液、水井坊 2 1, 8 1 五粮液、深发展 A 4 1, 5 1 申能股份、深圳能源 4 1, 8 1 申能股份、深发展 A 4 1, 9 1 申能股份、浦发银行 4 3, 5 3 申能股份、深圳能源 5 1, 7 1 深圳能源、美的电器 5 1, 8 1 深圳能源、深发展 A 5 1, 9 1 深圳能源、浦发银行 14 6 1, 8 1 格力电器、深发展 A 7 1, 8 1 美的电器、深发展 A 8 1, 9 1 深发展 A、浦发银行 从结果中可以看出, 最后只有微扬和小幅跌的数据,说明小幅上落乃股票涨跌的大多数情况。 另外, 三组同一行业的股票都有联系,但云南白药与同仁堂,格力电器与美的电器的走势却没有什么联系。 另外,可以看出深发展 A 和浦发银行这两只银行股和其它股票普遍存在联系。 这也不难理解,因为两只股票在沪深两市是比较重要的股票,它们的走向对大市有比较大的影响。 将支持度设定为 15%,程序产生出了 3频繁项集后停止。 结果如下: 2 1, 8 1, 9 1 五粮液、深发展 A、浦发银行 4 1, 8 1, 9 1 申能股份、深发展 A、浦发银行 5 1, 8 1, 9 1 深圳能源、深发展 A、浦发银行 6 1, 8 1, 9 1 格力电器、深发展 A、浦发银行 7 1, 8 1, 9 1 美的电器、深发展 A、浦发银行 结果再次证明深发展 A 和浦发银行这两只股票对大市的影响相当之大。 15 第六章 基于股票时序模式的关联规则挖掘 引言 关联规则除了在对股票与大盘指数、股票与股票之间的涨跌关系研究中有重要的实用价值外,在股票的技术分析中更有不容忽视的作用。 所谓股价的技术分析,是相对于基本分析而言的。 正如上一部分所述,基本分析法着重于对一般经济情况以及各个公司的经营管理状况、行业动态等因素进行分析,以此来研究股票的价值 ,衡量股价的高低。 而技术分析则是透过图表或技术指标的记录,研究市场过去及现在的行为反应,以推测未来价格的变动趋势。 其依据的技术指标的主要内容是由股价、成交量或涨跌指数等数据计算而得的,我们也由此可知── 技术分析只关心证券市场本身的变化,而不考虑会对其产生某种影响的经济方面、政治方面的等各种外部的因素。 [9]技术分析的 主要内容有图表解析与技术指标两大类。 事实上早期的技术分析只是单纯的图表解析,亦即透过市场行为所构成的图表型态,来 推测未来的股价变动趋势。 [10] 以下简单介绍 一种基于时序模式关联规则 在股票技术分 析中的一种比较常见的应用。 子序列模式的计算 对时序数据 进行分析, 首先必须建立其序列模式。 针对股票价格的实际情形,采用以下手段进行分析:首先选定子序列的形式,然后建立模式的相关的表现方法,通过对子序列模式相似性的计算,最终将序列分解表述为各种子模式的组合。 在股票的各种走势形态中,有一些形态具有明显意义,同时这些形态在经典的股票技术分析理论中占有重要的地位。 根据先验的知识,将这些形态选出来,作为基本的形态,以便用来分析序列模式。 (一 ) 如图 1 的形态: 16 图 1 股票分析中一些常见的基本形态 怎样将这些基本的形态 模 式表示出来,以达到在股票时序数据中寻找和匹配的目的呢 ?人们一般采用距离的计算来验证序列的相似性,即对序列 X 和 Y,当 D(X,Y)=(City_block_distance)就认为二者是相似的,但由于其对干扰太敏感,同时在各种基本形态中股票幅度并不确定,只是形态一致,所以直接计算距离有相当的困难。 其他的方法有用离散傅立叶变换 (DFT)将其变换到频域,然后取其前几位系数 (fc),作为基本形态子序列的逻辑表示,但表示和计算都较复杂,该文采用一种简洁方便的方法 ── 趋势线段斜率方法作为其逻辑表示法。 对于子序列的各种 情形,可以用斜率序列来表示,首先将其分段,得到 n 个点对应有 X(1,„, n)。第5章利用关联规则挖掘股票之间的关系-中山大学信息科学与技术
相关推荐
它借助于电子计算机的存贮事件,检索条款,分析手段迅速、可靠,为合同管理人员提供决策支持。 随着建筑技术迅速发展、经济能力的不断扩大, 工程项目的规模越来越庞大,涉及的方面 更广泛 ,合同条款也日益复杂,组成合同文件的部分也越来越多 , 遇到合同履行中的问题时若想 迅捷地处理纠纷就 需要借助于电子计算机。 工程招标投标阶段的合同管理 我国招标投标法规定凡是属于招标范围之内的工程,必须进行招标
燃烧性能及分级 建筑材料及制品的燃烧性能等级 燃烧性能等级 名称 A 不燃材料(制品) B1 难燃材料(制品) B2 可燃材料( 制品) B3 易燃材料(制品) 建筑材料燃烧性能等级判据的主要参数及概念 (多选) ①材料。 指单一物质均匀分布的混合物,如金属、石材、木材、混凝土、矿纤、聚合物。 ②燃烧滴落物 /微粒。 在燃烧试验过程中,从试样上分离的物质或微粒。 ③临界热辐射通量。 火
制场 ;第二施工段 设 一个大型 预制场 ,第三施工段设两个预制场;所有圆管涵由 第 二 施工段 统一预制。 预制场的设置 具体情况如下表所示。 施工段 预制场名称 占地面积 位置 主要机械设备 生产能力 第一施工段 第一预制场 4000m2( 20m*200m) 大山脚桥云浮端桥头路基处 2台 50t龙门吊, 2台小龙门吊 1台 75m3/h砼拌和站 设置 24个 30m小箱梁预制底座
abases) 数据库。 8 第三章 XML 文档 与 数据库的映射 关系数据库的理论依据是关系模型,通过表来表示数据库中的数据,而 XML 文档由 DTD 或 XMLSchema 来定义。 为了在数据库和 XML 文档之间传递数据,必须在文档结构和数据库结构之间建立映射。 即建立文档结构模型与数据库数据模型之间映射关系 , 将 XML 映射到数据库有两种常见的方法:基于表的映射和对象
为 AVISPA 工具集提供一个集成的 GUI界面,使其简单易用。 AVISPA( Automated Validation of Inter Security Protocols and Applications)是由欧洲委员会( European Commission)资助并由欧共体的意大利、法国、瑞士和德国等国的大学或研究机构联合进行的一个项目。 项目启动于 2020 年1 月 1
端面、方形端面 立式铣床 X51 端铣刀 游标卡尺 4 粗车、半精车φ 75 外圆 CA6140 外圆车刀 游标卡尺 5 车 倒角 CA6140 端面车刀 6 钻 扩 铰φ 25 孔 四面组 合钻床 麻花钻、扩孔钻、铰刀 卡尺、塞规 7 钻φ 4 孔 四面组 合钻床 麻花钻 卡尺、塞规 8 钻 铰 精铰φ 10 孔 四面组 合钻床 麻花钻、铰刀 卡尺、塞规 9 钻φ 9 孔 四面组 合钻床