聚类分析在证券市场分析中的应用毕业论文(编辑修改稿)内容摘要:

( ) 类间距离的度量 距离作为对样品之间的相似程度的度量是聚类分析的基础。 为了研究问题的方便,分别以 ji, 表示样品 ji xx, ,简记 ),( jiij dd xx 是样品 ji xx, 之间的距离, 设 },{ )()(2)(1 pnppppG xxx 和 },{ )()(2)(1 qnqqqpG xxx 为两个类,含样品数 pn和 qn。  pni pipp n 1 )(1 xx ——— 类 pG 的重心。 类 pG 与类 qG 之间的距离记为 pqD . 类间距离的常用定义方法如下: (1) 最短距离  qpijpq GjGidD  ,mi n ,即 两类中样品之间距离最短者作为类间距离; 最短距离法的特点是样品有链接聚合的趋势,这是其缺点,不适合一般数据山东交通学院毕业论文 9 的分类处理,除去特殊数据外,不提倡用这种方法。 (2) 最长距离  qpijpq GjGidD  ,ma x , 即 两类中样品之间距离 最长者作为类间距离; (3) 重心距离 ),( qppq xxdD  , 即 两类的重心之间的距离作为类间距离; 该距离随聚类地进行不断缩小。 该重心距离法的谱系聚类图很难跟踪,且符号改变频繁,计算较烦。 (4) 类平均距离 22 1    p qGi Gj ijqppq dnnD, 即 两类中所有两两样品之间的平方距离的平均作为类间距离; 类平均距离法是一种使用比较广泛、聚类结果较好的方法,而类平均距离法又有两种形式: 组间联结法 link a ge ) gr ou ps( be t w e e n 和组内联结法linka ge ) gr oups( w ithi n。 这两种方法相对而言,组间联结法 link a ge ) gr ou ps( be t w e e n 更能充分的使用样本数据材料,因此,本论文中采用类平均距离法中的组间联结法来度量类间距离。 (5) 离差平方和 方法)( sWard39。 在实际应用中,离差平方和方法应用比较广泛,分类效果较好,但它要求样本间距离的度量必须采用欧氏距离。 系统聚类 分析方法的比较 系统聚类法的聚类原则决定于样本间的距离和类间距离的定义,类间距离定义的不同就会产生不同的聚类分析方法,系统聚类法具有以下简单的性质: (1) 单调性:在利用系统聚类法进行并类过程中,并类距离具有单调性符合系统聚类法的基本思想,可知,最短距离法、最长距离法、类平均距离法和离差聚类分析在证券市场分析中的应用 10 平方和法都具有单调性,但重心距离法不具有单调性; (2) 空间的浓缩与扩张 以最短距离法和最长距离法的并类过程为例,对于其相应的距 离,每一步都有以下性质: (长)短 ijij )( dd  ,对于一切的 ,ij,这种性质称为最长距离法比最短距离法扩张,或称最短距离法比最长距离法浓缩; 由以上可对系统聚类法有以下结论:类平均距离法比最短距离法扩张,且比最长距离法浓缩;类平均距离法比重心距离法扩张,且比离差平方和方法浓缩。 而我们知道,太扩张的方法当样本数量较大时容易失真,太浓缩的方法又不够灵敏。 类平均距离法相对比较适中,相对其它方法既不太扩张也不太浓缩,而且具有单调性,因而类平均距离 法是一种应用广泛、聚类结果较好地方法。 根据这一节和上一小节 “ ”的分析和比较,可以更加让我们相信,选择 类平均距离法中的组间联结法来度量类间距离是比较合理的。 系统聚类法中类个数的确定问题 在聚类分析方法中,样本到底该分为几类,究竟哪些样品将归于一类,分析前是不知道的。 在进行聚类分析时,如何确定类的个数是个较难的问题,虽然有一些统计方法试图给出判断准则,但是人们至今仍未找到令人满意的方法,但在聚类分析中这又是一个无法回避的问题。 那么,我们如何确定较为合理的分类个数呢。 以下就简要 得介绍几种确定类个数的常用方法: (1) 根据数据点的散布图直观地确定分类个数 如果考察的指标只有 2 个即 2p ,则可通过数据点的散点分布图来直观地确定类的个数。 如果有 3 个变量,可以绘制三维空间的散点分布图,并且通过旋转三维坐标轴由数据点的分布来确定应该分为几类。 当然,如果考察的指标多于3 个时,可以先通过降维的方法把这些指标进行综合 ,综合出 2 个或 3 个指标,从而转化为 2 个变量或 3 个变量情况,再绘制二维或三维的数据点的散布图来确定合适的分类个数。 但是,该方法从其降维过程来看,比较繁琐。 (2) 根据聚类谱系图确定分类个数 山东交通学院毕业论文 11 经过系统聚类法处理后,会得到相应的聚类谱系图,那么,如 何 根据聚类谱系图确定分类个数呢。 972)Demirm en( 1 提出了应根据研究的目的来确定适当的分类个数,并提出了一些根据谱系图来分类的准则,准则如下: ,即各类重心间距离必须要大; ,各类所包含的元素都不要过分的多; ; ,则在各自的聚类图中应发现相同的类。 (3) 根据聚类分析的“碎石图”确定分类个数 在系统聚类过程中,首先把离得近的类进行合并,所 以在并类过程中的聚合系数会呈现出增加趋势,聚合系数小表示合并的两类的相似程度较大,而两个差异很大的类并在一起时,会使聚合系数很大。 因此,如果以 y 轴表示聚合系数,x 轴表示分类数,画出聚合系数随着分类数变化的曲线图(或散点图),这样就会得到类似于因子分析中的碎石图,从而,我们可以在曲线开始变得平缓时的点处,选择较为合适的分类数。 可见,该方法较前两种方法而言,显得更加简洁、直观,因此,本论文中采用“碎石图”来确定比较合适的分 类个数。 聚类分析在证券市场分析中的应用 12 3.聚类分析在证券市场分析中的应用 本文中,选取了每种股票的 每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率 5项指标评价体系, 首先利用聚类分析方法对各类股票的基本层面进行考察,然后再利用综合指标评价体系,如收益性、成长性、扩张性等来衡量样本股票的“相似程度”。 以此能够更好地帮助投资者准确地了解和把握股票的总体特性,以便及时地作出投资决策、进行投资。 鉴于聚类分析在证券投资方面还有很大的发掘空间和研究价值。 本文在现有的研究基础上,深入探讨了聚类分析在证券投资中 的应用价值,丰富和完善了在证券市场分析中应用聚类分析时的指标体系。 聚类分析在证券市场分析中应用时的指标评价体系的选择 盈利能力指标 100% 期末总股本 净利润每股收益 每股收益越高,反映出公司或行业的投资收益就越高,每股的获利能力就越强; 1 0 0 % 平均股东权益 净利润净资产收益率 净资产收益率 反映 了 股东权益的 收益水平 ,用以衡量公司运用 自有资本 的效率。 净资产收益率 越高,说明投资带来的收益 就 越高。 成长能力指标 1 0 0 % 上期主营业务收入 上期主营业务收入—本期主营业务收入主营收入增长率 主营收入增长率用来衡量和判断 公司发展所处的阶段 ,以使投资者较为准确地判断该公司或行业正处于成长期、稳定期或衰退期,进而作出较为合理的投资决策; 1 0 0 % 上期主营业务利润 上期主营业务利润—本期主营业务利润主营利润增长率 山东交通学院毕业论文 13 经营业绩良好的上市公司会表现出较高的成长性,成长性好的上市公司的盈利也会相应增强。 主营收入增长率和主营利润增长率都反映了公司扩大市场规模的能力,表明公司重点的发展方向。 一般来说,主营利润稳定增长且占 利润总额的比例呈增长趋势的 公司 正处在成长期。 一些公 司尽管年度内 的 利润总额有较大幅度的增加,但 主营业务利润 却未相应增加,甚至 会出现 大幅下降,这样的公司质量 其实并 不高,可能存在 着 资产管理 的 费用 即成本 居高不下 的 问题 ,也 可能 存在着 着巨大的 风险。 因此投资者对于 投资 这样的公司, 要提高 警惕。 扩张能力指标 1 0 0 % 期末总股本期末净资产每股净资产 每股净资产是每股所代表的股东权益额,它反映了每股最低限度的内在价值。 以上建立的指标评价体系可用以下框图表示: 指标评价体系框图 聚类分析在证券市场分析中的应用 14 实证研究 利用本文随机选取的在沪深上市的 40家山东省的公司企业,选择每股收益、每股净资产、主营收入增长率、主营利润增长率和净资产收益率 5项指标评价体系,随机选取的样本指标数据来自 证券之星数据中心的财务指标。 本文利用的是 软件,通过系统聚类分析方法对这 40家公司企业的股票进行聚类分析,分别将它们归类,为之后投资者提供决策依据。 详细样本数据见表 : 表 选取的 40家上市公司企业的样本数据 代码 简称 每股收益 每股净资产 主营收入 增长率( %) 主营 利润 增长 率( %) 净资产收益率( %) 000423 东阿阿胶 000880 潍柴重机 300121 阳谷华泰 202026 鲁泰 B 300208 恒顺电气 600547 山东黄金 002355 兴民钢圈 300175 朗源股份 002073 软控股份 300110 华仁药业 002526 山东矿机 24 002470 金正大 300285 国瓷材料 600350 山东高速 16 000756 新华制药 600017 日照港 600986 科达股份 600756 浪潮软件 600336 澳柯玛 600027 华电国际 000739 普洛药业 000416 民生投资 600467 好当家 000957 中通客车 600789 鲁抗医药 600022 山东钢铁 000682 东方电子 山东交通学院毕业论文 15 300105 龙源技术 300237 美辰科技 002588 史丹利 600690 青岛海尔 000951 中国重汽 8 002458 益生股份 1 600600 青岛啤酒 300233 金城药业 600188 兖州煤业 002581 万昌科技 600060 海信电器 601678 滨化股份 600219 南山铝业 由表 ,该实际问题中有 40 家公司,即总共有 40 个样本数据,每个样本数据又有 5 个指标变量 (即属性 ),则由第二章的样本数据矩阵 () 可知,表 *X 表示 )( 5p 40,n 其中  : 1 1 1*1 pn n pxxXxx 原始样本数据标准化 由于选取不同的指标,并且不同的指标具有不同的量纲,为了使所有的样本指标数据能够放到一起加以比较,以便更好地进行聚类分析,就需要我们对原始样本数据进行标准化处理,以消除由于各 指标变量的量纲不同或数量级相差很大对分析带来的影响。 常用。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。