本科毕业设计_微博舆情管理平台:数据分析系统的设计与实现(编辑修改稿)内容摘要:
很感兴趣,转发了这条 状态 , 就把 这条消息通过 他 的粉丝继续传播了下去 ;已知不传播状态则是知道了 这条 消息 ,但是因为不感兴趣,没有转发这消息或发布相关的消息。 如 图 21所示 , 这是 一个 用户 状态示意图, 用户 A发布了一条状态, B和 C关注 了 A,所以知道了 A发布的消息, B不感兴趣,忽略了这条消息,成为了已知不传播状态,这条消息 的 传播 在 B处中断,而 C 对这条消息很感兴趣,转发了这条消息,则成为转发状态,继续向 C自己的粉丝传播这条消息,则 D由不知道这条消息的未知状态变为了知道这条消息的已知不 传播 状态, 而 E 关注 了 B,虽然 被 D 关注,但根据微博背对脸的特性, E 无法知道这条消息,一直处于未知状态。 在 消息传播过程中,这三种状态是单向转变 的 ,未知 状态 可以变成已知不传播状态, 已知 不传播状态可以变成转发状态,但不能反向转变,已知不传播状态可能在多次从不同用户得知 同一 消息后变得感兴趣从而转变为转发状态。 北京交通大学毕业设计(论文) 第 页 7 图 21 微博 用户状态图 微博 意见领袖 意见 领袖这一说法起源于 20世纪 40年代 初传播学关于媒介传播效果的研究 , 传播学者拉扎斯菲尔德 在 1940 年 美国大选的 调查 研究中发现,大部分选民的投票不依靠大众传媒,依靠的是身边的 亲戚、 朋友和团体的影响。 从而 有了意见领袖这一概念,在人际传播网络中经常为他人提供信息、意见、评论,并对他人施加影响的 “ 活跃分子 ” ,是大众传播效果的形成过程的中介或过滤的环节。 而在 微博 消息传递过程中, 人际传播 网络化 为微博用户传播网络, 微博 意见领袖在其中发挥着巨大作用 【 10】。 微博 意见 领袖 通常有着数量庞大的粉丝群, 通常 用户有着几 十 或几百的粉丝,而微博领袖的粉丝数量则通常 为 上万甚至几十万上百 万, 成为微北京交通大学毕业设计(论文) 第 页 8 博平台上的明星, 通过 发布微博消息 领导 着他们的粉丝 意见。 通过 对 收集到的数据的分析, 从 数据表明,基本上可以 认为 20%的 意见 领袖 用户领导着 80%的用户的意见 , 如图 22, 从一条转发量为 561 次 的微博消息 的 前10名 的 数据 可以看出, 昵称 为 “思想 焦距 ”“ 杜子健 ”“ 历史尘封 档案 ”的 3 位 用户 是 此次消息传播 中 最重要的 3 位 意见领袖。 排名 昵称 粉丝 用户类型 时间 二次转发 1 思想焦距 1209767 个人认证 202039 15:03:00 368 2 杜子健 324621 个人认证 202039 13:07:01 51 3 历史尘封档案 538570 微博达人 202039 15:45:02 40 4 煮酒谈史 214251 微博达人 202039 16:11:35 37 5 人性之美丽 213917 微博达人 202039 15:06:26 22 6 长江直播 47390 微博达人 202039 15:17:05 18 7 敌我媒体采访团 275145 个人认证 202039 15:03:06 9 8 彭三金 176135 个人认证 202039 15:03:07 3 9 笑着做教师 11370 个人认证 202039 16:38:55 3 北京交通大学毕业设计(论文) 第 页 9 10 王周生 7162 个人认证 202039 15:23:09 3 图 22 微博 消息影响力前 10名 不过 转发量并不是 判断 意见领袖影响力的唯一标准,包 括粉丝数,转发率 以及 活跃程度均是评估意见领袖 影响 程度的 重要 参考标准, 通过 对实验数据结果的总结,发现微博意见领袖有以下几个 特点 :基本上所有的微博意见领袖均是新浪 认证 用户,图 22也 说明了这一观点, 而 且认证用户容易获得普通用户 认可 和接受 , 发布消息 的真实性 也比较可靠。 认证 用户中有部分是 在 现实社会中有着一定影响力, 微博 则是 其社会影响 力在网络中的映射。 粉丝数 量也不是必然要求,类似消息的二级传播 原理 , 活跃 且粉丝质量高 的 用户也 会 有相当大的影响力, 这也 是一些草根用户能够成为影响力 大 的意见领袖的原因。 草根 用户积极参与用户间的 互动, 并且 努力发布有价值的消息 给 粉丝, 也可以 获得较大的影响力。 也有 部分用户从来不 与 粉丝互动,但其绝对粉丝数量较多, 也可以 获得较大影响力。 也有 草根用户 凭借 实时 发布 极有价值信息发布获得较大影响力,随之而来的则是转发和粉丝数量激增。 总结 上述特点可以得出评估用户 影响力的 标准:粉丝数,转发率,历史转发 率(该 用户的活跃程度) , 是否认证用户。 具体重要性的评估算法将在 节 具体阐述。 微博 传播模型 由 微博背对脸的特点 可 以 知 道 微博 消息 传播 的单向性, 类似 病毒的传播,病毒感染一台主机则这台主机进入感染态,而感染一台服务器 ,则访问这台服务器的所有主机都会了解这个病毒,或感染或免疫,微博中消息北京交通大学毕业设计(论文) 第 页 10 传播也是如此,普通用户相当于终端,而微博意见领袖 则 相当于服务器,区别 在于,消息的接受是被动的,只要登录微博就能看到关注者的消息,而不用 像 用户一样需要登录服务器。 通过 对抓取的微博数据的分析,发现20%的用户领导着 80%的用户意见,而且越是在消息初期,微博意见领袖的作用就越大, 意见 领袖的加入会使消息有一个爆炸式的增长,而 随着 加入的意见领袖 增加 ,消息传播增长趋势放缓, 意见 领袖的作用降低 , 当消息 的 传播广度到达一 定 范围 后 , 意见领袖 的 影响力 就趋近于零 了。 图 23是 一条有关波士顿爆炸案的微博消息路径图的一部分,通过 图 23可以 看出意见 领袖 在微博消息传播所占的重要作用,是传播路径上的重要节点,与 消息传播的广度 息息相关。 北京交通大学毕业设计(论文) 第 页 11 图 23 微博 消息传播路径图 通过 对 数据 分析 可以 发现 在 消息的传播广度和初始微博意见领袖加入的多少 有 一定关系,当单位时间内 意见领袖的 影响力达到了一个 阈值 M后, 可以 认为在之后的一段时间内,此消息的传播范围会有一个明显的增长 , 关于 M值会在 详细 介绍。 通过 研究发现, 消息 成为热点 中 有以下3种 规律, 每一种 都会在热点的成长曲线中 出现。 对 一个范围内的 微博意见领袖进行监控, 发现 意见 领袖 对一条微博消息的转发 比例 达到 10%时,北京交通大学毕业设计(论文) 第 页 12 可以 认为此消息会有一个广泛的传播,会成为一个热点话题 ;通过 对已知此 消息 但 未转发的意见领袖的比例与已知此消息并转发的意见领袖所占比例的对比,可实现对未来的微博消息传播 范围的 判断 ;在 单位时间内( 设为 1 个小时 ) 的 消息传播量 达到一个 阈值 M后 , 可以 认为 此 消息传播进入爆发期, 会 出现较大增长,通过设置不同 M值,可对未来的消息传播 范围有一个大致的分 级,不同 级别表示预测此消息传播的 最大 广度。 从 趋势分析角度来说,以上 3种 规律无论应用哪一种均可以对 消息 传播趋 势做一个分析,采用多种规律 对 趋势分析精度的 提升 也是有限的,而对一 种 规律分析的足够透彻已经可以达到一个接受的趋势 分析 的准确度 了。 三、 微博 舆情管理平台的设计 与实现 微博 舆情管理平台的总体流程 微博 舆情管理平台的 三大模块 如图 31所示, 分为 微博 信息 数据获取模块, 数据 分析模块, 分析 结果呈现模块, 本文 主要研究的是数据分析模块。 北京交通大学毕业设计(论文) 第 页 13 图 31 微博 舆情管理平台三大模块 微博 舆情管理平台的主要流程 如下 , 首先 输入要 查询 的微博消息的关键词或核心微博, 然后利用 网络爬虫 来 收集 微博 中的消息 内容 , 包括微博内容,转发关系, 博主 ID,发布时间 等。 然后 进入 中文分词模块,将微博内容分词 后 进入 VSM,将 微博内容的文本数据转化为计算机可以处理的结构化数据, 将 所有相关微博内容 预处理 后, 进入 Kmeans 算法 对 微博内容进行分类,找到离关键词最近的那个类, 认为 这个类 中 的微博内容表达的是同一意思, 并 作为数据分析的 主类 , 然后找出 类中符合意见领袖标准的 微博 领袖 逐一 进行 影响力 评估, 分析 出 各 意见领袖的影响力指标, 然后进入趋势分析预警模块, 根据 微博的走势 代入 趋势分析算法进行 分析 ,得出结果将数据上传到管理平台,管理平台对数据进行处理 将 结果输出。 数据 分析 系统 设计 流程 数据 分析系统的主要流程如图 32所示 , 获得 关键词或核心微博后,从数据库中 获取 微博相关数据,将微博内容与微博 ID 挂钩 ,用中文 分词系统将 微博 内容进行 分词 , 然后 在数据库中新建一表项,用于存储分词后的文本内容, 继续以 微博 ID 为区分 , 将分词后的文本 放入 Kmeans 算法中进行迭代 聚类 ,选出关键词或核心微博所在类 为 相关微博类,删除数据库中其他 无关 微博,进而筛选出符合微博意见领袖定义的 用户 , 进入 微博意见领袖影响力评估 算法 ,分析出每个意见领袖的重要程度。 以 小时 为单位,计算单位时间内的微博内容传播广度,设定 不同 等级阈值 M, 存在 超过 M 值 的时间 段即可 分析 预测出消息未来走势,进而将 意见 领袖重要性在前 10 名的 用户数据反馈数据库,将用户按时间顺序进行排序存储 到 数据北京交通大学毕业设计(论文) 第 页 14 库 交给 管理平台进行结果反馈,这就是整个数据分析系统的主要流程。 图 32 微博舆情 管理平台数据分析系统主要流程 四 、微博舆情管理平台的实现 样本 选取与数据来源 网络爬虫的主要功能是搜集 Inter 中的各种信息。 它利用网页中的超文本链接 (Hyperlink)来访问网页,从一个事先制订好的 URL 列表开始,这个列表中的 URL 一般是从过去的访问记录里提取出来的 ,通常是一些比较流行的站点和新闻网页,利用 HTTP 等标准协议,通过 URL 从一个页面爬行到另一个页面,直到没有满足条件的新的 URL 产生为止。 北京交通大学毕业设计(论文) 第 页 15 微博数据 转化 向量空间模型( Vector Space Model,简称 VSM),其主要思想是以向量空间中的向量运算来处理文本内容,并且使用空间上的相似性来描述语义的相似性,如 图 41 所示。 此时,就可以通过计算向量间的相似性来度量文档间的相似性。 向量空间模型主要涉及以下两方面的工作: 1)构建向量表示文档、查询中的词项 2)度量任意文档向量和查询向量的相似性 以 下则对该三方面的工作进行详细介绍。 1)构建向量表示文档中的词项 对于文档集中的每一个不同的词项,在向量中只记录一个分量。 图 41 VSM 主要思想 北京交通大学毕业设计(论文) 第 页 16 如果词项出现,则在对应向量的分量处记 1;如果词项未出现,则在对应的分量处记 0。 经过向量化的文档,就可以在坐标系中表示,如 图 42 所示。 图 42 VSM 文档 向量化 表示示例 然而,二值表示的方法并没有考虑一个词项在文档中出现的次数。 所以,扩展这种表示形式,将词项在文档中出现的频率作为向量中各个分量的值。 在 图 42 中, 如果文档 D2 中 A 出现了两次,则向 量表 示为 2,0。 通过使用向量空间模型,文本数据被表示为计算机能够处理的结构化数据。 此时,通过比较两个向量的相似性就能解决两个文档之间的相似性问题。 2)度量任意文档向量和查询向量的相似性 余弦距离经常被用在文本相似性比较中。 余弦结果为一个 0到 1的数,1表示向量一致, 0则表示正交,符合相似性百分比的特性。 不同文档长度的归一化是通过计算向量内积与文档向量的长度的比值实现的,即前提是忽略文档向量长度的影响。 假设文档向量为 di=(di1, di2, ⋯, dit),查询向量为 Q=(wq1,wq2, ⋯, wqt)。 北京交通大学毕业设计(论文) 第 页 17 余弦的计算公式: 经过 VSM 分类的文本 文档,可以 看做粗略的分类,不过不够精确, 所以 需要后续的文本聚类 的 精确分类来确定 所需 要的微博消息。 微博 文本聚类 文本 聚类定义 所谓 聚类, 就是。本科毕业设计_微博舆情管理平台:数据分析系统的设计与实现(编辑修改稿)
相关推荐
们希望无论何时何地都能够方便、快捷、灵活的通过语音、数据、图像与视频等多种方式进行通信。 视觉信息给人们直观、生动的形象,图像 /视频的传输更受到广泛的关注。 数字信号处理技术、物理媒体与网络技术、超大规模集成电路技术突飞猛进的发展,使得多媒体通信成为研究和 应用的热点。 其中,最为关键的技术是数字视频的处理和传输技术,它将电视技术、计算机技术和通信技术结合在一起,在电视系统
河南理工大学本科毕业设计 第三章 楼、屋面板结构设计 6 图 屋面及顶棚建筑做法 结构布置 该框架结构采用横向框架承重方案,楼板及屋面板类型如图。 图 楼板、屋面板区格类型划分 板的受力分析级 及 配筋计算 荷载计算 1) 屋面板荷载 恒载标准值 屋面建筑做法 (查 《中南标准图集 98ZJ001》 ) kN/㎡ 河南理工大学本科毕业设计 第三章 楼、屋面板结构设计 7 屋面钢筋混凝土板 25
1. 存款 2. 取款 3. 转账 4. 查询余额 5. 修改密码 6. 返回 用户根据自己的需要, 选择相应的业务 根据用户的选择,进入相应的业务界面。 存款功能 在用户主菜单中 ,用户选 择 “ 存款 ” , 即可进 入 “ 存款 ” 子模 块,该模块需要用户输入存款金额,且要求输入的金额必须大于 0 并且为 100 的倍数,否则用户无法进行存款 ,如表 4 所示。 表 4 存款功能 输入
漠安装光伏并网发电系统,每 年可以发电 10 万亿千瓦以上,相当于目前全国用电量的 5倍多。 我国由建设部制定的《建筑节能“九五”计划和 2020 年规则》中已将太阳 xx 大学学士学位论文 3 能热水系统列入成果推广项目。 目前我国太阳能热水器的推广普及十分迅速,1997 年销售面积近 300 万平方米,数量居世界首位。 全国从事太阳能热水器研制、生产、销售和安装的企业达 1000 余家
℃ ,在 55℃ 到 +125℃ 范围内,测量误差也不过 2℃。 912 位的数字读数方式。 ,多个 DSI8B20 可以并联在唯一的三线上,实现多 点测温。 ,即具有电源反接保护电路。 当电源电压的极性反接时,能保DS18B20 不会因发热而烧毁。 但此时芯片无法正常工作。 的转换速率比较高,进行 9 位的温度转换仅需。 DS18B20 的管脚排列 DS18B20 采用 3 脚 PR35
, 它是半导体二极管的一种,可以把电能转化成光能 , 当电子与空穴复合时能辐射出可见光,因而可以用来制成发光二极管,在电路及仪器中作为指示灯,或者组成文字或数字显示。 发光二极管显示技术(LED)发展速度很快,超高亮度 LED 和蓝色 LED 的研制成功使其发展进入了一个崭新的阶段。 有机电致发光 显示就 来源于 电致发光 (EL), 电致发光是一种将电能直接转化为光辐射的物理现象,有机 EL