基于rdf三元组的微博数据格式化存储方法毕业设计论文(编辑修改稿)内容摘要:

关注数( friendsCount),微博数( statuesCount),收藏数( favouritesCount),是否是认证用户( verified),认证原因( verifiedResonance),微博 id,微博内容( text),微博内容来源( resource),微博转发数( repostsCount),微博评论数( mentsCount)。 为能很好的呈现出各信息之间的关系,以便数据转换过程的顺利实现,首先设计相应数据的 RDF schema,如图 所示: H t t p : / / w e i b o . c o m / u / 5 0 1 8 5 0 2 2 0 95 0 1 8 5 0 2 2 0 9南 华大 学南 华 大 学 是 由 工 业 和 信 息化 部 、 国 家 国 防 科 技 工 业局 、 中 国 核 工 业 集 团 公 司与 湖 南 省 人 民 政 府 共 建 ,具 有 5 6 年 办 学 历 史 的 综 合性 大 学。 t r u e南 华 大 学 官方 微 博2 7 93 7 0 2 8 5 1 0 2 2 8 9 7 1 5 502 69 1追 梦 青 春 : 聚 光 灯 下 的舞 蹈 精 灵 人 物 湖南 图 片 网 湖 南 图 片 库 h t t p : / / t . c n / 8 s Q L s 6 zh t t p : / / a p p . w e i b o . c o m / t / f e e d /2 a f z V X00u e s r : t x tu s e r : i du s e r : s c r e e n N a m eu s e r : d e s c r i p t i o nuser:verifieduser:verifiedReasonuser:favouritesCountuser:statusesCountu s e r : f r i e n d s C o u n tuser:followersCountt x t : i n f l u e n c etxt:idtxt:texttxt:sourcet x t : r e p o s t s C o u n ttxt:commentsCount 图 RDF图 南华大学计算机科学与技术学院毕业设计(论文) 第 14 页 共 51 页 在图 中,使用了两个没有 URIref 的空节点 (两个小的绿色小椭圆 ),虽然这两个节点没有 URIref,但是它们都表达了它们应该表达的含义,而且起到了将图中各个部分之间连通的必要作用。 如第一个空节点表示的就是“用户的微博”这一概念,第二个空表示的就是“微博影响力”这一概念。 根据图 所示内容可以写出相应的三元组,如表 所示: 表 一条微博对应的 RDF三元组 Weibo:5018502209 user:id “ 5018502209” Weibo:5018502209 user:screenName “ 南华大学 ” Weibo:5018502209 user:description “南华大学是由工业和信息化部、国家国防科技工业局、中国核工业集团公司与湖南省人民政府共建,具有 56 年办学历史的综合性大学。 ” Weibo:5018502209 user:verified “ true” Weibo:5018502209 user:verifiedReason “ 南华大学官方微博 ” Weibo:5018502209 user:followersCount “ 279” Weibo:5018502209 user:friendsCount “ 91” Weibo:5018502209 user:statusesCount “ 26” Weibo:5018502209 user:favouritesCount “ 0” Weibo:5018502209 user:txt _:a _:a txt:id 3702851022897155 _:a txt:text “ 追梦青春:聚光灯下的舞蹈精灵 人物 湖南图片网 湖 南 图 片 库 _:a txt:source rdf:resource _:a txt:influence _:b _:b txt:repostsCount “ 0” 南华大学计算机科学与技术学院毕业设计(论文) 第 15 页 共 51 页 _:b txt:mentsCount “ 0” 在表 中,“ _:a”和“ _:b”分别表示的是图 中出现的两个空节点,它们在表中出现的地方就是空节点出现的地方。 程序实现微博数据转换 在清楚数据信息及信息关系之后,可用 RDF/XML 语法对图 所示内容描述如下: 1. ?xml version=? 2. rdf:RDF 3. xmlns:rdf= 4. xmlns:user= 5. xmlns:txt= 6. rdf:Description rdf:about= 7. user:id5078502209/user:id 8. user:screenName南华大学 /user:screenName 9. user:description南华大学是由工业和信息化部、国家国防科技工业局、中国核 10. 工业集团公司与湖南省人民政府共建,具有 56 年办学历史的综合性大学。 11. /user:description 12. user:followersCount 13. rdf:datatype=ersCount 14. user:friendsCount rdf:datatype= 15. user:statusesCount rdf:datatype= 16. user:favouritesCount rdf:datatype= 17. user:verifiedtrue/user:verified 18. user:verifiedReason南华大学官方微博 /user:verifiedReason 南华大学计算机科学与技术学院毕业设计(论文) 第 16 页 共 51 页 19. user:txt rdf:nodeID=a/ 20. /rdf:Description 21. rdf:Description rdf:nodeID=a 22. txt:id3702851022897155/txt:id 23. txt:text追梦青春:聚光灯下的舞蹈精灵 人物 湖南图片网 湖南图片库 24. 25. txt:source rdf:resource= 26. txt:influence rdf:nodeID=b/ 27. /rdf:Description 28. rdf:Description rdf:nodeID=b 29. txt:repostsCount rdf:datatype= 30. txt:mentsCount rdf:datatype= 31. /rdf:Description 32. /rdf:RDF (注:行号的加入是为了便于解释理解此 RDF 例子, RDF 文件中本身并不包含有行号) 第 1 行是 XML 声明,它表示以下内容将是 XML,而且 XML 的版本号是。 第 2 行以 rdf:RDF 元素开始,它表示以下内容用于表达 RDF,直到第 32 行的/rdf:RDF结束。 第 35 行为 XML 命名空间声明。 其中 xmlns:rdf 表明当前内容中出现的所有前缀为 rdf: 的 标 签 都 属 于 由 下 列 URIref 所 标 识 的 命 名 : xmlns:user 和 xmlns:txt 是自己自定义的两个命名空间声明。 第 631 行为图 所示内容的 RDF/XML 主要部分。 第 6 行表示对资源(微博用户) 描述的开始。 其中第 19 和 26 行分别用 rdf:nodeID南华大学计算机科学与技术学院毕业设计(论文) 第 17 页 共 51 页 属性来定义了两个空白节点,第 21 和 28 行分别是对两个空白节点的引用,使用空白节点的优点是可以在一个 RDF 文件中多次的引用空白节点。 对于编写好的 RDF 文件,为验证其正确性使用 W3C 组织提供的在线验证器对其验证。 通过在线验证器可以验证出编写的 RDF 可以被解 析成功, 验证结果如图 所示: 图 验证结果 确定好一条微博数据转换成 RDF 文件的格式后,对于很多条微博数据的处理就可以通过编程的方法来处理。 在编程实现的过程中,为减少对数据的再次读入,可直接在 weibo4joauth2 工程调用获取到的微博数据的相关参数,后再写入 RDF 文件中。 这样就可实现微博数据转换成 RDF 文件的过程。 其中程序伪代码描述如下: 定义一个 XML 文档; 建立 XML 文档的根 rdf:RDF; 添加三个命名空间; 读取第一条微博 ID,建立 rdf:Description 节点; 建立该条微 博剩下所有需建立的节点; 循环处理接下来读取到的每一条微博; 获得的 RDF 文件没有智能分行,数据看上去也比较的乱,这时可使用 Eclipse中的插件 aptana 来解决这一问题,若 Eclipse 中没有则需要下载安装。 程序代码和转换成功的全部 RDF 文件见附录一与附录二。 获得 RDF 文件的部分数据如下: rdf:Description rdf:about= 南华大学计算机科学与技术学院毕业设计(论文) 第 18 页 共 51 页 user:id1272752967/user:id user:screenName杨舒婷 Sweet/user:screenName user:description工作请洽经理人:赵天 ,微博" @赵天99" /user:description user:followersCount rdf:datatype=unt user:friendsCount rdf:datatype= user:statusesCount rdf:datatype= user:favouritesCount rdf:datatype= user:verifiedtrue/user:verified user:verifiedReason演员 /user:verifiedReason user:txt rdf:nodeID=a1272752967/ /rdf:Description rdf:Description rdf:nodeID=a1272752967 txt:id3705427508046214/txt:id txt:text五一快乐。 [鲜花 ][太开心 ][太开心 ][太开心 ]/txt:text txt:source rdf:resource= txt:influence rdf:nodeID=a3705427508046214/ /rdf:Description rdf:Description rdf:nodeID=a3705427508046214 txt:repostsCount rdf:datatype= txt:mentsCount rdf:datatype= /rdf:Description 南华大学计算机科学与技术学院毕业设计(论文) 第 19 页 共 51 页 rdf:Description rdf:about= user:id1195242865/user:id user:screenName杨幂 /user:screenName user:description 这 里 有 一只 狐狸 , 幸福 , 感恩 , 知足 , 爱 ~ ></user:description user:followersCount rdf:datatype=Count user:friendsCount rdf:datatype= user:statusesCount rdf:datatype= user:favouritesCount rdf:da。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。