新华网三期总体设计书(编辑修改稿)内容摘要:

把生成页面传送出去 . 系统数据 分布 . 数据量估算 源稿库 存储时长 稿件条数 稿件数据量 无图片量 1 个月 ≈ (万条) ≈ ( G) ≈ 380( M) 3 个月 ≈ 10(万条) ≈ 29( G) ≈ ( G) 半年 ≈ 20(万条) ≈ 58( G) ≈ ( G) 1 年 ≈ 40(万条) ≈ 117( G) ≈ ( G) 新华网三期项目系统设计书 第 24 页 共 111 页 如果按归档规则为保存半年来计算,需要的存储量为。 编辑库 根据目前多站点系统中的基础数据计算 数据指标 数据值 稿件量 ≈ (万条) 人数 413(人) 平均稿量 ≈ 56(稿件 /人) 目前所有系统使用人员 ≈ 950(人) 预计人员增长到 ≈ (千人) 据此计算存储情况 ,需要存储量为:。 签发库 发布稿件条数 发布图片量(张 ) 发布图片数据量 (K) 稿件正文量(K) 稿签量 (K) 稿件图文总量(K) 1 天 30,000 55,790 1,952,660 46,973 5, 2,005,392 1 月 900,000 1,673,709 58,579,808 1,409,201 172, 60,161,774 1 年 10,950,000 20,363,457 712,720,991 17,145,274 2,101, 731,968,244 3 年 32,850,000 61,090,371 2,138,162,974 51,435,821 6,305, 2,195,904,733 5 年 54,750,000 101,817,284 3,563,604,957 85,726,368 10,509, 3,659,841,222 如果签发库归档规则平均按 1 年来计算,则签发库要保存的图文总量在 732G。 如果将数据控制在百万级以内,则存储需要大概 350G。 发布库 发布库的记录数基本与签发库的记录数一致。 只是对于存储在数据中的图片,发布库与签发库共用一份,因此发布库的数据量,一年总量在 2G。 成品库 成品库中保存的是发向新华社多媒体数据的稿件,目前每天 送稿量是 200,如果此数据比较平稳,不考虑突发增长量的情况如下 稿件数 稿件量 (K) 1 天 200 20,064 1 月 6,000 601,924 3 月 18,000 1,805,771 半年 36,000 3,611,541 1 年 73,000 7,323,403 按归档规则保存半年的数据存储量是。 资料库 资料库中主要保存的是系统中归档的数据,也按每天 1 万条稿件计算,情况如下 稿件数 稿件量 (K) 1 天 30,000 3,009,618 1 月 900,000 90,288,532 3 月 2,700,000 270,865,595 半年 5,400,000 541,731,190 新华网三期项目系统设计书 第 25 页 共 111 页 1 年 10,950,000 1,098,510,468 按归档规则保存半年的数据,存储量是 542G。 系统日志 根据目前多站点系统的日志情况计算: 日志记录数 日志量 (K) 1 天 80,300 40,150 1 月 2,409,013 1,204,506 3 月 7,227,038 3,613,519 半年 14,454,075 7,227,038 1 年 29,309,652 14,654,826 2 年 58,619,305 29,309,652 3 年 87,928,957 43,964,479 如果日志归档规则按保存一年的情况来计算,需要存储量 14G。 . 数据 划分 根据总体设计,数据存储应用的划分如下 稿源库、编辑库使用数据存储单元: RAC RAC3,总数据存储量为( + +350)= ,平均每单元存储量为 6G。 a) 注:新华社图片稿件的图片存储在应用服务器的 NAS 上面,每半年占据 55G 新华网三期项目系统设计书 第 26 页 共 111 页 数据存储空间,由归档模块负责清理 日志、用 户、栏目、成品库、资料库等其他数据使用存储单元: RAC2,总数据量为( + 542+ 14)= 563G。 签发库、发布库总共需要的存储量大概是 1+ 2= 3G . 软件部署 . 系统总体结构 经过认真分析与讨论,我们制定如下的 内容管理 系统总体结构,系统总体结构图的 模块划分 如下所示。 新华网三期项目系统设计书 第 27 页 共 111 页 图 新华网 内容管理系统 总体 结构 通过对用户需求的细致分析,经过公司专家组成员的建议与评审,我们设计的 内容管理系统包含如下的功能模块。  内容采集 系统 内容采集模块,是系统的批量资料 导 入接口,在内容采集模块中,提供了标准的JavaAPI 和 WebService 接口 (包含 XML 文件 接口) ,供第三方厂商调用,提过直接调用这两种形式的接口,可以直接把信息推送到 内容管理 系统中。 比如: TRS 系统,通过内容采集模块的 WebService 接口的调用,便可以把抓取到的页面内容载入到 内容管理 系统中,以便 内容管理 系统 的内容编辑继续完成下一步的发布工作。 也可以通过文件共享方式,定时扫描指定目录,把其他外接口系统提供的数据文件解析成内容管理系统数据进行入库。 比如:新华社电稿文件都放在某一个共享目录中,内容采集系统的轮询引擎监控目录中文件变化情况,对新增的文件 进行入库操作。  内容管理 系统 内容管理模块是网站 CMS 系统的核心分布式存储模块,完成 CMS 系统得成品资料、背景资料以及其它的需要存储管理的资料的存储和管理工作。 在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站内容的海量存储。  发布系统 新华网三期项目系统设计书 第 28 页 共 111 页 发布系统完成 内容管理系统中数据到页面的 发布的工作,系统 依据内容管理系统 模版管理、组件管理 、栏目管理、发布树管理 等功能,很好地完成了基于 XML 信息片的实时 和定时 合成 和页面生成 工作。  分发系统 把发布 系统生成的静态页面、关联图片、 js 文件、 css 文件等生成结果安装指定的规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻辑处理。  客户端平台 提供完整的内容管理系统功能共用户使用。 同时该平台上采用插件结构设计,可以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。  远程发稿模块 为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现了远程使用系统进行发稿 、管稿、发稿等内容管理系统 功能。 新华网三期项目系统设计书 第 29 页 共 111 页 关键技术与算法 . 工作流技术 工作流 是针对工作中具有固定程序的常规活动而提出的一个概念。 通过将工作活动分解成定义良好的任务、角色、规则和过程来进行执行和监控,达到提高生产组织水平和工作效率的目的。 工作流引擎是用于定义、实现和管理工作流运行的一套软件系统,它与工作流执行者(人、应用)交互,推进工作流实例的执行,并监控工作流的运行状态。 为了增强适应性,工作流引擎使用一种技术手段,保证能够由可以自己定义工作流,包括定义任务动作、状态以及如何组合成一套流程。 . 可视化 XML 编辑技术 +修改痕迹技术 内容管理中的稿件,最适合用 XML 表示。 对于其内容的编 辑,需要用一种可视化的编写方法,保证所见即所得。 同时,需要记录稿件的版本与修改痕迹。 . 可视化模版编辑技术 在常规的可视化编辑页面技术上,允许其中的部分内容用一种 “组件 ”表示,该组件的实际内容需要结合内容管理中的数据才能完整呈现。 在可视化编辑过程中, “组件 ”可以显示为一些占位文字,也可以自动根据内容管理中的数据生成。 . 自动发布技术 +信息片发布技术 内容管理的内容发生变化后,系统立即找到需要更新的所有最小单位,并将其迅速生成出来,同过简洁的步骤更新到网站上。 新华网三期项目系统设计书 第 30 页 共 111 页 . 多语种技术 内容管理系统在一个系统中同时管理多 种语言的内容,并且能够正确地在网站上发布每个语种的内容。 . WebService 内容管理系统在对业务逻辑抽象后,封装出标准的 WebService 接口,各平台上的各系统可以按标准的方式调用,即可实现内容管理系统的某业务功能。 . 碎片 文件 发布系统在完成组件内容解析后,把解析结构 缓存 成 碎片文件。 发布系统在生成页面时对本次发布操作没有影响的区域,采取直接对碎片文件的策略,减少组件解析时间提高效率。 新华网三期项目系统设计书 第 31 页 共 111 页 第 6章 . 系统单元设计 系统单元划分 系统总体结构设计详见 “系统结构”章节。 新华网内容管理 系统总体结构图如图 所示。 本处引用如下: 图 新华网内容管理系统 总体 结构  内容采集 系统 内容采集模块,是系统的批量资料导入接口,在内容采集模块中,提供了标准的JavaAPI 和 WebService 接口(包含 XML 文件接口),供第三方厂商调用,提过直接调用这两种形式的接口,可以直接把信息推送到 CMS 系统中。 比如: TRS 系统,通过内容采集模块的 WebService 接口的调用,便可以把抓取到的页面内容载入到 CMS 系统中,以便 CMS 的内容编辑继续完成下一步的发布工作。  内容管理 系统 内容管理模块是网站 CMS 系统的核心 分布式存储模块,完成 CMS 系统得成品资料、背景资料以及其它的需要存储管理的资料的存储和管理工作。 新华网三期项目系统设计书 第 32 页 共 111 页 在内容管理模块中,系统提供了对于数据资料的分库存储管理,按照资料属性的不同的文档文件夹管理,多种分类方式的分类管理,元数据定义等功能,实现了网站内容的海量存储。  发布系统 发布系统完成内容管理系统中数据到页面的发布的工作,系统依据内容管理系统模版管理、组件管理、栏目管理、发布树管理等功能,很好地完成了基于 XML 信息片的实时和定时合成和页面生成工作。  分发系统 把发布系统生成的静态页面、关联图片、 js 文件、 css 文件等生成结果安装指定的规则发送出去,在发送的过程中,按照指定逻辑可以对发送的文件进行一些简单的逻辑处理。  客户端平台 提供完整的内容管理系统功能共用户使用。 同时该平台上采用插件结构设计,可以把其他系统功能加入进来,插件可以随时开发自由注册,方便客户端平台的扩展。  远程发稿模块 为了方便外出人员进行在系统中工作,远程发稿模块通过远程代理的方式,实现了远程使用系统进行发稿、管稿、发稿等内容管理系统功能。 新华网三期项目系统设计书 第 33 页 共 111 页 内容采集 系统 内容采集系统以无人值守的方式从指定的稿件源上读取稿件数据,并把稿件添加到内容管理系统 的 源稿中心。 . 结构图 新华网三期项目系统设计书 第 34 页 共 111 页 内容采集系统在执行稿源数据采集时可以由管理用户为稿源数据指定格式模板,也可为入库引擎指定运行策略,同时对采集到的数据可以做一定的信息过滤和自动校正的处理。 稿件送入内容管理系统前,采集程序需要调用智能处理接口,对稿件的摘要、关键字等稿签项做一个自动处理。 . 模块单元设计 . 稿源管理 稿源管理包含稿源新增、稿源修改和稿源删除功能。 稿源是用来建立源数据文件和内容管理系统源稿库的关系的。 稿源信息包含:源数据位置、目标站点、稿源模板、稿源采集规则等信息。 新华社电稿、图片库等稿件信息 可以通过设置稿源来实现入内容管理系统源稿库,同时可以通过稿源设置实现 Email、短信、彩信等方式的投稿。 . 模板管理 模板设置 模板是用来建立源数据文件与内容管理系统各元数据项直接的映射关系的。 通过在系统中增加模板,使得内容采集系统能对采集数据源进行扩展。 系统 预置 CNML、 XinHuaML、 FounderEnpML 模板。 模板设置包含:模板新增、修改和删除操作。 模板指定 把设置好的采集 模板 指定到稿源上。 . 规则管理 规则设置 设置采集引擎的工作规则, 通过规则对采集引擎的采集内容范围、采集内容方式、采集内容 数量和采集内容大小等进行规范。 规则信息中包含:采。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。