第九章自动标引(编辑修改稿)内容摘要:
动标引的基本流程 确定标引源 输入标引源内容 预处理 分词处理 确定关键词 转换为受控词 给出主题标识符 确定标引源 即确定标引所依据的文献内容(标引源)。 标引源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源,大多数研究是基于标题进行的。 但仅以标题为标引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。 确定标引源 一般选择以下内容作为标引源: :包括文章的主标题、章节标题、小结标题等。 这是首选标引源。 :较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定 56个最重要的词。 :科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。 确定标引源 :常反映章节讨论的主题,替代整个章节,节省大量无效劳动。 :国外有学者对科技文献的 200个段落进行了主题句的分析,结果: 85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。 用段落首尾句替代整个段落,节省工作量,免除许多 “ 杂音 ”。 输入标引源内容 标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。 印刷型文献:手工录入或 OCR(光学字符识别)输入 电子文档( XML、 DOC、 TXT等格式):直接导入 文档的预处理 字符内码的检测与转换: BIG5码与GB码的自动检测与转换。 文档格式的检测与转换:去掉 DOC、XML、 RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。 分词处理 在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。 西方文字有分隔符,切分容易实现。 而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。 确定关键词 根据文本词语切分结果,以词语在。第九章自动标引(编辑修改稿)
相关推荐
ydxedyI212141 yyxydxedy121.解 dxe xy 不能用初等函数表示 先改变积分次序 .原式 xxxydyedxI2211 121 )( dxeexx .2183 ee 2xyxy例 7 求由下列曲面所围成的立体体积,yxz , xyz , 1 yx , 0x , 0y .解 曲面围成的立体如图 . ,10
2.主观:故意,即明知是上级的命令而予以违抗,拒不执行。 3.客观表现:战时违抗命令,对作战造成危害 4.客体:部队的作战利益。 二、临阵脱逃罪 是指在战场上或者在战斗状态下,参战军职人员因贪生怕死、畏惧战斗而逃离部队的行为。 1.犯罪主体:参战的军职人员 2 3.客观表现:战时临阵脱逃 4.犯罪客体:军队的作
許主機使用私有網路的 IP位址來與Inter上的主機進行通信。 防火牆最簡單的概念,就是在 Inter與組織的 LAN之間設一節流點,以管制進出組織資料及組織內機器的安全。 一般防火牆的做法都是在主機上插兩片或兩片以上的網路卡,其中一片連接可公開網路,另一片則是連接到被保護網路,而防火牆則是管理流經這兩片卡的資料封包。 每個防火牆產品都使用它自己的術語。 舉例來說,微軟的 Proxy
(2) . 则交错级数 收敛 ,且 ,其 中 、 与 分别是交错级数的和, 项部分和与余和 . 证明 : ,有 由条件 , 有 于是 ,偶子列 单调增加 ,又 1nunN nu lim 0nn u 11( 1) n nnu 1n n nr S S u S nSnrnRN 2 1 2 2 1 2( ) ( )k k kS u u u u
第二节 电缆的连接与敷设 电缆的连接 控制室仪表与现场仪表之间通常采用电缆连接。 这是因为现场仪表所处的工作环境比较恶劣,引向这些仪表的导线就需要有一定的保护措施,防护措施主要从两个方面考虑,即连接导线的电气防护措施与机械损伤防护措施,一般导线都不能满足这些要求。 另一方面,控制室和现场之间的距离一般都比较长,每个信号都使用单芯的电线进行连接,则势必增加电线的敷设工作量,造成工程费用开支加大。