第九章自动标引(编辑修改稿)内容摘要:

动标引的基本流程 确定标引源 输入标引源内容 预处理 分词处理 确定关键词 转换为受控词 给出主题标识符 确定标引源  即确定标引所依据的文献内容(标引源)。 标引源的选择是影响标引质量的一个重要因素。  标题是自动标引的主要标引源,大多数研究是基于标题进行的。 但仅以标题为标引源,信息量少,标引质量差,难以推广使用。  如果对全文进行扫描,则存在数据量大和截取词汇太多等问题,为标引带来许多杂音,影响标引质量和速度。 确定标引源 一般选择以下内容作为标引源: :包括文章的主标题、章节标题、小结标题等。 这是首选标引源。 :较标题而言,信息量较大,一般能够完全反应文献讨论的主题,但仅利用文摘难以确定 56个最重要的词。 :科技论文首章节(引言、问题的提出等)常提出主要内容,尾章节常作总结。 确定标引源 :常反映章节讨论的主题,替代整个章节,节省大量无效劳动。 :国外有学者对科技文献的 200个段落进行了主题句的分析,结果: 85%的段落主题句是段落的第一句,7%的段落主题句是最后一句。 用段落首尾句替代整个段落,节省工作量,免除许多 “ 杂音 ”。 输入标引源内容 标引源必须按标引系统要求的格式输入系统,才可能进行自动标引。 印刷型文献:手工录入或 OCR(光学字符识别)输入 电子文档( XML、 DOC、 TXT等格式):直接导入 文档的预处理 字符内码的检测与转换: BIG5码与GB码的自动检测与转换。 文档格式的检测与转换:去掉 DOC、XML、 RTF等格式的文件夹杂的许多无意义的格式符号,即将不同格式文件转换成适于自动标引的纯文本格式。 分词处理  在确定关键词之前,必须对文档进行切分,即将语句切分成由词组成的集合。  西方文字有分隔符,切分容易实现。 而汉语采用连写方式,词之间没有自然分隔符,词语的准确切分较为困难(研究相当长时间),目前自动切分已基本能满足实际需要。 确定关键词 根据文本词语切分结果,以词语在。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。