sewm20xx中文网页分类系统说明内容摘要:

训练集和待分类网页集,对网页进行净化主要包括以下几部分: ( 1)根据网页中超链接在某一块中的出现比率去除网页导航条信息; ( 2)利用关键词构造正则表达式来去除广告栏信息和版权信息; ( 3)去掉无用的 HTML语法标签信息。 • 元数据抽取模块  抽取网页标题( titile)、关键词( keywords)和网页描述( description)等元数据;基于 JTidy去除 Html标签和抽取网页的主体文本( body)内容。 2020/11/4 7  中文分词模块 •基于逆向最长匹配的分词算法 •穷尽式名词短语识别算法  主要思想是,在分词的基础上,进一步找出所有的名词和名词性短语;  目的是为了构建规则分类器。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。