主题型网页发现以及网页内信息块发现内容摘要:

–分类器的特征选择 网页正文文字数目 网页正文标点符号数目  URL层数  URL中数字的个数 …… 结果分析 • 测试集: cwt_quark_70thousand 71502个 web • 阶段 1: (输入 71502个 web )  主题型网页: 33161个  非主题型网页: 19623个  无法判断的网页: 18718个( %) • 阶段 2: (输入 18718个 web ,利用 SVM分类)  主题型网页: 15139个  非主题型网页: 3579个 • 阶段 3: 根据主题型网页信息块抽取结果,去掉只能抽取到极少内容的主题型网页3206个 • 最终 :  主题型网页: 45094个( %)  非主题型网页: 26408个( %) 结果分析 • 从阶段 1的分类结果看出:大部分的网页( %)可以根据网页的重要特征的阈值进行分类,方法简单高效。 • 虽然只有 %的网页需要利用分类器进行进一步的分类,但这 %的网页可能恰恰决定了本算法的分类效果。 因为这 %的网页都是模棱两可的,对它们进行准确的分类至关重要。 • 由于阶段 1和阶段 2都可能存在一定的误差,因此经过信息块抽取之后的反馈是很重要的。 不足与改进 • 对网页的特征选择与抽取还有待完善,期望以后能挖掘出更能描述网页性质的特征。 • 在网页去噪方面略显粗糙,需做进一步改善 • 阶段 1的特征阈值设定过于简单。 • 阶段 3的反馈机制过于简单。 网页内信息块发现 一、术语定义 • 主题型网页: 主题型网页是指网页。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。