sewm20xx中文网页分类评测参赛系统说明内容摘要:

,必定是存放在某一个表格中,对于不在表格中的部分,将其看作一个表格,便于处理。  根据表格的嵌套关系对每个表格进行分级,对处于最高级别的表格进行比较。 主要是根据 table表格中包含的文字数目和表格中的一些特殊字符进行比较,按照一定规则将一部分 table内容去除掉。 将剩下的内容视为一个新的网页,并进行同样的迭代操作。  进行数次迭代消除网页“噪声”(经过反复实验我们认为进行四次迭代后网页“去噪”效果最好)。 信息管理系 网页进化算法(对于 URL锚文本) 经过调研,我们认为网页 URL一般具有以下两条规律:锚文本长度一般不长、越长的 url一般越重要。 我们计算每条锚文本与净化处理后的网页标题的编辑距离,并将其除以锚文本长度,选取该值小于。 信。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。