全国搜索引擎与网上信息学术研讨会sewm2006---中文web(编辑修改稿)内容摘要:
分析、股票论坛、股票评论、股票软件; • 用扩展后的查询词搜索,每个查询词均返回 300条结果; • 合并扩展查询结果。 12 关键技术介绍 • TD – 二次查询优化 • 截取每个查询结果的前 200条结果; • 对这 200条结果进行站内聚合,并将每个网站内的 ROOT、SUBROOT、 url深度小于 3的 PATH的 url提前; • 对所有被提前的网页按照得分排序,并尽量保证前十条出现不同网站的 url,将这些网页放在结果集的前面; • 对其他网页按照得分进行排序,顺序排列在得到的结果之后。 13 关键技术介绍 • NPHP – 对于所给的查询集,我们根据查询词很容易就可以分辨出该查询的意图: HP or NP。 我们手工对查询词进行判断( RANK4 和 RANK5没有这一步骤),添加 H( homepage)或 N( namepage)标记。 这一步骤主要是查询优化时使用; – 在索引库中查询,并返回 200条搜索结果; – 对搜索结果进行二次排序。 算法主要是基于华南理工大学胡俊刚等的 《 基于 URL类型优先级入口页面查询算法 》。 同时判断查询词的 H标记或者 N标记,把结果中的主页提取到前面( H)或放到后面( N。全国搜索引擎与网上信息学术研讨会sewm2006---中文web(编辑修改稿)
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。
用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。