基于用户群体行为分析的搜索引擎自动性能评价内容摘要:

查询的答案标注 –结果唯一,不存在“找不全”的问题 –搜索引擎检索性能高,点击准确度较可靠 –能够发现用户的关注热点,如 “ 163” = “搜狗” = –答案标注的难度较低 搜索引擎效果自动评价 • 信息事务类查询的答案标注 – 以查询词”电影”为例 • 不同搜索引擎的点击分布差异大 • 存在着搜索引擎对用户行为的偏置性影响 – 索引数据偏置 – 检索策略偏置 • 结果不唯一,全面性难以保证 • 答案标注难度较大 • 需要借助多个搜索引擎的用户行为信息进行标注 搜索引擎效果自动评价 • 自动评价流程 数据预处理 查询分类 信息类标注 导航类标注 搜索引擎结果抓取 性能评价指标计算与反馈 搜索引擎日志 搜索引擎效果自动评价 • 按信息需求将查询样例自动分类 Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2020 搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 – 利用单个搜索引擎的点击信息即可完成 – 焦点假设:不同用户具有相同的导航类别检索需求时,他们的点击都会集中在其检索目标网页(或其镜像)上。 – 网页 r 针对查询 q的点击集中度 – q的点击集中度最高的 r即为其检索目标页面 )()(),(qofSe s s i onrc l i c k st hatqofSe s s i onrR e s u l tqQ ue r yCl i c k F oc us 搜索引擎效果自动评价 • 针对导航类查询的结果自动标注 – 标注算法:寻找针对 q的 ClickFocus值最大的 r – 标注样例 查询 自动标注的 URL 读写网 北京现代 NBA 南方都市报 卓越网 搜索引擎效果自动评价 • 针对信息事务类查询需求的答案自动标注 – 基于多搜索引擎用户行为挖掘 1. 利用单搜索引擎用户行为挖掘方式,进行各自独立的标注 2. 借鉴 Pooling做法,综合不同标注者(这里为搜索引擎用户的宏观行为)的意见 搜索引擎效果自动评价 • 基于多搜索引擎用户行为挖掘的标注算法 – 需要考虑的因素 • 用户点击行为差异 • 用户访问量差异 • 查询分布差异 • 搜索引擎相对重要性的差异 – 综合考虑以上因素,计算某个结果对于某个查询的置信度 )/( qu rlP i搜索引擎效果自动评价 • 合并计算结果 url对于查询 q的置信度 • – 基于单搜索引擎进行答案标注的可信度 – 依据查询用户数来计算 jjjii qSEPqSEur lPqur lP )|(),|()|()|( qSEP jjjjj SEinqofs e s s i o nSEinqofs e s s i o nqSEP))(l o g ( ))(l o g ( )|(搜索引擎效果自动评价 • – 单独某个搜索引擎标注答案的可信程度 – 依据此搜索引擎的用户点击的宏观集中程度来确定。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。