信息检索与web搜索内容摘要:

 主要内容: 倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建  索引压缩  功能: 对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率  主要内容: 词项的统计特性 (Heaps定律、 Zipf定律 )、词典的压缩、倒排记录表的压缩 17 信息检索的基本内容  检索模型与排序算法  功能: 用于判断查询和文档之间的关联性  主要内容: 布尔检索模型、向量空间模型、概率检索模型、 TFIDF词项权重计算机制以及基于 TFIDF 的文档排序算法、概率排序原理、 PageRank算法、 HITS算法、基于向量空间模型的 XML文档排序算法 18 信息检索的基本内容  用户交互  功能: 支持用户创建和精化查询,支持检索结果的展示  主要内容: 查询输入、查询变换、相关反馈和伪相关反馈、查询扩展及重构、检索结果展示等  检索评价  功能: 对检索系统的效果和效率进行评价  主要内容: 正确率、召回率、 正确率 召回率曲线、标准测试集及评测会议、 用户体验及结果摘要等 19 课程目标  通过本课程的学习,使同学们能够 掌握信息检索和Web搜索的基本思想和基础知识 ,包括基本的概念、原理、模型和算法,并 具备一定的信息检索系统和搜索引擎研发能力  不是教同学们怎么使用信息检索工具,而是 了解信息检索工具背后的基本原理和技术 ,为今后能够从事与信息检索和 Web搜索相关的研发工作打好基础 20 老师介绍  主讲高曙明: 浙江大学应用数学系博士毕业,教授,博士生导师。 现为浙江大学 CADamp。 CG国家重点实验室 CAD方向学术带头人  办公电话: 88206081514  Email:  办公地点: 紫金港校区图书信息 B楼 525室  个人主页:  助教: 秦孝廉,浙大计算机学院研究生  , 18368035135 课程基础  数学基础  概率统计  线性代数  计算机基础  算法和数据结构  编程 22 考核方式  平时作业 +期末考试 (开卷 ) 。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。