基于文本web图片搜索引擎的研究论文内容摘要:

有机的组织在一起,最常见的组织形式就是 HTML 网 页,于是通过 HTML 挖掘可以获取到大量的关于图片的信息。 HTML 网页是 Web 上应用最广泛的信息组织方式,是搜索引擎获取信息的最主要来源。 Inter 上 HTML 网页数量及其所包含的多媒体资源相当丰富。 根据 CNNIC 的《 2020 中国互联网络信息资源数量调查报告 》 1 显示(截至到 2020 年 12 月 31 日): 北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 2 网页数 全国网页总数 311,864,590 个 其中:静态网页数 226,725,557 个 动态网页数 85,139,033 个 静动态网页数比例 :1 平均每个网站的网页数 网页字节数 全国网页总 字节数 6,059,431,526KB 每个网页平均 字节数 平均每个网站的网页 字节数 10, 图表 1 网页数及网页字节数情况 近三年中国网页数对比159460056 1570912203118645901 .5 %9 8 .5 %0500000001000000001500000002020000002500000003000000003500000002020 年 2020 年 2020 年2 0 %10%40%70%100%130%网页数 增长比率 图表 2 近三年中国网页数对比 图像 % 音频 % 视频 % 图表 3 网页的内容分类情况(按多媒体形式) 从以上统计数字可以看到,目前国内的 Web 信息资源数量已经相当可观,并且随着 IT 业在 2020 年的逐渐复苏,网 页数量比 2020 年增长了一倍。 网络上的多媒体内容绝大部分以图像的形式存在,这对于图片搜索引擎的资源获取无疑具有相当的价值。 Web 搜索引擎技术已经被广泛的引用到 Inter 上,每天要抓取海量的HTML 网页,这是一个宝贵的资源库,但目前 Web 搜索基本上只利用到其中的文本信息。 如果充分的挖掘资源库中的潜在价值,可以建构出很多增值的搜索系统,比如图片搜索, mp3 搜索, Flash 搜索等等。 因此,本文的切入点就是如何有效的利用这些 HTML 网页来构建 Web 图片搜索引擎。 北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 3 图片检索系统概述 系统应用领域 随着图片使 用的日趋广泛和图片搜索技术的不断发展,图片检索系统的应用范围变得越来越广。 目前使用最广泛的是通用 Web 图片搜索引擎,比如Google 图片搜索,它面向通用领域的用户提供服务。 除此之外,有大量的专用领域使用到了图片检索,比较常见的领域有: 医药领域。 许多的医学和健康相关的专业需要使用例如 X 光、扫描影像之类的一些可视信息资料,用于诊断和检测疾病。 图片检索技术能够有效的用于这类信息的表示、存储、传输和分析,针对该领域的研究主要集中在图像处理上,例如边界或者特征检测,可用于跟踪肿瘤的生长等。 该领域已经有成功的系统使用 案例。 图形设计领域。 对于已有的设计的重用,可以为该领域的工作者提供大量的素材和灵感,图片检索系统可以为这些工作提供大量帮助,同时,对于用户寻找特定要求的作品也提供了很大的便利。 出版领域。 出版社、报社、杂志社等机构对于图片的需求是相当多的,基本上都有自己的图片库,传统方式利用多种归类方式来进行存储和查找。 该领域的工作者需要花费大量的时间来查找和挑选合适的图片,利用图片检索系统能够提供有效的帮助。 其它的一些领域还包括建筑设计、天文学、地理学、历史研究、犯罪取证等。 用户检索方式 在检索方式上,图片检索相对 于网页检索来说,有很大的不同。 目前的网页检索系统几乎仅有关键字查询一种,因为当前考虑范围内用于网页内容的唯一描述只有文字。 而图片可以有相关的文字描述,同时图片本身还具有自描述性(内容本身提供了语义信息)。 因此,图片通常具有多种检索方式,从用户检索的角度看,可以分为如下几类:  目录式检索: yahoo 的图片搜索集成了其网页搜索的特点,将图片进行分类,用户按照分类结构逐渐细化查询范围。 目录式检索方式经常需要人工来进行大部分的分类工作,因此代价是相当高的。  关键字查询: 北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 4 目前使用中的大型图片搜索引擎使用的方式。 用 户给出与所需的图片相关的文字,系统根据之前建立的文字到图片的匹配来查找包含有查询词的文本对应的图片。 关键字检索方式最显著的优点是其检索速度非常快,并且基于文本的索引技术已经很成熟。 信息和文字的匹配上有两种方法,一种是人工标引,一种是自动提取。 人工标引对于信息的准确度方面是效果比较好的。 但是也面临几个主要的缺点:一是人工标引工作量太大,在海量系统中几乎是不现实的。 二是人工标引的信息主观性比较强,有时候不能恰当的反映图片的真实信息或者反映的信息不完全(后者几乎总是存在)。 自动提取方法的难点在于如何为图片提取 正确的文字信息。 由于信息组织的多样化以及难于判定具体的组织方式,很难确定哪些信息是与图片相关的。 这种方法通常采用启发式规则来进行信息提取,使用比较常用的模式来获取信息,并通过无用信息过滤等技术来尽可能的提高信息的准确性。  实例式检索: 目前的基于内容的图片搜索引擎大多是这一类。 方法是提供一张图片实例或者由用户绘制一个大概的形状,系统根据某些可视特征去寻找在该特征上相似的图片。 这种检索方式的优势在于发现相似图片的效果比较好,缺点在于需要用户提供图片实例,这一点通常使系统变得很不友好。 虽然基于内容的检索系统可以 提供一些分类信息,但也仅限于户内或者户外,风景或者人物等粒度比较大的分类。  属性式检索: 这种检索方式多用于小规模的专门的图片数据库,比如摄影图片库,用户可以根据作者,拍摄日期等一些图片的外在特征来进行检索。 该类数据库具有集中式管理的特点,信息往往比较规范,建立索引和检索过程都相对简单,可以使用现有的关系数据库来实现。 系统评价 检索系统中很重要的系统评价指标是查准率( Precision)和查全率( Recall)。 查准率表示查询结果中相关的文档数所占结果文档总数的比例;查全率表示查询到的相关文档数占整个文档 集合中所有相关文档数的比例。 假设对于特定的查询, D+为整个文档集合中相关文档的数量, R 为查询结果文档集合, R+为结果文档中相关文档集合,则查准率和查全率可以形式化的定义为: 查准率: RRecisio n Pr 查全率:  DRcallRe 在图片检索系统中,对于这两项指标的度量比较困难,因为对于图片与文北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 5 本的相关性评价是相当主观的,基本上只能得到一个很粗略的统计结果。 除了以上两项指标以外,还有一个评价指标是性能,即系统提供服务的能力度量,可以包含系统的吞吐量,响应时 间等。 系统的可扩展性也是需要考虑的,当查询数量和频率增加以后,可以通过增加服务的主机数来满足性能的要求。 比较好的期望是系统能够接近线性可扩展性。 研究现状 基于文本的图片检索最早可以追溯到 20 世纪 70 年代早期,当时的检索系统使用人工对图片的内容进行文字信息标引,利用 DBMS 存储文字信息,并利用文本检索技术提供查询。 当时的研究多集中在数据建模、多维索引、查询评估等数据库技术上。 当图片库的规模急剧增大以后,人工标引需要耗费大量的人力,依然使用这种方法变得不切实际,需要提供一种自动的技术来完成信息的索引,另一方 面,人工标引提供的信息相当主观,而且往往只反映了图片某一方面的内容。 为了克服这些缺点,在 20 世纪 90 年代早期,提出了基于内容的图片检索技术。 该技术不需要进行文字标引,而是通过图片本身的可视化内容来进行索引,例如颜色、纹理、形状等。 自此,很多的学者针对基于内容的技术进行了大量的研究,提出了很多的算法,并开发了很多的实验系统。 当前大量研究热点集中在基于内容的检索上。 但是目前基于内容的检索在实际使用中不尽人意,单纯的使用误识率较高,主要的原因在于这类技术仅仅使用图片的相似关系来进行检索,并不符合人们检索信息的习 惯,而且目前的相似性度量方法还比较粗浅,效果并不太好。 鉴于此,有学者提出了基于语义的图像检索 43,该技术试图建立一种高层次的语义到低层次的可视特征之间的映射关系,实际上是试图将可视特征识别为语义概念,使之类似于人类识别事物的方式。 例如当分析出上半部分为白色,下半部分为蓝色的图景时,能够理解为 ―海平面 ‖。 该技术需要使用到知识库,用于存储语义网络和映射关系。 关于可视特征的识别需要深入的理解人类的视觉机制,这方面的进展还不太大。 在所 有的图像检索技术中,无疑基于文本的检索是效率最高的一种,很多的图片搜索引擎都全部或部分的运用了基于文本的检索机制。 目前 Web 上HTML 文档的大量出现使得图片的文字信息可以借助于分析 HTML 文档得到,从而克服了人工标引的不足。 因此,这一类的系统在实际应用中取得了不错的效果。 北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 6 现有图片检索系统简介 目前,许多大型的搜索引擎公司和研究机构都先后推出了图片搜索功能。 其中比较重要的几个商业图片搜索引擎包括国外的 google、 yahoo 等,国内的有 baidu、 Tom、 sina 等。 同时,还有很多研究性的图片搜索引擎,具有 代表意义 几 个是 : ImageRover 、 WebSeer 、 WebSeek 、 ImageSpace 、 PicToSeek 、WebMARS 等等。 Google 图像搜索 Google 图像搜索 7 是 Google 网页搜索的一个增值系统,提供目前全球最大的图片库,拥有 亿张 1图片可供检索。 Google 通过对网页的分析,提取与图片相关的文字信息,提供基于关键字的检索,支持复杂的布尔查询表达式。 采用一定的基于内容的分析手段,提供基于色彩类型(黑白,灰 阶和全彩)的过滤。 针对英文可以提供敏感图片过滤功能。 利用复杂算法实现图片的消重,并利用在排序技术方面的优势提供较好的图片排序输出。 ImageRover ImageRover8 是波士顿大学( University of Boston)计算机系开发的一个图片搜索引擎。 其采用了图片内容和文本信息结合的方式进行处理,分别计算出两种特征向量,结合起来提供查询。 ImageRover 通过 LSI 方法来计算图片与文字之间的相关性,生成文字特征向量。 文字从图片所在的 HTML 文档中提取,权值的大小由几个因素决定:文本在 HTML 文档中的出现频率,文本与图片的距离和文本的形式(比如 bold等)。 ImageRover 还通过对图片内容的分析来生成内容特征向量。 特征的提取包括颜色柱状图( color histogram),主方向柱状图( dominant orientation histogram ) 以 及 纹 理( texture ) , 并利 用了 PCA ( Principal ponent analysis)在尽可能少丢失信息的情况下降低向量的维数。 系统提供两种方式的查询 :关键词查询和相似查询,并提供逐渐提纯查询结果的功能。 1 的数字 北京大学硕士研究生学位论文 基于文本的 Web 图片搜索引擎的研究 7 WebSeer WebSeer9 由芝加哥大学( University of Chicago)计算机系开发。 采用图片内容与文本信息结合的方式进行处理。 WebSeer 并不对整个网页的信息建立索引,而是从多个可能的来源提取文字,同时对不同的来源确定不同的权值。 系统同时对图片内容进行比较简单的分析,能够辨别出照片和其他图像。 系统还对图片的一些属性(例如图片维数,灰度级,文件类型等)进 行了索引。 用户通过提供关键字以及指定图片属性值进行查询。 WebSeek WebSeek10 由哥伦比亚大学( Columbia University) Image and Advanced Television Lab 开发。 系统可以提供图片和视频的查询。 WebSeek 包含一个 Web 代理( crawler),通过遍历一系列 URL 列表并发现其中的图片和视频,获取并储存到本地用于下一阶段的分析。 对图片和视频的分析过程包括:  提取可视化特征 (颜色柱状图);  提取附带属性,比如文件类型,图片的长宽,视频的帧数等等; 。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。