基于视觉特性的视频编码理论与方法研究毕业论文(编辑修改稿)内容摘要:

不再是传统方法中的像素或者图像块。 这种信息表示机制变化的意义在于:通过将编码符号集合定义在具有视觉意义的基元上,传统的信息论就可以被扩展,我们称之 为 “视觉信息论 ”,以区分一般意义上的信息论。 为此,我们就需要探讨符合视觉感知的视觉基元与视觉信息论中基本信源符号的关系,寻找基本信源符号的合理定义,进而提出并形式化视觉信息量、视知觉熵等概念,研究其测度和数量化方法,寻找并借助客观、鲁棒、易行的视觉质量评价方法,探索基于视知觉熵的率失真关系,进而形成新的率失真理论。 从而以视知觉熵和视知觉率失真理论为基础,建立视觉信息论,为基于视觉模型的新型高效视频编码技术奠定坚实的理论基础。 本项目研究将基于上述总体思路展开,分别在视觉信息处理基本机理、视觉表示与计算模型、 视频编码理论与方法以及系统验证等几个层面展开。 具体的,在视觉基本机理方面,我们将采用多电极矩阵植入猴脑和计算仿真两种方法,重点探讨稀疏编码、群组编码、增量成组、运动感知、视觉注意等主要内容。 这些机理可以指导我们研究新的视频内容表示与计算模型,具体的,我们拟沿着对视觉信息进行统计学习的思路,学习图像 /视频的基本要素,建立时空要素图模型,并在此基础上对视觉注意进行建模分析。 最后则可以基于这些计算模型研究基于局部视觉模型的高效视频编码、包含注意机制的多维度可伸缩编码、分布式多视编码和面向智能监控的视频编码等理 论与方法。 需要指出的是,本项目的上述研究方案强调了神经科学、生理学、心理学、数学、计算科学和电子学等多学科的交叉 从而 有效地促进我国科学与技术研究在 13 上述领域中的 进一步 发展。 各主要研究内容的研究方案 基于上述总体学术思路和技术路线,本项目各个主要研究内容的研究方案概述如下: 视觉信息处理基本机理方面 这部分的研究将采用包括清醒动物神经电生理学、视觉行为学和药物学方法以及 ERP、 fMRI 等技术手段研究生物视觉系统知觉组织主要环节的神经机制和心理机理。 对视皮层神经元群反应特性等问题的 研究方案 ,简述如下:采用不同的视觉刺激模式 (刺激 背景和自然景物图像 )对灵长类动物进行视觉行为学训练;在动物V1 区植入多电极矩阵;采用神经电生理学记录研究动物作视觉识别和视觉学习时 V1 区神经元群反应模式;在各级皮层采用物理或化学药品手段改变纵向神经输入对 V1 区的作用;研究当动物作视觉识别时记录 V1 区神经元群反应特征。 视觉注意的生理心理基础及在视觉认知组织中的作用则将主要采用 ERP 和fMRI 技术,对被测试人的脑电活动进行测量,研究 知觉组织和 视觉信息处理过程中,基本成组和增量成组过程在时序和脑区上的差异,以及注意 等认知过程对其 之间的相互影响的差异以 加工 及相应的脑机制。 具体方案为:向被试呈现不同的刺激图片 (背景和图像容易分离或不易分离,自然图像或刺激-背景图形 ),考察在给不同线索 (cue)情况下, ERP 的波形,反应时间以及激活脑区的差异。 在模型研究方面, 考虑图像在不同感觉、知觉层面上的不同表示,对于视觉信息的稀疏表示、视觉皮层 V2 区、 V4 区和 IT 区的各个层次 采用前馈联接,采用无监督和有监督两种不同学习方式解决局部特征和整体特征的学习任务。 总体上采用阶层、模块化网络结构。 其中, 第一层对应稀疏表示,目标是建立视觉信息的 超完备表示,模拟视觉初始皮层的功能,该层的学习算法采用自适应的视觉信息稀疏表示算法,在神经信息内部编码方面,研究基于神经元信号独立分解机理的内部稀疏表示的统计模型,使得该层的神经元具有超完备稀疏响应特征。 第二层的功能是局部特征成组 (Feature Grouping),该层的学习准则是使得具有相近响应特征的神经元尽可能集群到相近的邻域,我们拟引入邻域神经元之间的能量变化极小化实现局部特征成组 和无监督学习机制。 第三层的功能是视觉整体特征的形成,该层依赖于具体的视觉处理任务。 我 14 们将针对某些特定的典型任务设计相 应的整体特征形成与学习方法,研究如何将任务的先验知识或领域知识融入到整体特征的表示与学习中。 在最高的识别层,考虑到不可预测的信息包含更多信息量的情况,试图对给定的图像计算其不可预测信息。 拟采用局部谱能量对数的残余量来定义感兴趣区域。 残差值越大,该区域的可预测性越差,因此我们把局部图像谱能量对数值残差超过一定阀值的区域定义为感兴趣的区域。 通过大量的计算机实验,利用该残差定义的感兴趣区域与人类视知觉的注意区域相吻合。 在定义感兴趣区域的基础上,我们将利用 Itti 的贝叶斯模型,定义视觉注意区域,并且给出计算算法。 面向视频编码的 视觉计算模型与方法 概括来说,我们拟采用产生式的、多层结构时空要素图 (STITCH)系统作为视频运动的统一表示,并采用 贝叶斯 理论框架下 的最大似然估计 (Maximum likelihood estimation)方法实现推理计算。 具体地我们拟定以下研究方案: 首先,我们提出 “时空要素图系统 ”来统一地表示视频中复杂的运动内容。 作为一种产生式系统,它包括三层结构,: (i)系统的底层为图像层,是我们观察到的视频序列。 (ii)系统的中层为要素图层。 为静态图像表示提出的 要素图模型,其本质上是一种属性图表示。 本层是我们需要推理演算出的隐变量 (hidden variable)层, 是 以产生式要素图模型生成底层的图像。 (iii)系统的上层也是隐变量层,它代表使要素图在运动过程中发生结构变化的因素,拟采用图语法表示。 我们将在 贝叶斯 理论框架下通过最大似然估计的方法学习时空要素图系统中的最优参数 (包括以上提到的各方面内容 ),从而实现对要素图的整合、分割、与组合,并实现对运动基元 (或子图 )的提取、跟踪,以及对图语法规则的学习。 具体研究方案 如下: (1) 基元在不同子空间中的动态特性分析 在确立了以时空要素图系统作为运动图像序列的表示模型后,我们将运动基元定义为时空要素图中的子图,如飘落着的雪花、飞翔的小鸟等。 运动基元也可以按粒度近一步的分解,如一个行走的人作为某一层上的运动基元可被进一步分解成为头、躯干、四肢等具有不同运动特性却又相互关联的不同运动基元。 15 由于运动的物体处于不同的熵域中,所以对不同类型的静态图像基元有不同的表示,如表示低熵结构 “可勾画 ”部分 (sketchable)的简约图模型和表示高熵 “不可勾画 ”部分 (nonsketchable) 的纹理模型。 这些不同熵域中的静态基元在时空中的动态特性很不一样。 因此, (a) 我们首先要定义各种图像基元在时空中的 “可跟踪性 ”(trackability)及其度量。 我们将借鉴对一般跟踪系统的分析方法,在贝叶斯推理理论框架下用信息论的方法 (information theoretic approach),将物体状态的 “不 可跟踪性 ”度量定义为其后验 条件熵。 它 体现了状态估计或跟踪过程中的状态的不确定性。 由此我们可以导出可跟踪性度量。 为 了获得视频的最优的时空要素图表示,我们将可跟踪性度量作为此优化问题的 一个重要参量置于 系统动态模型 中 ,使系统能够通过计算,在不同基元优化自身可跟踪性度量的同时,能够自动地选择适应不同视频内容的基元表示方法,从而获得最优的表示。 我们称之为基元对视频的 “竞争解释机制 ”。 这里我们所说的 “最优 ”或者定义在对视频内容的最小描述长度 (Minimum descriptive length)理论框架下,或者定义在贝叶斯推理理论下的最大后验概率 (Maximum a posteriori)估计意义下。 (b) 我们将通过基于采样的学习 (learning by sampling)方法,以及可跟踪性与不可跟踪性基元对视频的竞争解释机制,实现对运动图像序列的全面分析,得到不同粒度上的基元、运动层次 (layer)或物体,以及它们在时空中的对应关系,并可以对运动基元进行自动分类 (可跟踪与不可跟踪 )。 在此统计学习过程中,我们不断地学习、更新可跟踪运动基元在光度、几何、运动、以及拓扑等不同维度上的动态特性。 同时,对于不可跟踪运动基元,我们将在其特征空间 (如 PCA、Fourier 空间 )研究其光度和运动等动态特性。 (2) 运动基元的时空依赖及相互作用关系 在运动过程中,物体与物体之间、基元 与基元之间存在着相互作用,如鸟群在飞行的自组合状态,即:个体间的运动轨迹基本相互平行,同时保持一定距离;人在行走过程中,手臂与腿之间保持一定的协调性;小船随着波浪上下浮动;车辆经过时会遮挡背景物体等等。 在分别研究了不同类型运动基元的动态特性后,我们将通过回归式数学模型来描述物体以及基元之间在运动轨迹方面的相互影响;通过学习上下文相关的随机图语法来描述在运动过程中物体或基元之间在拓扑结构上产生的相互影响与作用关系。 (3) 运动基元在不同熵域间的转换 同一物体或基元由于运动可能穿梭于不同的熵域。 例如,一辆汽车 由远及近地驶来:它在很远的地方由于相机分辨率有限,成像后可以简单地用一个尺度很 16 小的点 (blob)来表示,这时它处在高熵纹理区;随着汽车的驶近,它会经过中熵以及低熵图像表示区。 在此过程中,如果仅仅用一个 blob 将不足以表示汽车不断涌现的细节,这时我们要不断选择合适的视觉 “词汇集 ”(visual vocabulary)来描述它在不同熵域中的表观。 所以,对于这种感知转换机制 (perceptual transition mechanism)的研究将在理论上指导我们如何针对不同情况采用适合的视觉 “词汇集 ”来表示运动的 物体并通过解释其中的变化来实现对复杂运动的鲁棒分析。 在本 项目 的研究中,我们将采用统计学习的方法,通过上下文相关的随机图语法来描述物体或基元在穿越不同熵域时发生的结构变化。 基于视觉模型的高效视频编码理论 以往视频压缩技术的主要理论基础是香农信息论,但目前遇到了效率瓶颈,这表现在压缩效率进一步提升将以不可承受的复杂度增加为代价。 基于此,本 项目 研究基于视知觉的视频压缩。 人类视觉系统提取外界信息是一个从底层像素到高层物体边缘、结构、颜色、纹理、运动的一个层级、渐进抽象的过程。 人类视觉系统会忽略视知觉感受 不到的内容,而关注于有实际物理意义的感兴趣对象。 因此,人类视觉系统对有意义信息的提取,也即对视频数据知觉冗余的压缩,是相当高效的。 目前,传统的视频压缩技术与人类视觉系统的视频处理过程有着本质区别。 两者效率上的差距正是基于视觉的视频压缩技术发展的空间。 本 项目 的研究内容包括理论基础研究、算法及系统研究,具体的研究思路如下。 (1) 基于视知觉熵的视觉信息论 结合视知觉机理和视觉计算模型,我们认为 “视频要素 ”是符合人类视觉处理机制的视频信息的基本组成单元。 因此,本 项目 拟将 “视频要素 ”作为所提视觉信息论中的基本信源 符号,通过 “视频要素 ”的视知觉信息量的定义,即视知觉熵,以及 “视频要素 ”有损表示下率失真关系的明确,完成视觉信息论的建立。 视知觉熵的定义及其数量化测度,特别是视知觉熵的动态测度,是视觉信息论可应用的关键。 本 项目 拟采用一组无冗余视频要素对视频序列进行表示,则视频要素的视知觉熵可通过要素组合视频与原始视频的主观视觉无差异性来测试获得。 测试方法、视知觉熵的数量化方法以及高阶视觉熵的定义需要深入研究。 视知觉率失真理论可在视知觉熵数量化的基础上,通过视觉要素有损表示下组合视频与原始视频的主观视觉差异性测试,来确定 率失真关系,从而完成视知觉率失真理论。 主观视觉评价是上述方法中的关键步骤,因此对鲁棒的主观视觉评价方法也需要进行深入研究。 本 项目 会对以上设想及测试方法的正确性、鲁棒性进行分析、实验、论证,对具有更一般性的方法开展研究。 17 (2) 基于视知觉的视频压缩算法及框架 基于视知觉的视频压缩算法及其系统要求具有高效、功能完备、可实现的特点。 主要是从两个方面进行研究 : 首先,在混合编码框架内结合所提取的视觉特征,提高传统编码框架下的编码效率,对此我们将研究基于局部特征的动态量化,即针对人的对比敏感度函数、纹理掩蔽效应 、频率掩蔽效应、速度掩蔽效应等动态视觉特性,研究在视觉失真的最大容忍程度下的优化量化编码方法; 其次,视频信息可由一组 “视频要素 ”来进行符合视知觉机理的高效表示,则压缩算法需要以视频要素为处理对象。 这些视频要素可以具体地由边缘、纹理、运动等图像 /视频的局部特征来表示。 基于所提取的图像特征,提出新的编码框架,建立一个基于局部特征的压缩系统。 为了保证所提出的基于视觉的编码系统具有很好的适应性,在各类型的视频序列上都能取得较高的编码效率,我们将首先将自然图像中的局部结构分为几个最基本的特征参数来描述,如:轮廓形状 、方向,空间周期性,时间周期性等。 然后用最基本的参数建立特征的基本集。 之后通过学习大量的自然图片,获得基本特征的变体,同时对基本集进行扩充。 最终形成一个基本覆盖所有自然图片局部特征类型的集合,并建立模型,实现对这个特征类型集合的模型表示。 这个特征类型集将是超完备并且恒定更新的,将会采用增量学习的办法来保证编码器和解码器的内容同步,并进行模型更新, (3) 基于视觉的动画压缩 我们拟结合动画制作的基本原理,提取有效的动画特征,包括边缘,纹理,运动、或色彩等,建立起动画中对象的模型表示,搭建基于视觉的动画 压缩系统,提高动画的压缩效率。 (。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。