音视频编码解码研究内容摘要:

是光滑的,这意味着可以根据某一部分的频率来推断其相邻部分的频率。 ( 3)时间相关性:在数字视频中,在时间上相邻的两帧图像的大部分像素值变化很小。 有损编码的标准过程是变换编码,即用上一个和原来不相同的数学基来表示数据,其数据的相关性能够显露出来或者被拆开。 在这种新的基下,大部分的系数都接近于零,可以忽略,于是可以将余下的信息存储在一个较小的数据包中。 压缩是通过数据变换,把域值以下的系数置零,对非零的数据 进行无损的编码来实现。 编码 ( 1)行程编码( RunLength)技术 行程编码是相对简单的一种编码,是指在一行扫描的像素中,比较相邻像素的幅度(如亮度)。 当幅度有一个显著的变化时,就说明有一个行程存在。 ( 2) Huffman 编码压缩 Huffman 编码是一种长度不均的、平均码可以接近信息源 熵 值的一种编码。 该编码对于出现概率大的信息采用短字长的码,对于出现概率小的信号用长字长的码,以达到缩短平均码长,从而实现数据压缩的目的 [4]。 ( 3)字典压缩方法 目前广泛采用的字典压缩方法包括两种类型。 一种 是在数据压缩的过程中,寻找当前等待进行压缩 处理的数据串中出现过, 如果 确实曾经出现过 ,则利用指向已经进行处理数据串中的指针代替当前等待压缩的数据串。 第二种是为输入数据创建一个短语字典,如果在当前等待进行压缩的数据流中发现字典,则利用该短语在字典中的索引值代替原始数据。 ( 4)算数压缩算法 算数压缩算法与 Huffman 编码方法相似,都是利用比较短的代码取代图像数据中出现比较频繁的数据,而利用比较长的代码取代图像数据中使用频率比较低的数据,从而达到数据压缩的目的。 ( 1)预测编码方法 如果已知图像一 个像素离散值,利用其相邻像素的相关性,预测它下一个像素(水平方向或垂直方向)的可能性,求其两者差,再量化、编码,这种方法称为预测编码方法简称预测法。 音视频编码解码研究 –5– 预测编码中典型的压缩方法有脉冲编码调制( PCM, Pulse Code Modulation)、差分脉冲编码调制( DPCM, Differential Pulse Code Modulation)、自适应差分脉冲编码调制( ADPCM, Adaptive Differential Pulse Code Modulation)等,它们较适合于声音、图像数据的压缩,因为这 些数据由采样得到,相邻样值之间的差相差不会很大,可以用较少位来表示。 ( 2)变化编码 图像经过正交变换后,能够实现图像数据压缩的物理本质在于经过多为坐标系的适当坐标旋转和变换,能够把散布在各个坐标轴上的原始图像数据,在新的坐标系中集中到少数坐标轴上,因而有可能用较少的编码比特数来表示一副子图像,实现图像的压缩编码。 ( 3)金字塔编码 把原图像 分解 成许多不同的分辨率的子图像,并把高分辨率(尺寸较大)的图像放在下层,把分辨率低 (尺寸较小 )的子图像放在上层,从而构成一个金字塔,对图像,借助于 拉 普拉斯金字塔 [5], 对图像的每一曾分别量化、编码,并对是绝不敏感的层粗化,用较少的码字编码,从而达到压缩的目的。 ( 4)子带编码 子带编码先将先将原图用数字滤波器分解成不同频率的成分的分量,在对这些分量进行亚抽样,形成子带 图像,最后对不同的子带图像分别用与其相匹配的方法进行编码。 (三)主流视频编码框 架 目前视频流传输中最为重要的编解码标准有国际电联的 、 ,国际标准化组织运动图像专家组的 MPEG 系列标准,此外在互联网上被广泛应用的还有RealNetworks 的 Real Video、微软公司的 WMV 以及 Apple 公司的 QuickTime 等。 1. MPEG MPEG 由 ISO( 国际标准组织机构 ) 下属的 MPEG( 运动图象专家组 ) 开发。 视频编码方面主要是 Mpeg1( VCD 使用 )、 Mpeg2( DVD 使用)、 Mpeg4(现在的 DVDRIP 使用的都是它的变种,如: DIVX, XVID 等)、 Mpeg4 AVC[6]; 音频编码方面主要是 MPEG Audio Layer 1/ MPEG Audio Layer 3( mp3 使用 )、MPEG2 AAC 、 MPEG4 AAC 等等。 2. 系列:由 ITU(国际电传视讯联盟 )主导,侧重网络传输。 音视频编码解码研究 –6– 包括 、 、 、 +、 ++、 ( MPEG4 和 AVC 合作的结晶)。 3. 微软 windows media 视频编码有 Mpeg4 v1/v2/v3(基于 MPEG4, DIVX3 的来源)、 Windows Media Video 7/8/9/10。 音频编码有 Windows Media audio v1/v2/7/8/9 系列。 4. QuickTime 视频编码有 Sorenson Video Apple MPEG Apple。 音频编码有 QDesign Music Apple MPEG4 AAC。 5. Real Media Real Media 是 Real Networks 公司创造出来的一种互联网流媒体格式的统称,它的主要特点是针对低带宽应用(最低 )进行动态(声音、视频)媒体传输。 包括 Real Audio, Real Video。 ( 四 )视频解码原理 视频解码就是将编码后的文件或数据流,没有损失的或者最大限度的还原成原始图像。 其解码过程基本上是其对应编码过程的逆运算。 视频解码 地方法一般包括 熵解码,反量化,反变换,插值,重建,滤波,参考帧插入等。 ( 五 ) 音 频编码 原理 自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即 PCM 编码。 PCM 通过 采样 、量化、编码三个步骤将连续变化的模拟信号转换为数字编码 [7]。 ( 六 )音频编码机制 根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能 做到这样 ,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。 在计算机应用中,能够达到最高保真水平的就是 PCM 编码,被广泛用 于素材保存及音乐欣赏, CD、 DVD 以及我们常见的 WAV 文件中均有应用。 因此, PCM 约定俗成了无损编码,因为 PCM 代表了数字音频中最佳的保真水准,并不意味着 PCM 就能够确保信号绝对保真, PCM 也只能做到最大程度的无限接近。 我音视频编码解码研究 –7– 们而习惯性的把 MP3 列入有损音频编码范畴,是相对 PCM 编码的。 强调编码的相对性的有损和无损, 是想证明要 做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。 ( 七 )主流音频编码框架 1. WAVE WAV 文件格式是一种由微软和 IBM 联合开发 的用于音频数字存储的标准,它采用RIFF 文件格式结构,非常接近于 AIFF 和 IFF 格式。 多媒体应用中使用了多种数据,包括位图、音频数据、视频数据以及外围设备控制信息等。 2. MP3 MP3 音乐的 编码 原理说得简单些, 就是将 音频文件压缩成 MP3 文件,其实就是找到并删除音频文件中人耳听不到的声音。 正常的人耳只能听到频率在 20 赫兹至 2 万赫兹的声音,音频文件中包含的一些声音可能超出了人耳所能听到的范围,另外还有一些细微的声音可能被更大的声音掩盖,还有一些音乐中的声音可能根本就是多余的。 编码软件能将代表这类声音的文件找 出来并加以删除。 这样,原先臃肿的音频文件就变小了。 压缩音乐文件时,人们通常会说以多大的压缩比率进行压缩,压缩比率的单位为 Kbps(千字节 /秒 )。 当选择较高的压缩比率时 (如 128Kbps),原始文件中被去除的数据将会比较少,音质比较好,但压缩后的文件比较大,有时会导致文件无法使用;相反,当选择的压缩比率较低时 (如 64Kbps),被去除的数据会比较多,这样做虽然缩小了文件,但却会造成音质损失。 3. OGG OggVorbis 的主要算法是利用 MDCT(修饰离散余弦变换 Modified Discrete Cosine Transform)而不是用现在比较时兴的小波( wavelet)技术。 Ogg 采用可 交错通道技术( channel interleaving) 和 极性矩阵映射技术( square polar mapping) 两种技术组成的多通道编码技术,统称为立体声通道耦合 ( Stereo Channel Coupling)。 与其他会造成立体空间感减弱的编码模型相比,这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间 音 像,而且实现的复杂程度比联合立体声方式要低。 Ogg 的编码中的比特率选项主要有 ABR、 VBR 和 Quality 三种, Ogg 的比特率是可变的, 推荐使用设置简单 Quality 模式,能满足大多数人要求。 音视频编码解码研究 –8– 4. WMA WMA(Windows Media Audio),它是微软公司推出的与 MP3 格式齐名的一种新的音频格式。 由于 WMA 在压缩比和音质方面都超过了 MP3,更是远胜于 RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。 一般使用 Windows Media Audio 编码格式的文件以 WMA 作为扩展名,一些使用 Windows Media Audio 编码格式编码其所有内容的纯音频 ASF 文 件也使用 WMA 作为扩展名。 5. RA RA 就是 RealAudio 格式,大部分音乐网站的在线试听都是采用了 RealAudio,这种格式完全针对的就是网络上的媒体市场,支持非常丰富的功能。 最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率,在保证流畅的前提下尽可能提高音质。 RA可以支持多种音频编码,包括 ATRAC3。 ( 八 )音频解码原理 音频解码一般是音频编码的逆过程,它将对应编码格式的数码流解码成 PCM 数码流,数码流传送的是的是量化实际音频信息而得到的频率系数,数码流的基本单位是同步帧。 解码的一般过程要经过同步、误码检测、运行比特流解包、指数解码、比特分配、解耦合,反变换、输出 PCM 码流等步骤。 音视频编码解码研究 –9– 三 、 音 视频 编码解码实现 经过以上研究, 本文将 探索新的 一种音视频编码解码, 对音视频编码原理进行验证,并 加深对音视频编码解码原理的理解。 (一)系统分析 1. 开发工具及函数 ( 1) Zlib[8]是提供资料压缩之用的函式库,由 Jeanloup Gailly 与 Mark Adler 所开发,初版 版在 1995 年 5 月 1 日发表。 zlib 使用抽象化的 DEFLATE 算法,最初是为 libpng函式库所写的,后来普遍为许多软件所使用。 目前 zlib 仅支持一个 LZ77 的变种算法,DEFLATE 的算法。 这个算法使用很少的系统资源,对各种数据提供很好的压缩效果 [7]。 ( 2) DirectShow(有时缩写如 DS 或 DShow), 是一种由微软公司开发的能够让软件开发者对媒体文件执行各种不同处理的应用程序设计接口。 它是微软公司对早先 Windows 视频科技的一次更新 [9]。 基于微软公司 Windows 构成对象模型( COM)框架,DirectShow 为大部份微软公司程序设计语言提供了一个媒体的普 遍接口,而且是一个可扩展的,能在用户或开发者的命令下播放或记录媒体文件的,以 Filter 为基础的框架。 可以实现高质量的音视频采集、编辑、编码、解码、格式转换、播放。 它解决了网络音频及视频信息传输中数据量大、数据源种类多、客户端软硬件环境不确定、视频音频需要同步等问题,因此有着广泛的应用。 工作模型 DirectShow 使用模块化的体系结构,最主要的组件是过滤器( Filter)把一系列过滤器组合起来形成 DirectShow 应用程序。 每个过滤器提供一种功能,如获取数据源、编码、解码、播放 等。 DirectShow 提供了很多标准过滤器,用户可以直接使用。 但由于媒体格式、压缩方式、硬件属性等方面的特殊要求,用户经常需要自行开发过滤器来满足具体需求。 DirectShow 应用程序中主要包含以下 5。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。