audiocodingstandards内容摘要:

48 : 1 优于调幅广播 单声道 32 24 : 1 类似于调频广播 11 立体声 56 ~ 64 26 ~ 24 : 1 接近 CD 15 立体声 96 16 : 1 CD 15 立体声 112 ~ 128 12 ~ 10 : 1 2020/11/23 第二章 音频信息处理  音频编码标准 38 MPEG1 Audio (cont.) • 声音编码器结构 ① 采用子带编码  输入声音信号经过 一个“时间 频率多相滤波器组”变换 到频域里的多个子带中,同时经过 “心理声学模型 (计算掩蔽特性 )” , 该模型计算以频率为自变量的噪声掩蔽阈值 (masking threshold),查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。  量化和编码部分用 信掩比 (signaltomask ratio, SMR)来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。  最后通过“数据流帧包装”将量化的子带样本和其他数据按照规定的称为“帧 (frame)” 的格式组装成位数据流。 MPEG声音编码器结构图 信掩比 是指最大的信号功率与全局掩蔽阈值之比,上图表示了某个子带中的信掩比。 2020/11/23 第二章 音频信息处理  音频编码标准 39 MPEG1 Audio (cont.) • 声音编码器结构 ② 多相滤波器组  把输入信号变换到 32个频域子带中去,子带的划分方法有两种,一种是线性划分,另一种是非线性划分 如果把声音频带划分成带宽相等的子带,这种划分就不能精确地反映人耳的听觉特性,因为人耳的听觉特性是以“临界频带”来划分的,在一个临界频带之内,很多心理声学特性都是一样的。 下图 对多相滤波器组的带宽和临界频带的带宽作了比较。 从图中可以看到,在低频区域,一个子带覆盖好几个临界频带。 在这种情况下,某个子带中量化器的比特分配就不能根据每个临界频带的掩蔽阈值进行分配,而要以其中最低的掩蔽阈值为准。 2020/11/23 第二章 音频信息处理  音频编码标准 40 MPEG1 Audio (cont.) • 声音编码器结构 ③ 编码层  MPEG声音压缩定义了 3个分明的层次,它们的基本模型是相同的。 层 1是最基础的,层 2和层 3都在层 1的基础上有所提高。 每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器  每一个层都自含 SBC编码器,高层 SBC可使用低层 SBC编码的声音数据  声音数据分成帧 (frame)。 Layer I 每帧包含 384 个样本的数据,每帧由 32个子带分别输出的 12个样本组成。 Layer II 和 Layer III 每帧为 1152个样本,如图所示: 2020/11/23 第二章 音频信息处理  音频编码标准 41 MPEG1 Audio (cont.) • 声音解码器结构 解码器对位数据流进行解码,恢复被量化的子带样本值以重建声音信号。 由于解码器无需心理声学模型,只需拆包、重构子带样本和把它们变换回声音信号,因此解码器就比编码器简单得多。 2020/11/23 第二章 音频信息处理  音频编码标准 42 MPEG1 Audio (cont.) • Layer I 层 1的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。  时间 频率多相滤波器组使用类似于 离散余弦变换 DCT (discrete cosine transform)的 分析滤波器组 进行变换,以获得详细的信号频谱信息。 根据信号的频率、强度和音调,滤波器组的输出可用来找出 掩蔽阈值 ,然后组合每个子带的单个掩蔽阈值以形成全局的掩蔽阈值。 使用这个阈值与子带中的最大信号进行比较,产生信掩比 SMR之后再输入到 量化和编码器。  量化和编码器首先检查每个子带的样本,找出这些样本中的最大的绝对值,然后量化成 6比特,这个比特数称为 比例因子(scale factor)。  然后根据 SMR确定每个子带的比特分配 (bit allocation), 子带样本按照比特分配进行量化和编码。 对被高度掩蔽的子带自然就不需要对它进行编码。 2020/11/23 第二章 音频信息处理  音频编码标准 43 MPEG1 Audio (cont.) • Layer I 对一个子带中的一个样本组 (由 12个样本组成 )进行编码 数据流帧包装  按规定的帧格式进行包装,实际上就是一个多路复合器 MUX  帧结构如下图所示,每帧都包含: ①用于同步和记录该帧信息的同步头,长度为 32比特,结构如下图所示 ②用于检查是否有错误的循环冗余码 CRC,长度为 16比特 ③用于描述比特分配的比特分配域,长度为 4比特 ④比例因子域,长度为 6比特 ⑤子带样本域 ⑥有可能添加的附加数据域,长度未规定。 2020/11/23 第二章 音频信息处理  音频编码标准 44 MPEG1 Audio (cont.) • Layer II 对层 1作了一些直观的改进,相当于 3个层 1的帧,每帧有 1152个样本 心理声学模型  除了使用频域掩蔽特性之外还利用了时间掩蔽特性  在低、中和高频段对比特分配作了一些限制,对比特分配、比例因子和量化样本值的编码也更紧凑  由于采用了上述措施,因此所需的比特数减少了,这样就可以有更多的比特用来表示声音数据,音质也比层 1更高。 层 2( 层 3亦如此 )对一个子带中的三个样本组进行编码,比特流数据格式如上图所示。 层 1是对一个子带中的一个样本组 (由 12个样本组成 )进行编码 2020/11/23 第二章 音频信息处理  音频编码标准 45 MPEG1 Audio (cont.) • Layer III 使用比较好的 临界频带滤波器 ,把声音频带分成非等带宽的子带 心理声学模型 除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了立体声数据的冗余,并且使用了霍夫曼 (Huffman)编码器(见下图) 使用了从 ASPEC (Audio Spectral Perceptual Entropy Encoding)和OCF (Optimal Coding In The Frequency domain)导出的算法,比层 1和层 2都要复杂。 所用的滤波器组与层 1和层 2所用的滤波器组的结构相同,但是层 3还使用了改进离散余弦变换 (modified discrete cosine transform,MDCT),对层 1和层 2的滤波器组的不足作了一些补偿 ( MDCT把子带的输出在频域里进一步细分以达到更高的频域分辨率。 而且通过对子带的进一步细分,层 3编码器已经部分消除了多相滤波器组引入的混迭效应) 2020/11/23 第二章 音频信息处理  音频编码标准 46 Layer III编解码器结构 • ISO/MPEG Audio Layer III Coder / Decoder 2020/11/23 第二章 音频信息处理  音频编码标准 47 MPEG1 Audio (cont.) • MPEG层 3在各种数据率下的性能 音质要求 声音带宽 (kHz) 方式 数据率 ( kb/s) 压缩比 电话 单声道 8 96 : 1 优于短波 单声道 16 48 : 1 优于调幅广播 单声道 32 24 : 1 类似于调频广播 11 立体声 56~64 26~24 : 1 接近 CD 15 立体声 96 16 : 1 CD 15 立体声 112~128 12 ~10 : 1 MPEG2 Audio Overview MPEG委员会定义了两种声音数据压缩格式: ① 一种称为 MPEG2 Audio,或称 MPEG2 Multichannel声音,它与 MPEG1 Audio是兼容的,又称 MPEG2 BC (Backward Compatible)。 ② 另一种称为 MPEG2 AAC (Advanced Audio Coding),它与 MPEG1声音格式不兼容,因此通常称为 MPEG2 NBC (NonBackward Compatible)。 这里先介绍 MPEG2 Audio : BC。 2020/11/23 第二章 音频信息处理  音频编码标准 49 MPEG2 BC简介 • 标准代号: ISO/IEC 138183 • MPEG2 BC特性: 与 MPEG1 Audio (ISO/IEC 11173)标准 兼容 ,都使用相同种类的编译码器,层 1, 2和 3的结构也相同 增加了 16 kHz, kHz和 24 kHz采样频率 扩展了编码器的输出速率范围,由 32~ 384 kb/s扩展到8~ 640 kb/s 增加了声道数,支持 支持 Linear PCM(线性 PCM)和 Dolby AC3(Audio Code Number 3)编码 2020/11/23 第二章 音频信息处理  音频编码标准 50 MPEG2 BC简介 • MPEG2 BC特性 与其他声音数据规格间的比较 参数名称 Linear PCM Dolby AC3 MPEG2 Audio MPEG1 Audio 采用频率 48/96 kHz 32/16/ 32/kHz 32/kHz 样本精度 (每个样本的比特数 ) 16/20/24 压缩 (16 bits) 压缩 (16 bits) 16 最大数据传输率 Mb/s 448 kb/s 8~640 kb/s 32~448 kb/s 最大声道数 8 2020/11/23 第二章 音频信息处理  音频编码标准 51 MPEG2 BC Multichannel • 也称为 3/2立体声加 LFE,其中的 “ .1” 就是指 LFE声道。 它的含义是播音现场的前面可有 3个喇叭声道 (左、中、右 ),后面可有 2个环绕声喇叭声道, LFE (low frequency effects, 3Hz~120Hz)是低频音效的加强声道 • 与 2020/11/23 第二章 音频信息处理  音频编码标准 52 MPEG2 BC的数据块 ISO/IEC 138183 MPEG AAC简介 • MPEG2 AAC是什么 • MPEG2 AAC的配置 • MPEG2 AAC的基本模块 2020/11/23 第二章 音频信息处理  音频编码标准 54 MPEG2 AAC是什么 • MPEG2 AAC是 MPEG2标准中的一种非常灵活的声音感知编码标准。 就像所有感知编码一样, MPEG2 AAC主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。 • AAC支持的采用频率可从 8 kHz到 96 kHz, AAC编码器的音源可以是单声道的、立体声的和多声道的声音。 AAC标准可支持 48个主声道、 16个低频音效加强通道 LFE (low frequency effects)、 16个配音声道 (overdub channel)或者叫做多语言声道 (multilingual channel)和 16个数据流。 MPEG2 AAC在压缩比为 11:1,即每个声道的数据率为( 16 )/11=64 kb/s,而 5个声道的总数据率为 320 kb/s的情况下,很难区分还原后的声音与原始声音之间的差别。 与 MPEG的层 2相比, MPEG2 AAC的压缩率可提高 1倍,而且质量更高,与 MPEG的层 3相比,在质量相同的条件下数据率是它的 70%。 2020/11/23 第二章 音频信息处理  音频编码标准 55 MPEG2 AAC的配置 • 开发 MPEG2 AAC标准采用的方法与开发 MPEG Audio标准采用的方法不同。 后者采用的方法是对整个系统进行标准化,而前者采用的方法是模块化的方法,把整个 AAC系统分解成一系列模块,用标准化的 AAC工具 (advanced audio coding tools)对模块进行定义,因此在文献中往往把“模块(modular)”与“工具 (tool)”等同对待。 • AAC标准定义了三种配置:基本配置、低复杂性配置和可变采样率配置 2020/11/23 第二章 音频信息处理  音频编码标准 56 2020/11/23 第二章 音频信息处理  音频编码标准 57 • 基本配置 (Main Profile) 在这种配置中,除了“增益控制 (Gain Control)”模块之外, AAC系统使用了图中所示的所有模块,在三种配置中提供最好的。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。