提升小波的语音端点检测算法研究毕业论文(编辑修改稿)内容摘要:

小波变换在 语音端点 中的应用 第 13 页 共 35 页 嵌入水印的图像 I39。 ( 4)水印的提取 第 1步:将加入水印的图像减去原始图像,然后对其进行二值化处理。 f(i,j) = 255。 if f(i,j)0 f (i,j) = 0。 if f(i,j)0 第 2步:对得到的图像进行水印嵌入中第二步的反操作得 W2,再对 W2进行处理:W3=W2/8,这样就得到了水印图像 W3: 实验结果及分析 实验分别采用大小为 64*64画面内容 MCK二值图像,宿主图像采用 512*512的灰度图。 实验结果如下: 图像嵌入水印信息后,与原始图像比较起来,很难看出差别,没有带来明显的失真,不可感知性非常好。 此算法不具备抵抗攻击性,在受到攻击时将无法提取水印。 此算法的性能评价:信噪比为。 误码率为 211 叠加后求平均 小波变换在 语音端点 中的应用 第 14 页 共 35 页 图 4 (1)原始图像 (2)水印 (3)加入水印后图像 (4)提取的水印图像 基于 DCT变换的 语音端点 DCT 域 语音端点 离散余弦变换 (DCT)是数字信号处理技术中最常用的线性变换之一 ,存在快速算法。 离散余弦变换是实变换 ,具有很好的能量压缩能力和去相关能力 ,在数字音频信号压缩和图像压缩等领域得到广泛应用。 特别是数字图像的 JPEG压缩标准就是建立语音端点 的在离散余弦变换基础上的。 基于 JPEG压缩标准模型的水印嵌入算法可以增强水印抵抗 JPEG 压缩的能力 ,因此离散余弦变换在 语音端点 处理技术中受到普遍重视。 在 DCT域 ,不同的 DCT系数作为水印载体对水印的稳健性有不同的影响。 为了使水印具有较好的稳健性 , 用来嵌入水印的 DCT 系数应满足如下条件 : (1)在经过常见信号处理和噪声干扰后仍能很好地保留 ,即这些 DCT 系数不应过多地为信号处理和噪声干扰所改变。 第一个要求是为了保证水印在嵌入图像后有较好的稳健性。 当加入水印的 DCT系数被改变较小时 , 水印便更可能被保留 , 这是显然的。 小波变换在 语音端点 中的应用 第 15 页 共 35 页 第二个要求是同时针对不可见性和稳健性而提出。 较大的感觉容量意味 着在主观视觉效果不变的前提下有较大的改变裕度。 这也意味着可以嵌入较强的水印信号。 根据这二个要求 , 低频 AC 系数作为嵌入水印的位置的较好选择已被逐渐采用 ,并得到共识 .然而被人们忽视的一个事实是 , DC 分量比任何 AC 分量更适合嵌入水印信号。 这个事实有二方面的理由 : (1)与 AC系数相比 DC 系数的振幅大得多。 图 1 显示了几幅常用的图像 (均为256 256 8bits) 在经过分块 8 8DCT 变换后在不同的空间频率上系数的平均值 (平均振幅 )。 在图像中嵌入水印可视为在强背景下迭加一个弱信号。 根据 Weber 定律和视觉系统的照度掩蔽 (luminance masking)特性,背景亮度越亮 (DC系数值越大 ),嵌入信号的可见性检测门限就越高,即 DC 系数 (代表图像块的平均亮度 )的感觉容量越大。 图 1表明, DC系数的值通常比最大的 AC 系数值还要大几十倍。 甚至上百倍以上。 空间频率越高,系数的平均振幅越小 .分析和实验结果表明,与 AC系数相比,尽管 DC系数可以被改变的比例不如 AC系数大,但可改变的绝对值却比 AC 系数大得多。 这意味着 DC系数具有比 AC系数更大的 感觉容量。 (2)根据信号处理理论 , 嵌 入水印的图像最有可能遭遇到的信号处理过程 , 如数据压缩 、 低通滤波 、 次抽样 、 插值 、 D/A 和 A/D转换等 , 对 DC分量的保护比 AC分量要好。 实验结果表明 , Gaussian 噪声干扰对 DC 分量和 AC 分量的影响程度大致小波变换在 语音端点 中的应用 第 16 页 共 35 页 相同。 图 2比较了嵌入 DC分量和低频 AC分量的水印在 JPEG压缩和 Gaussian噪声干扰下的稳健性能。 纵轴表示从失真的水印图像中抽取的水印 W3 与原始水印 : 从图 2可以看出 嵌入 DC分量 比 低频 AC分量的水印在 JPEG压缩和 Gaussian噪声干扰下的稳健性能 更好。 水印的嵌入和 提取 语音端点 的嵌入:水印嵌入就是把水印信号 W={w(k)}嵌入到原始图像X0(k)={x0(k)}中。 水印嵌入过程如图 1 所示。 水印嵌入准则分为: 加法准则: x(K)=x0(K)+a*w(k) 乘法准则: x(K)=x0(K)*{1+ a*w(k)} a 为强度因子,为了保证在水印不可见的前提下,尽可能提高嵌入水印的强度。 a 的选择必须考虑图像的性质和视觉系统的特性。 基于 DCT域的 语音端点 嵌入的具体算法:设 X 是 M*N 大小的原始图像, W 是水印图像,大小为 P*Q, M 和 N 分别是 P 和 Q 的偶数倍。 把水印 w 加载到图像 X 中,算法分以下几步进行: 将 X 分解为 ( / 8)*( / 8)MN个 8*8 大小的方块 BX(m, n),同时,将 W 也分解为(M/8)*(N/8)个 (8 P/M)*(8 Q/N)大小的方块 BW(m, n), 1=m= M/8, 1=n= N/8; 对每一个 BX(m, n)进行 DCT 变换: 39。 ( , )DBX mn =DCT(BX(m, n)); 小波变换在 语音端点 中的应用 第 17 页 共 35 页 对每一个 39。 ( , )DBX mn 和 BW(m, n), si 为 从 39。 ( , )DBX mn 的中频选出的加载的位置, l=i= (8 P/M)*(8 Q/N), ti 为水印 BW(m, n)的位置坐标l=i=(8 P/M)*(8 Q/N); 39。 39。 ( , )( )DBX m n si=a*Bw(m, n)(ti),其中 a 是加权系数,用 39。 39。 ( , )( )DBX m n si 来代替 39。 ( , )( )DBX m n si得到加载水印后的图像; 对以上得到的每一个 39。 ( , )DBXCI m n 进行逆 DCT 变换:( , ) ( 39。 39。 ( , ) )ID B X m n ID C T D B X m n。 并将各方块 IDBX(m, n)合并为一个整图 39。 X。 即加载了水印的新图像。 水印的提取:在某些水印系统中,水印可以被精确地提取出来,这一过程被称作水印提取。 例如在完整性确认的应用中,必须能够精确地提取出嵌入的水印,并且通过水印的完整性来确认多媒体数据的完整性。 如果提取出的水印发生了部分的变化,最好还能够通过变化的水印的位置来确定原始数据被篡改的位置。 水印在提取时可以需要原始图 像的参与,也可以不需要原始图像的参与。 图 2 是水印提取的框图。 虚线部分表示在提取或判断水印信号时原始图像不是必需的。 基于 DCT域的 语音端点 提取的具体算法:读取原始图像和黑白水印图像到二维数组 I 与 J;将原像 I 分割为互不覆盖的图像块 ( , )blockL x y , 1=x, y=8, L=1, 2…M*M/64,对 ( , )blockL x y 进行 DCT 变换,得到 _ ( , )dct blockL u v;取黑白水印图像中的一个元素 J(p, q).嵌入原始图像块的 DCT 的低频系数中;对嵌入水印信息后的图像块 _ ( 39。 , 39。 )dct block u v进行反 DCT 变换;得到 ( 39。 , 39。 )block x y ;合并图像块,得到嵌入黑白水印后的图像。 水印检测:水印在检测时可以需要原始图像的参与,也可以不需要原始图像的参与。 但将水印技术用于图像的网络发布和传播时,如果检测时需要使用原始图像则是个缺陷,因此,当前大多数的水印检测算法不需要原始图像的参与。 图 3 分别是水印检测的框图 .虚线部分表示在提取或判断水印信号时原始图像 不是必需的。 小波变换在 语音端点 中的应用 第 18 页 共 35 页 水印攻击测试:由于 语音端点 在实际应用中可能会遭到各种各样的攻击,因此对算法进行攻击测试是衡量一个水印算法优劣的重要手段。 首先对嵌入水印后的图像进行 JPEG 压缩 (一种水印攻击 ),而后从压缩的图像中提取出水印,看到 DCT 域的水印算法抵抗 JPEG 压缩攻击的效果是比较好的。 本章算法及实验结果 分析 本实验采用把 DCT变换的直流分量作为 水印载体嵌入提取对策 ,提升了 语音端点的品质。 本实验采用嵌入准则采用乘法准则: x(K)=x0(K)*{1+ a*w(k)} 其中 a取。 采用图像大小 256*256如图 6,水印图像大小为 32*32如图 7。 小波变换在 语音端点 中的应用 第 19 页 共 35 页 从上图中可明显看出:嵌入水印信息后,原图与嵌入水印信息后的图像在视觉效果上没有明显分别,用肉眼几乎分辨不出,这说明这种算法充分利用了人眼的视觉冗余特性,水印的不可见性相当好,图像在嵌入水印前后视觉效果改变不大,不影响图像的正常使用。 另外嵌入水印后的图像经过 JPEG 压缩后,还能从中提取出比较清晰的水印信息,可见,这种嵌入算法的抗攻击性较好,而且检测和提取易于实现,具有很好的实用性。 4 小 波变换在数字音频水印中的应用 随着 MP MPEG、 AC3等新一代压缩标准的广泛应用,对数字音频作品的知识产权保护显得越来越重要。 特别是随着新一代音频压缩标准 MPEG4的 提出,使得基于小波变换的音频水印技术越来越突显其良 好的多分辨率表示、时频局部分析的优势,成为当前的一个重要的课题。 目前在 语音端点 和信息隐藏中,已经出现一些优秀的基于小波变换的算法,并且多数要优于相同条件下基于 FFT、 DCT等传统变换的算法。 图 8 实验结果 小波变换在 语音端点 中的应用 第 20 页 共 35 页 数字音频水印是永久嵌入在音频信号(宿主数据)中的具有可鉴别性的数 字信号。 一般来说,数字音频水印的主要性能指标包括:不可感知性、稳健性和水印的容量。 这三者互相牵制,他们之间相互依存又互为矛盾 [2]。 一般来说,水印的容量越大,稳健性越好,但是其不可感知性也越差。 要同时获得水印好的稳健性和不可察觉性,就只能减少水印嵌入的信息量。 因此在实际运用中要根据需求,在上述三者之间寻求一个平衡。 ( 1)不可感知性 不可感知性就是要求水印嵌入后,不影响原始音频的质量,即听觉上不可感知。 一般分为主观和客观标准。 ①主观评价标准 由于含有保密信息的音频信号最终接收者是人,所以主观评价标准是最终 的,也是可靠的。 音频水印中常用的主观标准称为平均观点分( Mean Opinion Score,MOS)。 测试者根据音质好坏来打分,一般是五分制,得分为 5 或者越接近 5,就意味着 2 个音频数据之间几乎没有差别。 ②客观评价标准 信噪比( SNR)是一个质量评估标准,公式如下:  239。 2lgiiiifffSNR( 3) 其中, if 和 39。 if 分别为原始音频信号和含水印的音频信号。 早期音频水印算法一般采用信噪比来计算原始音频与加入 了水印的音频之间的 SNR。 国际留声机联盟( IFPI)要求水印音频至少可以提供 20 dB或者更高的 SNR。 由于基于 SNR 的评价标准没有考虑到人类听觉系统特性,如一个微小的线性伸缩在主观上听觉质量几乎没有任何变化,但 SNR会降得很低。 ITUR推荐的 由于其考虑到了人类听觉系统特性,被认为是很好的客观听觉质量评价标准用于音频水印技术。 ( 2)稳健性 稳健性又称鲁棒性用以衡量水印抗攻击的能力,即要求水印本身应能经受得住各种有意无意的攻击。 典型的攻击有添加噪声、数据压缩、滤波、重采样、 A /D D /A转换、统计攻击等。 文献 [5]中用分级的形式来表示水印的稳健性,从零级到最高小波变换在 语音端点 中的应用 第 21 页 共 35 页 级,零级表示无稳健型。 实际运用中,常用的衡量水印抗攻击能力的是误码率( Bit Error Rate, BER)。 1)位错误率( BER: Bit Error Rate) 定义:假设嵌入某载体的保密信息 w 为 m 位,在某种提取策略下,从隐藏有保密信息的载体中或受到某种攻击的隐秘载体中提取了与隐藏时相同长度的保密信息序列 w~ ,则 BER 定义为:    mi ii ii ww wwmB E R 1 ~0 ~11 即在收到各种攻击后提取得到的水印与原始水印之间不同比特所占的百分率。 2) 归一化相关系数 (Normalized Correlation Coefficient) 为了消除观测者的经验、身体条件、实验条件和设备等多种主、客观因素的影响,通常采用归一化相关系数对提取的保密信息序列和原始信息序列的相似性进行定理评价,定义为:       11212112121121),(~),(),(~),()~,( MiMjMiMjMiMjjijijijiWW IFPI 也做出了关 于音频水印稳健型的定义,要求稳健音频水印满足加性或乘性噪声、 MP3 压缩、 2 个连续的 D/A和 A/D转换、时间拉伸、重采样、重量化、滤波等。 ( 3)水印数据嵌入量 水印数据嵌入量,也叫水印带宽,指。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。