毕业论文-可视电话的关键技术和发展内容摘要:

软件处 理得当的话 ,图像的性能比较好。 一般安装一个彩色摄像头和相应的软件大约花费约几百元。 用户操作需要一定的电脑知识,而且每次必须在开机状态下使用,其优点是价格便宜。 总之,基于 Inter 环境的计算机可视通信是未来很有前途的产业。 2 可视电话的基本结构和核心技术 ITUT 推出的 系列标准是框架性协议,服从不同标准的可视电话终端,具有类似的结构。 可视电话的基本结构如图 所示,包括视频输人 /输出单元、视频编解码器、语音输人 /输出单元、语音编解码器、延时单元、数据处理单元 (可选 )、系统控制单元、多 媒体数据复用 /解复用单元和网络接口单元。 不同的标准适用的网络不同,因此有不同的通信控制协议、多媒体数据打包协议和不同的网络接口单元,但是视频和语音输人 /输出单元、视频编解码器、语音编码解码器相似。 19 图 可视电话基本结构 语音和视频压缩技术是可视电话的核心技术。 可视电话作为一种消费产品,要想走人寻常百姓家,必须能够提供足够好的语音和视频质量,同时占用的信道带宽要尽量小。 语音编码技术和视频编码技术的发展就是围绕着上述两点展开的:在保证压 缩后语音和图象质量的同时,尽量提高压缩效率。 我们在具体选用语音和视频压缩标准的时候,也要结合这两点来选择。 语音通信是可视电话最基本的功能。 受网络条件的限制,可视电话通常工作在较低码率下。 为了适应这种低码率语音应用, ITUT 推出了 系列语音压缩标准。 其中 , , 和,在可视电话中得到了广泛应用。 表 列出了各个语音标准所采用的技术、码率、时延和语音质量等。 视频输入 /输出 语音输入 /输出 用户数据应用 视频编解码 语音编解码 延 时 系统控 制 用户 — 用户控制信息 用户 — 网络控制信息 复用 /解复用 网 络接口 20 标 准 算 法 比特率(kbit/s) 算法时延 (ns) 算法复杂度(MIPS) 语音质量(MOS) G. 711 PCM 64 1 G. 726 ADPCM 32 10 G. 728 LDCELP 16 50 G. 729 CSACELP 8 15 30 G. 729A CAACELP 8 15 15 G. MPMLQ/ACELP 表 语音压缩标准 能够产生两种速率的码流,高速率编码器使用多脉冲最大自然量化 (MPMLQ)算法,低速率编码器使用代数码激励线性预测( ACELP)算法。 是 的简化版本, 算法复杂度与 相比降低了 50%,语音质量略有降低,两种标准编码后的码流可互相解码。 当可视电话与普通电话通信时,采用 标准。 为 PCM 编码,只对语音信号进行采样和量化,产生 64kbit/s 的码流。 编码后的语音质量高,缺点是占用的带宽也很高。 在实际选择语音压缩标准时,要综合考虑带宽、时延、算法复杂度等各种因素。 音频系统简介 使用 对来自麦克风的声音信号进行编码,然后传输 21 到对方,并且对来自对方的声音进行译码,然后输出到喇叭。 图中“接收通道延时”模块用于补偿电视信号的延时,以维持声音和电视的同步。 ①音频编解码 音频编解码应符合 ,支持。 ②话音质量的主观性能评定 按照 ITUT ,对话音的清晰度、话音平稳程度、背景噪声的大小、回声的大小和发话者侧音性能是否良好等性能进行评定 ,一般采用平均意见得分法( MOS)衡量话音质量,评定者按照从 5到 1的五 级评分标准对语音质量进行评定。 对于 MOS大于。 ③唇齿同步 视频图像与其拌音之间的唇行同步是衡量可视电话系统性能的一项重要指标,在系统设计时应采用全面的唇形同步控制机制。 可以在采集、编码、发送、接收、解码、播放 /显示的全过程中,以时间戳标记媒体数据,视频 /音频信道之间的时间差通过控制信道传送到接收端,系统通过在音频播放前增加额外的缓冲来制造适当的时延,以维持视频图像以及伴音之间的唇形同步。 码器,它带宽为。 ,帧长度为 30ms, 22 在通用的 DSP(数字信号处理器)上 ,估计需要 18~20定长 MIPS。 发送者可使用任何速率,由于编码器速率作为每帧语法的一部分发送,所以每一传输帧都可改变速率。 利用“无声抑制”( silence suppression)方法进一步降低平均音频比特率。 利用“无声抑制”是指不传输无声帧或用更小的帧只传输背景噪音信息。 在典型谈话中,双方很少同时讲话,可以节省一部分带宽给视频和数据信道使用。 接收端可以 ,优先使用低速率或高速率音频。 音频信道 AL2,它包括一个 8比特的 CRC(每音频帧或每组帧有一个 CRC)。 ,如果加上 modem,抖动缓存,传输时间,复用器和其它延迟,最终将导致 150ms总的端到端音频延迟,不包括传输延迟。 声音延迟一般都小于视频 codec延迟,所以如果需要“唇同步”,在音频传送通道上需增加额外延迟,只需在接收端增加声音延迟即可。 用 ( time skew message)允许接收端插入正确的声音延迟或忽略唇同步使声音延迟达最小。 当传输多个音频信号时, 声音频正确取样的信道同步。 许多 应用不需要唇同步,或根本不需要视频。 对于这样的应用,让 音频 codec 可选是非常重要的,如选用 (8kb/s 声音codec)可将总端到端延迟降到大约 85ms。 非标准音频格式可以同标准 codec 以相同的方式使用。 例如,建议的 声音 /数据 modem 23 调制可将端到端声音延迟减少大约 60ms ,可以作为一种非标准使用。 其他可选的 音频模式也可以同 一起使用,如即将推出的16kbpsITUT 带宽( 7kHz) codec,提供的音频质量比传统电话线高的多。 视频压缩是多媒体应用中的核心技术, ITUT 推出的低码率视频压缩标准对推动可视话的发展和实用化起到了重要的促进作用。 H261是 ITUT 推出的第一个低码率视频压缩准,码率为 p x64kbit/s,其中 p=130,图像格为 CIF 和 QCIF。 压缩编码算法的基本思是利用预测编码减少时间冗余度,利用变换编减少空间冗余度。 算法主要由运动估计、运 动偿、 DCT 变换、量化和霍夫曼编码构成。 每帧图像分成图像层、宏块组 (GOB)层、宏块 (MB) 层、块 (Block)层共 4 个层次来处理,分为 I 帧和 P 帧。 后来推出的 , 标准继承了 的基本思想,在 的基础上提出了一些改进。 与 相比, 在以下几个方面做出了改进 :更多的图像格式、半像素运动估计、不同的 GOB 结构、四个可选模式、减少的头信息开销、采用不同的 VLC 表等。 在相同的图像质量下,因为 在运动估计及编码方面的改进, 编码后的码率大约比 低 30%。 为进一步提高 的编码效率和抗误码性能, ITUT 在 的基础上,增加了一些选项,修改后的版本被称之为 +, ++。 目前 是可视电话中应用的最广泛的视频压缩标准。 2020 年, ITUT通过了一个新的视频编码标准,即 标准。 与 相比 24 具有灵活的宏块和块的分割方式,运动估计精度进一步提高,可采用1/4 或 1/8 像素精度的运动估计。 和 采用的是 DCT 变换,而 DCT的整数变换。 在相同的重建图像质量下, 50%。 ,计算复杂度也大大增加。 据估计,编码的计算复杂度大约相当于 的三倍,解码复杂度大约相当于 的两倍。 随着 DSP 芯片处理能力的进一步提高, 在可视电话等多媒体通信中必将得到越来越 广泛的应用。 视频系统中的关键技术 : 视频比特率控制 视频比特率控制的目的是通过编码参数的动态调节,使可变速率视频编码器的输出比特率尽可能接近额定的固定比特率,从而充分的利用线路带宽,呈现清晰流畅的视频。 比特率控制方案,通常应综 合图象序列亚采样、宏块级量化系数调整、编码 模式自适应选择、运动检测阀值动态调整等技术,为此应研究精确的比特率控制模型。 在比特率调整时应考虑是采用帧率优先还是画质优先调整模式。 信号的预处理与后处理 视频信号预处理的目的是尽量消除廉价 CCD摄像头与视频采集卡组合提供的视频信号中的噪声成分,减轻由噪声引发的伪运动现象对视频编码器的压力,改进视频质量。 视频信号预处理方案通常包括时间域和空间域上的滤波处理,在空间域上采用幅度受控的中值滤波,在时间域上采用简单的阀值截断控制等。 25 采用视频信号后处理机制的目的是尽量消 除由于分块量化和运动补偿引发的图像块斑现象,改进视频质量。 一种解决方案是采用去块斑滤波器,其滤波强度动态的自适应于块斑强度,且在块斑边缘处比在图像块内部更强。 算法的快速实现 可视电话系统的性能不仅受通信带宽的制约,而且受到系统计算能力的限制。 随着通用 CPU性能的发展,使得用软件实现实时视频编解码成为可能,其成本与专用硬件相比要低,灵活性则高的多。 而且随着 CPU性能的进一步发展,采用 Intel公司的 SSE(streaming SIMD extensions),SSE2,IPP(integrated performance primitives)等技术,软件的性能也会随之提高。 实际上,在基于 ,视频图像编码速度一直是影响系统实时性能的瓶颈,而运动估计和 DCT变换等模块又是视频编码算法中运算量最大的模块。 为了降低图像编码的运算量,提高编码速度,人们一直进行着种种努力。 一般来说,可以从两个途径来解决:一方面研究快速算法,寻找新的方法,比如:快速搜索算法和预先判零技术的应用等;另一方面,对编码程序进行指令级优化,例如:利用 MMX技术的并行性进行程序优化。 可视电话的视频编解码包括两种: ,其中 ,。 ITUT为低于 64kbit/s的窄带通信信道制定的极低码率 26 视频编码标准。 该标准是在 ,综合应用帧间预测去除时间冗余度和 DCT变换编码去除空间冗余度的混合编码算法。 在 modem可用带宽的任意子带宽上,。 ,优先选用 , ISDN , 而不需转换视频格式,否则会产生难以忍受的延迟。 ,但都增强了功能,包括改进的运动补偿,使 50%~100%的比特率就可达到与。 当 ,这种改进尤为明显;但 ,与。 围更广的图像格式。 受比特率、图像格式、 的影响, 5~15帧 /秒。 : Video Temporal Spatial Trade Off允许接收端在帧速和图像分辨率之间进行一定的折衷。 视频信道使用 AL3,它包括一个 16bitCRC和序列编号,以及用于接收端错误视频数据重传的相关信息。 既然 (尽管许多应用中由于带宽所限而无法实现),通过多个视频逻辑信道可以很容易实现连续显示的多点操作,此时,接收端可以用“ Hollywood Squares”方式显示每个会议点的不同图像,由接收者安排用于本地显示的合适信道集。 SQCIF、 QCIF、 CIF、 27 4CIF或者 16CIF的彩色 4:2:0亚取样图像。 像素的运动补偿,并增加了 4种有效的压缩编码模式。 ① GB/T 18119(等效于 )的规定。 ② 图像格式: QCIF为必选项 , CIF和 SQCIF为可选项。 ③ 活动图像:公共中间格式( CIF): 288行 352像素。 1/4公共中间格式( QCIF): 144行 176像素; 子 1/4公共中间格式( SQCIF): 96行 128像素。 ④ 图像帧频: SQCIF:不小于 15帧 /秒; QCIF:不小于 10帧 /秒; CIF:不小于 3帧 /秒。 ① YD/T 8221996(等效于)的规定。 ② 图像格式: QCIF为必选项 , CIF为可选项。 ③ 活动图像:公共中间格式( CIF): 288行 352像素; 1/4公共中间格式( QCIF): 144行 176像素。 ④ 图像帧频: QCIF:不小于 10帧 /秒; CIF:不小于 3帧 /秒。 28 ,并增加了 4种有效的压缩编码模式。 ① 无限制的运动矢量模式 一般运动矢量的范围都限制在已编码的参考帧内。 这种限制,使得对当前帧图像边界的宏块进行运动估计时,由于参考宏块可能已处于参考帧之外而无法得到最优的效果。 在 ,允许运动矢量指向图像以外的区域。 当某一运动矢量所指的参考宏块位于编码图象之外时,就用其边缘的图像像素值来代替这个不存在的宏块。 当存在跨边界的运动时,这种模式能取得很大的编码增益,特别是对小图像而言。 另外, 这种模式包括了运动矢量范围的扩展,允许使用更大的运动矢量,这对摄像机运动特别有利。 ② 基于句法的算术编码模式 使用算术编码代替哈夫曼编码,由于算术编码在符号的概率分布不为 2的幂的情况下也能逼近压缩的理论极限 符号的熵。 因此,可在信噪比和重建图像质量相同的情况下降低码率。 ③ 先进的预测模式 在一般情况下,每一个宏块对应一个运动矢量。 在先进的预测模式下,一个宏块中 4。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。