当前位置：文档之家› 音视频编码知识

音视频编码知识

7种常见的音频格式简析

7种常见的音频格式简析（MP3，WMA，WAV，APE，FLAC，OGG，AAC） MP3全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer Ⅲ），是当今最为流行的一种数字音频编码和有损压缩格式，在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量，而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。简单地说，MP3就是一种音频压缩技术，由于这种压缩方式的全称叫MPEG Audio Layer3，所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术，将音乐以1:10 甚至1:12 的压缩率，压缩成容量较小的文件。换句话说，能够在音质丢失很小的情况下把文件压缩到更小的程度，而且还可以较好的保持了原来的音质。另外，正是因为MP3体积小，音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小，这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩（解码），这样，高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式，它丢弃掉脉冲编码调制（PCM）音频数据中对人类听觉不重要的数据（类似于JPEG是一个有损图像压缩），从而达到了小得多的文件大小（其在较大的压缩率以及基本保持低音频部分不失真的情况下，以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件）。 MP3音频可以按照不同的位速进行压缩，提供了在数据大小和声音质量之间进行权衡的一个范围。另外，MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如，我们平时在网上见到的一些低质的MP3有64kbps，但好的也有320kbps的，两者声音差距也相当明显。 WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名，一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密，未经许可（即未获得许可证书），即使是非法拷贝到本地，也是无法收听的。同时，微软公司开始时宣称的：同文件比MP3体积小一倍而音质不变，也得到了兑现。事实上，这个说法，仅仅适用于低比特率的情况，另外，微软公司在WMA 9大幅改进了其引擎，实际上几乎可以在同文件同音质下比MP3体积少1/3左右，因此非常适合用于网络串流媒体及行

多媒体技术图片音视频知识点

多媒体技术图片音视频知识点多媒体＝多种媒体（文本、图形、图像、声音、动画和视频等）多媒体技术：计算机综合处理文字、图形、图像、音频、视频等多媒体信息，使多种信息建立逻辑连接，集成为一个系统并且具有交互性的一门综合性技术。多媒体技术主要包括：媒体处理技术、人机交互技术、数据压缩技术、软硬件平台技术、通信与网络技术。多媒体技术基本特征：数字性、多样性、交互性、集成性和实时性。其中交互性是关键特征。多媒体计算机特征部件：光驱、音箱、显卡声卡、视频采集卡、刻录机、摄像头、触摸屏、扫描仪、数码相机、数字投影仪……多媒体技术主要应用：教育培训、电子出版、影音娱乐、网络。多媒体【例题】 1、多媒体技术不包含以下哪种技术（C） A、数据压缩技术 B、人机交互技术 C、机械技术 D、通信与网络技术 2、以下哪一项不是常用的多媒体设备（B） A、摄像头 B、U盘 C、数据照相机 D、数字投影仪 3、以下哪一项不是多媒体技术的应用（D） A、教育培训 B、电子出版 C、网络 D、数字投影仪 4、计算机可以处理图像、声音和视频等信息，这种技术属于（D） A、智能化技术 B、自动控制技术 C、网络技术 D、多媒体技术 5、在多媒体计算机中，用来播放、录制声音的硬件设备是（B） A、网卡 B、声卡 C、视频卡 D、显卡 6. 下列关于多媒体技术主要特征描述正确的是：(D) ①多媒体技术要求各种信息媒体必须要数字化 ②多媒体技术要求对文本，声音，图像，视频等媒体进行集成 ③多媒体技术涉及到信息的多样化和信息载体的多样化 ④交互性是多媒体技术的关键特征 A. ①② B. ①④ C. ①②③ D. ①②③④ 7. 下面关于多媒体技术的描述中,正确的是： (C) A. 多媒体技术只能处理声音和文字 B. 多媒体技术不能处理动画 C. 多媒体技术就是计算机综合处理声音，文本，图像等信息的技术 D. 多媒体技术就是制作视频 8、以下属于多媒体技术应用的是：（B）（1）远程教育（2）美容院在计算机上模拟美容后的效果（3）电脑设计的建筑外观效果图（4）房地产开发商制作的小区微缩景观模型 A、(1)(2) B、(1)(2)(3) C、(2)(3)(4) D、全部 9、在多媒体课件中，课件能够根据用户答题情况给予正确和错误的回复，突出显示了多媒体技术的(D)。Ａ、多样性Ｂ、非线性Ｃ、集成性Ｄ、交互性

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。二、W A VE 这是一种古老的音频文件格式，由微软开发。W A V是一种文件格式，符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头，这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念，我们拿A VI做个示范，因为A VI和WAV在文件结构上是非常相似的，不过A VI多了一个视频流而已。我们接触到的A VI 有很多种，因此我们经常需要安装一些Decode才能观看一些A VI，我们接触到比较多的DivX 就是一种视频编码，A VI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，W AV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的W A V，但这不表示W A V只能使用PCM编码，MP3编码同样也可以运用在W A V中，和A VI一样，只要安装好了相应的Decode，就可以欣赏这些W A V了。在Windows平台下，基于PCM编码的W A V是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，W A V也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的W A V被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。三、MP3编码 MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG（MPEG：Moving Picture Experts Group）Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。 VBR：MP3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪

音视频编码技术

音视频编码技术报告姓名: 学号：学院(系):电子与信息工程学院专业: 电子与通信工程题目: 基于DCT变换的图像压缩技术的仿真

1.引言在信息世界迅猛发展的今天, 人们对计算机实时处理图像信息的要求越来越高。如何在保证图像质量的前提下, 同时兼顾实时性和高效性成了一个值得关注的问题。于是, 对图像信息进行一定的压缩处理成为了一个不可或缺的环节。图像压缩是关于用最少的数据量来表示尽可能多的原图像的信息的一个过程。本文主要研究基于DCT 变换的有损压缩编码技术。离散余弦变换, 简称DCT , 是一种实数域变换, 其变换核为余弦函数, 计算速度快。DCT 除了具有一般的正交变换性质外, 它的变换阵的基向量能很好地描述人类语音信号和图像信号的相关特征。因此, 在对语音信号、图像信号的变换中,DCT 变换被认为是一种准最佳变换。近年颁布的一系列视频压缩编码的国际标准建议中, 都把DCT 作为其中的一个基本处理模块。而且对于具有一阶马尔柯夫过程的随机信号,DCT 十分接近于Karhunen -Loeve 变换, 也就是说它是一种最佳近似变换。 2.图像压缩编码的简介从信息论的角度看，图像是一个信源。描述信源的数据是信息量和信息量冗余之和。数据压缩实际上就是减少这些冗余量。图像编码压缩的方法目前有很多，其分类方法根据出发点不同而有差异。根据解压重建后的图像和原始图像之间是否具有误差（对原图像的保真程度），图像编码压缩分为无误差（亦称无失真、无损、信息保持）编码和有误差（有失真或有损）编码两大类。无损压缩（冗余度压缩、可逆压缩）：是一种在解码时可以精确地恢复原图像，没有任何损失的编码方法，但是压缩比不大，通常只能获得1~5倍的压缩比。用于要求重建后图像严格地和原始图像保持相同的场合，例如复制、保存十分珍贵的历史、文物图像等。有损压缩（不可逆压缩）：只能对原始图像进行近似的重建，而不能精确复原，适合大数工用于存储数字化了的模拟数据。压缩比大，但有信息损失，本文采用有损压缩。 DCT图像压缩编码可以概括成图2.1的框图。图2.1 DCT压缩编码过程简化 3.DCT变换最小均方误差下得到的最佳正交变化是K-L变换，而离散余弦变换(DCT)是仅次于K-L变换的次最佳变换，目前已获得广泛应用。离散预先变换DCT用于图像压缩操作中的基本思路是，将图像分为8×8的子块或16×16的子块，并对每一个子块进行单独的DCT变换，然后对变换结果进行量化、编码。

音视频技术基本知识一

https://www.doczj.com/doc/e912486537.html, 音视频技术基本知识一网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云总结网络上的知识，与大家分享一下音视频技术基本知识。与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。在音频中，1M以上比特率的音乐一般只能在正版CD中找到，500K到1M的是以APE、FLAC等为扩展名的无损压缩的音频格式，一般的MP3是在96K到320K之间。目前，对大多数人而言，对一般人而言192K就足够了。在视频中，蓝光高清的比特率一般在40M以上，DVD一般在5M以上，VCD一般是在1M 以上。（这些均是指正版原盘，即未经视频压缩的版本）。常见的视频文件中，1080P的码率一般在2到5M之间，720P的一般在1到3M，其他分辨率的多在一M一下。视频文件的比特率与帧大小、帧速率直接相关，一般帧越大、速率越高，比特率也就越大。当然某些转换器也可以强制调低比特率，但这样一般都会导致画面失真，如产生色块、色位不正、出现锯齿等情况。

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称，是当今比较流行的一种数字音频编码和有损压缩格式（有Layer 3，也必然有Layer1和Layer2，也就是MP1和MP2，但不在本文讨论范围之内）。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制（PCM）音频数据中对人类听觉不重要得数据，从而达到了较高的压缩比（高达12：1－10：1）。简单地说，MP3在编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成有较高压缩比的MP3文件，并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency，以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1，48和32 kHz三种频率，比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME，它完全遵循LGPL的MP3编码器，有着良好的速度和音质。一．概述： MP3 文件是由帧(frame)构成的，帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频文件，MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组，特指活动影音压缩标准，MPEG 音频文件是MPEG1 标准中的声音部分，也叫MPEG 音频层，它根据压缩质量和编码复杂程度划分为三层，即 Layer-1、Layer2、Layer3，且分别对应MP1、MP2、MP3 这三种声音文件，并根据不同的用途，使用不同层次的编码。MPEG 音频编码的层次越高，编码器越复杂，压缩率也越高，MP1 和MP2 的压缩率分别为4：1 和 6：1-8：1，而MP3 的压缩率则高达10：1-12：1，也就是说，一分钟CD 音质的音乐，未经压缩需要10MB 的存储空间，而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式，为了降低声音失真度，MP3采取了“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3 文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。二．整个MP3文件结构： MP3 文件大体分为三部分：TAG_V2(ID3V2)，Frame, TAG_V1(ID3V1) ID3V2 包含了作者，作曲，专辑等信息，长度不固定，扩展了ID3V1 的信息量。 Frame 一系列的帧，个数由文件大小和帧长决定

音频基本知识

音频基本知识第一部分模拟声音-数字声音原理第二部分音频压缩编码第三部分和弦铃声格式第四部分单声道、立体声和环绕声第五部分 3D环绕声技术第六部分数字音频格式和数字音频接口第一部分模拟声音-数字声音原理一、模拟声音数字化原理声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号。图1 模拟声音数字化的过程声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。声音数字化需要回答两个问题：①每秒钟需要采集多少个声音样本，也就是采样频率(f s)是多少，②每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。 ?采样频率采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k 次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。电话话音的信号频率约为3.4 kHz，采样频率就选为8 kHz。 ?量化精度光有频率信息是不够的，我们还必须纪录声音的幅度。量化位数越高，能表示的幅度的等级数越多。例如，每个声音样本用3bit表示，测得的声音样本值是在0～8的范围里。我们常见的CD位16bit的采样精度，即音量等级有2的16次方个。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多。 ?压缩编码经过采样、量化得到的PCM数据就是数字音频信号了，可直接在计算机中传输和存储。但是这些数据的体积太庞大了！为了便于存储和传输，就需要进一步压缩，就出现了各种压缩算法，将PCM转换为MP3,AAC,WMA等格式。常见的用于语音(Voice)的编码有：EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码，AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有：MP3、AAC、AAC+、WMA等二、问题 1、为什么要使用音频压缩技术？我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比： PCM音频：一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码CD文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps，这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率，即176.4KB/s。这表示存储一秒钟PCM编码的音频信号，需要176.4KB的空间。 MP3音频：将这个WAV文件压缩成普通的MP3，44.1KHz，128Kbps的码率，它的数据速率为128Kbps/8=16KB/s。如下表所示：比特率存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频

数字视频基础知识

第三章数字视频基础知识 3.1 视频的基础知识在人类接受的信息中，有70%来自视觉，其中视频是最直观、最具体、信息量最丰富的。我们在日常生活中看到的电视、电影、VCD、DVD以及用摄像机、手机等拍摄的活动图像等都属于视频的范畴。摄影机是指用胶片拍摄电影的机器，摄像机是用磁带、光盘、硬盘等作为界质记录活动影像的机器，广泛用于电视节目制作、家庭及其他各个方面。摄影机使用胶片和机械装置记录活动影像，所采用的是光学和化学记录方式，摄象机是采用电子记录方式。 1 视频的定义 ?视频(Video)就其本质而言，是内容随时间变化的一组动态图像(25或30帧/秒)，所以视频又叫作运动图像或活动图像。 ?一帧就是一幅静态画面，快速连续地显示帧，便能形运动的图像，每秒钟显示帧数越多，即帧频越高，所显示的动作就会越流畅。『视觉暂留现象』 ?人眼在观察景物时，光信号传人大脑神经，需经过一段短暂的时间，光的作用结束后，视觉形象并不立即消失，这种残留的视觉称“后像”，视觉的这一现象则被称为“视觉暂留现象”。 ?具体应用是电影的拍摄和放映。 ?根据实验人们发现要想看到连续不闪烁的画面，帧与帧之间的时间间隔最少要达到是二十四分之一秒。 ?视频信号具有以下特点： ?内容随时间而变化 ?有与画面动作同步的声音(伴音) ?图像与视频是两个既有联系又有区别的概念：静止的图片称为图像(Image)，运动的图像称为视频(Video)。 ?图像与视频两者的信源方式不同，图像的输入靠扫描仪、数字照相机等设备；视频的输入是电视接收机、

摄象机、录象机、影碟机以及可以输出连续图像信号的设备。 2.视频的分类 ?按照处理方式的不同，视频分为模拟视频和数字视频。 ?模拟视频（Analog Video） ?模拟视频是用于传输图像和声音的随时间连续变化的电信号。早期视频的记录、存储和传输都采用模拟方式，如在电视上所见到的视频图像是以一种模拟电信号的形式来记录的，并依靠模拟调幅的手段在空间传播，再用盒式磁带录像机将其作为模拟信号存放在磁带上。 ?模拟视频的特点： ?以模拟电信号的形式来记录 ?依靠模拟调幅的手段在空间传播 ?使用磁带录象机将视频作为模拟信号存放在磁带上 ?传统视频信号以模拟方式进行存储和传送然而模拟视频不适合网络传输，在传输效率方面先天不足，而且图像随时间和频道的衰减较大，不便于分类、检索和编辑。 ?要使计算机能对视频进行处理，必须把视频源即来自于电视机、模拟摄像机、录像机、影碟机等设备的模拟视频信号转换成计算机要求的数字视频形式，这个过程称为视频的数字化过程。 ?数字视频可大大降低视频的传输和存储费用、增加交互性、带来精确稳定的图像。 ?如今，数字视频的应用已非常广泛。包括直接广播卫星(DBS)、有线电视(如图5.2)、数字电视在内的各种通信应用均需要采用数字视频。 ?一些消费产品，如VCD和DVD，数字式便携摄像机，都是以MPEG视频压缩为基础的。数字化视频的优点 ?适合于网络应用 ?在网络环境中，视频信息可方便地实现资源共享。视频数字信号便于长距离传输。 ?再现性好 ?模拟信号由于是连续变化的，所以不管复制时精确度多高，失真不可避免，经多次复制后，误差就很大。

数字音视频编解码技术标准工作组

数字音视频编解码技术标准工作组 A VS Mxxxx: 201X年XX月来源: 包括作者、单位名称等与创作者相关的信息标题: 状态: 描述文件的版本或其他需要说明的信息，例如视频提案、DRM信息等 ___________________________________________________ 正文中国数字音视频编解码技术标准工作组会员提案专利披露与许可承诺表根据《中国数字音视频编解码技术标准工作组知识产权政策》第十四、十五、十六条等相关规定，A VS会员在向工作组各专题组提交技术提案时应填写本《会员提案专利披露与许可承诺表》，作为该提案的必要组成部分同时提交。专题组名称：音频□视频□系统□DRM□ 提案A VS文档编号：_ 提案日期：________ 提案标题：提案会员名称：_ 提案代表姓名（印刷体）：Email：提案代表通讯地址：邮编电话：______ __ 传真：__ ______________________ 提案会员应当通过选中表A或者通过选中并填写表B相关部分完成此表。表C可以自愿填写。下列表格均可根据实际需要增加表格行。表A: 提案会员在其实际知晓的范围内已获知本提案不涉及提案会员和他人的专利、专利申请和专利计划。□ 表B-1: 在中华人民共和国已获得授权的专利和/或已公开的专利申请□ 如果本提案中包含提案会员或其关联者在中华人民共和国已获得授权的专利和/或已公开的专利申请，提案会员应当填写下表：表B-2: 在中华人民共和国未公开的专利申请□ 如果提案会员的缺省许可义务不是RAND-RF或者POOL,当提案会员或其关联者有与此提案相关的未公

音频编码及常用格式

音频编码及常用格式音频编码标准发展现状国际电信联盟（ITU）主要负责研究和制定与通信相关的标准，作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成，并广泛应用于全球的电话通信系统之中。目前，随着Internet网络及其应用的快速发展，在2005到2008研究期内，ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器（相应于64Kb/s的比特率）。该量化器所采用的技术在1972年由CCITT （ITU-T的前身）标准化为G.711。在1983年，CCIT规定了32Kb/s的语音编码标准G.721，其目标是在通用电话网络上的应用（标准修正后称为G.726）。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准，在欧洲，TCH-HS是欧洲电信标准研究所（ETSI）的一部分，由他们负责制定数字蜂窝标准。在北美，这项工作是由电信工业联盟（TIA）负责执行。在日本，由无线系统开发和研究中心（称为RCR）组织这些标准化的工作。此外，国际海事卫星协会（Inmarsat）是管理地球上同步通信卫星的组织，也已经制定了一系列的卫星电话应用标准。音频编码标准发展现状音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高，有的立体声形式已经不能满足听众对声音节目的欣赏要求，具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案：MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案，它是MPEG2音频编码的核心，是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法，一种称为MPEG2后向兼容多声道音频编码标准，简称MPEG2BC；另一种是称为高级音频编码标准，简称MPEG2AAC，因为它与MPEG1不兼容，也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用，它具有高度的灵活性和可扩展性。与以前的音频标准相比，MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起，并在诸多领域内给予高度的灵活性。

音视频的编码解码

编码：编码和文件格式（也称容器）是什么？文件（即容器）是既包括了视频、又包括音频、甚至还带有一些脚本的集合；文件中视频和音频的压缩算法才是真正的编码；对于一种文件，它的视频和音频可以分别采用不同的编码。 1.什么是视频编码？所谓视频编码就是通过特定的压缩技术，将某个视频格式的文件转换成另外一种视频格式文件的方法。视频编码的主要功能是完成图像的压缩，使数字电视信号的传输量由1Gbit/s（针对1920x1080显示格式）减少为20-30Mbit/s。 2.什么是音频编码？自然界中的声音以及波形都非常复杂，声音其实也是一种能量波，它有频率和振幅；其中频率所对应的是时间轴线，振幅对应的是电平轴线。波是无限光滑的，弦线可看成由无数点组成。音频编码主要是完成对声音信息的压缩。声音信号数字化后，信息量比模拟传输状态大很多，不能像模拟电视声音那样直接传输；因而需要对声音多一道压缩编码工序，即为音频编码。 1.视频编码原理简介视频编码主要是对图像进行有效的压缩。原始视频图像数据中包含大量的冗余信息视频编码主要采取块运动估计和运动补偿技术有效的去除图像帧间冗余度，来压缩码率和带宽，实现信号有效传输的目的。 2.音频编码的原理简介我们需要通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字信号。抽样就是在时间上将模拟信号离散化。量化是用有限个幅度值近似原来连续变化的幅度值，把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。编码就是按一定的规律把量化后的值用二进制数字表示，然后转换成二值或多值得数字信号流。通常我们采用PCM编码，其主要过程是将话音、图像等模拟信号每隔一段时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，并将抽样值按一组二进制码来表示抽样脉冲的幅值。目前常见的几种视频编码技术方案： 1）MPEG-2 MPEG-2图像压缩的原理是主要利用了图像中的两种特性：空间相关性和时间相关性.另外它综合采用了运动补偿的帧间预测、空间域离散余弦变换、自适应量化和可变长编码的混合编码。同时它开始用半像素精度运动矢量搜索，引入了“帧”和“场”的编码方法，和MPEG-1向下兼容；主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低（352*288）中（720*480）次高（1440*1080）高（1920*1080）。 2）MPEG-4 采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。实现了从基于像素的传统编码向基于对象和内容的现代编码的转变。主要特点是支持交互性、高压缩比及能用存储性； 3）Windows Media Video 采用了MPEG4的压缩算法，所以压缩率和图像的质量都很不错，由于Windows Media

各种音频编码方式的对比

各种音频编码方式的对比内容简介：文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等，包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型：Audio 制定者：ITU-T 所需频宽： Kbps 特性：音源信息完整，但冗余度过大优点：音源信息保存完整,音质好缺点：信息量大，体积大，冗余度过大应用领域：voip 版税方式：Free 备注：在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数bps。一个采样率为，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型：Audio 制定者：微软公司所需频宽：320～112kbps（压缩10～12倍）

特性：当Bitrate小于128K时，WMA几乎在同级别的所有有损编码格式中表现得最出色，但似乎128k 是WMA一个槛，当Bitrate再往上提升时，不会有太多的音质改变。优点：当Bitrate小于128K时，WMA最为出色且编码后得到的音频文件很小。缺点：当Bitrate大于128K时，WMA音质损失过大。WMA标准不开放，由微软掌握。应用领域：voip 版税方式：按个收取备注：WMA的全称是Windows Media Audio，它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3，更是远胜于RA(Real Audio)，即使在较低的采样频率下也能产生较好的音质，再加上WMA有微软的Windows Media Player做其强大的后盾，所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型：Audio 制定者：ITU-T 所需频宽：32Kbps 特性：ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是： ①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值； ②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。优点：算法复杂度低，压缩比小（CD音质>400kbps），编解码延时最短（相对其它技术）缺点：声音质量一般应用领域：voip

常见的音频编码标准

常见的音频编码标准在自然界中人类能够听到的所有声音都称之为音频，它可能包括噪音、声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐，如果有计算机加上相应的音频卡，我们可以把所有的声音录制下来，声音的声学特性，音的高低都可以用计算机硬盘文件的方式储存下来。反过来，我们也可以把储存下来的音频文件通过一定的音频程序播放，还原以前录下的声音。自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而，3G网络带来了移动多媒体业务的蓬勃发展，视频、音频编解码标准是多媒体应用的基础性标准，但其种类较多，有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的，下面我们介绍一下最常见的编码技术。 1.PCM PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。 2.W A V WA V是Microsoft Windows本身提供的音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频，但实际上W A V格式的设计是非常灵活（非常复杂）的，该格式本身与任何媒体数据都不冲突，换句话说，只要有软件支持，你甚至可以在W A V格式里面存放图像。之所以能这样，是因为W A V文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM（Audio Compression Manager）结构及相应的驱动程序（通常称为CODEC，编码/解码器），可以在W A V文件中存放超过20种的压缩格式，比如ADPCM、GSM、CCITT G.711、G.723等等，当然也包括MP3格式。虽然W A V文件可以存放压缩音频甚至MP3，但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理，而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式，并将该格式作为默认文件保存格式之一。这些软件包括：Sound Forge, Cool Edit Pro, 等等。 3.MP3 MP3它的全称是MPEG(MPEG：Moving Picture Experts Group) Audio Layer-3，1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善，它更像一个编码标准框架，留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第一个实用的有损音频压缩编码。在MP3出现之前，一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是，MP3可以实现12:1的压缩比例，这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。由于MP3是世界上第一个有损压缩的编码方案，所以可以说所有的播放软件都支持它，否则就根本没有生命力。在制作方面，也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的

各种音频编码格式对比

WAVE: 是微软公司开发的一种声音文件格式，它符合Resource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。WAVE 文件作为最经典的Windows 多媒体音频格式，应用非常广泛，它使用三个参数来表示声音：采样位数、采样频率和声道数。声道有单声道和立体声之分，采样频率一般有11025Hz（11kHz）、22050Hz（22kHz）和44100Hz（44kHz）三种。 “*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。 WAV音频格式的优点包括：简单的编/解码(几乎直接存储来自模/数转换器(ADC)的信号)、普遍的认同/支持以及无损耗存储。WAV格式的主要缺点是需要音频存储空间。对于小的存储限制或小带宽应用而言，这可能是一个重要的问题。WAV格式的另外一个潜在缺陷是在32位WAV文件中的2G限制，这种限制已在为SoundForge开发的W64格式中得到了改善。 MP3： MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩，MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用＊.mp3格式来储存，一般只有＊.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。文件尺寸小，音质好；MP3没有版权保护技术。 MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。格式特点： 1.MP3是一个数据压缩格式。 2.它丢弃掉脉冲编码调制音频数据中对人类听觉不重要的数据，从而达到了小得多的文件大小。 3.MP3音频可以按照不同的位速进行压缩，提供了在数据大小和声音质量之间进行权衡的一个范围。MP3格式使用了混合的转换机制将时域信号转换成频域信号。 4.32波段多相积分滤波器（PQF）。 5.36或者12 tap 改良离散余弦滤波器（MDCT）；每个子波段大小可以在0...1和2 (31) 之间独立选择。 6.MP3不仅有广泛的用户端软件支持，也有很多的硬件支持比如便携式媒体播放器（指MP3播放器）DVD和CD播放器。 MIDI： MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。＊.mid 文件重放的效果完全依赖声卡的档次。＊.mid格式的最大用处是在电脑作曲领域。＊.mid 文

音视频知识

音视频有关知识音视频转换常用基础术语全解现在绝大多数人都会遇到歌曲或电影太大或者是格式不支持，而需要进行格式转换，有的也叫音频转换或视频转换；现在，绝大多数转换器都会使用术语。对不了解这些的用户而言，往往会造成极大困扰，在这里，我就将针对音视频转换中现在常用到的基础术语，及其变动对音视频文件所产生的影响，尽量用浅显简明的语言做一下集中解释。一般来说，视频转换的常用术语包括直接影响画质、音质的帧大小和速率、比特率等（主帖），影响压缩率及画质的编码器等（一楼），主要影响播放体验的格式等（二楼），还有就是影响转码速度某些设置（三楼）。为了照顾大多数童鞋，再加上个人水平有限，有些专业性特别强的内容不够准确，但大意应该是对的。一、与画质、音质等有关的术语这些术语术语包括帧大小、帧速率、比特率及采样率等。 1、帧一般来说，帧是影像常用的最小单位，简单的说就是组成一段视频的一幅幅图片。电影的播放连续的帧播放所产生的，现在大多数视频也类似，下面说说帧速率和帧大小。帧速率，有的转换器也叫帧率，或者是每秒帧数一类的，这可以理解为每一秒的播放中有多少张图片，一般来说，我们的眼睛在看到东西时，那些东西的影像会在眼睛中停留大约十六分之一秒，也就是视频中只要每秒超过15帧，人眼就会认为画面是连续不断的，事实上早期的手绘动画就是每秒播放15张以上的图片做出来的。但这只是一般情况，当视频中有较快的动作时，帧速率过小，动作的画面跳跃感就会很严重,有明显的失真感。因此帧速率最好在24帧及以上，这24帧是电影的帧速率。帧大小，有的转换器也叫画面大小或屏幕大小等，是组成视频的每一帧的大小，直观表现为转换出来的视频的分辨率的大小。一般来说，软件都会预置几个分辨率，一般为320×240、480×320、640×360、800×480、960×540、1280×720及1920×1080等，当然很多转换器提供自定义选项，这里，不得改变视频长宽比例。一般根据所需要想要在什么设备上播放来选择分辨率，如果是转换到普通手机、PSP等设备上，视频分辨率选择与设备分辨率相同，否则某些设备可能会播放不流畅，设备分辨率的大小一般都可以在中关村在线上查到。 2、比特率比特率，又叫码率或数据速率，是指每秒传输的视频数据量的大小，音视频中的比特率，是指由模拟信号转换为数字信号的采样率；采样率越高，还原后的音质和画质就越好；音视频文件的体积就越大，对系统配置的要求也越高。