当前位置:文档之家› 音频AAC的各种格式

音频AAC的各种格式

音频AAC的各种格式
音频AAC的各种格式

AAC的各种规格

一、规格(profile)问题:

wiki上说到,AAC共有9种规格,以适应不同的场合的需要:

●MPEG-2 AAC LC 低复杂度规格(Low Complexity)--比较简单,没有增益控制,但提高了编码效率,在中等码率的编码效率以及音质方面,都能找到平衡点

●MPEG-2 AAC Main 主规格

●MPEG-2 AAC SSR 可变采样率规格(Scaleable Sample Rate)

●MPEG-4 AAC LC 低复杂度规格(Low Complexity)------现在的手机比较常见的MP4文件中的音频部份就包括了该规格音频文件

●MPEG-4 AAC Main 主规格------包含了除增益控制之外的全部功能,其音质最好

●MPEG-4 AAC SSR 可变采样率规格(Scaleable Sample Rate)

●MPEG-4 AAC LTP 长时期预测规格(Long Term Predicition)

●MPEG-4 AAC LD 低延迟规格(Low Delay)

●MPEG-4 AAC HE 高效率规格(High Efficiency)-----这种规格适合用于低码率编码,有Nero ACC 编码器支持

后来也看了14496-3标准,里面定义的profile除了上述的一些规格,还有如Scalable 、TwinVQ、CELP、HVXC等更多其他的profile。

目前听到用的比较多的应该是LC和HE(适合低码率)。流行的Nero AAC的命令行编码程序就支持LC,HE,HEv2这三种,试用后,用MediaInfo分析了编码后的AAC音频,发现规格显示都是LC,当时就感到奇怪,不是说支持三种规格吗?然后才又查资料发现,原来HE其实就是AAC(LC)+SBR技术,HEv2就是AAC(LC)+SBR+PS技术,难怪用MediaInfo分析后,HE规格的

文件即显示:,哈哈,既然说到了这里,就再简单的说下HE吧:HE:“high efficiency”(高效性)。HE-AAC v1(又称AACPlusV1,SBR)

用容器的方法加了原AAC(LC)+SBR技术。呵呵,SBR其实代表的是Spectral Band Replication(频段复制)。简单概括一下,音乐的主要频谱集中在低频段,高频段幅度很小(但很重要,决定了音质),如果对整个频段编码,要么为了保护高频造成低频段编码过细以致文件巨大,要么为了保存了低频的主要成分而失去

高频成分以致丧失音质。SBR把频谱切割开来,低频单独编码保存主要成分,高频单独放大编码保存音质,“统筹兼顾”了,在减少文件大小的情况下还保存了音质,完美的化解了一对矛盾,真是聪明透顶啊~~

那么HEv2又是什么呢?这个好像更牛些,因为它用容器的方法包含了

HE-AAC v1和PS技术。PS指“parametric stereo”(参数立体声)。这个其实好理解,原来的立体声文件,文件大小是一个声道的两倍。但是两个声道的声音存在某种相似性,根据香农信息熵编码定理,相关性应该被去掉才能减小文件大小。所以PS技术存储了一个声道的全部信息,然后,花很少的字节用参数描述另一个声道和它不同的地方~怎么咱就没想到呢?

这样,HEv1和HEv2用个图简单表示下就是:(图中的AAC即指的是原来的AAC-LC)

至此,对于HE和HEv2 profile的AAC序列我算是初步准备好了,但是由于NERO AAC编码后产生的是经过MP4容器封装后的,而我们的decoder需要处理的是未经封装的AAC流,因此还需要处理从MP4封装格式中extract出AAC 流的步骤;哦,这里提到了MP4容器封装,就再把我看到的一些关于MP4容器的心得插入在此也说下:

其实.mp4格式规范是MPEG4 Part 1标准定义的。但是这个格式本身相当通用,并不是只能用来存贮MPEG4视频格式。举个例子,一个.mp4文件中包含的可能是H.263的视频轨及AMR的音频轨。这样它和MPEG4视频压缩算法就半点边都沾不上。但它绝对是一个合法的.mp4文件。从这个意义上讲,.mp4是一个独立的封包格式。也许它的原始设计意图是仅用于MPEG4,但事实上大家觉得它很好用,已经把它扩展成可以包容其它格式了。现在市场上比如某产品号称“支持MP4播放”,到底是什么意思呢?如果它是指可以播放*.mp4这种文件,那里面的音频和视频格式它能支持多少种组合呢?没说清楚吧。举个极端的例子,假设一台设备仅支持“视频为未压缩YUV以及不带音频轨的.mp4文件,但它的文件名确实可以是*.mp4,是不是也可以在盒子上印上“支持MP4”呢?那么,买回去,复制一个网上下载的.mp4文件(MPEG4视频和AAC音频应该是个比较流行的组合),结果却发现根本不能播放。就算不举这么极端的例子,一般.mp4文件中常见的视频音频格式也有多种,一个产品要做到支持所有的格式是很难的。所以,如果要准确的描述,应该写清楚类似“支持视频格式为MPEG4或H.264/AVC,音频为AMR或AAC的*.mp4文件”。其实更严格一些,还应该写清楚MPEG4支持到哪种profile, AMR是NB还是WB,AAC是LC还是HE 等更多细节。当然,这种误导型的说明应该在减少,不过如果有比较确切的格式需求,最好还是先搞清楚这些细节。看到网上还有人说到N73,其实只支持视频为MPEG4 Simple Profile / Advanced Simple Profile及H.263 Profile 0 & 3,音频为AMR-NB/WB或者AAC-LC, HE-AAC的mp4文件。如果你放一个视频格式为

H.264/AVC的mp4上去,是无法播放出画面来的。呵呵,扯远了~~~。说得不准确的请大家指教。

好,回到刚才的要从MP4封装格式中extract出AAC流的步骤,在网上找了一些工具,如MP4UI,MP4BOX,Yamb(mp4box的GUI程序),采用它们进行extract 操作后发现,原来的SBR和PS等信息咋没有了,都变成LC规格的AAC文件啦。好容易准备的测试流,难道还是不能用?于是一番苦寻发现,可能是SBR 和PS等信息在ADTS头中是无法体现的,所以分析ADTS格式头的AAC,就无法判别是否是HE和HEv2啦。但是我总觉得SBR和PS等技术信息在AAC 流中应该还是存在的。因为我还在一个国外的论坛上看到这么几句话:There's no requirement for MP4 with AAC to have SBR indicated in the headers. It's still correct not to have it marked and have SBR or PS data in the stream anyway. Likewise, decoding a frame and not seeing any SBR or PS info doesn't mean you can't find it further up in the stream anyway(我理解就是说SBR OR PS信息不一定在Header 中有,但是并不意味着你不能进一步在stream中发现它)。

昨天,又发现了一个新的地方,就是HE-AAC的.mp4码流,经过extract出AAC(ADTS)后,44.1KHZ的变成了22.05KHZ。HEv2-AAC的.mp4码流,经过extract出AAC(ADTS)后,不但44.1KHZ的变成了22.05KHZ(一半),连2channels 也变成了1channels!啊,这个问题更奇怪了,在论坛上找,发现也有人有此问题:“I get 22050Hz, 1 channel for audio that is in fact 44100Hz, 2channels and having both SBR and PS”。

后来看到MSDN中的AAC Decoder的描述中有这么一小段话:

The media type gives the sample rate and number of channels prior to the application of spectral band replication (SBR) and parametric stereo (PS) tools, if present. The effect of the SBR tool is to double the decoded sample rate relative to the core AAC-LC sample rate. The effect of the PS tool is to decode stereo from a

mono-channel core AAC-LC stream.

我的理解是AAC的decoder如果支持SBR和PS,会将AAC-HEV1(SBR)中的sample rate提高一倍,而会将AAC-HEV2(SBR+PS)中不仅sample rate提高一倍,单声道也提高至双声道了。结合前面提到的SBR(频段复制)和PS(参数立体声)技术的简单介绍,好像觉得这样是有点儿道理的哦~~

用IPP example提供的解码工具simple_player简单试了下,对于44.1khz,stereo的HEv2-AAC的.mp4码流,经过extract出22.05KHZ,mono 的AAC(ADTS)后,再使用simple_player进行音频解码测试,解完后,果然发现又恢复了44.1khz 和stereo。(但目前也测试了好几种extract出的HE和HEv2的aac码流,有的能将sample rate和channel 又double回来,有的又不能,这个具体原因是不是由于Ipp example提供的解码器的问题还不确定)。

另外,用simple_player如果直接decoder编码出的经过封装的.mp4格式的AAC音频的话,发现:其它都正常,只AAC-HEv2格式的.mp4音频解码后变成

了单声道。难道是解码器中的PS tools没能发挥作用?初步估计应该是IPP 的那个小解码器的问题吧。

以上是关于HE和HEV2规格在学习过程中遇到的一些问题。

二、ADTS&ADIF

刚才上面说到了ADTS头格式的AAC。其实,AAC的音频文件格式有以下两种:

ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。

ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

简单说,ADTS可以在任意帧解码,也就是说它每一帧都有头信息。ADIF

只有一个统一的头,所以必须得到所有的数据后解码。且这两种的header的格式也是不同的,具体的组织结构在这里就不详说了。

我们现在目前一般编码后的和抽取出的都是ADTS格式的。

三、其他规格

对于那9种规格,目前使用上述的NERO AAC提供的命令行编码工具可以得到LC,HE和HEv2的,只是需要再从MP4封包中extract出来。剩下的其他profile目前我使用FAAC,(最终选取使用nero burning Rom 6和FAAC插件),可以编码得到除MPEG-4 AAC HE和MPEG-4 AAC LC两种以外的其他规格了,且通过一些选项,可以直接输出不带MP4封装格式的ADTS的AAC文件。至此,实际上,9种规格中,除了MPEG-4 AAC LD没能准备外,其他规格初步算是可以准备好了。

说了这么多,估计也看烦了,最后我们再来看IPP example中提供的关于AAC decoder的文档说明:

The decoder supports the following features:

Low Complexity Profile (AAC_LC) is implemented.

Long Term Prediction Profile (AAC_LTP) is implemented

Main Profile (AAC_MAIN) is implemented

Scalable Sampling Rate Profile (AAC_SSR) is implemented

MPEG-4 SBR (Spectral Band Replication) extension is implemented //不就是支持HE嘛

PS (Parametric stereo) is implemented //不就是支持HEv2嘛

IS, MS, TNS, PNS tools are supported //(Intensity Stereo,简称IS)和Mid/Side (M/S) stereo 都是应该指联合立体声技术,简单的说,联合立体声的是对原来的取样进行的一定的渲染工作,使声音更”好听”些。时域噪音修整(Temporal Noise Shaping,TNS):这项神奇的技术可以通过在频率域上的预测,来修整时域上的量化噪音的分布。在一些特殊的语音和剧烈变化信号的量化上,TNS技术对音质的提高贡献巨大!知觉噪音代替(Perceptual Noise Substitution,PNS):这也是MPEG-4 AAC中才有的工具。

ADIF, ADTS, MP4 formats are supported.

应该可以看出,IPP 的AAC DECODER提供对以上profile规格和ADIF, ADTS, MP4 formats的解码;

--------------------- 本文来自 axdc_qa_team 的CSDN 博客,全文地址请点击:

https://https://www.doczj.com/doc/529312673.html,/axdc_qa_team/article/details/4271043?utm_source =copy

常用音频格式

常用音频格式 1、WAV:是微软公司开发的一种声音格式文件,也叫波形声音文件,是最早的数字音频格式,对存储空间需求太大不便于交流和传播。 2、MIDI:又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。。 3、CD:CD存储采用了音轨的形式,记录的是波形流,是一种近似无损的格式。 4、MP3:全称是MPEG-1 Audio Layer3,它在1992年合并至MPEG规范中。MP3能以高音质、低采样率对数字音频文件进行压缩。 5、WMA:是微软在互联网音频、视频领域的力作。WMA格式是以减少数据流量但保持音质的方法来达到更高压缩率(可达到1:18)。 6、MP4:MP4的压缩比达到了1:15,体积较MP3小,但音质没有下降。? 7、DVDAudio:是新一代的数字音频格式,为音乐格式的DVD光碟。? 8、MD:Sony公司的MD(Mini Disc),立体声音乐。 ?9、RealAudio:是由RealNetworks公司推出的一种文件格式,可以实时传输音频信息,主要适用于网络上的在线播放。文件格式主要有RA、RM、RMX。 ?10、AIFF:是苹果公司开发的声音文件格式,被Macintosh平台和应用程序所支持。 ?11、MAC:Apple计算机公司所开发的声音文件格式,被Macintosh 平台和Macintosh应用程序所支持,支持某些压缩。 常用视频格式 ?1、MPEG/MPG/DAT:包括MPEG-1、MPEG-2或MPEG-4在内的多种视频格式。 ?2、AVI:音频视频交错(Audio Video Interleaved),由微软公司发表,调用方便、图像质量好,但文件体积过于庞大。 ?3、RA/RM/RAM:其图像质量比VCD差些。 ?4、MOV:MAC机中QuickTime提供2种标准图像和数字视频格式,即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法MPG视频格式。 ?5、ASF:是微软推出的可以直接在网上观看视频节目的文件压缩格式。图像质量比VCD差一点点,但比同是视频“流”格式的RAM格式好。

7种常见的音频格式简析

7种常见的音频格式简析 (MP3,WMA,WAV,APE,FLAC,OGG,AAC) MP3全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer Ⅲ),是当今最为流行的一种数字音频编码和有损压缩格式,在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。它设计用来大幅度地降低音频数据量,而对于大多数用户来说重放的音质与最初的不压缩音频相比感觉不到很大的下降。 简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3 的技术,将音乐以1:10 甚至1:12 的压缩率,压缩成容量较小的文件。换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度,而且还可以较好的保持了原来的音质。另外,正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。 ● MP3格式特点 MP3是一个有损数据压缩格式,它丢弃掉脉冲编码调制(PCM)音频数据中对人类听觉不重要的数据(类似于JPEG是一个有损图像压缩),从而达到了小得多的文件大小(其在较大的压缩率以及基本保持低音频部分不失真的情况下,以牺牲声音文件中

12kHz到16kHz的高音频部分来实现小文件)。 MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。另外,MP3格式使用了混合的转换机制将时域信号转换成频域信号。例如,我们平时在网上见到的一些低质的MP3有64kbps,但好的也有320kbps的,两者声音差距也相当明显。 WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质。一般使用Windows Media Audio编码格式的文件以WMA作为扩展名,一些使用Windows Media Audio 编码格式编码其所有内容的纯音频ASF文件也使用WMA作为扩展名。 ● 优点 WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比MP3体积少1/3左右,因此非常适合用于网络串流媒体及行

几种常见音频视频音乐文件格式

几种常见音频视频音乐文件格式 1、.wmv WMV是微软推出的一种流媒体格式,它是在“同门”的ASF(Advanced Stream Format)格式升级延伸来得。在同等视频质量下,WMV格式的体积非常小,因此很适合在网上播放和传输。AVI文件将视频和音频封装在一个文件里,并且允许音频同步于视频播放。与DV D视频格式类似,AVI文件支持多视频流和音频流。WMV 不是仅仅基于微软公司的自有技术开发的。从第七版(WMV1)开始,微软公司开始使用它自己非标准MPEG-4 Par t 2。但是,由于WMV第九版已经是SMPTE的一个独立标准(421M,也称为VC-1),有理由相信WMV的发展已经不象MPEG-4那样是一个它自己专有的编解码技术。现在VC-1专利共享的企业有16家(2006年4月),微软公司也是MPEG-4 AVC/H.264专利共享企业中的一家。微软的WMV还是很有影响力的。可是由于微软本身的局限性其WMV 的应用发展并不顺利。第一, WM9是微软的产品它必定要依赖着Windows,Windows 意味着解码部分也要有PC,起码要有PC机的主板。这就大大增加了机顶盒的造价,从而影响了视频广播点播的普及。第二,WMV技术的视频传输延迟非常大,通常要10几秒钟,正是由于这种局限性,目前WMV也仅限于在计算机上浏览WM9视频文件。WMV-HD是由软件业的巨头微软公司所创立的一种视频压缩格式,一般采用.wmv为文件后缀名。其压缩率甚至高于MPEG-2标准,同样是2小时的HDTV节目,如果使用MPEG-2最多只能压缩至30GB,而使用WMV-HD这样的高压缩率编码器,在画质丝毫不降的前提下都可压缩到15GB以下。WMV-HD,基于WMV9标准,是微软开发的视频压缩技术系列中的最新版本,尽管WMV-HD是微软的独有标准,但因其在操作系统中大力支持WMV系列版本,从而在桌面系统得以迅速普及。在性能上,WMV-HD的数据压缩率与H.264一样,两者的应用领域也极其相似,因此在新一代主流视频编码标准霸主地位的争夺之中,双方展开了针锋相对的斗争,而斗争的焦点集中在下一代光盘规格“HD DVD”和数字微波广播电视等领域。一般采用.wmv为后缀的HDTV文件就是采用的WMV-HD压缩的。目前DVD论坛已经初步批准将MPEG-2、H.264和微软的WMA-HD作为下一代DVD即HD-DVD技术的强制执行 标准。 2、.MOV MOV即QuickTime影片格式,它是Apple公司开发的音频、视频文件格式,用于存储常用数字媒体类型,如音频和视频。当选择QuickTime (*.mov)作为“保存类型”时,动画 将保存为.mov 文件. 用格式工厂1.90可以转换 3、.mpeg MPEG1 MPEG1格式即我们通常所说的VCD视频格式。它可针对SIF标准分辨率的图像进行压缩,视频速度每秒可播放30帧,具有画质好、音质接近于CD等优点,不过对解码芯片的运算能力有较高要求。

各种主流音频编码格式介绍

一、PCM编码 PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程,我们不需要关心PCM最终编码采用的是什么计算方式,我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 二、W A VE 这是一种古老的音频文件格式,由微软开发。W A V是一种文件格式,符合PIFF Resource Interchange File Format规范。所有的W A V都有一个文件头,这个文件头音频流的编码参数。WA V对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为W AV的音频流进行编码。很多朋友没有这个概念,我们拿A VI做个示范,因为A VI和WAV在文件结构上是非常相似的,不过A VI多了一个视频流而已。我们接触到的A VI 有很多种,因此我们经常需要安装一些Decode才能观看一些A VI,我们接触到比较多的DivX 就是一种视频编码,A VI可以采用DivX编码来压缩视频流,当然也可以使用其他的编码压缩。同样,W AV也可以使用多种音频编码来压缩其音频流,不过我们常见的都是音频流被PCM编码处理的W A V,但这不表示W A V只能使用PCM编码,MP3编码同样也可以运用在W A V中,和A VI一样,只要安装好了相应的Decode,就可以欣赏这些W A V了。 在Windows平台下,基于PCM编码的W A V是被支持得最好的音频格式,所有音频软件都能完美支持,由于本身可以达到较高的音质的要求,因此,W A V也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的W A V被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。 三、MP3编码 MP3作为目前最为普及的音频压缩格式,为大家所大量接受,各种与MP3相关的软件产品层出不穷,而且更多的硬件产品也开始支持MP3,我们能够买到的VCD/DVD播放机都很多都能够支持MP3,还有更多的便携的MP3播放器等等,虽然几大音乐商极其反感这种开放的格式,但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了,他是MPEG(MPEG:Moving Picture Experts Group)Audio Layer-3的简称,是MPEG1的衍生编码方案,1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质,在当年硬盘天价的日子里,MP3迅速被用户接受,随着网络的普及,MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的,由于缺乏对声音和人耳听觉的研究,早期的mp3编码器几乎全是以粗暴方式来编码,音质破坏严重。随着新技术的不断导入,mp3编码技术一次一次的被改良,其中有2次重大技术上的改进。 VBR:MP3格式的文件有一个有意思的特征,就是可以边读边放,这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放,读到哪里播放到哪

AAC解码算法原理详解

AAC解码算法原理详解 原作者:龙帅 (loppp138@https://www.doczj.com/doc/529312673.html,) 此文章为便携式多媒体技术中心提供,未经站长授权,严禁转载,但欢迎链接到此地址。 本文详细介绍了符合ISO/IEC 13818-7(MPEG2 AAC audio codec) , ISO/IEC 14496-3(MPEG4 Audio Codec AAC Low Complexity)进行压缩的的AAC音频的解码算法。 1、程序系统结构 下面是AAC解码流程图: AAC解码流程图 在主控模块开始运行后,主控模块将AAC比特流的一部分放入输入缓冲区,通过查找同步字得到一帧的起始,找到后,根据ISO/IEC 13818-7所述的语法开始进行Noisless Decoding(无噪解码),无噪解码实际上就是哈夫曼解码,通过反量化(Dequantize)、联合立体声(Joint Stereo),知觉噪声替换(PNS),瞬时噪声整形(TNS),反离散余弦变换(IMDCT),频段复制(SBR)这几个模块之后,得出左右声道的PCM码流,再由主控模块将其放入输出缓冲区输出到声音播放设备。

2. 主控模块 主控模块的主要任务是操作输入输出缓冲区,调用其它各模块协同工作。其中,输入输出缓冲区均由DSP控制模块提供接口。输出缓冲区中将存放的数据为解码出来的PCM数据,代表了声音的振幅。它由一块固定长度的缓冲区构成,通过调用DSP控制模块的接口函数,得到头指针,在完成输出缓冲区的填充后,调用中断处理输出至I2S接口所连接的音频ADC芯片(立体声音频DAC和DirectDrive 耳机放大器)输出模拟声音。 3. 同步及元素解码 同步及元素解码模块主要用于找出格式信息,并进行头信息解码,以及对元素信息进行解码。这些解码的结果用于后续的无噪解码和尺度因子解码模块。 AAC的音频文件格式有以下两种: ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。 ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。 AAC的ADIF格式见下图: 3.1 ADIF的组织结构 AAC的ADTS的一般格式见下图: 3.2 ADTS的组织结构 图中表示出了ADTS一帧的简明结构,其两边的空白矩形表示一帧前后的数据。ADIF和ADTS的header是不同的。它们分别如下所示:

wav音频格式

多媒体技术近年来发展很快,较好品质的声卡可以提供16位的立体声及44KHZ的播放录制能力,它不仅可以提供原音逼真的取样,其合成的音质也十分理想,有的声卡还加入了数字信号处理器,可编程控制的DSP具有强大的运算能力,它可以用来作声音信息的压缩和一些特殊效果的处理。具有此功能的声卡提供的WAV文件提供的语音信息可以满足语音特征识别的要求。 RIFF概念 在Windows环境下,大部分的多媒体文件都依循着一种结构来存放信息,这种结构称为"资源互换文件格式"(Resources lnterchange File Format),简称RIFF。例如声音的WAV 文件、视频的AV1文件等等均是由此结构衍生出来的。RIFF可以看做是一种树状结构,其基本构成单位为chunk,犹如树状结构中的节点,每个chunk由"辨别码"、"数据大小"及"数据"所组成。 图一、块的结构示意图 辨别码由4个ASCII码所构成,数据大小则标示出紧跟其后数据的长度(单位为Byte),而数据大小本身也用掉4个Byte,所以事实上一个chunk的长度为数据大小加8。一般而言,chunk本身并不允许内部再包含chunk,但有两种例外,分别为以"RIFF"及"L1ST"为辨别码

的chunk。而针对此两种chunk,RIFF又从原先的"数据"中切出4个Byte。此4个Byte 称为"格式辨别码",然而RIFF又规定文件中仅能有一个以"RIFF"为辨别码的chunk。 图二、RIFF/LIST块结构 只要依循此一结构的文件,我们均称之为RIFF档。此种结构提供了一种系统化的分类。如果和MS一DOS文件系统作比较,"RIFF"chunk就好比是一台硬盘的根目录,其格式辨别码便是此硬盘的逻辑代码(C:或D:),而"L1ST"chunk即为其下的子目录,其他的chunk则为一般的文件。至于在RIFF文件的处理方面,微软提供了相关的函数。视窗下的各种多媒体文件格式就如同在磁盘机下规定仅能放怎样的目录,而在该目录下仅能放何种数据。 WAV文件格式 WAVE文件是非常简单的一种RIFF文件,它的格式类型为"WAVE"。RIFF块包含两个子块,这两个子块的ID分别是"fmt"和"data",其中"fmt"子块由结构PCMWAVEFORMAT所组成,其子块的大小就是sizeofof(PCMWAVEFORMAT),数据组成就是PCMWAVEFORMAT结构中的数据。

音频格式分类

音频格式分类 RAM/MV/ACC/WAV/WMA/DAC/ac3/Amr/M3U/MMF/VQF/STY/RMJ/FLVC/OXM/MT9/OXM/MOV RAM 1、Random-Access Memory(随机存取存储器): 在计算机的组成结构中,有一个很重要的部分,就是存储器。存储器是用来存储程序和数据的部件,对于计算机来说,有了存储器,才有记忆功能,才能保证正常工作。存储器的种类很多,按其用途可分为主存储... MV 释义【1】MV是英文Market Value (市场价格)的简称,而其中文简称为“市价”; 【2】MV是英文Music Video(音乐视频)的简称,而其中文简称为“乐视”; 【3】MV是英文Maldives (马尔代夫)的简称,是一个印度洋岛国; 【4】MV是英文Muzzle Velocity ... aac Advanced Audio Coding AAC音频格式 Advanced Audio Coding。一种专为声音数据设计的文件压缩格式,与Mp3类似。利用AAC格式,可使声音文件明显减小,而不会让人感觉声音质量有所降低 AAC格式可以用苹果iTunes转换或千千静听(六组件) 苹... WAV WAV简介通常使用三个参数来表示声音,量化位数,取样频率和声道数。声道有单声道和立体声之分,取样频率一般有11025Hz(11kHz) ,22050Hz(22kHz)和44100Hz(44kHz) 三种,不过尽管音质出色,但在压缩后的文件体积过大!相对其他音频格式而言... WMA 基本简介平时我们只要提到下载音乐,第一反应就是MP3,其实MP3已经逐渐成为音频格式的代名词,实际离灭亡不远,现在几乎绝大多数在线音频试听网站都使用的是 WMA格式(通常码率64 Kbps),WMA解码比起MP3较为复杂,因此许多山寨手机及有名的低端... MOV MOV简介MOV即QuickTime影片格式,它是Apple公司开发的音频、视频文件格式,用于存储常用数字媒体类型,如音频和视频。当选择 QuickTime (*.mov)作为“保存类型”时,动画将保存为 .mov 文件。 QuickTime用于保存音频和视频信息,现在它被包括... ACC

MP3编码格式

MP3 编码格式 MP3是MPEG-1 Audio Layer 3的简称,是当今比较流行的一种数字音频编码和有损压缩格式(有Layer 3,也必然有Layer1和Layer2,也就是MP1和MP2,但不在本文讨论范围之内)。MP3技术的应该可以用来大幅度的降低音频文件存储所需要的空间。它丢掉脉冲编码调制(PCM)音频数据中对人类听觉不重要得数据,从而达到了较高的压缩比(高达12:1-10:1)。简单地说,MP3在编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成有较高压缩比的MP3文件,并使压缩后的文件在回放时也能够达到比较接近原音源的效果。 MP3的音频质量取决于它的Bitrate和Sampling frequency,以及编码器质量。MP3的典型速度介于每秒128到320kb之间。采样频率也有44.1,48和32 kHz三种频率,比较常见的是采用CD采样频率——44.1kHz。常用的编码器是LAME,它完全遵循LGPL的MP3编码器,有着良好的速度和音质。 一.概述: MP3 文件是由帧(frame)构成的,帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件,MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组,特指活动影音压缩标准,MPEG 音频文件是MPEG1 标准中的声音部分,也叫MPEG 音频层,它根据压缩质量和编码复杂程度划分为三层,即 Layer-1、Layer2、Layer3,且分别对应MP1、MP2、MP3 这三种声音文件,并根据不同的用途,使用不同层 次的编码。MPEG 音频编码的层次越高,编码器越复杂,压缩率也越高,MP1 和MP2 的压缩率分别为4:1 和 6:1-8:1,而MP3 的压缩率则高达10:1-12:1,也就是说,一分钟CD 音质的音乐,未经压缩需要10MB 的存储空间,而经过MP3 压缩编码后只有1MB 左右。不过MP3 对音频信号采用的是有损压缩方式,为了降 低声音失真度,MP3采取了“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉 噪音电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3 文件,并使压 缩后的文件在回放时能够达到比较接近原音源的声音效果。 二.整个MP3文件结构: MP3 文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1) ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1 的信息量。 Frame 一系列的帧,个数由文件大小和帧长决定

什么是AAC格式

AAC(Advanced Audio Coding),中文称为高级音频编码,出现于1997年,基于 MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony(索尼)等公司共同开发,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC 重新集成了其特性,加入了SBR 技术和PS技术,为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。 Advanced Audio Coding。一种专为声音数据设计的文件压缩格式,与Mp3不同,它采用了全新的算法进行编码,更加高效,具有更高的性价比。利用AAC格式,可使人感觉声音质量没有明显降低 的前提下,更加小巧。AAC格式可以用苹果iTunes转换或千千静听(六组件) 苹果ipod、诺基亚手机和Sony随身听也支持AAC格式的音频文件。 优点:相对于mp3等有损格式,AAC格式的音质更佳,文件更小。 不足:AAC属于有损压缩的格式,与时下流行的APE、FLAC等无损格式相比音质存在本质上的差距。加之,目前传输速度更快的USB3.0和16G以上大容量MP3正在加速普及,也使得AAC头上小巧的光环不复存在了。 前景:以发展的眼光来看,正如高清正在被越来越多的人所接受一样,无损必定是未来音乐格式的绝对主流。AAC这种有损格式的前景不容乐观。 从MP3到AAC 早在1987年,Fraunhofer IIS就开始了EUREKA project EU147,Digital Audio Broadcasting (DAB)的研发,而这就是MP3的前身。通过和Dieter Seitzer教授的合作,他们开发出了著名的ISO-MPEG Audio Layer-3压缩算法。1993年这个算法被整合到MPEG-1标准中,从此MP3被投入使用。1996年底Fraunhofer IIS在美国获得MP3的专利,并在1998年对外声明将收取MP 3的专利使用费。而从1999年初开始,MP3格式广泛流行起来。特别是出现了很多免费提供MP3的音乐网站,MP3随身听也像洪水般涌进市场,种种因素促使MP3成为了极其主流的音频格式。尽管之后有VQF、WMA等挑战者,但MP3牢固的根基使它至今仍稳稳地坐在老大的位置上。 但是音频格式就像电脑软硬件一样,终归要更新换代的,像磁带不是被CD淘汰了吗?而CD也将要被DVD-Audio所代替。随着时间的推移,MP3越来越不能满足我们的需要了,比如压缩率落后于Ogg、WMA、VQF等格式,音质也不够理想(尤其是低码率下),仅有两个声道于是Fraunhofer IIS与AT&T、索尼、杜比、诺基亚等公司展开合作,共同开发出了被誉为21世纪的数据压缩方式的Advanced Audio Coding(简称AAC)音频格式,以取代MP3的位置。其实AAC的算法在1997年就完成了,当时被称为MPEG-2 AAC,因为还是把它作为MPEG-2(MP2)标准的延伸。但是随着MPEG-4(MP4)音频标准在2000年成型,MPEG-2 AAC也被作为它的编码技术核心,同时追加了一些新的编码特性,所以我们又叫MPEG-4 AAC(M4A)。

各种音频编码格式对比

WAVE: 是微软公司开发的一种声音文件格式,它符合Resource Interchange File Format 文件规范,用于保存WINDOWS平台的音频信息资源,被WINDOWS平台及其应用程序所支持。WAVE 文件作为最经典的Windows 多媒体音频格式,应用非常广泛,它使用三个参数来表示声音:采样位数、采样频率和声道数。声道有单声道和立体声之分,采样频率一般有11025Hz(11kHz)、22050Hz(22kHz)和44100Hz(44kHz)三种。 “*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。 WAV音频格式的优点包括:简单的编/解码(几乎直接存储来自模/数转换器(ADC)的信号)、普遍的认同/支持以及无损耗存储。WAV格式的主要缺点是需要音频存储空间。对于小的存储限制或小带宽应用而言,这可能是一个重要的问题。WAV格式的另外一个潜在缺陷是在32位WAV文件中的2G限制,这种限制已在为SoundForge开发的W64格式中得到了改善。 MP3: MP3也就是指的是MPEG标准中的音频部分,也就是MPEG音频层。根据压缩质量和编码处理的不同分为3层,分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。MPEG音频文件的压缩是一种有损压缩,MPEG3音频编码具有10:1~12:1的高压缩率,同时基本保持低音频部分不失真,但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸,相同长度的音乐文件,用*.mp3格式来储存,一般只有*.wav文件的1/10,而音质要次于CD格式或WAV格式的声音文件。 文件尺寸小,音质好;MP3没有版权保护技术。 MP3格式压缩音乐的采样频率有很多种,可以用64Kbps或更低的采样频率节省空间,也可以用320Kbps的标准达到极高的音质。 格式特点: 1.MP3是一个数据压缩格式。 2.它丢弃掉脉冲编码调制音频数据中对人类听觉不重要的数据,从而达到了小得多的文件大小。 3.MP3音频可以按照不同的位速进行压缩,提供了在数据大小和声音质量之间进行权衡的一个范围。MP3格式使用了混合的转换机制将时域信号转换成频域信号。 4.32波段多相积分滤波器(PQF)。 5.36或者12 tap 改良离散余弦滤波器(MDCT);每个子波段大小可以在0...1和2 (31) 之间独立选择。 6.MP3不仅有广泛的用户端软件支持,也有很多的硬件支持比如便携式媒体播放器(指MP3播放器)DVD和CD播放器。 MIDI: MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音,而是记录声音的信息,然后在告诉声卡如何再现音乐的一组指令。MID文件主要用于原始乐器作品,流行歌曲的业余表演,游戏音轨以及电子贺卡等。*.mid 文件重放的效果完全依赖声卡的档次。*.mid格式的最大用处是在电脑作曲领域。*.mid 文

音频基本知识

音频基本知识 第一部分 模拟声音-数字声音原理 第二部分 音频压缩编码 第三部分 和弦铃声格式 第四部分 单声道、立体声和环绕声 第五部分 3D环绕声技术 第六部分数字音频格式和数字音频接口 第一部分 模拟声音-数字声音原理 一、模拟声音数字化原理 声音是通过空气传播的一种连续的波,叫声波。声音的强弱体现在声波压力的大小上,音调的高低体现在声音的频率上。声音用电表示时,声音信号在时间和幅度上都是连续的模拟信号。 图1 模拟声音数字化的过程 声音进入计算机的第一步就是数字化,数字化实际上就是采样和量化。连续时间的离散

化通过采样来实现。 声音数字化需要回答两个问题:①每秒钟需要采集多少个声音样本,也就是采样频率(f s)是多少,②每个声音样本的位数(bit per sample,bps)应该是多少,也就是量化精度。 ?采样频率 采样频率的高低是根据奈奎斯特理论(Nyquist theory)和声音信号本身的最高频率决定的。奈奎斯特理论指出,采样频率不应低于声音信号最高频率的两倍,这样才能把以数字表达的声音还原成原来的声音。采样的过程就是抽取某点的频率值,很显然,在一秒中内抽取的点越多,获取得频率信息更丰富,为了复原波形,一次振动中,必须有2个点的采样,人耳能够感觉到的最高频率为20kHz,因此要满足人耳的听觉要求,则需要至少每秒进行40k 次采样,用40kHz表达,这个40kHz就是采样率。我们常见的CD,采样率为44.1kHz。电话话音的信号频率约为3.4 kHz,采样频率就选为8 kHz。 ?量化精度 光有频率信息是不够的,我们还必须纪录声音的幅度。量化位数越高,能表示的幅度的等级数越多。例如,每个声音样本用3bit表示,测得的声音样本值是在0~8的范围里。我们常见的CD位16bit的采样精度,即音量等级有2的16次方个。样本位数的大小影响到声音的质量,位数越多,声音的质量越高,而需要的存储空间也越多。 ?压缩编码 经过采样、量化得到的PCM数据就是数字音频信号了,可直接在计算机中传输和存储。但是这些数据的体积太庞大了!为了便于存储和传输,就需要进一步压缩,就出现了各种压缩算法,将PCM转换为MP3,AAC,WMA等格式。 常见的用于语音(Voice)的编码有:EVRC (Enhanced Variable Rate Coder) 增强型可变速率编码,AMR、ADPCM、G.723.1、G.729等。常见的用于音频(Audio)的编码有:MP3、AAC、AAC+、WMA等 二、问题 1、为什么要使用音频压缩技术? 我们可以拿一个未压缩的CD文件(PCM音频流)和一个MP3文件作一下对比: PCM音频:一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码CD文件,它的数据速率则为 44.1K×16×2 =1411.2 Kbps,这个参数也被称为数据带宽。将码率除以8 bit,就可以得到这个CD的数据速率,即176.4KB/s。这表示存储一秒钟PCM编码的音频信号,需要176.4KB的空间。 MP3音频:将这个WAV文件压缩成普通的MP3,44.1KHz,128Kbps的码率,它的数据速率为128Kbps/8=16KB/s。如下表所示: 比特率 存1秒音频数据所占空间 CD(线性PCM) 1411.2 Kbps 176.4KB MP3 128Kbps 16KB AAC 96Kbps 12KB mp3PRO 64Kbps 8KB 表1 相同音质下各种音乐大小对比 2、频率与采样率的关系 采样率表示了每秒对原始信号采样的次数,我们常见到的音频文件采样率多为44.1KHz,这意味着什么呢?假设我们有2段正弦波信号,分别为20Hz和20KHz,长度均为一秒钟,以对应我们能听到的最低频和最高频,分别对这两段信号进行40KHz的采样,我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次,而20K的信号每次振动只有2次采样。显然,在相同的采样率下,记录低频的信息远比高频

aac编码介绍

音频编码流程: 硬件采集→PCM编码[原始量化点|样值] →分帧[960|1024][生成原始帧raw frame|原始数据块] →封装[ADTS|LATM(较主流)] 待续 Ps:原始数据块以帧的形式存在,故又称为原始帧。 AAC:最初为MPEG-2音频编码标准,后来经过优化又被加入到MPEG-4音频标准之中;相对于mp3,wmv,mp2,ac3,等在相同播放质量码率更低,有效地节约了传输带宽,在移动广播领域,互联网流媒体,IPTV中有着很广泛的应用。 其最常见的封装格式为:ADTS AND LATM这是广播电视、通信领域常用的封装格式。RTP 协议采用的AAC封装格式是LATM格式,这里ADTS LATM间的转换尤为重要, AAC格式压缩编码标准: AAC编码规格: LC-AAC:地复杂度编码 HE-ACC:高效率编码,这里引入了SBR[频段复制技术]技术,又称为AAC+技术HE-AAC-V2:在AAC+的基础之上又引入了PS[参数化立体声]技术 封装格式: ADTS格式:short for :audio data transform stream 对前述原始帧进行ADTS封装就形成ADTS帧, ADTS帧:帧头+帧净荷组成,帧头存储了音频的相关参数信息:采样率,声道数,帧长度等关键信息[用帧净荷数据的解析解码]。帧净荷主要有原始帧组成[960|1024个样值]。可包含1~4个原始帧。 LATM格式:Low overhead MPEG-4 audio transport Multiplex.[低开销因音频传输复用] LATM也以帧为单位,组成为:AudioSpecificConfig+音频负载组成。AudioSpecificConfig描述了一个LATM帧的信息,音频负载主要由PayloadLengthInfo及音频负载组成[多组]。AudioSpecificConfig可以是带内传输也可以带外传输,AudioSpecificConfig一般不变,所以只需发送一次,由此可见AudioSpecificConfig采用带内传输可以适应编码信息不断变化的情况,而采用带外传输,可以节省音频传输码率,带内和带外由muxConfigPresent标志决定[0:带外|1:带内]。例如流媒体中可设置muxConfigPresent 为0,这样LATM帧将不含哟AudioSpecificConfig部分,LATM通过RTP包发送,而

各类音频格式介绍

音乐格式五花八门,多如牛毛,但不外乎分为两大类:一类为音乐指令文件(如MIDI),一般由音乐创作软件制作而成,它实质上是一种音乐演奏的命令,不包括具体的声音数据,故文件很小;另一类为声音文件,是通过录音设备录制的原始声音,其实质上是一种二进制的采样数据,故文件较大。 从播放形式上,声音文件还可以分为“音频流”和“非音频流”两种,前者能够一边下载一边收听,比如“.WMA”、“.RA”、“.MOV”等,后者则不能。所谓流媒体技术就是把连续的影像和声音信息经过压缩处理后放上网站服务器,让用户一边下载一边观看、收听,而不需要等整个压缩文件全部下载到自己机器后才可以观看的技术。 下面,将各种音乐文件的格式收集整理如下: 流式音频:Windows Media Audio(WMA) WMA就是Windows Media Audio的缩写,是微软自己开发的Windows Midea Audio技术。它和Windows Midea Video一样,经历了几代改良后,变得非常出色。比起老掉牙的MP3压缩技术,WMA无论从技术性能(支持音频流)还是压缩率(比MP3高一倍)都远远把MP3抛在后面了。据微软声称,用它来制作接近CD品质的音频文件,其体积仅相当于MP3的1/3。在48Kbps的传送速率下即可得到接近CD品质(Near -CD Quality)的音频数据流,在64Kbps的传送速率下可以得到与

CD相同品质的音乐,而当连接速率超过96Kbps后则可以得到超过CD 的品质。 流式音频:RealMedia(RA/RM/RAM) RealMedia采用的是RealNetworks公司自己开发的Real G2Codec,它具有很多先进的设计,例如,SVT(Scalable Video Technology),该技术可以让速度较慢的电脑不需要解开所有的原始图像数据也能流畅观看节目;双向编码(Two-Encoding)技术类似于VBR,它可通过预先扫描整个影片,根据带宽的限制选择最优化压缩码率。RealMedia音频部分采用的是RealAudio,它具有21种编码方式,可实现声音在单声道、立体声音乐不同速率下的压缩。 流式音频:QuickTime(MOV) QuickTimeApple的QuickTime是最早的视频工业标准,在1999年发布的QuickTime4.0版本后开始支持真正的实时播放,其格式为“.mov”。它的视频压缩部分采用Sorenson Video技术,该技术支持VBR(Variable Bit Rate),也就是我们常说的动态码率,它可以动态地分配带宽以尽可能小的文件获得最好的播放效果,并能使在解压缩时获得平滑流畅的画面。音频部分QuickTime采用一种名为QDesiglMusic的技术,据说是一种比MP3更好的音频流技术。 VQF VQF即TwinVQ(Transform-domain Weighted Interleave Vector

音频编码及常用格式

音频编码及常用格式 音频编码标准发展现状 国际电信联盟(ITU)主要负责研究和制定与通信相关的标准,作为主要通信业务的电话通信业务中使用的语音编码标准均是由ITU负责完成的。其中用于固定网络电话业务使用的语音编码标准如ITU-T G.711等主要在ITU-T SG 15完成,并广泛应用于全球的电话通信系统之中。目前,随着Internet网络及其应用的快速发展,在2005到2008研究期内,ITU-T将研究和制定变速率语音编码标准的工作转移到主要负责研究和制定多媒体通信系统、终端标准的SG16中进行。 在欧洲、北美、中国和日本的电话网络中通用的语音编码器是8位对数量化器(相应于64Kb/s的比特率)。该量化器所采用的技术在1972年由CCITT (ITU-T的前身)标准化为G.711。在1983年,CCIT规定了32Kb/s的语音编码标准G.721,其目标是在通用电话网络上的应用(标准修正后称为G.726)。这个编码器价格虽低但却提供了高质量的语音。至于数字蜂窝电话的语音编码标准,在欧洲,TCH-HS是欧洲电信标准研究所(ETSI)的一部分,由他们负责制定数字蜂窝标准。在北美,这项工作是由电信工业联盟(TIA)负责执行。在日本,由无线系统开发和研究中心(称为RCR)组织这些标准化的工作。此外,国际海事卫星协会(Inmarsat)是管理地球上同步通信卫星的组织,也已经制定了一系列的卫星电话应用标准。 音频编码标准发展现状 音频编码标准主要由ISO的MPEG组来完成。MPEG1是世界上第一个高保真音频数据压缩标准。MPEG1是针对最多两声道的音频而开发的。但随着技术的不断进步和生活水准的不断提高,有的立体声形式已经不能满足听众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。目前有两种主要的多声道编码方案:MUSICAM环绕声和杜比AC-3。MPEG2音频编码标准采用的就是MUSICAM环绕声方案,它是MPEG2音频编码的核心,是基于人耳听觉感知特性的子带编码算法。而美国的HDTV伴音则采用的是杜比AC-3方案。MPEG2规定了两种音频压缩编码算法,一种称为MPEG2后向兼容多声道音频编码标准,简称MPEG2BC;另一种是称为高级音频编码标准,简称MPEG2AAC,因为它与MPEG1不兼容,也称MPEG NBC。MPEG4的目标是提供未来的交互多媒体应用,它具有高度的灵活性和可扩展性。与以前的音频标准相比,MPEG4增加了许多新的关于合成内容及场景描述等领域的工作。MPEG4将以前发展良好但相互独立的高质量音频编码、计算机音乐及合成语音等第一次合并在一起,并在诸多领域内给予高度的灵活性。

各种音频编码方式的对比

各种音频编码方式的对比 内容简介:文章介绍了PCM编码、WMA编码、ADPCM编码、LPC编码、MP3编码、AAC编码、CELP编码等,包括优缺点对比和主要应用领域。 PCM编码(原始数字音频信号流) 类型:Audio 制定者:ITU-T 所需频宽: Kbps 特性:音源信息完整,但冗余度过大 优点:音源信息保存完整,音质好 缺点:信息量大,体积大,冗余度过大 应用领域:voip 版税方式:Free 备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为×16×2 =。我们常见的Audio CD 就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。 WMA(Windows Media Audio) 类型:Audio 制定者:微软公司 所需频宽:320~112kbps(压缩10~12倍)

特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k 是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。 优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。 缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。 应用领域:voip 版税方式:按个收取 备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。 ADPCM( 自适应差分PCM) 类型:Audio 制定者:ITU-T 所需频宽:32Kbps 特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。 它的核心想法是: ①利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值; ②使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术) 缺点:声音质量一般 应用领域:voip

相关主题
相关文档 最新文档