新手必備:音頻基礎(chǔ)知識(shí)匯總
發(fā)布時(shí)間:2017-02-15 責(zé)任編輯:sherry
【導(dǎo)讀】自然界中的聲音非常復(fù)雜,波形極其復(fù)雜,通常我們采用脈沖編碼碼調(diào)制編碼,即PCM編碼。PCM編碼通過抽樣、量化、編碼三個(gè)步驟將連續(xù)變化的模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)。本文就主要給大家介紹下音頻基礎(chǔ)知識(shí),剛?cè)腴T的小童鞋可以來學(xué)習(xí)下。
采樣(sample)
數(shù)碼音頻系統(tǒng)是通過將聲波波形轉(zhuǎn)換成一連串的二進(jìn)制數(shù)據(jù)來再現(xiàn)原始聲音的(原始聲音是模擬信號(hào)),實(shí)現(xiàn)這個(gè)步驟使用的設(shè)備是模/數(shù)轉(zhuǎn)換器(A/D轉(zhuǎn)換器,或者ADC,或者analog to digital convert)。它以每秒上萬次的速率對(duì)聲波進(jìn)行采樣,每一次采樣都記錄下了原始模擬聲波在某一時(shí)刻的狀態(tài),稱之為樣本。將一串的樣本連接起來,就可以描述一段聲波了,把每一秒鐘所采樣的數(shù)目稱為采樣頻率或采率,單位為HZ(赫茲)。采樣頻率越高所能描述的聲波頻率就越高。采樣率決定聲音頻率的范圍(相當(dāng)于音調(diào)),可以用數(shù)字波形表示。以波形表示的頻率范圍通常被稱為帶寬。要正確理解音頻采樣可以分為采樣的位數(shù)和采樣的頻率。
采樣位數(shù)(采樣精度)
電腦中的聲音文件是用數(shù)字0和1來表示的。所以在電腦上錄音的本質(zhì)就是把模擬聲音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。反之,在播放時(shí)則是把數(shù)字信號(hào)還原成模擬聲音信號(hào)輸出。采樣位數(shù)可以理解為采集卡處理聲音的解析度。這個(gè)數(shù)值越大,解析度就越高,錄制和回放的聲音就越真實(shí)。采集卡的位是指采集卡在采集和播放聲音文件時(shí)所使用數(shù)字聲音信號(hào)的二進(jìn)制位數(shù)。采集卡的位客觀地反映了數(shù)字聲音信號(hào)對(duì)輸入聲音信號(hào)描述的準(zhǔn)確程度。8位代表2的8次方--256,16 位則代表2的16次方--64K。
采樣率(sample rate)
單位時(shí)間內(nèi)對(duì)媒體對(duì)象的采樣次數(shù),單位Hz。采樣頻率是指錄音設(shè)備在一秒鐘內(nèi)對(duì)聲音信號(hào)的采樣次數(shù),采樣頻率越高聲音的還原就越真實(shí)越自然。在當(dāng)今的主流采集卡上,采樣頻率一般共分為 22.05KHz、44.1KHz(44100Hz)、48KHz三個(gè)等級(jí),22.05 KHz只能達(dá)到FM廣播的聲音品質(zhì),44.1KHz則是理論上的CD音質(zhì)界限,48KHz則更加精確一些。對(duì)于高于48KHz的采樣頻率人耳已無法辨別出來了,所以在電腦上沒有多少使用價(jià)值。
5kHz的采樣率僅能達(dá)到人們講話的聲音質(zhì)量。
11kHz的采樣率是播放小段聲音的最低標(biāo)準(zhǔn),是CD音質(zhì)的四分之一。
22kHz采樣率的聲音可以達(dá)到CD音質(zhì)的一半,目前大多數(shù)網(wǎng)站都選用這樣的采樣率。
44kHz的采樣率是標(biāo)準(zhǔn)的CD音質(zhì),可以達(dá)到很好的聽覺效果。
通道數(shù)(channel)
分為單聲道m(xù)ono;立體聲stereo。當(dāng)然還存在更多的通道數(shù)。舉個(gè)列子,聲道多,效果好,兩個(gè)聲道,說明只有左右兩邊有聲音傳過來, 四聲道,說明前后左右都有聲音傳過來
比特率(bitrate)
也叫碼率。針對(duì)編碼格式,表示壓縮編碼后每秒的音頻數(shù)據(jù)量大小。計(jì)算公式:比特率 = 采樣率 x 采樣精度 x 聲道數(shù)。單位kbps,這里的k為1000
VBR、ABR、CBR
VBR(Variable Bitrate)動(dòng)態(tài)比特率。也就是沒有固定的比特率,壓縮軟件在壓縮時(shí)根據(jù)音頻數(shù)據(jù)即時(shí)確定使用什么比特率。這是Xing發(fā)展的算法,他們將一首歌的復(fù)雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯(cuò),可惜Xing編碼器的VBR算法很差,音質(zhì)與CBR相去甚遠(yuǎn)。幸運(yùn)的是, Lame完美地優(yōu)化了VBR算法,使之成為MP3的最佳編碼模式。這是以質(zhì)量為前提兼顧文件大小的方式時(shí)推薦的編碼模式。
ABR(Average Bitrate)平均比特率,是VBR的一種插值參數(shù)。Lame針對(duì)CBR不佳的文件體積比和VBR生成文件大小不定的特點(diǎn)獨(dú)創(chuàng)了這種編碼模式。ABR也被稱為“Safe VBR”,它是在指定的平均Bitrate內(nèi),以每50幀(30幀約1秒)為一段,低頻和不敏感頻率使用相對(duì)低的流量,高頻和大動(dòng)態(tài)表現(xiàn)時(shí)使用高流量。舉例來說,當(dāng)指定用192kbps ABR對(duì)一段wav文件進(jìn)行編碼時(shí),Lame會(huì)將該文件的85%用192kbps固定編碼,然后對(duì)剩余15%進(jìn)行動(dòng)態(tài)優(yōu)化:復(fù)雜部分用高于192kbps 來編碼、簡單部分用低于192kbps來編碼。與192kbps CBR相比,192kbps ABR在文件大小上相差不多,音質(zhì)卻提高不少。ABR編碼在速度上是VBR編碼的2到3倍,在128-256kbps范圍內(nèi)質(zhì)量要好于CBR??梢宰鰹?VBR和CBR的一種折衷選擇。
CBR(Constant Bitrate),常數(shù)比特率,指文件從頭到尾都是一種位速率。相對(duì)于VBR和ABR來講,它壓縮出來的文件體積很大,但音質(zhì)卻不會(huì)有明顯的提高。
有損和無損
根據(jù)采樣和量化的過程可知,音頻編碼最多只能做到無限接近 自然界的信號(hào) ,至少目前的技術(shù)還不可能將其完全一樣。這是因?yàn)樽匀唤绲男盘?hào)是連續(xù)的,而音頻編碼后的 值 是離散的。因此,任何數(shù)字音頻編碼方案都是有損的,這也就意味著任何的音頻都不可能完全還原出自然界的聲音。
在計(jì)算機(jī)應(yīng)用中, PCM編碼 能夠達(dá)到最高保真水平。它已經(jīng)被廣泛地應(yīng)用于素材保存及音樂欣賞,包括CD、DVD以及 WAV文件等等。因此,PCM約定俗成了無損編碼,但是這并不意味著PCM就能夠確保信號(hào)絕對(duì)保真,PCM也只能做到最大程度的無限接近。
我們習(xí)慣性地把MP3列入有損音頻編碼范疇,這是相對(duì)PCM編碼的。
強(qiáng)調(diào)編碼的相對(duì)性的有損和無損,要做到真正的無損是非常困難,甚至是不可能的。就如同,我們用小數(shù)去表達(dá)圓周率,不管小數(shù)精度有多高,也只能無限地接近,而不是真正等于圓周率的值。
為什么要使用音頻壓縮技術(shù)
要算一個(gè)PCM音頻流的碼率是一件很輕松的事情,采樣率值&TImes;采樣大小值&TImes;聲道數(shù)bps。一個(gè)采樣率為44.1KHz,采樣大小為16bit,雙聲道 的PCM編碼的WAV文件,它的數(shù)據(jù)速率則為 44.1K&TImes;16&TImes;2=1411.2 Kbps。我們常說128K的MP3,對(duì)應(yīng)的WAV的參數(shù),就是這個(gè)1411.2Kbps,這個(gè)參數(shù)也被稱為數(shù)據(jù)帶寬,它和ADSL中的帶寬是一個(gè)概念。 將碼率除以8,就可以得到這個(gè)WAV的數(shù)據(jù)速率,即176.4KB/s。這表示存儲(chǔ)一秒鐘采樣率為44.1KHz,采樣大小為16bit,雙聲道的PCM 編碼的音頻信號(hào),需要176.4KB的空間,1分鐘則約為10.34M,這對(duì)大部分用戶是不可接受的,尤其是喜歡在電腦上聽音樂的朋友,要降低磁盤占用, 只有2種方法,降低采樣指標(biāo)或者壓縮。降低指標(biāo)是不可取的,因此專家們研發(fā)了各種壓縮方案。由于用途和針對(duì)的目標(biāo)市場不一樣,各種音頻壓縮編碼所達(dá)到的音 質(zhì)和壓縮比都不一樣,在后面的文章中我們都會(huì)一一提到。有一點(diǎn)是可以肯定的,他們都?jí)嚎s過。
頻率與采樣率的關(guān)系
采樣率表示了每秒對(duì)原始信號(hào)采樣的次數(shù),我們常見到的音頻文件采樣率多為44.1KHz,這意味著什么呢?假設(shè)我們有2段正弦波信號(hào),分別為 20Hz和20KHz,長度均為一秒鐘,以對(duì)應(yīng)我們能聽到的最低頻和最高頻,分別對(duì)這兩段信號(hào)進(jìn)行40KHz的采樣,我們可以得到一個(gè)什么樣的結(jié)果呢?結(jié)果是:20Hz的信號(hào)每次振動(dòng)被采樣了40K/20=2000次,而20K的信號(hào)每次振動(dòng)只有2次采樣。顯然,在相同的采樣率下,記錄低頻的信息遠(yuǎn)比高頻的詳細(xì)。這也是為什么有些音響發(fā)燒友指責(zé)CD有數(shù)碼聲不夠真實(shí)的原因,CD的44.1KHz采樣也無法保證高頻信號(hào)被較好記錄。要較好的記錄高頻信號(hào),看來需要更高的采樣率,于是有些朋友在捕捉CD音軌的時(shí)候使用48KHz的采樣率,這是不可取的!這其實(shí)對(duì)音質(zhì)沒有任何好處,對(duì)抓軌軟件來說,保持和CD提供的44.1KHz一樣的采樣率才是最佳音質(zhì)的保證之一,而不是去提高它。較高的采樣率只有相對(duì)模擬信號(hào)的時(shí)候才有用,如果被采樣的信號(hào)是數(shù)字的,請(qǐng)不要 去嘗試提高采樣率。
PCM編碼
PCM脈沖編碼調(diào)制是Pulse CodeModulation的縮寫。前面的文字我們提到了PCM大致的工作流程,我們不需要關(guān)心PCM最終編碼采用的是什么計(jì)算方式,我們只需要知道 PCM編碼的音頻流的優(yōu)點(diǎn)和缺點(diǎn)就可以了。PCM編碼的最大的優(yōu)點(diǎn)就是音質(zhì)好,最大的缺點(diǎn)就是體積大。我們常見的AudioCD就采用了PCM編碼,一張光盤的容量只能容納72分鐘的音樂信息。
WAVE
這是一種古老的音頻文件格式,由微軟開發(fā)。WAV是一種文件格式,符合 PIFF Resource Interchange FileFormat規(guī)范。所有的WAV都有一個(gè)文件頭,這個(gè)文件頭音頻流的編碼參數(shù)。WAV對(duì)音頻流的編碼沒有硬性規(guī)定,除了PCM之外,還有幾乎所有 支持ACM規(guī)范的編碼都可以為WAV的音頻流進(jìn)行編碼。很多朋友沒有這個(gè)概念,我們拿AVI做個(gè)示范,因?yàn)锳VI和WAV在文件結(jié)構(gòu)上是非常相似的,不過 AVI多了一個(gè)視頻流而已。我們接觸到的AVI有很多種,因此我們經(jīng)常需要安裝一些Decode才能觀看一些AVI,我們接觸到比較多的DivX就是一種 視頻編碼,AVI可以采用DivX編碼來壓縮視頻流,當(dāng)然也可以使用其他的編碼壓縮。同樣,WAV也可以使用多種音頻編碼來壓縮其音頻流,不過我們常見的 都是音頻流被PCM編碼處理的WAV,但這不表示W(wǎng)AV只能使用PCM編碼,MP3編碼同樣也可以運(yùn)用在WAV中,和AVI一樣,只要安裝好了相應(yīng)的 Decode,就可以欣賞這些WAV了。
在Windows平臺(tái)下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持, 由于本身可以達(dá)到較高的音質(zhì)的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式, 常常使用在其他編碼的相互轉(zhuǎn)換之中,例如MP3轉(zhuǎn)換成WMA。
MP3編碼
MP3作為目前最為普及的音頻壓縮格式,為大家所大量接受,各種與MP3相關(guān)的軟件產(chǎn)品層出不窮,而且更多的硬件產(chǎn)品也開始支持MP3,我們能夠買 到的VCD/DVD播放機(jī)都很多都能夠支持MP3,還有更多的便攜的MP3播放器等等,雖然幾大音樂商極其反感這種開放的格式,但也無法阻止這種音頻壓縮 的格式的生存與流傳。MP3發(fā)展已經(jīng)有10個(gè)年頭了,他是MPEG(MPEG:Moving Picture Experts Group) AudioLayer-3的簡稱,是MPEG1的衍生編碼方案,1993年由德國FraunhoferIIS研究院和湯姆生公司合作發(fā)展成功。MP3可以 做到12:1的驚人壓縮比并保持基本可聽的音質(zhì),在當(dāng)年硬盤天價(jià)的日子里,MP3迅速被用戶接受,隨著網(wǎng)絡(luò)的普及,MP3被數(shù)以億計(jì)的用戶接受。MP3編 碼技術(shù)的發(fā)布之初其實(shí)是非常不完善的,由于缺乏對(duì)聲音和人耳聽覺的研究,早期的mp3編碼器幾乎全是以粗暴方式來編碼,音質(zhì)破壞嚴(yán)重。隨著新技術(shù)的不斷導(dǎo) 入,mp3編碼技術(shù)一次一次的被改良,其中有2次重大技術(shù)上的改進(jìn)。
VBR:MP3格式的文件有一個(gè)有意思的特征,就是可以邊讀邊放,這也符合流媒體的最基本特征。也就是說播放器可以不用預(yù)讀文件的全部內(nèi)容就可以播放,讀到哪里播放到哪里,即使是文件有部分損壞。雖然mp3可以有文件頭,但對(duì)于 mp3格式的文件卻不是很重要,正因?yàn)檫@種特性,決定了MP3文件的每一段每一幀都可以單獨(dú)的平均數(shù)據(jù)速率,而無需特別的解碼方案。于是出現(xiàn)了一種叫 VBR(Variablebitrate,動(dòng)態(tài)數(shù)據(jù)速率)的技術(shù),可以讓MP3文件的每一段甚至每一幀都可以有單獨(dú)的bitrate,這樣做的好處就是在 保證音質(zhì)的前提下最大程度的限制了文件的大小。這種技術(shù)的優(yōu)越性是顯而易見的,但要運(yùn)用確實(shí)是一件難事,因?yàn)檫@要求編碼器知道如何為每一段分配 bitrate,這對(duì)沒有波形分析的編碼器而言,這種技術(shù)如同虛設(shè)。正是如此,VBR技術(shù)并沒有一出現(xiàn)就顯得光彩奪目。
專家們通過長期的聲學(xué)研究,發(fā)現(xiàn)人耳存在遮蔽效應(yīng)。聲音信號(hào)實(shí)際是一種能量波,在空氣或其他媒介中傳播,人耳對(duì)聲音能量的多少即響度或聲壓最直接的 反應(yīng)就是聽到這個(gè)聲音的大小,我們稱它為響度,表示響度這種能量的單位為分貝(dB)。即使是同樣響度的聲音,人們也會(huì)因?yàn)樗鼈冾l率不同而感覺到聲音大小 不同。人耳最容易聽到的就是4000Hz的頻率,不管頻率是否增高或降低,即使是響度在相同的情況下,大家都會(huì)覺得聲音在變小。但響度降到一定程度時(shí),人 耳就聽不到了,每一個(gè)頻率都有著不同的值。
可以看到這條曲線基本成一個(gè)V字型,當(dāng)頻率超過15000Hz時(shí),人耳的會(huì)感覺到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻 率,不管響度有多大。當(dāng)人耳同時(shí)聽到兩個(gè)不同頻率、不同響度的聲音時(shí),響度較小的那個(gè)也會(huì)被忽略,例如:在白天我們很難聽到電腦中散熱風(fēng)扇的聲音,晚上卻 成了噪聲源,根據(jù)這種原理,編碼器可以過濾掉很多聽不到的聲音,以簡化信息復(fù)雜度,增加壓縮比,而不明顯的降低音質(zhì)。這種遮蔽被稱為同時(shí)遮蔽效應(yīng)。但聲音 A被聲音B遮蔽,如果A處于B為中心的遮蔽范圍內(nèi),遮蔽會(huì)更明顯,這個(gè)范圍叫臨界帶寬。每一種頻率的臨界帶寬都不一樣,頻率越高的臨界帶寬越寬。
頻率(Hz) 臨界帶寬(Hz) 頻率(Hz) 臨界帶寬(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500
根據(jù)這種效應(yīng),專家們?cè)O(shè)計(jì)出人耳聽覺心理模型,這個(gè)模型被導(dǎo)入到mp3編碼中后,導(dǎo)致了一場翻天覆地的音質(zhì)革命,mp3編碼技術(shù)一直背負(fù)著音質(zhì) 差的惡名,但這個(gè)惡名現(xiàn)在已經(jīng)逐漸被洗脫。到了此時(shí),一直被埋沒的VBR技術(shù)光彩四射,配合心理模型的運(yùn)用便現(xiàn)實(shí)出強(qiáng)大的誘惑力與殺傷力。
長期 來,很多人對(duì)MP3印象不好,更多人認(rèn)為WMA的最佳音質(zhì)要好過MP3,這種說法是不正確的,在中高碼率下,編碼得當(dāng)?shù)腗P3要比WMA優(yōu)秀很多,可以非 常接近CD音質(zhì),在不太好的硬件設(shè)備支持下,沒有多少人可以區(qū)分兩者的差異,這不是神話故事,盡管你以前盲聽就可以很輕松區(qū)分MP3和CD,但現(xiàn)在你難保 證你可以分辨正確。因?yàn)镸P3是優(yōu)秀的編碼,以前被埋沒了。
特別推薦
- 車用開關(guān)電源的開關(guān)頻率定多高才不影響EMC?
- 大聯(lián)大世平集團(tuán)的駕駛員監(jiān)控系統(tǒng)(DMS)方案榮獲第六屆“金輯獎(jiǎng)之最佳技術(shù)實(shí)踐應(yīng)用”獎(jiǎng)
- 貿(mào)澤推出針對(duì)基礎(chǔ)設(shè)施和智慧城市的工程技術(shù)資源中心
- 大普技術(shù)自主可控、高精度、小型化TCXO——對(duì)講機(jī)應(yīng)用
- Melexis創(chuàng)新推出集成喚醒功能的汽車制動(dòng)踏板位置傳感器芯片方案
- Vishay推出的新款高能浪涌限流PTC熱敏電阻,可提高有源充放電電路性能
- 美芯晟推出支持ALS和Flicker的小尺寸閃爍光傳感器芯片
技術(shù)文章更多>>
- 遠(yuǎn)山半導(dǎo)體發(fā)布新一代高壓氮化鎵功率器件
- Kvaser發(fā)布全新軟件CanKing 7:便捷CAN總線診斷與分析!
- 6秒速測!瑞典森爾(Senseair)高精度酒精檢測儀,守護(hù)公路貨運(yùn)安全,嚴(yán)防酒駕醉駕
- APSME 2025 亞洲國際功率半導(dǎo)體、材料及裝備技術(shù)展覽會(huì)
- 汽車電子展︱AUTO TECH 2025 廣州國際汽車電子技術(shù)展覽會(huì)
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
繞線電感
繞線設(shè)備
熱繼電器
熱敏電阻
熔斷器
融斷電阻
柔性PCB
銳迪科
瑞薩
賽普拉斯
三端穩(wěn)壓管
三極管
色環(huán)電感
上海豐寶
攝像頭
生產(chǎn)測試
聲表諧振器
聲傳感器
濕度傳感器
石英機(jī)械表
石英石危害
時(shí)間繼電器
時(shí)鐘IC
世強(qiáng)電訊
示波器
視頻IC
視頻監(jiān)控
收發(fā)器
手機(jī)開發(fā)
受話器