音頻開(kāi)發(fā)基礎(chǔ)概念有哪些?

發(fā)布者:聯(lián)誠(chéng)發(fā) 時(shí)間:2022-07-15 16:21 瀏覽量:1685

音視頻中,這樣幾個(gè)名詞你需要知道:


(1) 采樣率(samplerate)


采樣就是對(duì)一個(gè)模擬信號(hào)每過(guò)一段時(shí)間取一個(gè)值,采樣的根據(jù)是根據(jù)采樣定理確定的,即采樣信號(hào)的最小頻率不小于被采樣信號(hào)帶寬的二倍,否則有原信號(hào)就會(huì)有所丟失,不再能還原成原來(lái)的號(hào),一般采樣信號(hào)要比被采樣信號(hào)的帶寬大,如間頻信號(hào)的帶寬是20KHZ,實(shí)際采樣頻率則為44.1KHZ.采樣就是把模擬信號(hào)數(shù)字化的過(guò)程,不僅僅是音頻需要采樣,所有的模擬信號(hào)都需要通過(guò)采樣轉(zhuǎn)換為可以用0101來(lái)表示的數(shù)字信號(hào),示意圖如下所示:


wKioL1bdXQviw_TBAAAVYm_x3gk862.gif


藍(lán)色代表模擬音頻信號(hào),紅色的點(diǎn)代表采樣得到的量化數(shù)值。


采樣頻率越高,紅色的間隔就越密集,記錄這一段音頻信號(hào)所用的數(shù)據(jù)量就越大,同時(shí)音頻質(zhì)量也就越高。


根據(jù)奈奎斯特理論,采樣頻率只要不低于音頻信號(hào)最高頻率的兩倍,就可以無(wú)損失地還原原始的聲音。


通常人耳能聽(tīng)到頻率范圍大約在20Hz~20kHz之間的聲音,為了保證聲音不失真,采樣頻率應(yīng)在40kHz以上。常用的音頻采樣頻率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz、96kHz、192kHz等。


(2) 量化精度(位寬)


上圖中,每一個(gè)紅色的采樣點(diǎn),都需要用一個(gè)數(shù)值來(lái)表示大小,這個(gè)數(shù)值的數(shù)據(jù)類型大小可以是:4bit、8bit、16bit、32bit等等,位數(shù)越多,表示得就越精細(xì),聲音質(zhì)量自然就越好,當(dāng)然,數(shù)據(jù)量也會(huì)成倍增大。


常見(jiàn)的位寬是:8bit 或者 16bit


(3) 聲道數(shù)(channels)


由于音頻的采集和播放是可以疊加的,因此,可以同時(shí)從多個(gè)音頻源采集聲音,并分別輸出到不同的揚(yáng)聲器,故聲道數(shù)一般表示聲音錄制時(shí)的音源數(shù)量或回放時(shí)相應(yīng)的揚(yáng)聲器數(shù)量。


單聲道(Mono)和雙聲道(Stereo)比較常見(jiàn),顧名思義,前者的聲道數(shù)為1,后者為2


(4) 音頻幀(frame)


這個(gè)概念在應(yīng)用開(kāi)發(fā)中非常重要,網(wǎng)上很多文章都沒(méi)有專門介紹這個(gè)概念。


音頻跟視頻很不一樣,視頻每一幀就是一張圖像,而從上面的正玄波可以看出,音頻數(shù)據(jù)是流式的,本身沒(méi)有明確的一幀幀的概念,在實(shí)際的應(yīng)用中,為了音頻算法處理/傳輸?shù)姆奖?,一般約定俗成取2.5ms~60ms為單位的數(shù)據(jù)量為一幀音頻。


這個(gè)時(shí)間被稱之為“采樣時(shí)間”,其長(zhǎng)度沒(méi)有特別的標(biāo)準(zhǔn),它是根據(jù)編解碼器和具體應(yīng)用的需求來(lái)決定的,我們可以計(jì)算一下一幀音頻幀的大?。?/span>


假設(shè)某通道的音頻信號(hào)是采樣率為8kHz,位寬為16bit,20ms一幀,雙通道,則一幀音頻數(shù)據(jù)的大小為:


int size = 8000 x 16bit x 0.02s x 2 = 5120 bit = 640 byte



分享:

13