OPUS
OPUS
opus๋ Xigh ์ฌ๋จ์์ ๊ฐ๋ฐํ๊ณ IETF์์ ํ์คํ๋ ์ฝ๋ฑ์ด๋ฉฐ ์คํ์ ๋ค์๊ณผ ๊ฐ๋ค.
sampling rate
8 kHz ~ 48 kHz
bitrate
6 kbps ~ 510 kbps
delay (algorithmic)
2.5 ms - 60 ms
number of channels
mono/stereo (ํ์ฌ๋ 255๊น์ง ์ )
opus์ ๊ฐ์ฅ ํฐ ํน์ง์ low-bitrate์ low-latency๋ฅผ ๊ผฝ์ ์ ์๋ค. OPUS๋ codec์ ํฌ๊ฒ ๋๊ฐ์ ๋ชจ๋๋ก ๋๋์ด ์ง๋๋ฐ ์ฝ๋ฑ์ ์ผ๋ฐ์ ์ธ conceptual coding์ ๋ฐ๋ฅด๋ CELT (Constrained Energy Lapped Transform)์ LPC (Linear Prediction Coding)์ ์ด์ฉํ์ฌ ์์ถํ๋ SILK๋ก ๋๋๋ค. OPUS๋ SILK-only/hybrid/CELT-only ๋ชจ๋๋ก ๋๋๋ฉฐ, ๊ฐ๊ฐ์ ๊ฒฝ์ฐ์ bandwidth์ด ๋ค๋ฅด๋ค.
CELT
SILK
SILK๋ speech signal์ ํ๊ฒ์ผ Skype์์ ๊ฐ๋ฐํ ์ค๋์ค ์ฝ๋ฑ์ผ๋ก LPC์ ๊ธฐ๋ฐํ๋ค. Pic 1.์์ ๋ณด์ด๋ Frequency response์ ๋นจ๊ฐ์ ์ ์ ์ฌ๋์ ์์ฑ ์ ํธ์ STFT (Short-time Fourier Transform)๋ฅผ ์ํํ ๊ฒฐ๊ณผ์ด๊ณ , ํ๋์ ์ ์ STFT๋ฅผ ์ํํ ๊ฒฐ๊ณผ์ LPC๋ฅผ ํ๋ฒ ๋ ์ํํ ๊ฒฐ๊ณผ ์ด๋ค. ์ฌ๋ ์์ฑ์ Frequency response๋ฅผ ๋ณธ๋ค๋ฉด ๊ฐ๊ฒฉ์ด ์ข์ fluctuation๋ ๋ณด์ด์ง๋ง ์ ์ฒด์ ์ธ envelope์ ์ดํด๋ณธ๋ค ํด๋ local maxima์ local minima๊ฐ ์กด์ฌํ๋ค. ์ด๋ฐ ์์ฑ ์ ํธ์ envelope์ด ์๊ธฐ๋ ์์ธ์ ์ฑ๋์์ ์ธ๋ฆฐ ์๋ฆฌ๊ฐ vocal track์ ์ง๋๋ ๋์ ๊ตฌ๊ฐ์ด๋ ๊ธฐ๋ ๋ฑ์ ๋ฌผ๋ฆฌ์ ์ธ ๊ตฌ์กฐ์์ํด ๊ณต๋ช ์ ํ๊ธฐ ๋๋ฌธ์ด๋ค. ์ํฅํ์์๋ envelope์ ๊ฐ๊ฐ์ peak๋ฅผ formant๋ผ ํ๋ฉฐ , formants ๋ ๋ฐ์์ ๊ตฌ๋ณํ๋๋ฐ ์ฃผ์ํ ์์์ด๋ค.

LPC์ ๊ฐ๋ ๋ง ์ค๋ช ํ๊ณ ๋์ด๊ฐ๋ คํ๋ค. LPC๋ Linear system์ ๊ฐ์ ํ์ฌ ํน์ frequency response๋ฅผ ํด๋น ์์คํ ์ ๊ทผ์ฌํ๋ ๊ฒ์ด๋ค. Formants๋ฅผ ์ฐพ๋ ๊ฒฝ์ฐ์๋ ์ฌ๋์ vocal track์ n๊ฐ์ pole์ ๊ฐ๋ ๋ค์๊ณผ ๊ฐ์ ์์คํ ์ผ๋ก ๊ฐ์ ํ ๋ค, error๋ฅผ minimizeํ์ฌ ์์๋ฅผ ๊ตฌํ๋ค.
์ด๋ ๊ฒ ๊ตฌํด์ง ์์๋ฅผ ๋ณด๋ด๋ ๊ฒ์ผ๋ก ์์ฃผ ์ ์ bit๋ฅผ ๊ฐ์ง๊ณ formants์ ๋ณด๋ฅผ ๋ณด๋ผ ์ ์์ผ๋ฉฐ, ๋๋จธ์ง ์ ํธ๋ฅผ quantization ํ์ฌ์ ๋ณด๋ด๋ ๊ฒ์ผ๋ก SILK์๊ณ ๋ฆฌ์ฆ์ ์์ฑ๋๋ค.
[1] This paper was accepted for publication at the 135th AES Convention. This version of the paper is from the authors and not from the AES
[3] http://amateurselectronics.blogspot.com/2013/07/simple-speech-recognition-system-using.html
Last updated
Was this helpful?