Chastota pastki diapazonini kodlash
Differensial kodlash samaradorligini pasaytiradigan omillardan biri bu chastotadir. Past chastotali tovushlarni kodlashda odatda ko'plab kichik o'sishlar olinadi, yuqori chastotali tovushlarni kodlashda esa ko'plab katta o'sishlar olinadi. Differensial kodlash samaradorligini oshirish usullaridan biri tovushning chastota diapazonini bir necha qismlarga bo'lish yoki chastota pastki diapazonlarini tanlash va keyin ularning har birini alohida siqishdir [5,7]. Insonning eshitish qanday ishlashini bilish ushbu siqish usulidan yanada samarali foydalanishga yordam beradi. Odamlar ba'zi chastota diapazonlarida boshqalarga qaraganda yaxshiroq eshitishlari sababli, turli pastki diapazonlar uchun turli xil siqish sozlamalaridan foydalanish mumkin. Eshitish zonasi yaqinida joylashgan pastki diapazonlar deyarli o'zgarmagan holda qoladi, kamroq ajralib turadigan pastki diapazonlar esa ko'proq siqiladi yoki umuman hisobga olinmaydi. Sub-band kodlash usullari pastki diapazonlarni ajratish uchun ishlatiladigan matematik apparatga va har bir bandni qayta ishlash bo'yicha tavsiyalarni ishlab chiqish uchun zarur bo'lgan inson eshitishini to'liq o'rganishga asoslangan. Bunday kodlash PCM audio ma'lumotlarini 10-20 marta siqish imkonini beradi.
2.4.3. Audio MPEG-1
MPEG-1 video siqish standarti ikkita asosiy qismdan iborat: videoni siqish va audioni siqish. MPEG-1 ni tavsiflovchi standart normativ va tavsiflovchi bo'limlarga ega. Normativ bo'lim standartning spetsifikatsiyalarini o'z ichiga oladi: turli parametrlarga ega jadvallar va MPEG standartida qo'llaniladigan Huffman kodlari. Ta'rif bo'limi tanlangan tushunchalarni ko'rsatadi, u yoki bu yondashuvni tanlash sabablarini tushuntiradi, kerakli asosiy ma'lumotlarni o'z ichiga oladi, masalan, psixoakustik modelni o'rnatuvchi algoritm. Ovozli ma'lumotlarni siqishning asosiy printsipi yo'qolgan siqilishga asoslangan. Umumiy printsip quyidagicha: siz bilganingizdek, asl WAV fayli asl tovush haqida to'liq ma'lumotni o'z ichiga oladi, raqamlangan va 44 kHz chastotada kvantlangan. Aynan shu ma'lumotlar oddiy audio kompakt disklarda saqlanadi.
Kotelnikov teoremasiga muvofiq, bu ma'lumot dastlabki signalning barcha chastotalarini, kvantlash chastotasining yarmidan kamini takrorlash uchun mutlaqo etarli. Bular. 22 kHz gacha bo'lgan barcha chastotalar raqamlashtirilganda qanday eshitilgan bo'lsa, xuddi shunday takrorlanadi. Audio ma'lumotlarni siqish uchun eng muvaffaqiyatli yechim Germaniyaning Fraunhofer universiteti olimlari tomonidan topilgan, ishlab chiqilgan va patentlangan. Ular ishlab chiqqan fayl formati (va standart) MPEG Layer-3 (qisqacha MP3) deb nomlangan. Litsenziya formatdan cheksiz va bepul notijorat foydalanishga ruxsat berganligi sababli, u keng tarqalgan va ommabop bo'lib, bugungi kungacha dominant siqish formati hisoblanadi. MP3-ga kodlashda asl audio fayl 50 millisekundlik bo'laklarga bo'linadi, ularning har biri alohida tahlil qilinadi. Tahlil davomida fragment Furye usuli bo'yicha garmonikaga parchalanadi, undan inson qulog'i tomonidan tovushni idrok etish nazariyasiga muvofiq, odam boshqalaridan yomonroq yoki yomonroq his qilmaydigan garmonikalar chiqariladi. Bundan tashqari, tovushlar tashqariga tashlanadi, eshitish inertsiyasi tufayli maskalanadi. Filtrlashdan keyin qolgan harmonikalar haqidagi ma'lumotlar MP3 faylida qayd etiladi, natijada u asl WAV-dan ancha kichikroqdir.
Ijro etish vaqtida teskari konvertatsiya amalga oshiriladi, unda qolgan harmonikalar yana tovush to'lqiniga aylanadi. Olingan tovush asl tovushga to'g'ri kelmaydi, ammo ahamiyatsiz va eshitilmaydigan tovushlar chiqarib tashlanganligi sababli, inson qulog'i signalni asl tovushdan farqlashi juda qiyin.
"Bitrate" tushunchasining ma'nosi. Bitrate (inglizcha bitrate) - so'zma-so'z ma'lumotlarning bitlarini uzatish tezligi. Kanal bo'ylab ma'lumot uzatishning samarali tezligini, ya'ni "foydali yuk" ning uzatish tezligini o'lchashda bit tezligidan foydalanish odatiy holdir (bundan tashqari, kanal xizmat ma'lumotlarini uzatishi mumkin, masalan, ishga tushirish va to'xtatish belgilari. asinxron uzatishda yoki ortiqcha kodlashda boshqaruv belgilari). Bitrate atamasi ikkita asosiy ma'noda qo'llaniladi
1. Kanal yoki qurilmaning xarakteristikalari - vaqt birligida uzatilishi mumkin bo'lgan maksimal bitlar soni.
2. Haqiqiy vaqtda uzatiladigan ma'lumotlar oqimining o'lchami (bu oqimdan kechikishlarsiz o'tishi mumkin bo'lgan minimal kanal hajmi). Maxsus holat - bu siqilgan audio yoki videoning bit tezligi.
Bit tezligi qanchalik past bo'lsa, vaqt uzunligi bir xil bo'lgan fayllar hajmi shunchalik kichik bo'ladi. Boshqa tomondan, u qanchalik kichik bo'lsa, shunchalik ko'p "qo'shimcha" harmoniklarni tashlash kerak. Juda past bit tezligida (16-24 kilobit / s) musiqani idrok etish qiyin va ovoz o'qilishi mumkin bo'lsa ham, juda "psixedel" rangga ega bo'ladi. O'zgaruvchan bit tezligi ortiqchalikni yo'q qilish orqali fayl hajmini bir xil sifatda kamaytirish imkonini beradi. Boshqacha qilib aytadigan bo'lsak, 256 kbps tezlikda sukunatni kodlashning hojati yo'q, agar uni 64 kbps tezlikda aynan bir xil sifatda takrorlash mumkin bo'lsa. MPEG-1-dagi audio treklarning sifati juda keng diapazonda farq qilishi mumkin - yuqori sifatdan juda pastgacha. Nihoyat, barcha audio siqish formatlari 1992 yilda ISO standartlari bo'yicha Evropa Komissiyasi tomonidan standartlashtirilgan. Amaldagi kodlovchiga va siqilish darajasiga qarab, videoning audio ma'lumotlari quyidagi shaklda taqdim etilishi mumkin: mono, dual mono, stereo, intensiv stereo (chastotalari 2 kHz dan oshadigan stereo signallar monoga birlashtirilgan), m / s stereo (bir kanal signallar yig'indisi, ikkinchisi farq) va namuna olish tezligi bo'lishi mumkin: 48, 44,1 va 32 kHz.
2.5. Audio kodlovchi va MPEG audio dekoderining umumiy sxemasi
MPEG siqish algoritmi, boshqa har qanday siqish algoritmi kabi, uch bosqichga bo'linishi mumkin:
• Dastlabki ishlov berish;
• asosiy transformatsiya;
• transformatsiya komponentini kodlash va qadoqlash.
Oldindan ishlov berish bosqichida, umumiy holatda, dastlabki audio ma'lumotlar oqimi asosiy transformatsiya jarayoni uchun tayyorlanadi. Xususan, bunday treningning ikki turini ajratish mumkin: bloklarga bo'linish va shovqinni filtrlash. Ikkinchi bosqichda, diskret Furye transformatsiyasidan (DFT) foydalangan holda, kirish PCM namunalari 512 spektral komponentga aylantiriladi. Shunday qilib, signalning vaqtinchalik ko'rinishidan chastotaga o'tish amalga oshiriladi. Komponentlarni kodlash va qadoqlash bosqichida chastota domeni psixoakustik model tomonidan tahlil qilinadi, u spektrning eshitilmaydigan komponentlarini tashlab yuboradi va kvantlash shovqini eshitilmaydigan kvantlash bosqichini hisoblaydi. Bundan tashqari, ushbu bosqichda, qolgan spektral namunalar o'zi kvantlanadi va keyin ular Huffman kodlashiga duchor bo'ladi. Signalni tiklash algoritmi ancha sodda va ikki bosqichdan iborat:
• ko'rsatkichlarni tiklash;
• teskari transformatsiya.
Namunalarni qayta tiklash bosqichida spektral komponentlar dekodlanadi. Ikkinchi bosqichda teskari DFT yordamida signalning vaqtinchalik ko'rinishiga o'tish amalga oshiriladi.
Shaklda. 2.17 MPEG kodlovchi va dekoderning blok diagrammalarini ko'rsatadi.
Rasm. 2.17. MPEG kodlovchi (a) va dekoder (b).
Chastota domeniga xaritalash. Ovozli signalni kodlashda birinchi qadam uni chastota domeniga aylantirishdir. Buning uchun diskret Furye konvertatsiyasidan (DFT) foydalaning [7]:
Bu erda X (k) - spektral zichlik namunalari, x (n) - dastlabki signalning namunalari.
Ovozli ma'lumotlar etarlicha katta bo'lishi mumkinligi sababli, skanerlashning "oynasi" spektrni hisoblash uchun ishlatiladi: spektr faqat "oyna" ga tushadigan namunalar uchun topiladi. Spektrni hisoblashdan so'ng "oyna" o'ngga siljiydi (2.19-rasm).
Do'stlaringiz bilan baham: |