Matnli axborotlarni kodlash



Download 0,77 Mb.
bet19/27
Sana24.06.2021
Hajmi0,77 Mb.
#100777
1   ...   15   16   17   18   19   20   21   22   ...   27
Bog'liq
3-amaliy mashg'ulot

Kodlash Unicode

Standart 1991 yilda Unicode Consortium notijorat tashkiloti (Eng. Unicode Consortium, Unicode Inc.) tomonidan taklif qilingan. Ushbu standartning qo'llanilishi turli skriptlardan juda ko'p miqdordagi belgilarni kodlashga imkon beradi: xitoycha belgilar, matematik belgilar, yunon alifbosi harflari, lotin harflari va kirill harflari Unicode hujjatlarida birga yashashi mumkin va kod sahifalarini almashtirish keraksiz bo'lib qoladi.

Standart ikkita asosiy qismdan iborat: universal belgilar to'plami (inglizcha UCS, universal belgilar to'plami) va kodlashlar oilasi (inglizcha UTF, unicode formatini o'zgartirish formati). Belgilarning universal to'plami belgilarning kodlarga noyob muvofiqligini belgilaydi - manfiy bo'lmagan butun sonlarni ifodalovchi kodlar makonining elementlari. Kodlashlar turkumi UCS kodlarining ketma-ketligini ko'rsatadigan mashinaning tasvirini belgilaydi.

Unicode standarti barcha zamonaviy va ko'plab qadimiy yozma tillarning yagona belgi kodlashini yaratish maqsadida ishlab chiqilgan. Ushbu standartdagi har bir belgi 16 bit bilan kodlangan, bu esa ilgari qabul qilingan 8-bitli kodlashlarga qaraganda taqqoslanmaydigan ko'p miqdordagi belgilar sonini qoplashga imkon beradi. Unicode va boshqa kodlash tizimlari o'rtasidagi yana bir muhim farq shundaki, u nafaqat har bir belgi uchun o'ziga xos kodni tayinlaydi, balki ushbu belgining turli xil xususiyatlarini ham belgilaydi, masalan:

belgilar turi (bosh harf, kichik harf, raqam, tinish belgisi va boshqalar);

belgilar atributlari (chapdan o'ngga yoki o'ngdan chapga, bo'sh joy, chiziq uzilishi va hk);

bosh yoki kichik harflar (mos ravishda kichik va katta harflar uchun);

tegishli raqamli qiymat (raqamli belgilar uchun).

0 dan FFFFgacha bo'lgan kodlarning butun diapazoni bir nechta standart pastki qismlarga bo'linadi, ularning har biri ma'lum bir alifboga yoki funktsiyaga o'xshash maxsus belgilar guruhiga mos keladi. Quyidagi diagrammada Unicode 3.0 pastki to'plamlarining umumiy ro'yxati keltirilgan (2-rasm).

2-rasm


Unicode standarti ko'plab zamonaviy kompyuter tizimlarida matnni saqlash va saqlash uchun asosdir. Biroq, u ko'pgina Internet protokollariga mos kelmaydi, chunki uning kodlari har qanday bayt qiymatlarini o'z ichiga olishi mumkin va protokollar odatda bayt 00 - 1F va FE - FF kabi xizmatlardan foydalanadi. Moslashishga erishish uchun bir nechta Юникodlarni konvertatsiya qilish formatlari (UTFlar, Unicode Transformatlar formatlari) ishlab chiqilgan bo'lib, ulardan bugungi kunda UTF-8 eng keng tarqalgan. Ushbu format har bir Unicode kodini Internet protokollari orqali tashish uchun mos keladigan baytlar to'plamiga (birdan uchgacha) o'zgartirish uchun quyidagi qoidalarni belgilaydi.

Bu erda x, y, z boshlang'ich kodning eng pastidan boshlanib, natijaning baytiga, ko'rsatilgan barcha pozitsiyalar to'ldirilgunga qadar kiritilishi kerak.

Unicode standartining keyingi rivojlanishi yangi til samolyotlari qo'shilishi bilan bog'liq, ya'ni. 10000 - 1FFFF, 20000 - 2FFFF va boshqalar oralig'idagi belgilar, yuqorida ko'rsatilgan jadvalga tushmaydigan o'lik tillar skriptlari uchun kodlash kiritilishi kerak. Ushbu qo'shimcha belgilarni kodlash uchun yangi UTF-16 formati ishlab chiqilgan.

Shunday qilib, baytlarni Unicode formatida kodlashning 4 asosiy usuli mavjud:

UTF-8: 128 ta belgi bir baytda kodlangan (ASCII formatida), 1920 ta belgilar 2 baytda kodlangan ((Rim, Yunon, Kirill, Koptik, Armancha, Ibroniycha, Arabcha belgilar), 63488 belgilar 3 baytda (Xitoy, Yaponcha) kodlangan. va hokazo) Qolgan 2,147,418,112 belgilar (hali ishlatilmagan) 4, 5 yoki 6 bayt bilan kodlanishi mumkin.

UCS-2: Har bir belgi 2 baytdan iborat. Ushbu kodlash faqat Unicode formatidagi birinchi 65 535 belgilarni o'z ichiga oladi.

UTF-16: UCS-2 ning kengaytmasi bo'lib, 1.114.112 unicode belgilarini o'z ichiga oladi. Birinchi 65,535 belgilar 2 bayt, qolganlari 4 bayt bilan ifodalanadi.

USC-4: Har bir belgi 4 bayt bilan kodlangan.

Har bir kompyuterda o'ziga xos belgilar to'plami mavjud bo'lib, uni amalga oshiradi. Ushbu to'plamda 26 katta va kichik harflar, raqamlar va maxsus belgilar (davr, bo'shliq va boshqalar) mavjud. Butun sonlarga aylantirilganda belgilar kod deb ataladi. Standartlar kompyuterlarda bir xil kod to'plamlariga ega bo'lishi uchun ishlab chiqilgan.


Download 0,77 Mb.

Do'stlaringiz bilan baham:
1   ...   15   16   17   18   19   20   21   22   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish