Microsoft Word \310\355\364\356\360\354\340\362\350\352\340 I. docx


 Кодирование текстовой информации



Download 10,69 Mb.
Pdf ko'rish
bet32/145
Sana07.03.2022
Hajmi10,69 Mb.
#485279
1   ...   28   29   30   31   32   33   34   35   ...   145
Bog'liq
5545-inform-I

 
2.5 Кодирование текстовой информации 
Для кодирования текстовой информации используются специальные таб-
лицы. Каждому символу алфавита соответствует определенное целое число. 
Чаще всего используются восьмиразрядные двоичные числа. С их помощью 
можно закодировать 256 символов. Этого вполне достаточно чтобы выразить 
все символы как английского, так и русского алфавита, знаки препинания, циф-
ры, знаки арифметических операций и некоторые специальные символы. Ре-
зультат кодирования будет напрямую зависеть от кодовой таблицы. А таких 
таблиц используется довольно много. 
В 1968 году Национальным институтом стандартизации США был при-
нят стандарт ASCII (American Standard Code for Information Interchange – стан-
дартный код информационного обмена США) (табл. 2.5). Система кодирования 
ASCII разделена на две страницы: базовую и расширенную. Базовая таблица 
определяет значения кодов от 0 до 127, расширенная – от 128 до 255. 
Таблица 2.5 – Базовая таблица кодировки ASCII
32 пробел 48 0 64 @ 80 P 96 ` 112 

33 

49 1 65 A 81 Q 97 a 113 

34 

50 2 66 B 82 R 98 b 114 

35 

51 3 67 C 83 S 99 c 115 

36 

52 4 68 D 84 T 100 d 116 

37 

53 5 69 E 85 U 101 e 117 

38 

54 6 70 F 86 V 102 f 118 

39 

55 7 71 G 87 W 103 g 119 

40 

56 8 72 H 88 X 104 h 120 

41 

57 9 73 I 89 Y 105 i 121 

42 

58 : 74 J 90 Z 106 j 122 

43 

59 ; 75 K 91 [ 107 k 123 

44 

60 < 76 L 92 \ 108 l 124 
45 

61 = 77 M 93 ] 109 m 125 

46 

62 > 78 N 94 ^ 110 n 126 

47 

63 ? 79 O 95 _ 111 o 127 
неразрывный 
пробел 


47 
Первые 32 кода относятся к управляющим. За ними не закреплены ника-
кие символы языков и предназначены они для управления различными устрой-
ствами. 
Аналогичные системы кодирования текстовых документов были разрабо-
таны и в других странах. Например, в 1974 году Государственный комитет по 
стандартизации утвердил стандарт ГОСТ 19768–74, согласно которому внедря-
лись сразу две схемы кодирования. Одна из них получила название ГОСТ-
альтернативной. Впоследствии корпорация IBM опубликовала эту схему в сво-
ем корпоративном стандарте, и схема получила название CP 866 (Code 
page 866). Другая называлась ДКОИ (двоичный код обмена информацией) и 
стала основной для сетевых ЭВМ, работающих под управлением операционной 
системы UNIX. Сегодня данная схема называется КОИ-8 (код обмена инфор-
мацией, восьмиразрядный). После распада СССР различают отдельные схемы 
кодирования для России (КОИ-8Р) и Украины (КОИ-8У). 
Наглядным примером корпоративного стандарта является схема кодиро-
вания Windows-1251, которую ввела в действие корпорация Microsoft. Никаки-
ми государственными или международными стандартами эта схема не поддер-
жана, однако является самой распространенной на компьютерах платформы 
IBM PC. 
Формально для России имеет наивысший приоритет схема кодирования 
ISO-8859, поскольку она утверждена Международным институтом стандарти-
зации. Однако на практике документы, использующие эту схему, встречаются 
редко, особенно на компьютерах платформы IBM PC. 
Существование множества таблиц кодирования сильно затрудняет ин-
формационный обмен. Приходится создавать программы, которые способны 
работать с различными кодировками. Это приводит к усложнению программ и 
нерациональному использованию ресурсов. Требуется создать универсальную 
кодовую таблицу, но это невозможно сделать, если кодировать символы вось-
миразрядным кодом. 
В конце 80-х – начале 90-х годов некоммерческая организация Unicode 
Consortium, членами которой является большое количество корпораций и орга-
низаций, работающих в областях обработки информации и компьютерной ин-
дустрии, предложила новый стандарт Unicode. Чтобы лучше познакомиться с 
тем, что же представляет собой этот стандарт, лучше перейти на официальный 
сайт http://www.unicode.org/. Мы приведем здесь только лозунг.


48 
Unicode – это уникальный код для любого символа, 
независимо от платформы, 
независимо от программы, 
независимо от языка. 
Версия 7.0 стандарта (выпуск 16 июня 2014 года) содержит 112 956 сим-
волов, которые включают европейские, ближневосточные, азиатские и афри-
канские буквенные шрифты. Из них более 76 616 японских, китайских, корей-
ских, тайваньских, вьетнамских и сингапурских иероглифов. Кроме того, стан-
дарт Unicode содержит такие важные наборы символов, как знаки препинания, 
валютные знаки, математические и технические символы, геометрические фор-
мы, графические метки и смайлики. 
Для обозначения символов Unicode используется запись 
вида U+xxxx, где х – шестнадцатеричная цифра. 
Стандарт Unicode определяет три формы кодирования, 
которые позволяют представлять символы одним байтом 
(8 бит), словом (2 байта или 16 бит) и двойным словом (4 бай-
та или 32 бита). Называются эти форматы соответственно: 
UTF-8, UTF-16, UTF-32, где число – это количество бит. 
Каждая из этих форм кодирования в равной степени может быть исполь-
зована для представления всех символов в стандарте Unicode. Мы рассмотрим 
однобайтовый способ, как самый популярный, поскольку является совмести-
мым с основной таблицей ASCII кодов. Речь идет о формате UTF-8. 

Download 10,69 Mb.

Do'stlaringiz bilan baham:
1   ...   28   29   30   31   32   33   34   35   ...   145




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish