Основы программирования на языке Python : учебное пособие


 ОБРАБОТКА ТЕКСТОВ. РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ



Download 1,45 Mb.
Pdf ko'rish
bet31/44
Sana24.02.2022
Hajmi1,45 Mb.
#186836
TuriУчебное пособие
1   ...   27   28   29   30   31   32   33   34   ...   44
Bog'liq
978-5-7996-1198-9 2014

22. ОБРАБОТКА ТЕКСТОВ. РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ. 
UNICODE 
Под обработкой текстов понимается анализ, преобразование, 
поиск, порождение текстовой информации. Обработка естественных 
текстов – это процесс неискусственного интеллекта. Здесь не рас-
сматривается обработка текстов посредством текстовых процессоров 
и редакторов, хотя некоторые из них (например, Cooledit) предостав-
ляют возможность писать макрокоманды на Python.
Для Python созданы модули для работы с естественными языка-
ми, для лингвистических исследований. Хорошим примером служит 
nltk (the Natural Language Toolkit). 
22.1. Строки 
Строки в языке Python являются типом данных, специально 
предназначенным для обработки текстовой информации. Строка мо-
жет содержать произвольно длинный текст (ограниченный имеющей-
ся памятью). 
В новых версиях Python имеются два типа строк: обычные стро-
ки (последовательность байтов) и Unicode-строки (последователь-
ность символов). В Unicode-строке каждый символ может занимать
в памяти 2 или 4 байта в зависимости от настроек периода компиляции. 
Четырехбайтовые знаки используются в основном для восточных 
языков. 
В языке Python и стандартной библиотеке за некоторыми ис-
ключениями строки и Unicode-строки взаимозаменяемы, в собствен-
ных приложениях для совместимости с обоими видами строк следует 


62 
избегать проверок на тип. Если это необходимо, можно проверять 
принадлежность базовому (для строк и Unicode-строк) типу с помо-
щью isinstance(s,basestring). 
При использовании Unicode-строк следует помнить, что именно 
Unicode-представление является главным, а все остальные кодировки 
– лишь частными случаями представления текста, которые не могут 
передать всех символов. Без такой установки будет непонятно, поче-
му преобразование из восьмибитной кодировки называется decode 
(декодирование). Для внешнего представления можно с успехом ис-
пользовать кодировку UTF-8, хотя, конечно, это зависит от решаемых 
задач. 
Для того чтобы Unicode–литералы в Python-программе воспри-
нимались интерпретатором правильно, необходимо указать кодиров-
ку в начале программы, записав в первой или второй строке, напри-
мер, следующее (для Unix/Linux): 
# -*- coding: koi8-r -*- 
или (под Windows): 
# -*- coding: cpl251 -*- 
Могут быть и другие варианты: 
# -*- coding: latin-1 -*- 
# -*- coding: utf-8 -*- 
# -*- coding: mac-cyrillic -*- 
# -*- coding: iso-5 -*- 
Полный перечень кодировок (и их псевдонимов): 
>>> import encodings.aliases 
>>> print encodings.aliases.aliases 
{'iso_ir_6': 'ascii',
'maccyrillic': 'mac_cyrillic', 
'iso_celtic': 'iso8859_14', 
'ebcdic_cp_wt': 'cp037', 
'ibm500': 'cp500', ... 
Если кодировка не указана, то считается, что используется us-
ascii. При этом интерпретатор Python будет выдавать предупрежде-
ния при запуске модуля: 


63 
sys:1: DeprecationWarning: Non-ASCII character '\xf0' in file exam-
ple.py 
on line 2, but no encoding declared; 
see http://www.python.org/peps/pep-0263.html for details 

Download 1,45 Mb.

Do'stlaringiz bilan baham:
1   ...   27   28   29   30   31   32   33   34   ...   44




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish