Python 3: преимущества и недостатки языка Python интерпретируемый язык программирования



Download 7,02 Mb.
bet54/59
Sana23.02.2022
Hajmi7,02 Mb.
#159718
1   ...   51   52   53   54   55   56   57   58   59
Bog'liq
Документ Microsoft Office Word

Парсинг сайтов


Очень часто возникает необходимость вытащить какую-то информацию с сайтов, в которых отсутствует API. Приходится применять технику, которая называется парсинг. Парсинг - это анализ исходного HTML кода веб-страницы и извлечение необходимых нам кусочков информации. Как получить HTML код любой веб-страницы с помощью requests.get(), было рассказано в предыдущем уроке. В данной статье, поговорим о парсинге.
Есть два пути вытаскивания нужных отрезков информации из HTML кода веб страниц

  1. С использованием регулярных выражений

  2. С использованием специальных модулей

Что такое регулярные выражения, мы разберем в следующих уроках. Скажу лишь, что применять регулярки для парсинга веб страниц нецелесообразно. Гораздо удобнее использовать готовые модули.
Рассмотрим один из таких модулей - Beautiful Soup. Он позволяет получать любые кусочки HTML кода и текста, делая выборку на основе указанных селекторов - классов или id искомых тегов. В этом он сильно похож на JQuery, если кто-то из вас занимается созданием сайтов, понять что такое селекторы не составит труда. Для остальных поясним:
Любая веб страница представляет из себя набор HTML тегов - специальных слов, которые заключены в скобки из значков больше-меньше. Например тег ссылки может выглядеть так
Ссылка
Мы можем получить любой тег, обратившись к нему по его классу, в данном случае '.north62' или по id - '#wn17'. В результате нам вернется тег с искомым id, либо список из тегов, у которых есть такой класс.
Чтобы распарсить какую-то веб страницу, нужно открыть её исходный код, найти в нём нужные нам теги, выписать их классы или id. А потом обращаться к ним по селекторам. Давайте поясним всё это на примере.
Сперва установим в Python модуль Beautiful Soup, дав в командной строке команду:
pip install beautifulsoup4
В программе мы должны будем вписать сокращенный вариант названия модуля
import bs4
Итак, для примера сделаем программу, которая получает прогноз погоды на сегодня по региону Москва. Информацию будем парсить вот отсюда:
https://sinoptik.com.ru/погода-москва
Сперва нам нужно понять, какие именно теги нам нужно вытаскивать.

Откроем HTML код страницы и найдём в нём показания температуры за утро и день. Мы заметим, что нужная нам температура расположена в тегах с классами p3, p4, p5, p6


В свою очередь, эти классы вложены в теги с классом temperature


Значит селекторы для выборки этих тегов будут выглядеть так:



Download 7,02 Mb.

Do'stlaringiz bilan baham:
1   ...   51   52   53   54   55   56   57   58   59




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish