[1]. Big Data: какие данные считаются большими



Download 62,42 Kb.
Sana01.12.2022
Hajmi62,42 Kb.
#876043
TuriЗакон
Bog'liq
ig data


Большие данные (Big Data)

Большие данные (Big Data) – совокупность непрерывно увеличивающихся объемов информации одного контекста, но разных форматов представления, а также методов и средств для эффективной и быстрой обработки [1].
Big Data: какие данные считаются большими
Благодаря экспоненциальному росту возможностей вычислительной техники, описанному в законе Мура, объем данных не может являться точным критерием того, являются ли они большими. Например, сегодня большие данные измеряются в терабайтах, а завтра – в петабайтах. Поэтому главной характеристикой Big Data является степень их структурированности и вариантов представления.
5V — главные характеристики Big Data
Яркая иллюстрация больших данных – это непрерывно поступающая информация с датчиков или устройств аудио- и видеорегистрации, потоки сообщений из соцсетей, метеорологические данные, координаты геолокации абонентов сотовой связи и т.п. [3]. Например, вот здесь мы рассказывали, как ПАО «Газпромнефть» собирал и анализировал более 200 миллионов разновариантных записей с контроллеров систем управления на нефтяных скважинах, записи рестартов напряжения из аварийных журналов, особенности эксплуатации насосов и характеристики скважинных условий для формирования и проверки гипотез о причинах сбоев и выявления ранее неизвестных взаимосвязей в работе насосного оборудования [4].
Таким образом, источниками больших данных могут быть [5]:

  • интернет — соцсети, блоги, СМИ, форумы, сайты, интернет вещей (Internet of Things, IoT);

  • корпоративная информация – транзакции, архивы, базы данных и файловые хранилища;

  • показания приборов — датчиков, сенсоров, регистраторов и пр.

Этапы работы с Big Data
Чтобы получить рабочую гипотезу о причинах возникновения конкретных ситуаций, в частности, как связаны отказы оборудования с условиями подачи напряжения, или спрогнозировать будущее, например, вероятность своевременного возврата кредита частным заемщиком, анализ больших объемов структурированной и неструктурированной информации выполняется в несколько этапов [6]:

  1. чистка данных (data cleaning) – поиск и исправление ошибок в первичном наборе информации, например, ошибки ручного ввода (опечатки), некорректные значения с измерительных приборов из-за кратковременных сбоев и т.д.;

  2. генерация предикторов (feature engineering) – переменных для построения аналитических моделей, например, образование, стаж работы, пол и возраст потенциального заемщика;

  3. построение и обучение аналитической модели (model selection) для предсказания целевой (таргетной) переменной. Так проверяются гипотезы о зависимости таргетной переменной от предикторов. Например, сколько дней составляет просрочка по кредиту для заемщика со средним образованием и стажем работы менее 3-х месяцев.

Методы и средства работы с Big Data
К основным методам сбора и анализа больших данных относят следующие:

  • Data Mining – обучение ассоциативным правилам, классификация, кластерный и регрессионный анализ;

  • краудсорсинг — категоризация и обогащение данных народными силами, т.е. с добровольной помощью сторонних лиц;

  • смешение и интеграция разнородных данных, таких как, цифровая обработка сигналов и обработка естественного языка;

  • машинное обучение (Machine Learning), включая искусственные нейронные сети, сетевой анализ, методы оптимизации и генетические алгоритмы;

  • распознавание образов;

  • прогнозная аналитика;

  • имитационное моделирование;

  • пространственный и статистический анализ;

  • визуализация аналитических данных — рисунки, графики, диаграммы, таблицы.

Разнородность больших данных обусловливает специфические технологии работы с ними
Программно-аппаратные средства работы с Big Data предусматривают масштабируемость, параллельные вычисления и распределенность, т.к. непрерывное увеличение объема – это одна из главных характеристик больших данных. К основным технологиям относят нереляционные базы данных (NoSQL), модель обработки информации MapReduce, компоненты кластерной экосистемы Hadoop, языки программирования R и Python, а также специализированные продукты Apache (Spark, AirFlow, Kafka, HBase и др.) [3]. Все это и многое другое мы рассматриваем на наших практических курсах для аналитиков, инженеров и администраторов по работе с большими данными.
Хотите в совершенстве освоить теорию и практику Big Data, чтобы стать высококлассным специалистом и эффективно решать прикладные задачи повышения эффективности любого бизнеса: от нефтегазовой промышленности до кредитного скоринга? Тогда выбирайте свою образовательную программу и до встречи на занятиях!
Download 62,42 Kb.

Do'stlaringiz bilan baham:




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish