304
СОВРЕМЕННЫЕ ТЕХНОЛОГИИ РАБОТЫ С ДАННЫМИ, ВЫРАБАТЫВАЕМЫЕ
ИНТЕРНЕТОМ ВЕЩЕЙ.
Исмаилов О.М. (ТУИТ, доцент)
Намазов А.О. (ТУИТ, студент)
Рост сетевых технологий привело к применению интернета во многих сферах
жизнедеятельности человека. Если вначале интернет служил только для обмена данными
между людьми, с подключением аппаратно-программных устройств функции сети
расширилось. Широкое применение интернета как транспортного средство привело к
резкому увеличению количества подключенных аппаратно-программных устройств к сети
по сравнению с людьми.
В этой связи в сфере информационных технологий появился новый термин –
Интернет Вещей. Интернет Вещей (InternetofThings) – это глобальная сеть компьютеров,
датчиков (сенсоров) и исполнительных устройств (актуаторов),
связывающихся между
собой с использованием интернета.
По некоторым данным уже в 2010 году по сети Интернет было произведено 900
эксабайт (10
18
байт) данных. По сведению компании Cisco в этом же году к
телекоммуникационным сетям было подключено более 12.8 миллиарда аппаратно-
программных устройств. По разным оценкам специалистов такой темп роста к 2020 году
приведет к увеличению количество аппаратно-программных устройств подключенных к
телекоммуникационным сетям от 26 до 50 миллиардов средств.
В значительных частях этих устройств непрерывно
будет производиться те или
иные данные. В этой связи, перед специалистами возникает проблемы сбора, хранения,
обработки и получения определенных знаний их этих данных.
Для решения этих задач зародилась концепция
Больших данных, то есть BigData.
В рамках данной концепции началось разработка инструментов и принципов
хранения, обработки и анализа данных, которые имеют несколько ключевых признаков:
•
Размер – десятки Тбайт в день.
•
Сложность – неструктурированные, большое число источников.
•
Для обработки требуются новые технологии.
Рис. 1. Общая инфраструктура работы с большими данными
Ключевой параметр инфраструктуры – распределенность, то
есть много узлов,
выполняющих каждую отдельную функцию.
Сбор данных из различных источников в режиме онлайн считается одним из
особенностей новых технологий сбора данных. На сегодняшний день используются
технологии сбора данных, такие как ApacheKafka, Logstash, AmazonKinesis.
Далее, собранные данные обрабатываются с помощью пакетной обработки, либо с
помощью потоковой обработки.
В пакетной обработке данные накапливаются в
файловой системе, при этом
обработчик запускается по расписанию. Особенностями новых технологий пакетной
обработки данных, можно считать огромный объем данных и распределенная пакетная
обработка. HadoopMapReduce, Spark и AmazonElasticMapReduce
считаются одним из
наилучших технологий пакетной обработки данных. Для пакетной обработки, во многих
случаях, требуется распределенное хранилище данных. А для этого используются
технологии HadoopDistributedFileSystem (HDFS), AmazonS3 и MicrosoftAzure.
305
Особенность потоковой обработки больших данных в том, что данные в больших
объемах постоянно обновляются. Для них используются технологии Storm, который
использован в Twitter, SparkStreaming и AWSLambda.
После обработки данных возникает проблема хранение данных в больших объемах.
При этом требования к надежности и типу/скорости доступа к данным будет зависеть от
конкретного
приложения, которое будет использовать данные. Для примера можно
выделить технологии Oracle, MySQL, PostgreSQL, AmazonRedShift, ElasticSearch.
Таким образом, вышеуказанные методы позволят увеличить процесс сбора,
хранения, обработки в целях уменьшения объема большого количество информации в
сети интернет.
Однако применение этих методов не позволят
полностью решить данную
проблему. В этой связи, на современном этапе внедряются новые тенденции, такие как
глубокий анализ данных и машинное обучение.
Do'stlaringiz bilan baham: