Извлечение данных (Data Mining)
Понятие «извлечение данных» приобрело особенно высокую популярность примерно с первой половины 1990-х гг. в связи с тем, что вследствие бурного развития технологий записи и хранения данных на человечество обрушились колоссальные потоки «информационной руды» в самых разных сферах. В этой ситуации выявились ограничения традиционной математической статистики, долгое время претендовавшей на роль основного инструмента анализа данных. Главное ограничение статистических методов — концепция усреднения по выборке, приводящая к операциям над несуществующими величинами (типа «средней температуры по больнице»).
Современные процедуры извлечения данных соответствуют следующим условиям: 1) данные имеют неограниченный объем; 2) данные разнородны (количественные, качественные, категориальные); 3) результаты процедур должны быть конкретными и понятными; 4) инструменты для обработки «сырых» данных должны быть простыми в использовании.
В основу технологий извлечения данных положена концепция шаблонов (паттернов) и зависимостей, отражающих фрагменты многоаспектных взаимоотношений среди данных. Поиск паттернов производится автоматическими методами, которые не ограничены рамками априорных предположений о структуре выборки в виде распределений значений анализируемых показателей. Важно, что разыскиваемые паттерны должны отражать неочевидные, неожидаемые (unexpected) регулярности в глубинном пласте «скрытых знаний» (hidden knowledge), которые необходимо грамотно «раскопать».
Итак, технология извлечения данных (data mining) — это процесс отыскания в сырых данных ранее неизвестных, нетривиальных, практически полезных, доступных для интерпретации знаний, нужных для принятия решений в различных сферах деятельности человека [19].
Методы извлечения данных позволяют выделять пять стандартных типов закономерностей [19]. Если несколько событий связаны друг с другом, то имеет место ассоциация. Цепочка событий соответствует последовательности. С помощью классификации выделяются признаки, характеризующие группу, к которой принадлежит объект; выделение осуществляется путем анализа уже классифицированных объектов и формулирования некоторого набора правил. Кластеризация отличается от классификации тем, что группы не заданы заранее; средства Data Mining самостоятельно выделяют различные однородные группы данных. Разнообразные системы прогнозирования основаны на исторической информации, хранящейся в базах данных в виде временных рядов. Если удается построить шаблоны (паттерны), адекватно отражающие динамику поведения целевых показателей, то с их помощью можно предсказать будущее поведение системы.
Do'stlaringiz bilan baham: |