International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
380
Первым направлением развития средств Data Mining можно выделить
методы статистической обработки данных:
−
предварительный анализ природы статистических данных;
−
выявление связей и закономерностей;
−
многомерный статистический анализ;
−
динамические модели и прогнозирование временных рядов [1].
Второе направление — интеллектуальные методы оптимизации,
основанные на принципах саморазвивающихся систем — нейросетевые
методы, эволюционное и генетическое программирование.
Третье направление ИАД включает традиционные методы решения
оптимизационных задач: методы исследования операций, включая различные
виды математического программирования, динамическое программирование,
принцип
максимума
Понтрягина,
методы
теории
систем
последовательностей.
К четвертому направлению ИАД относятся инструменты, которые
условно
можно назвать экспертными, т. е. такие инструменты неразрывно
связаны с использованием экспертного опыта. Одним из таких методов
является метод ближайших соседей. Альтернативный подход к выбору
решения состоит в том, чтобы сделать ряд выводов.
Классификация достаточно простая задача, которую часто решают с
помощью методов интеллектуального анализа данных. Классификация – это
закономерность, позволяющая сделать выводы о характеристиках той или
иной группы. Таким образом,
чтобы классификация состоялась, должны
быть признаки, описывающие группу, к которой принадлежит тот или иной
изучаемый объект.
Функцию классификации часто называют прогнозированием связанной
переменной на основе набора непрерывных или категориальных переменных,
которые могут иметь отношение к задаче классификации рыночных условий.
Классификация может быть одномерной (по одному признаку) и
многомерной (по двум и более признакам). Целью процесса классификации
является создание модели, которая использует независимые переменные в
качестве входных данных и принимает значение зависимой переменной.
Таким образом, сам процесс классификации можно описать как
последовательное разделение множества объектов на классы по
определенному признаку. В данном случае классификатор – это объект,
определяющий, к какому из предопределенных классов принадлежит объект
по вектору свойств.
Для
выполнения
классификации
математическими
методами
необходимо иметь формальное описание объекта, которым можно управлять
с помощью математического аппарата классификации. В нашем случае такое
описание представляет собой набор информации о системе.
Процесс классификации можно разделить на два этапа: построение
модели и ее использование.
International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
381
1.
Построение модели: описание множества предопределенных
классов.
−
каждый пример из набора
входных данных относится к
определенному классу (выходные данные);
−
входные данные берутся из обучающего множества, выходные
данные в него записываются;
−
полученная модель представляется в виде классификационных
правила, дерева решений или математической формулы [2].
2.
Использование модели: классификация новых или неизвестных
значений.
−
новые значения не должны ходить в обучающее множество;
−
тестовое множество не должно повторять или пересекаться с
обучающим множеством;
−
производится оценка точности модели:
−
в случае получения допустимой точность модели, возможно
использование модели для
классификации новых примеров, класс которых
неизвестен [3,4].
Для
оценки
точности
классификации
можно
использовать
перекрестную проверку. Перекрестная проверка — это процедура оценки
точности классификации данных в наборе тестов. Точность классификации
тестового набора сравнивается с точностью классификации обучающего
набора. При получении примерно равных результатов по точности
классификации тестовых и тренировочных комплексов делается вывод о том,
что модель подвергается перекрестному исследованию.
Во время оценки методов классификации учитываются следующие
характеристики:
1.
Скорость – характеризует время, которое
требуется на построение
модели и ее использование.
2.
Робастность – устойчивость к нарушениям исходных предпосылок,
то есть оценивается возможность работы с зашумленными данными и
пропусками в значениях в исходных данных.
3.
Интерпретируемость – характеризует возможность понимания
построенной модели аналитиком, в том числе возможности наглядного
представления полученных результатов.
4.
Надежность – предусматривает примерно одинаковые результаты по
модели на относительно чистых данных и данных с шумами и выбросами
[5,6].
Решая задачи классификации,
применяются различные методы, из
которых можно выделить основные:
классификация с помощью деревьев решений;
байесовская (наивная) классификация;
классификация при помощи искусственных нейронных сетей;
классификация методом опорных векторов;
International scientific conference "INFORMATION TECHNOLOGIES, NETWORKS AND
TELECOMMUNICATIONS" ITN&T-2022 Urgench, 2022y April 29-30
382
статистические методы, в частности, линейная регрессия;
классификация при помощи метода ближайшего соседа;
классификация при помощи генетических алгоритмов.
Делая некоторые выводы, можно заключить, что методы
интеллектуального анализа данных могут быть использованы для решения
задач анализа прогнозирования. Данные задачи можно сформулировать, как
нахождение определенных паттернов (классов) по множеству входных
данных (цены, индикаторы, показатели), которыми было бы удобно
пользоваться специалистам.
Do'stlaringiz bilan baham: