Определение классификации
Классификация это процесс изучения модели, которая разъясняет различные заранее определенные классы данных. Это двухэтапный процесс, состоящий из обучение шаг и классификация шаг. На этапе обучения строится модель классификации, и на этапе классификации построенная модель используется для прообразметки классов для заданных данных.
Advertisement
За примерв банковском приложении клиент, который подает заявку на ссуду, может быть классифицирован как безопасный и рискованный в соответствии с его возрастом и заработной платой. Этот вид деятельности также называется обучением с учителем. Построенная модель может быть использована для классификации новых данных. Этап обучения может быть выполнен с использованием уже определенного обучающего набора данных. Каждая запись в обучающих данных связана с атрибутом, называемым меткой класса, который указывает, к какому классу принадлежит запись. Созданная модель может быть в виде дерева решений или в виде набора правил.
А Древо решений представляет собой графическое изображение интерпретации каждого класса или правил классификации. Регресс это специальное приложение правил классификации. Регрессия полезна, когда значение переменной предсказывается на основе кортежа, а не сопоставления кортежа данных из отношения с определенным классом. Некоторая общая классификация алгоритмы дерево решений, нейронные сети, логистическая регрессия и т. д.
Определение кластеризации
Кластеризация - это метод организации группы данных в классы и кластеры, где объекты, находящиеся внутри кластера, будут иметь большое сходство, а объекты двух кластеров будут непохожи друг на друга. Здесь два кластера можно рассматривать как не пересекающиеся. Основная цель кластеризации - разделить все данные на несколько кластеров. В отличие от процесса классификации, здесь метки классов объектов ранее не известны, а кластеризация относится к обучению без учителя.
При кластеризации сходство между двумя объектами измеряется функция подобия где измеряется расстояние между этими двумя объектами. Чем короче расстояние, тем выше сходство, и наоборот, чем больше расстояние, тем выше несходство.
Другой пример кластеризации, есть два кластера, названные млекопитающими и рептилиями. Кластер млекопитающих включает людей, леопардов, слонов и т. Д. С другой стороны, кластер рептилий включает змей, ящериц, драконов комодо и т. Д. В кластерном анализе в основном используются следующие инструменты: k-среднее, k-медоиды, основанные на плотности, иерархические и другие. другие методы.
Вывод
Классификация и кластеризация - это методы, используемые в интеллектуальном анализе данных для анализа наборов данных и их разделения на основе определенных правил классификации или связи между объектами. Классификация классифицирует данные с помощью предоставленных обучающих данных. С другой стороны, кластеризация использует разные меры сходства для категоризации данных.
Do'stlaringiz bilan baham: |