Исходные данные. Были отобраны только активные абоненты, которые регулярно пользовались услугами сотовой связи в течение последних нескольких месяцев. Данные находятся в файле client.txt.
Порядок выполнения практической работы
1) Для сегментации (кластеризации) клиентов будем использовать метод k-means (k-средних). Предварительно перед выполнением работы необходимо ознакомиться с материалом Лекции Кластеризация_пример (Кластеризация методом k-means) + дан теоретический материал с примером ниже.
2) В лекции Кластеризация_пример необходимо также посмотреть приведенный пример настройки параметров Deductor и интерпретации результатов кластеризации в Дедуктор.
3) Импортировать заданный файл. При импорте необходимо:
- установить разделитель между целой и дробной частью – “точку”
- установить все типы полей в соответствии с табл.1
4) Выбрать в Мастере обработки - Кластеризация методом k-means
5) Настраиваем назначения столбцов (выбираем свойства, по которым будет происходить группировка объектов):
Информационный – код.
Входные – все остальные столбцы.
6) При разбиении исходного множества на обучающее и тестовое определим все множество как обучающее.
Примечание:
Что такое тестовое и обучающее множество?
При решении некоторых задач Data Mining (н-р классификации, кластеризации и пр.)
Обучающее множество (training set) – это множество, которое включает данные, использующиеся для обучения (конструирования) модели.
Тестовое (test set) множество используется для проверки работоспособности созданной модели.
Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например, обучающее множество – две трети данных и тестовое – одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.
Обучающее множество (или выборка обучающая) должно удовлетворять нескольким требованиям:
отражать правила и закономерности исследуемого процесса, которые должна обнаружить модель и по которым должно строится отображение вход-выход;
быть репрезентативной, т.е. содержать достаточное количество уникальных примеров, как можно более полно отражающих закономерности исследуемого процесса.
удовлетворять определенным критериям качества
не содержать дубликатов и противоречий, пропусков и аномальных значений. Наличие данных факторов снижает качество обучения модели.
7) Задать фиксированное количество кластеров – 4
Примечание:
В Дедукторе предусмотрено (в данном методе) 2 варианта определения числа кластеров:
фиксированное (число кластеров задается вручную)
автоматическое – автоматически определятся число кластеров метод G-means.
Следует знать, что автоматически подбираемое число кластеров не всегда приводит к желаемому результату – число кластеров может предлагаться слишком большим, поэтому рассчитывать на эту опцию можно только на этапе исследования данных.
8) После запуска процесса кластеризации заполняем пропуски в п.1, 2 и 3 пункта 12 (см. ниже)
9) Способы отображения задать:
Связи кластеров
Что-если
Профили кластеров
Куб
10) При настройке назначения полей куба задайте
Do'stlaringiz bilan baham: |