Практическая работа №4 сегментация клиентов телекоммуникационной компании с применением дедуктора

Download 97,77 Kb.

bet	2/6
Sana	22.03.2023
Hajmi	97,77 Kb.
	#920637
Turi	Практическая работа

1 2 3 4 5 6

Bog'liq
4 практика кластеризация

Исходные данные. Были отобраны только активные абоненты, которые регулярно пользовались услугами сотовой связи в течение последних нескольких месяцев. Данные находятся в файле client.txt.

Порядок выполнения практической работы
1) Для сегментации (кластеризации) клиентов будем использовать метод k-means (k-средних). Предварительно перед выполнением работы необходимо ознакомиться с материалом Лекции Кластеризация_пример (Кластеризация методом k-means) + дан теоретический материал с примером ниже.

2) В лекции Кластеризация_пример необходимо также посмотреть приведенный пример настройки параметров Deductor и интерпретации результатов кластеризации в Дедуктор.

3) Импортировать заданный файл. При импорте необходимо:

- установить разделитель между целой и дробной частью – “точку”
- установить все типы полей в соответствии с табл.1

4) Выбрать в Мастере обработки - Кластеризация методом k-means

5) Настраиваем назначения столбцов (выбираем свойства, по которым будет происходить группировка объектов):

Информационный – код.
Входные – все остальные столбцы.

6) При разбиении исходного множества на обучающее и тестовое определим все множество как обучающее.

Примечание:
Что такое тестовое и обучающее множество?
При решении некоторых задач Data Mining (н-р классификации, кластеризации и пр.)

Обучающее множество (training set) – это множество, которое включает данные, использующиеся для обучения (конструирования) модели.
Тестовое (test set) множество используется для проверки работоспособности созданной модели.

Разделение на обучающее и тестовое множества осуществляется путем деления выборки в определенной пропорции, например, обучающее множество – две трети данных и тестовое – одна треть данных. Этот способ следует использовать для выборок с большим количеством примеров. Если же выборка имеет малые объемы, рекомендуется применять специальные методы, при использовании которых обучающая и тестовая выборки могут частично пересекаться.
Обучающее множество (или выборка обучающая) должно удовлетворять нескольким требованиям:

отражать правила и закономерности исследуемого процесса, которые должна обнаружить модель и по которым должно строится отображение вход-выход;
быть репрезентативной, т.е. содержать достаточное количество уникальных примеров, как можно более полно отражающих закономерности исследуемого процесса.
удовлетворять определенным критериям качества
не содержать дубликатов и противоречий, пропусков и аномальных значений. Наличие данных факторов снижает качество обучения модели.

7) Задать фиксированное количество кластеров – 4

Примечание:
В Дедукторе предусмотрено (в данном методе) 2 варианта определения числа кластеров:

фиксированное (число кластеров задается вручную)
автоматическое – автоматически определятся число кластеров метод G-means.

Следует знать, что автоматически подбираемое число кластеров не всегда приводит к желаемому результату – число кластеров может предлагаться слишком большим, поэтому рассчитывать на эту опцию можно только на этапе исследования данных.

8) После запуска процесса кластеризации заполняем пропуски в п.1, 2 и 3 пункта 12 (см. ниже)

9) Способы отображения задать:

Связи кластеров
Что-если
Профили кластеров
Куб

10) При настройке назначения полей куба задайте

Download 97,77 Kb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6