Число журналов о доме, проданных заказчикам с кредитом между12,000 и 31,000, проживающим в регионе 4, увеличивается.
Или определить такую миграцию типов клиентов:
Заказчик с кредитом между 5,000 и 10,000, читающий комиксы после 12 лет с большой вероятностью станет заказчиком с кредитом между 12,000 и 31,000, читающий спортивный журнал и журнал о доме.
Таблица 1.5
Обогащенная таблица
Номер клиента
|
Имя
|
Дата рожде-ния
|
Доход
(тыс.)
|
Кредит
(тыс.)
|
Владелец авто
|
Владел
ец дома
|
Адрес
|
Дата покуп-ки
|
Жур-нал
|
23003
|
Дже-нсон
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
04-15-94
|
Автомобильный
|
23003
|
Дже-нсон
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
06-21-93
|
Музыкальный
|
23003
|
Дже-нсон
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
05-30-92
|
Комиксы
|
23009
|
Кли-нтон
|
10-20-71
|
$36,0
|
$26,0
|
да
|
нет
|
2 Boulevard
|
нуль
|
Комиксы
|
23013
|
Кинг
|
нуль
|
нуль
|
нуль
|
нуль
|
нуль
|
3 High Road
|
02-30-95
|
Спортивный
|
23003
|
Дже-нсон
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
12-20-94
|
Дом
|
Таблица 1.6
Таблица с удаленными строками и столбцами
Номер клиен-та
|
Дата рожде-ния
|
Доход
(тыс.)
|
Кре-дит
(тыс.)
|
Владе-лец авто
|
Владе-лец дома
|
Адрес
|
Дата поку-пки
|
Жур-нал
|
23003
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
04-15-94
|
Авто-моби-льный
|
23003
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
06-21-93
|
Музы-каль-ный
|
23003
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
05-30-92
|
Комик-сы
|
23009
|
10-20-71
|
$36,0
|
$26,0
|
да
|
нет
|
2 Boulevard
|
нуль
|
Комик-сы
|
23003
|
04-13-76
|
$18,5
|
$17,8
|
нет
|
нет
|
1 Downing Street
|
12-20-94
|
“Дом”
|
Однако, иногда мы интересуемся не временными отрезками, а такой информацией как сезонное влияние на поведение заказчика. В таких случаях можно изменить даты подписки на коды сезона и попытаться найти паттерны в этих терминах. Кодирование - творческий процесс и может существовать большое число различных кодов, которые связаны с произвольным числом различных потенциальных образцов, которые мы хотели бы найти.
В нашем примере можно применить следующие шаги кодирования:
1). адресовать к региону. Это - просто упрощение адресной информации. В регионе, который исследуется, могут быть миллионы различных адресов, который слишком детальны для наших целей. Поэтому необходимо сжать информацию об адресах в четыре кода различных областей. Однако, обратите внимание, что это - не произвольное решение; мы могли решить использовать 20 или 1000 различных кодов области, или изменить определение области. Все эти решения могут воздействовать на результат алгоритмов обнаружения знаний и поэтому должны быть приняты осознанно, рассчитав последствия;
2). дату рождения преобразовать к возрасту. Это подразумевает разделение информации о дне рождения на дискретные значения приблизительно 100 классов по возрасту (люди в среднем не живут намного больше 100 лет). Здесь мы также могли бы выбрать меньшее или большее число классов, например, десять классов по 10 лет;
3). разделить доход по 1000. Это не только упрощает информацию о доходах, но также создает классы по доходу с тем же самым порядком величины, что и классы по возрасту. После этой операции большинство людей будет иметь класс по доходу где-нибудь между 10 и 100, так что будет намного проще сравнивать эту информацию с созданными нами классами по возрасту, так как эти числа близки друг другу;
4). разделить кредит по 1000. Рассуждение для этого случая такое же, как и для классов по доходу;
5). преобразовать информацию об автомобилях да-нет в информацию 1-0. В приложениях обнаружения знаний иногда полезно кодировать бинарные атрибуты в один бит, поскольку это облегчает эффективное выполнение алгоритмов распознавания образцов;
6). преобразовать дату приобретения в число месяцев, начиная с 1990г. Покупка в январе 1990г. соответствует месяцу номер 1; приобретение в декабре 1991- месяцу номер 24. Эта последняя операция помогает выполнять анализ временных отрезков на данных. Снова это творческое решение - кодирование в днях вероятно слишком детально, чтобы раскрыть общие временные зависимости. С другой стороны, следует кодировать в днях, чтобы определить нетипичное поведение заказчика по специальным дням типа Рождества, Пасхи и других праздников. Результаты процесса кодирования представлены в табл. 1.7.
Таблица 1.7
Промежуточная стадия кодировки
Номер
клиента
|
Воз-раст
|
Доход (тыс.
дол.)
|
Кре-дит
(тыс.
дол.)
|
Владе-лец авто
(ВА)
|
Владе-лец дома
(ВД)
|
Регион
(Р)
|
Месяц покуп-ки
|
Журнал
|
23003
|
20
|
18.5
|
17.8
|
0
|
0
|
1
|
52
|
Авто-мобиль-ный (А)
|
23003
|
20
|
18.5
|
17.8
|
0
|
0
|
1
|
42
|
Музы-кальный (М)
|
23003
|
20
|
18.5
|
17.8
|
0
|
0
|
1
|
29
|
Комиксы
(К)
|
23009
|
25
|
36.0
|
26.6
|
1
|
0
|
1
|
Нуль
|
Комиксы
(К)
|
23003
|
20
|
18.5
|
17.8
|
0
|
0
|
1
|
48
|
“Дом”
(Д)
|
Однако таблица в таком формате не очень полезна, если необходимо найти взаимосвязи между различными журналами. Каждая подписка представляется одной записью, хотя было бы более эффективно иметь краткий обзор всех журналов, подписанных каждым читателем. Поэтому выполняем заключительное преобразование над таблицей и создаем только одну запись для каждого читателя. Вместо того, чтобы иметь один атрибут " журналы" с пятью возможными значениями, мы создаём пять бинарных атрибутов по одному для каждого журнала. Если значение атрибута - "1" это означает, что читатель - подписчик, иначе - значение " 0 ". Такая операция называется "декомпозицией" - атрибут с кардинальным числом n заменяется на n бинарных атрибутов.
Теперь имеем окончательно закодированное множество данных: номер клиента, возраст, доход, кредит, информация относительно собственности автомобиля и дома, код области, и пять битов, указывающих на какие журналы подписался заказчик (табл. 1.8).
Таблица 1.8
Окончательная таблица
Покупаемый журнал
Номер клиента
|
Воз-раст
|
Доход
(тыс.дол.)
|
Кредит
(тыс.дол.)
|
ВА
|
ВД
|
Р
|
А
|
Д
|
С
|
М
|
К
|
23003
|
20
|
18.5
|
17.8
|
0
|
0
|
1
|
1
|
1
|
0
|
1
|
1
|
23009
|
25
|
36.0
|
26.6
|
1
|
0
|
1
|
0
|
0
|
0
|
0
|
1
|
Обнаружение (извлечение) знаний. Этап обнаружения знаний является ядром процесса интеллектуального анализа и обработки знаний. Технология обнаружения знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности. В настоящее время специалисты выделяют следующие основные методы извлечения знаний [3,4]: инструментальные средства запроса, статистическая техника, визуализация, интерактивная аналитическая обработка (OLAP), обучение, основанное на прецедентах (k-ближайший сосед), деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы.
Фактически, в технологии обнаружения знаний необходимо различать четыре различных типа знания, которые могут быть извлечены из данных:
1). Поверхностное знание. Это информация, которая может быть легко найдена из баз данных, использующих инструментальное средство запроса типа структурированного языка запросов (SQL).
2). Многомерное знание. Это информация, которая может быть проанализирована, используя интерактивные аналитические инструментальные средства обработки OLAP. С помощью инструментальных средств OLAP можно быстро исследовать все виды кластеризации и различные упорядочения данных, но важно понимать, что большинство операций, которые можно делать с инструментом OLAP, могут также быть выполнены, используя SQL. Преимущество инструментальных средств OLAP состоит в том, что они оптимизированы для этого вида операций поиска и анализа. Однако, процедуры OLAP не так мощны, как процедуры обнаружения знаний, ибо они не могут искать оптимальные решения.
3). Скрытое знание. Это информация, которая может быть найдена относительно легко, используя алгоритмы распознавания образцов или машинного обучения. Для нахождения этих образцов также можно было бы использовать средства SQL, но это потребовало бы невероятно много времени. Алгоритм распознавания образцов может найти регулярности в базе данных за минуты или, в крайнем случае, всего за несколько часов, и в то же время чтобы достигнуть близкий результат, используя SQL средства, необходимо затратить месяцы.
4). Глубокое знание. Это информация, которая хранится в базе данных, но может быть обнаружена только, если имеется ключ, который сообщит нам, где смотреть. Различие между глубоким и скрытым знанием лучше всего можно объяснить в терминах пространства поиска. Скрытое знание - результат поиска в пространстве с пологим холмистым ландшафтом; алгоритм поиска может легко найти приемлемое оптимальное решение. Глубокое знание - это обычно результат поиска в пространстве, где существует только локальный оптимум, и отсутствуют какие-либо указания о любых возвышенностях по соседству. Алгоритм поиска может передвигаться вокруг этого ландшафта сколь угодно долго, не достигая хоть какого либо значительного результата. Примером этого может служить зашифрованная информация, хранимая в базе данных. Почти невозможно декодировать сообщение, которое зашифровано, если Вы не имеете ключа, который указывает что искать.
Сообщение. Сообщение о результатах процесса обнаружения знаний может принимать много форм. В общем случае, можно использовать любой редактор сообщений или графическое инструментальное средство, чтобы сделать доступными результаты процесса.
Do'stlaringiz bilan baham: |