Учебное пособие по курсу интеллектуальные системы (Часть 1) Москва 2003

Download 5,82 Mb.

bet	7/27
Sana	14.06.2022
Hajmi	5,82 Mb.
	#671839
Turi	Учебное пособие

1 2 3 4 5 6 7 8 9 10 ... 27

Bog'liq
Интел обработка данныхНиколаев Фоминых

Число журналов о доме, проданных заказчикам с кредитом между12,000 и 31,000, проживающим в регионе 4, увеличивается.
Или определить такую миграцию типов клиентов:
Заказчик с кредитом между 5,000 и 10,000, читающий комиксы после 12 лет с большой вероятностью станет заказчиком с кредитом между 12,000 и 31,000, читающий спортивный журнал и журнал о доме.
Таблица 1.5
Обогащенная таблица

Номер клиента	Имя	Дата рожде-ния	Доход (тыс.)	Кредит (тыс.)	Владелец авто	Владел ец дома	Адрес	Дата покуп-ки	Жур-нал
23003	Дже-нсон	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	04-15-94	Автомобильный
23003	Дже-нсон	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	06-21-93	Музыкальный
23003	Дже-нсон	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	05-30-92	Комиксы
23009	Кли-нтон	10-20-71	$36,0	$26,0	да	нет	2 Boulevard	нуль	Комиксы
23013	Кинг	нуль	нуль	нуль	нуль	нуль	3 High Road	02-30-95	Спортивный
23003	Дже-нсон	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	12-20-94	Дом

Таблица 1.6
Таблица с удаленными строками и столбцами

Номер клиен-та	Дата рожде-ния	Доход (тыс.)	Кре-дит (тыс.)	Владе-лец авто	Владе-лец дома	Адрес	Дата поку-пки	Жур-нал
23003	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	04-15-94	Авто-моби-льный
23003	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	06-21-93	Музы-каль-ный
23003	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	05-30-92	Комик-сы
23009	10-20-71	$36,0	$26,0	да	нет	2 Boulevard	нуль	Комик-сы
23003	04-13-76	$18,5	$17,8	нет	нет	1 Downing Street	12-20-94	“Дом”

Однако, иногда мы интересуемся не временными отрезками, а такой информацией как сезонное влияние на поведение заказчика. В таких случаях можно изменить даты подписки на коды сезона и попытаться найти паттерны в этих терминах. Кодирование - творческий процесс и может существовать большое число различных кодов, которые связаны с произвольным числом различных потенциальных образцов, которые мы хотели бы найти.

В нашем примере можно применить следующие шаги кодирования:
1). адресовать к региону. Это - просто упрощение адресной информации. В регионе, который исследуется, могут быть миллионы различных адресов, который слишком детальны для наших целей. Поэтому необходимо сжать информацию об адресах в четыре кода различных областей. Однако, обратите внимание, что это - не произвольное решение; мы могли решить использовать 20 или 1000 различных кодов области, или изменить определение области. Все эти решения могут воздействовать на результат алгоритмов обнаружения знаний и поэтому должны быть приняты осознанно, рассчитав последствия;
2). дату рождения преобразовать к возрасту. Это подразумевает разделение информации о дне рождения на дискретные значения приблизительно 100 классов по возрасту (люди в среднем не живут намного больше 100 лет). Здесь мы также могли бы выбрать меньшее или большее число классов, например, десять классов по 10 лет;
3). разделить доход по 1000. Это не только упрощает информацию о доходах, но также создает классы по доходу с тем же самым порядком величины, что и классы по возрасту. После этой операции большинство людей будет иметь класс по доходу где-нибудь между 10 и 100, так что будет намного проще сравнивать эту информацию с созданными нами классами по возрасту, так как эти числа близки друг другу;
4). разделить кредит по 1000. Рассуждение для этого случая такое же, как и для классов по доходу;
5). преобразовать информацию об автомобилях да-нет в информацию 1-0. В приложениях обнаружения знаний иногда полезно кодировать бинарные атрибуты в один бит, поскольку это облегчает эффективное выполнение алгоритмов распознавания образцов;
6). преобразовать дату приобретения в число месяцев, начиная с 1990г. Покупка в январе 1990г. соответствует месяцу номер 1; приобретение в декабре 1991- месяцу номер 24. Эта последняя операция помогает выполнять анализ временных отрезков на данных. Снова это творческое решение - кодирование в днях вероятно слишком детально, чтобы раскрыть общие временные зависимости. С другой стороны, следует кодировать в днях, чтобы определить нетипичное поведение заказчика по специальным дням типа Рождества, Пасхи и других праздников. Результаты процесса кодирования представлены в табл. 1.7.

Таблица 1.7

Промежуточная стадия кодировки

Номер клиента	Воз-раст	Доход (тыс. дол.)	Кре-дит (тыс. дол.)	Владе-лец авто (ВА)	Владе-лец дома (ВД)	Регион (Р)	Месяц покуп-ки	Журнал
23003	20	18.5	17.8	0	0	1	52	Авто-мобиль-ный (А)
23003	20	18.5	17.8	0	0	1	42	Музы-кальный (М)
23003	20	18.5	17.8	0	0	1	29	Комиксы (К)
23009	25	36.0	26.6	1	0	1	Нуль	Комиксы (К)
23003	20	18.5	17.8	0	0	1	48	“Дом” (Д)

Однако таблица в таком формате не очень полезна, если необходимо найти взаимосвязи между различными журналами. Каждая подписка представляется одной записью, хотя было бы более эффективно иметь краткий обзор всех журналов, подписанных каждым читателем. Поэтому выполняем заключительное преобразование над таблицей и создаем только одну запись для каждого читателя. Вместо того, чтобы иметь один атрибут " журналы" с пятью возможными значениями, мы создаём пять бинарных атрибутов по одному для каждого журнала. Если значение атрибута - "1" это означает, что читатель - подписчик, иначе - значение " 0 ". Такая операция называется "декомпозицией" - атрибут с кардинальным числом n заменяется на n бинарных атрибутов.

Теперь имеем окончательно закодированное множество данных: номер клиента, возраст, доход, кредит, информация относительно собственности автомобиля и дома, код области, и пять битов, указывающих на какие журналы подписался заказчик (табл. 1.8).
Таблица 1.8
Окончательная таблица
Покупаемый журнал

Номер клиента	Воз-раст	Доход (тыс.дол.)	Кредит (тыс.дол.)	ВА	ВД	Р	А	Д	С	М	К
23003	20	18.5	17.8	0	0	1	1	1	0	1	1
23009	25	36.0	26.6	1	0	1	0	0	0	0	1

Обнаружение (извлечение) знаний. Этап обнаружения знаний является ядром процесса интеллектуального анализа и обработки знаний. Технология обнаружения знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности. В настоящее время специалисты выделяют следующие основные методы извлечения знаний [3,4]: инструментальные средства запроса, статистическая техника, визуализация, интерактивная аналитическая обработка (OLAP), обучение, основанное на прецедентах (k-ближайший сосед), деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы.

Фактически, в технологии обнаружения знаний необходимо различать четыре различных типа знания, которые могут быть извлечены из данных:
1). Поверхностное знание. Это информация, которая может быть легко найдена из баз данных, использующих инструментальное средство запроса типа структурированного языка запросов (SQL).
2). Многомерное знание. Это информация, которая может быть проанализирована, используя интерактивные аналитические инструментальные средства обработки OLAP. С помощью инструментальных средств OLAP можно быстро исследовать все виды кластеризации и различные упорядочения данных, но важно понимать, что большинство операций, которые можно делать с инструментом OLAP, могут также быть выполнены, используя SQL. Преимущество инструментальных средств OLAP состоит в том, что они оптимизированы для этого вида операций поиска и анализа. Однако, процедуры OLAP не так мощны, как процедуры обнаружения знаний, ибо они не могут искать оптимальные решения.
3). Скрытое знание. Это информация, которая может быть найдена относительно легко, используя алгоритмы распознавания образцов или машинного обучения. Для нахождения этих образцов также можно было бы использовать средства SQL, но это потребовало бы невероятно много времени. Алгоритм распознавания образцов может найти регулярности в базе данных за минуты или, в крайнем случае, всего за несколько часов, и в то же время чтобы достигнуть близкий результат, используя SQL средства, необходимо затратить месяцы.
4). Глубокое знание. Это информация, которая хранится в базе данных, но может быть обнаружена только, если имеется ключ, который сообщит нам, где смотреть. Различие между глубоким и скрытым знанием лучше всего можно объяснить в терминах пространства поиска. Скрытое знание - результат поиска в пространстве с пологим холмистым ландшафтом; алгоритм поиска может легко найти приемлемое оптимальное решение. Глубокое знание - это обычно результат поиска в пространстве, где существует только локальный оптимум, и отсутствуют какие-либо указания о любых возвышенностях по соседству. Алгоритм поиска может передвигаться вокруг этого ландшафта сколь угодно долго, не достигая хоть какого либо значительного результата. Примером этого может служить зашифрованная информация, хранимая в базе данных. Почти невозможно декодировать сообщение, которое зашифровано, если Вы не имеете ключа, который указывает что искать.
Сообщение. Сообщение о результатах процесса обнаружения знаний может принимать много форм. В общем случае, можно использовать любой редактор сообщений или графическое инструментальное средство, чтобы сделать доступными результаты процесса.

Download 5,82 Mb.

Do'stlaringiz bilan baham:

1 2 3 4 5 6 7 8 9 10 ... 27