Учебное пособие по курсу интеллектуальные системы (Часть 1) Москва 2003



Download 5,82 Mb.
bet7/27
Sana14.06.2022
Hajmi5,82 Mb.
#671839
TuriУчебное пособие
1   2   3   4   5   6   7   8   9   10   ...   27
Bog'liq
Интел обработка данныхНиколаев Фоминых

Число журналов о доме, проданных заказчикам с кредитом между12,000 и 31,000, проживающим в регионе 4, увеличивается.
Или определить такую миграцию типов клиентов:
Заказчик с кредитом между 5,000 и 10,000, читающий комиксы после 12 лет с большой вероятностью станет заказчиком с кредитом между 12,000 и 31,000, читающий спортивный журнал и журнал о доме.
Таблица 1.5
Обогащенная таблица

Номер клиента

Имя

Дата рожде-ния

Доход
(тыс.)

Кредит
(тыс.)

Владелец авто

Владел
ец дома

Адрес

Дата покуп-ки

Жур-нал



23003

Дже-нсон

04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

04-15-94

Автомобильный



23003



Дже-нсон

04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

06-21-93

Музыкальный

23003



Дже-нсон

04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

05-30-92

Комиксы

23009



Кли-нтон

10-20-71

$36,0

$26,0

да

нет

2 Boulevard

нуль

Комиксы

23013



Кинг

нуль

нуль

нуль

нуль

нуль

3 High Road

02-30-95

Спортивный

23003



Дже-нсон

04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

12-20-94

Дом

Таблица 1.6
Таблица с удаленными строками и столбцами



Номер клиен-та

Дата рожде-ния

Доход
(тыс.)

Кре-дит
(тыс.)

Владе-лец авто

Владе-лец дома

Адрес

Дата поку-пки

Жур-нал



23003

04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

04-15-94

Авто-моби-льный



23003



04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

06-21-93

Музы-каль-ный

23003



04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

05-30-92

Комик-сы

23009



10-20-71

$36,0

$26,0

да

нет

2 Boulevard

нуль

Комик-сы

23003



04-13-76

$18,5

$17,8

нет

нет

1 Downing Street

12-20-94

“Дом”

Однако, иногда мы интересуемся не временными отрезками, а такой информацией как сезонное влияние на поведение заказчика. В таких случаях можно изменить даты подписки на коды сезона и попытаться найти паттерны в этих терминах. Кодирование - творческий процесс и может существовать большое число различных кодов, которые связаны с произвольным числом различных потенциальных образцов, которые мы хотели бы найти.


В нашем примере можно применить следующие шаги кодирования:
1). адресовать к региону. Это - просто упрощение адресной информации. В регионе, который исследуется, могут быть миллионы различных адресов, который слишком детальны для наших целей. Поэтому необходимо сжать информацию об адресах в четыре кода различных областей. Однако, обратите внимание, что это - не произвольное решение; мы могли решить использовать 20 или 1000 различных кодов области, или изменить определение области. Все эти решения могут воздействовать на результат алгоритмов обнаружения знаний и поэтому должны быть приняты осознанно, рассчитав последствия;
2). дату рождения преобразовать к возрасту. Это подразумевает разделение информации о дне рождения на дискретные значения приблизительно 100 классов по возрасту (люди в среднем не живут намного больше 100 лет). Здесь мы также могли бы выбрать меньшее или большее число классов, например, десять классов по 10 лет;
3). разделить доход по 1000. Это не только упрощает информацию о доходах, но также создает классы по доходу с тем же самым порядком величины, что и классы по возрасту. После этой операции большинство людей будет иметь класс по доходу где-нибудь между 10 и 100, так что будет намного проще сравнивать эту информацию с созданными нами классами по возрасту, так как эти числа близки друг другу;
4). разделить кредит по 1000. Рассуждение для этого случая такое же, как и для классов по доходу;
5). преобразовать информацию об автомобилях да-нет в информацию 1-0. В приложениях обнаружения знаний иногда полезно кодировать бинарные атрибуты в один бит, поскольку это облегчает эффективное выполнение алгоритмов распознавания образцов;
6). преобразовать дату приобретения в число месяцев, начиная с 1990г. Покупка в январе 1990г. соответствует месяцу номер 1; приобретение в декабре 1991- месяцу номер 24. Эта последняя операция помогает выполнять анализ временных отрезков на данных. Снова это творческое решение - кодирование в днях вероятно слишком детально, чтобы раскрыть общие временные зависимости. С другой стороны, следует кодировать в днях, чтобы определить нетипичное поведение заказчика по специальным дням типа Рождества, Пасхи и других праздников. Результаты процесса кодирования представлены в табл. 1.7.

Таблица 1.7


Промежуточная стадия кодировки

Номер
клиента

Воз-раст

Доход (тыс.
дол.)

Кре-дит
(тыс.
дол.)

Владе-лец авто
(ВА)

Владе-лец дома
(ВД)

Регион
(Р)

Месяц покуп-ки

Журнал

23003

20

18.5

17.8

0

0

1

52

Авто-мобиль-ный (А)

23003



20

18.5

17.8

0

0

1

42

Музы-кальный (М)

23003



20

18.5

17.8

0

0

1

29

Комиксы
(К)

23009



25

36.0

26.6

1

0

1

Нуль

Комиксы
(К)

23003



20

18.5

17.8

0

0

1

48

“Дом”
(Д)

Однако таблица в таком формате не очень полезна, если необходимо найти взаимосвязи между различными журналами. Каждая подписка представляется одной записью, хотя было бы более эффективно иметь краткий обзор всех журналов, подписанных каждым читателем. Поэтому выполняем заключительное преобразование над таблицей и создаем только одну запись для каждого читателя. Вместо того, чтобы иметь один атрибут " журналы" с пятью возможными значениями, мы создаём пять бинарных атрибутов по одному для каждого журнала. Если значение атрибута - "1" это означает, что читатель - подписчик, иначе - значение " 0 ". Такая операция называется "декомпозицией" - атрибут с кардинальным числом n заменяется на n бинарных атрибутов.


Теперь имеем окончательно закодированное множество данных: номер клиента, возраст, доход, кредит, информация относительно собственности автомобиля и дома, код области, и пять битов, указывающих на какие журналы подписался заказчик (табл. 1.8).
Таблица 1.8
Окончательная таблица
Покупаемый журнал

Номер клиента

Воз-раст

Доход
(тыс.дол.)

Кредит
(тыс.дол.)

ВА

ВД

Р

А

Д

С

М

К

23003

20

18.5

17.8

0

0

1

1

1

0

1

1

23009

25

36.0

26.6

1

0

1

0

0

0

0

1

Обнаружение (извлечение) знаний. Этап обнаружения знаний является ядром процесса интеллектуального анализа и обработки знаний. Технология обнаружения знаний включает много методов и основана на идеи, что существует больше знаний, скрытых в данных, чем видно на поверхности. В настоящее время специалисты выделяют следующие основные методы извлечения знаний [3,4]: инструментальные средства запроса, статистическая техника, визуализация, интерактивная аналитическая обработка (OLAP), обучение, основанное на прецедентах (k-ближайший сосед), деревья решений, ассоциативные правила, нейронные сети, генетические алгоритмы.


Фактически, в технологии обнаружения знаний необходимо различать четыре различных типа знания, которые могут быть извлечены из данных:
1). Поверхностное знание. Это информация, которая может быть легко найдена из баз данных, использующих инструментальное средство запроса типа структурированного языка запросов (SQL).
2). Многомерное знание. Это информация, которая может быть проанализирована, используя интерактивные аналитические инструментальные средства обработки OLAP. С помощью инструментальных средств OLAP можно быстро исследовать все виды кластеризации и различные упорядочения данных, но важно понимать, что большинство операций, которые можно делать с инструментом OLAP, могут также быть выполнены, используя SQL. Преимущество инструментальных средств OLAP состоит в том, что они оптимизированы для этого вида операций поиска и анализа. Однако, процедуры OLAP не так мощны, как процедуры обнаружения знаний, ибо они не могут искать оптимальные решения.
3). Скрытое знание. Это информация, которая может быть найдена относительно легко, используя алгоритмы распознавания образцов или машинного обучения. Для нахождения этих образцов также можно было бы использовать средства SQL, но это потребовало бы невероятно много времени. Алгоритм распознавания образцов может найти регулярности в базе данных за минуты или, в крайнем случае, всего за несколько часов, и в то же время чтобы достигнуть близкий результат, используя SQL средства, необходимо затратить месяцы.
4). Глубокое знание. Это информация, которая хранится в базе данных, но может быть обнаружена только, если имеется ключ, который сообщит нам, где смотреть. Различие между глубоким и скрытым знанием лучше всего можно объяснить в терминах пространства поиска. Скрытое знание - результат поиска в пространстве с пологим холмистым ландшафтом; алгоритм поиска может легко найти приемлемое оптимальное решение. Глубокое знание - это обычно результат поиска в пространстве, где существует только локальный оптимум, и отсутствуют какие-либо указания о любых возвышенностях по соседству. Алгоритм поиска может передвигаться вокруг этого ландшафта сколь угодно долго, не достигая хоть какого либо значительного результата. Примером этого может служить зашифрованная информация, хранимая в базе данных. Почти невозможно декодировать сообщение, которое зашифровано, если Вы не имеете ключа, который указывает что искать.
Сообщение. Сообщение о результатах процесса обнаружения знаний может принимать много форм. В общем случае, можно использовать любой редактор сообщений или графическое инструментальное средство, чтобы сделать доступными результаты процесса.



Download 5,82 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   10   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish