Учебное пособие по курсу интеллектуальные системы (Часть 1) Москва 2003


Основные этапы процесса интеллектуального анализа и обработки данных



Download 5,82 Mb.
bet5/27
Sana14.06.2022
Hajmi5,82 Mb.
#671839
TuriУчебное пособие
1   2   3   4   5   6   7   8   9   ...   27
Bog'liq
Интел обработка данныхНиколаев Фоминых

1.3. Основные этапы процесса интеллектуального анализа и обработки данных




В общем случае процесс интеллектуального анализа и обработки данных состоит из следующих шести этапов [1]: отбор данных, очистка, обогащение, кодирование, извлечение знаний и сообщение (см. рис 1.1).
Пятый этап является фазой реального извлечения знаний. Процесс носит итеративный характер: на каждом шаге возможен возврат на один или более этапов; например, когда на этапе кодирования или извлечения знаний исследователь понимает, что фаза очистки не завершена, или что можно обнаружить новые данные и использовать их, чтобы обогатить другие существующие наборы данных.

Рис. 1.1. Процесс интеллектуального анализа и обработки данных

Для иллюстрации процесса извлечения знаний в данном пособии используется пример, связанный с извлечением знаний из базы данных издателя журнала. Издатель продает пять типов журнала - автомобильный, о доме, спортивный, музыкальный и комиксы. Цель процесса извлечения знаний в данном примере состоит в том, чтобы найти новые значимые группы клиентов, чтобы установить рыночную конъюнктуру. Следовательно, множество запросов включает такие запросы как «каков типичный профиль читателя автомобильного журнала?», «существует ли корреляция между интересом к автомобилям и интересам к комиксам?».


Отбор данных. Как правило, для решения конкретной задачи нужны не все данные из хранилища данных. Сначала необходимо выбрать то их подмножество, которое будет подвергнуто анализу. При этом возможно, потребуется объединить несколько таблиц, а полученные записи отфильтровать. В нашем примере начнем с общей базы данных, содержащей записи о подписке журналов. Она содержит выборку операционных данных из системы издательских счетов-фактур и содержит информацию о людях, которые подписались на журнал. Записи состоят из номера клиента, имени, адреса, даты подписки и типа журнала (табл.1.1).
Очистка. Существуют несколько типов очистки данных (удаление дублирующих записей, исправление типографских ошибок, добавление отсутствующей информации и т.д.), некоторые из которых могут выполняться заранее, в то время как другие вызываются только после обнаружения загрязнения на этапах кодирования или обнаружения. В технологии ИАОД существует старое правило "мусор внутри, мусор снаружи". Чтобы внедрить процесс интеллектуальной обработки данных в организации, необходим процесс постоянного уточнения данных и устранения “мусора”. Очень важным элементом очистки является устранение дублирования записей (табл. 1.2).
Таблица 1.1
Первичные данные

Номер
клиента

Имя

Адрес


Дата
покупки

Покупаемый
журнал

23003

Дженсон

1 Downing Street

04-15-94

Автомобильный



23003



Дженсон

1 Downing Street

06-21-93

Музыкальный

23003



Дженсон

1 Downing Street

05-30-92

Комиксы

23009



Клинтон

2 Boulevard

01-01-01

Комиксы

23013



Кинг

3 High Road

02-30-95

Спортивный

23004



Download 5,82 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish