1.3. Основные этапы процесса интеллектуального анализа и обработки данных
В общем случае процесс интеллектуального анализа и обработки данных состоит из следующих шести этапов [1]: отбор данных, очистка, обогащение, кодирование, извлечение знаний и сообщение (см. рис 1.1).
Пятый этап является фазой реального извлечения знаний. Процесс носит итеративный характер: на каждом шаге возможен возврат на один или более этапов; например, когда на этапе кодирования или извлечения знаний исследователь понимает, что фаза очистки не завершена, или что можно обнаружить новые данные и использовать их, чтобы обогатить другие существующие наборы данных.
Рис. 1.1. Процесс интеллектуального анализа и обработки данных
Для иллюстрации процесса извлечения знаний в данном пособии используется пример, связанный с извлечением знаний из базы данных издателя журнала. Издатель продает пять типов журнала - автомобильный, о доме, спортивный, музыкальный и комиксы. Цель процесса извлечения знаний в данном примере состоит в том, чтобы найти новые значимые группы клиентов, чтобы установить рыночную конъюнктуру. Следовательно, множество запросов включает такие запросы как «каков типичный профиль читателя автомобильного журнала?», «существует ли корреляция между интересом к автомобилям и интересам к комиксам?».
Отбор данных. Как правило, для решения конкретной задачи нужны не все данные из хранилища данных. Сначала необходимо выбрать то их подмножество, которое будет подвергнуто анализу. При этом возможно, потребуется объединить несколько таблиц, а полученные записи отфильтровать. В нашем примере начнем с общей базы данных, содержащей записи о подписке журналов. Она содержит выборку операционных данных из системы издательских счетов-фактур и содержит информацию о людях, которые подписались на журнал. Записи состоят из номера клиента, имени, адреса, даты подписки и типа журнала (табл.1.1).
Очистка. Существуют несколько типов очистки данных (удаление дублирующих записей, исправление типографских ошибок, добавление отсутствующей информации и т.д.), некоторые из которых могут выполняться заранее, в то время как другие вызываются только после обнаружения загрязнения на этапах кодирования или обнаружения. В технологии ИАОД существует старое правило "мусор внутри, мусор снаружи". Чтобы внедрить процесс интеллектуальной обработки данных в организации, необходим процесс постоянного уточнения данных и устранения “мусора”. Очень важным элементом очистки является устранение дублирования записей (табл. 1.2).
Таблица 1.1
Первичные данные
Номер
клиента
|
Имя
| Адрес |
Дата
покупки
|
Покупаемый
журнал
|
23003
|
Дженсон
|
1 Downing Street
|
04-15-94
|
Автомобильный
|
23003
|
Дженсон
|
1 Downing Street
|
06-21-93
|
Музыкальный
|
23003
|
Дженсон
|
1 Downing Street
|
05-30-92
|
Комиксы
|
23009
|
Клинтон
|
2 Boulevard
|
01-01-01
|
Комиксы
|
23013
|
Кинг
|
3 High Road
|
02-30-95
|
Спортивный
|
23004
| |
Do'stlaringiz bilan baham: |