Перечислите факторы, которые стимулируют развитие технологии интеллектуального анализа и обработки данных.
Сформулируйте основные характеристики хранилищ данных.
Поясните влияние техники кодирования на характер получаемых скрытых закономерностей.
Сформулируйте основные типы знаний, встречающиеся в системах ИАОД.
Перечислите и охарактеризуйте основные этапы процесса интеллектуального анализа и обработки данных.
Какие типы знаний могут быть извлечены из данных?
Литература к главе 1
Piatetsky- Fayyad U.M., Shapiro G., Smyth P. From Data Mining to Knowledge Discovery: An Overview. Advances in Knowledge Discovery and Data Mining. Edited by U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth, R.Uthurusamy. AAAI Press/The MIT Press. Menlo Park, California, Camb.,Mas., London, Eng., 1996.
Inmon W.H. Building the Data Warehouse.- NY: John Wiley & Sons, Inc., 298p.,1992.
Попов Э.В., Фоминых И.Б. Извлечение знаний из баз данных. - В кн.: Сборник трудов 5-ой национальной конференции "Искусственный интеллект-96", Казань, 1996.
J.Han, M.Kamber. Data Mining. Concept and Techniques. Morgan Kaufman Publishers, 2000, 550 p.
Дюк В., Самойленко А. Data Mining : учебный курс (+CD). –СПб: Издательский дом «Питер», 2001. –368с.: ил.
ГЛАВА 2. ТРАДИЦИОННЫЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ
2.1. Анализ данных на основе SQL-техники
Обычно первым шагом в реализации проектов по обнаружению знаний является грубый анализ набора данных, использующий традиционные инструментальные средства запроса на основе SQL-техники [1]. Едва ли применяя эту технику, можно получить все богатство информации. Однако, прежде чем применять более продвинутые алгоритмы анализа, необходимо знать некоторые базисные структуры набора данных. С помощью SQL запросов можно раскрывать только поверхностные данные, которые являются легко доступной информацией из набора данных; однако, хотя мы и не можем найти скрытые данные, 80% интересующей нас информации можно извлечь из базы данных, используя SQL запросы. Оставшиеся 20 % скрытой информации требуют более продвинутых методов, и для больших организаций эти 20% могут оказаться жизненно важными. Хороший способ начать состоит в том, чтобы извлечь некоторую простую, статистическую информацию из набора данных и вычисление средних - важный пример в этом отношении.
В нашем наборе данных (табл. 2.1) видно, что средним возрастом является 46 лет, средним доходом 20, средним кредитом 34 и т.д. Интересно посмотреть на средние выходных полей: можно видеть, что 329 клиентов из каждых 1000 подпишется на автомобильный журнал, в то время как только 81 из 1000 подпишутся на комиксы. Эти числа очень важны, потому что они задают норму для того, чтобы судить об эффективности алгоритмов распознавания паттернов и обучения. Допустим, необходимо предсказать, сколько клиентов купит автомобильный журнал.
Таблица 2.1
Средние значения
|
Средние значения
|
Возраст
|
46.9
|
Доход
|
20.8
|
Кредит
|
34.9
|
Владелец автомобиля
|
0.59
|
Владелец дома
|
0.59
|
Автомобильный журнал
|
0.329
|
“Дом”
|
0.702
|
Спортивный журнал
|
0.047
|
Музыкальный журнал
|
0.146
|
Комиксы
|
0.081
|
Тогда алгоритм, всегда предсказывающий "нет" автомобильному журналу был бы правилен в 671 из 1000 случаев, что составляет приблизительно 70 %. Любой алгоритм обучения, который претендует на то, чтобы дать некоторое понимание набора данных и выполнить некоторое реальное предсказание, должен улучшить этот показатель. Тривиальный результат, полученный чрезвычайно простым методом, называется наивным предсказанием, и алгоритм, претендующий на то, что он чему-то учит, должен всегда делать лучше, чем наивное предсказание (табл. 2.2).
Таблица 2.2
Наивное предсказание
Журнал
|
Априорная вероятность того, что клиент купит журнал
|
Точность наивного предсказания
|
Автомобильный
|
32.9 %
|
67.1 %
|
“Дом”
|
70.2 %
|
70.2 %
|
Спортивный
|
44.7 %
|
55.3 %
|
Музыкальный
|
14.6 %
|
85.4 %
|
Комиксы
|
8.1 %
|
91.9 %
|
Из таблицы можно также видеть, что труднее делать предсказания для небольшой группы в выборке. Поскольку только 81 из 1000 клиентов подпишутся на комиксы, обучающийся алгоритм, претендующий предсказывать, какие клиенты подпишутся на комиксы, должен иметь точность предсказания выше 92 %, достигнутого с помощью использования наивного предсказания. Это будет трудно в большинстве случаев.
В табл. 2.3 представлены средние значения для журналов. Интересно видеть, как эти средние меняются, когда акцентируется внимание на различных журналах. Например, видно, что средний возраст читателя автомобильного журнала - 29 лет, что значительно ниже среднего возраста клиентов - приблизительно 47 лет. Как и следовало ожидать средний возраст читателей комиксов самый низкий. Другая интересная часть информации - число покупателей нескольких журналов в выборке, и это представлено на рис. 2.1. Здесь видно, что почти 40 % клиентов подпишется только на один журнал. Однако интересно отметить, что 31 % подпишется на два журнала. Серьёзным предупреждением является тот факт, что почти 9 % клиентов в выборке не подпишется вообще ни на какой журнал, что может быть только результатом загрязнения в базе данных и необходимо исследовать, как это загрязнение произошло, и что может быть сделано, чтобы предотвратить это в будущем.
Таблица 2.3
Результаты применения наивного предсказания
Журнал
|
Средние значения
|
|
Возраст
|
Доход
|
Кредит
|
Автомобиль-ный
|
“Дом”
|
Автомобильный
|
29.3
|
17.1
|
27.3
|
0.48
|
0.53
|
“Дом”
|
48.1
|
21.1
|
35.5
|
0.58
|
0.76
|
Спортивный
|
42.2
|
24.3
|
31.4
|
0.70
|
0.60
|
Музыкальный
|
24.6
|
12.8
|
24.6
|
0.30
|
0.45
|
Комиксы
|
21.4
|
25.5
|
26.3
|
0.62
|
0.60
|
Это иллюстрирует природу разработки процедур обнаружения знаний: как продолжающийся процесс, с помощью которого знание и понимание данных улучшается и углубляется все время.
Рис. 2.1. Анализ многократных подписок.
Мы видим некоторые значимые образцы в атрибуте возраста, и нам следовало бы сосредоточиться на этом, чтобы извлечь больше информации. Чтобы показать этот процесс, исследуем общую структуру возрастов нашей выборки. Видно, что все возрасты, кроме очень молодого и очень старого, почти равномерно распределены в выборке (рис. 2.2).
Рис. 2.2. Распределение читателей по возрасту.
Значимые различия выявляются, когда мы анализируем определённые подгруппы. Читатели автомобильного журнала концентрируются вокруг класса возраста 30 (рис. 2.3), в то время как читатели спортивного журнала распределены гораздо более равномерно по совокупности (рис.2.4).
SQL может выдавать детальную информацию о структуре набора данных, и эта информация может быть очень полезна для маркетинга или других целей. Необходимо пройти эту фазу прежде, чем обратимся к более продвинутым алгоритмам обучения. Необходимо, однако, помнить, что невозможно правильно оценить эффективность продвинутого алгоритма обучения, если не существует никакой информации о наивных вероятностях того, что предполагается предсказать.
Рис. 2.3. Возрастное распределение читателей автомобильного журнала.
Рис.2.4. Возрастное распределение читателей спортивного журнала.
Do'stlaringiz bilan baham: |