Учебное пособие по курсу интеллектуальные системы (Часть 1) Москва 2003



Download 5,82 Mb.
bet8/27
Sana14.06.2022
Hajmi5,82 Mb.
#671839
TuriУчебное пособие
1   ...   4   5   6   7   8   9   10   11   ...   27
Bog'liq
Интел обработка данныхНиколаев Фоминых

Вопросы для самопроверки





  1. Перечислите факторы, которые стимулируют развитие технологии интеллектуального анализа и обработки данных.

  2. Сформулируйте основные характеристики хранилищ данных.

  3. Поясните влияние техники кодирования на характер получаемых скрытых закономерностей.

  4. Сформулируйте основные типы знаний, встречающиеся в системах ИАОД.

  1. Перечислите и охарактеризуйте основные этапы процесса интеллектуального анализа и обработки данных.

  2. Какие типы знаний могут быть извлечены из данных?

Литература к главе 1





  1. Piatetsky- Fayyad U.M., Shapiro G., Smyth P. From Data Mining to Knowledge Discovery: An Overview. Advances in Knowledge Discovery and Data Mining. Edited by U.M.Fayyad, G.Piatetsky-Shapiro, P.Smyth, R.Uthurusamy. AAAI Press/The MIT Press. Menlo Park, California, Camb.,Mas., London, Eng., 1996.

  2. Inmon W.H. Building the Data Warehouse.- NY: John Wiley & Sons, Inc., 298p.,1992.

  3. Попов Э.В., Фоминых И.Б. Извлечение знаний из баз данных. - В кн.: Сборник трудов 5-ой национальной конференции "Искусственный интеллект-96", Казань, 1996.

  4. J.Han, M.Kamber. Data Mining. Concept and Techniques. Morgan Kaufman Publishers, 2000, 550 p.

  5. Дюк В., Самойленко А. Data Mining : учебный курс (+CD). –СПб: Издательский дом «Питер», 2001. –368с.: ил.




ГЛАВА 2. ТРАДИЦИОННЫЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ЗНАНИЙ




2.1. Анализ данных на основе SQL-техники


Обычно первым шагом в реализации проектов по обнаружению знаний является грубый анализ набора данных, использующий традиционные инструментальные средства запроса на основе SQL-техники [1]. Едва ли применяя эту технику, можно получить все богатство информации. Однако, прежде чем применять более продвинутые алгоритмы анализа, необходимо знать некоторые базисные структуры набора данных. С помощью SQL запросов можно раскрывать только поверхностные данные, которые являются легко доступной информацией из набора данных; однако, хотя мы и не можем найти скрытые данные, 80% интересующей нас информации можно извлечь из базы данных, используя SQL запросы. Оставшиеся 20 % скрытой информации требуют более продвинутых методов, и для больших организаций эти 20% могут оказаться жизненно важными. Хороший способ начать состоит в том, чтобы извлечь некоторую простую, статистическую информацию из набора данных и вычисление средних - важный пример в этом отношении.


В нашем наборе данных (табл. 2.1) видно, что средним возрастом является 46 лет, средним доходом 20, средним кредитом 34 и т.д. Интересно посмотреть на средние выходных полей: можно видеть, что 329 клиентов из каждых 1000 подпишется на автомобильный журнал, в то время как только 81 из 1000 подпишутся на комиксы. Эти числа очень важны, потому что они задают норму для того, чтобы судить об эффективности алгоритмов распознавания паттернов и обучения. Допустим, необходимо предсказать, сколько клиентов купит автомобильный журнал.

Таблица 2.1


Средние значения






Средние значения

Возраст

46.9

Доход

20.8

Кредит

34.9

Владелец автомобиля

0.59

Владелец дома

0.59

Автомобильный журнал

0.329

“Дом”

0.702

Спортивный журнал

0.047

Музыкальный журнал

0.146

Комиксы

0.081

Тогда алгоритм, всегда предсказывающий "нет" автомобильному журналу был бы правилен в 671 из 1000 случаев, что составляет приблизительно 70 %. Любой алгоритм обучения, который претендует на то, чтобы дать некоторое понимание набора данных и выполнить некоторое реальное предсказание, должен улучшить этот показатель. Тривиальный результат, полученный чрезвычайно простым методом, называется наивным предсказанием, и алгоритм, претендующий на то, что он чему-то учит, должен всегда делать лучше, чем наивное предсказание (табл. 2.2).


Таблица 2.2
Наивное предсказание



Журнал

Априорная вероятность того, что клиент купит журнал

Точность наивного предсказания

Автомобильный

32.9 %

67.1 %

“Дом”

70.2 %

70.2 %

Спортивный

44.7 %

55.3 %

Музыкальный

14.6 %

85.4 %

Комиксы

8.1 %

91.9 %

Из таблицы можно также видеть, что труднее делать предсказания для небольшой группы в выборке. Поскольку только 81 из 1000 клиентов подпишутся на комиксы, обучающийся алгоритм, претендующий предсказывать, какие клиенты подпишутся на комиксы, должен иметь точность предсказания выше 92 %, достигнутого с помощью использования наивного предсказания. Это будет трудно в большинстве случаев.


В табл. 2.3 представлены средние значения для журналов. Интересно видеть, как эти средние меняются, когда акцентируется внимание на различных журналах. Например, видно, что средний возраст читателя автомобильного журнала - 29 лет, что значительно ниже среднего возраста клиентов - приблизительно 47 лет. Как и следовало ожидать средний возраст читателей комиксов самый низкий. Другая интересная часть информации - число покупателей нескольких журналов в выборке, и это представлено на рис. 2.1. Здесь видно, что почти 40 % клиентов подпишется только на один журнал. Однако интересно отметить, что 31 % подпишется на два журнала. Серьёзным предупреждением является тот факт, что почти 9 % клиентов в выборке не подпишется вообще ни на какой журнал, что может быть только результатом загрязнения в базе данных и необходимо исследовать, как это загрязнение произошло, и что может быть сделано, чтобы предотвратить это в будущем.
Таблица 2.3
Результаты применения наивного предсказания

Журнал

Средние значения




Возраст

Доход

Кредит

Автомобиль-ный

“Дом”

Автомобильный

29.3

17.1

27.3

0.48

0.53

“Дом”

48.1

21.1

35.5

0.58

0.76

Спортивный

42.2

24.3

31.4

0.70

0.60

Музыкальный

24.6

12.8

24.6

0.30

0.45

Комиксы

21.4

25.5

26.3

0.62

0.60

Это иллюстрирует природу разработки процедур обнаружения знаний: как продолжающийся процесс, с помощью которого знание и понимание данных улучшается и углубляется все время.



Рис. 2.1. Анализ многократных подписок.

Мы видим некоторые значимые образцы в атрибуте возраста, и нам следовало бы сосредоточиться на этом, чтобы извлечь больше информации. Чтобы показать этот процесс, исследуем общую структуру возрастов нашей выборки. Видно, что все возрасты, кроме очень молодого и очень старого, почти равномерно распределены в выборке (рис. 2.2).



Рис. 2.2. Распределение читателей по возрасту.

Значимые различия выявляются, когда мы анализируем определённые подгруппы. Читатели автомобильного журнала концентрируются вокруг класса возраста 30 (рис. 2.3), в то время как читатели спортивного журнала распределены гораздо более равномерно по совокупности (рис.2.4).


SQL может выдавать детальную информацию о структуре набора данных, и эта информация может быть очень полезна для маркетинга или других целей. Необходимо пройти эту фазу прежде, чем обратимся к более продвинутым алгоритмам обучения. Необходимо, однако, помнить, что невозможно правильно оценить эффективность продвинутого алгоритма обучения, если не существует никакой информации о наивных вероятностях того, что предполагается предсказать.

Рис. 2.3. Возрастное распределение читателей автомобильного журнала.



Рис.2.4. Возрастное распределение читателей спортивного журнала.



Download 5,82 Mb.

Do'stlaringiz bilan baham:
1   ...   4   5   6   7   8   9   10   11   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish