Учебное пособие по курсу интеллектуальные системы (Часть 1) Москва 2003


ГЛАВА 1. ТЕХНОЛОГИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА И ОБРАБОТКИ ДАННЫХ



Download 5,82 Mb.
bet3/27
Sana14.06.2022
Hajmi5,82 Mb.
#671839
TuriУчебное пособие
1   2   3   4   5   6   7   8   9   ...   27
Bog'liq
Интел обработка данныхНиколаев Фоминых

ГЛАВА 1. ТЕХНОЛОГИЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА И ОБРАБОТКИ ДАННЫХ




1.1. Извлечение знаний


В существующем информационном обществе одним из главных вызовов разработчикам программного обеспечения является создание новой технологии для нахождения желаемой информации из огромного объема данных. По грубым оценкам количество данных в мире удваивается каждый год, а количество значимой информации соответственно быстро уменьшается. Сам факт, что количество информации возрастает, является причиной все более увеличивающихся трудностей при нахождении значимых фактов. Мы не видим леса из-за деревьев. Этот рост информации возникает по большей части благодаря механическому производству текстов.
Большинство организаций имеет огромные базы данных, содержащие целое богатство потенциально доступной информации. Однако обычно очень трудно получить доступ к этой информации. Неуправляемый рост данных неизбежно ведёт к увеличению трудностей доступа к желаемой информации: это подобно поиску иглы в стоге сена, только количество сена все время возрастает. На этом фоне понятен тот большой интерес, который проявляется к новой технологии интеллектуального анализа и обработки данных (ИАОД) и ее ядру – извлечению (обнаружению) знаний из данных (data mining – DM) .
При этом знание означает отношения между элементами данных и образцами (паттернами) из данных. Официальное определение процесса извлечения знаний из данных, принятое на первой международной конференции по этой проблематике в Монреале в 1995г., таково [1]: "нетривиальное извлечение неявного, предварительно неизвестного и потенциально полезного знания из данных", то есть знание должно быть ново, не очевидно, и некто должен быть способен использовать его.
Извлечение знаний из баз данных это много дисциплинарное поле исследований, включающее машинное обучение, статистику, технологию баз данных, экспертных систем, нейронные сети, эволюционное моделирование, визуализацию данных и многое другое. Современное повышение интереса к проблемам обнаружения знаний можно объяснить следующими факторами:
1). осознание факта, что в больших по объемам базах данных (БД) содержатся не горы бесполезной информации, а скрытые ценные знания, характеризующие бизнес организаций и их клиентов и способные, в конечном счете, повысить эффективность управления организациями. Скрытая информация не может быть легко выявлена, используя традиционную технику запросов типа SQL- запросы;
2). развитие технологии хранилищ данных (Data Warehouse) [2]. Сегодня ясно, что решать аналитические задачи внутри существующих транзакционных (OLTP) систем неудобно, поскольку последние по своей природе гетерогенны, функционируют на разных платформах, территориально разобщены. Одни и те же данные нередко хранятся в них в разных форматах и, что самое главное, базы данных OLTP-систем изначально не были ориентированы на решение аналитических задач. С точки зрения аналитики гораздо удобнее иметь дело с единым информационным пространством, собрав требуемые для анализа данные в центральной БД (хранилище данных), очистив их от ошибок, приведя к единым форматам и представив в удобном для пользователя-аналитика виде;
3). развитие сетевой технологии. Поскольку использование сетей продолжает расти, то становится все легче соединять базы данных. Так, присоединение клиентского файла к файлу с демографическими данными может привести к неожиданным представлениям относительно широко распространенных образов определенных групп населения;
4). существенное расширение техники машинного (компьютерного) обучения. Нейронные сети, генетические алгоритмы и другие методы обучения часто делают процесс нахождения значимых связей в базах данных гораздо проще;
5). всеобщее распространение архитектуры клиент/сервер, которое дает пользователю на своем терминале индивидуальное знание через доступ к центральной информационной системе. Специалисты по маркетингу и страховые агенты также хотят извлекать пользу для себя с помощью этих недавно приобретенных технических возможностей;
6). снижение стоимости устройств хранения информации. Благодаря ежегодному падению цен на носители информации, которое составляет 30 - 40% в год, у пользователей появилась возможность хранить первичные данные из транзакционных систем с высокой степенью детализации и за длительные интервалы времени. Размеры современных хранилищ данных достигают десятков гигабайт;
7). снижение цен на устройства хранения информации сопровождается уменьшением стоимости компьютеров, в том числе с параллельной архитектурой. В последнее время цены на них уменьшались примерно на 35% ежегодно. Применение компьютеров с несколькими процессорами позволяет распараллеливать выполнение SQL-запросов, что существенно повышает производительность систем извлечения знаний. Сегодня компьютеры с SMP-архитектурой (симметричная мультипроцессорная обработка) рекомендуются для обслуживания хранилищ данных размером до 100 Гбайт, а с MMP-архитектурой (массивно-параллельная обработка) - для хранилищ объемом свыше 500 Гбайт;
8). увеличение числа сотрудников организаций, принимающих решения. Благодаря внедрению технологии извлечения знаний корпоративная информация становится доступной широким слоям пользователей, которые не являются профессионалами в области СУБД и программирования.

Download 5,82 Mb.

Do'stlaringiz bilan baham:
1   2   3   4   5   6   7   8   9   ...   27




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©hozir.org 2024
ma'muriyatiga murojaat qiling

kiriting | ro'yxatdan o'tish
    Bosh sahifa
юртда тантана
Боғда битган
Бугун юртда
Эшитганлар жилманглар
Эшитмадим деманглар
битган бодомлар
Yangiariq tumani
qitish marakazi
Raqamli texnologiyalar
ilishida muhokamadan
tasdiqqa tavsiya
tavsiya etilgan
iqtisodiyot kafedrasi
steiermarkischen landesregierung
asarlaringizni yuboring
o'zingizning asarlaringizni
Iltimos faqat
faqat o'zingizning
steierm rkischen
landesregierung fachabteilung
rkischen landesregierung
hamshira loyihasi
loyihasi mavsum
faolyatining oqibatlari
asosiy adabiyotlar
fakulteti ahborot
ahborot havfsizligi
havfsizligi kafedrasi
fanidan bo’yicha
fakulteti iqtisodiyot
boshqaruv fakulteti
chiqarishda boshqaruv
ishlab chiqarishda
iqtisodiyot fakultet
multiservis tarmoqlari
fanidan asosiy
Uzbek fanidan
mavzulari potok
asosidagi multiservis
'aliyyil a'ziym
billahil 'aliyyil
illaa billahil
quvvata illaa
falah' deganida
Kompyuter savodxonligi
bo’yicha mustaqil
'alal falah'
Hayya 'alal
'alas soloh
Hayya 'alas
mavsum boyicha


yuklab olish