Программная система MineSet [1] объединяет в себе функции доступа к БД со средствами извлечения знания, в том числе визуализации результатов анализа. Из широкого ассортимента предлагаемых средств пользователь может выбрать средства, наиболее подходящие для решения его задачи. Построение системы в архитектуре клиент/сервер предполагает вынос основной вычислительной нагрузки на сервер, с которого на клиентскую станцию передаются для визуализации уже обработанные данные. Это особенно важно для выявления закономерностей и принятия решений на основе больших исходных массивов данных.
ИС MineSet проектировался в расчете на неопытного пользователя. Первое, что требуется сделать - это выбрать таблицу из источника данных (реляционной БД или файла). Затем производятся необходимые преобразования полученного набора данных и применяются алгоритмы интеллектуальной обработки. В число преобразований входят формирование подмножеств, агрегирование и определение дополнительных атрибутов. Алгоритмы извлечения знаний, записываемые на специальном языке, применяются к данным или "прозрачно", как, например, при автоматическом формировании подмножеств, либо инициируются явно, как в случае вычисления степени значимости того или иного параметра. Столбцы результирующей таблицы отображаются в заданном графическом формате для дальнейшего их анализа пользователем.
ИС MineSet предлагает оригинальный набор визуальных средств для исследования данных. Работа с широким спектром типов данных требует и применения методов визуализации, относящихся к различным парадигмам. Они включают обычные диаграммы рассеяния, но с возможностями анимации по дополнительным измерениям, фильтрации и выделения отдельных объектов. Средство Tree Visualizer в наибольшей степени подходит для представления иерархических данных. Модуль Map Visualizer предназначен для визуализации информации, имеющей географическую привязку.
Попытки применить средства визуализации к сырым, никак предварительно не обработанным данным нередко приводят к трудным для восприятия результатам. Графические представления загромождаются деталями и становятся малоинформативными. Процедуры обнаружения знаний позволяют избегать этих неприятностей, обеспечивая извлечение и визуализацию только действительно необходимой информации. Процесс извлечения знания может быть как управляемым, так и бесконтрольным. В первом случае перед пользователем стоит конкретная цель, а во втором - просто ведется поиск закономерностей, которые могут представлять интерес.
ИС MineSet использует для целенаправленного обучения два классификатора, т.е. две модели, предназначенные для предсказания значения атрибута на базе известных значений других атрибутов. После построения такой модели она может быть применена к новому набору данных, для которого значение целевого атрибута неизвестно. Модуль Evidence Visualizer отображает структуру классификатора, сгенерированного серверным компонентом системы, на экран дисплея.
Средство Tree Visualizer отображает древовидную структуру, сгенерированную модулем логического вывода. Наиболее важный из атрибутов помещается в корневой узел дерева. От корня происходит ветвление с убыванием значимости атрибутов на каждом следующем уровне иерархии; рост дерева прекращается, когда исчерпаны статистически значимые атрибуты.
Для поиска значимых закономерностей без предварительного задания какой-либо заранее определенной цели MineSet предлагает генератор правил ассоциирования и визуализатор. Для каждого правила существуют три количественные характеристики: действенность (насколько часто правило оказывается применимо), предсказательная сила (вероятность того, что правая часть правила справедлива при условии справедливости его левой части) и реальная предсказательная сила (вероятность того, что правая часть справедлива). Коэффициент повышения предсказательной силы представляет собой отношение предсказательной силы и реальной предсказательной силы. С помощью генератора правил могут быть сформированы правила типа “если мощность двигателя невелика, то с вероятностью 94% он является четырехцилиндровым”. Чтобы выделить и включить в представление только необходимые правила, применяется фильтр. Интеллектуальная обработка этого рода может быть полезной для анализа потребительской корзины, когда требуется определить, какие виды продуктов покупаются в одних и тех же характерных случаях.
Основное достоинство ИС MineSet - интеграция разнообразных алгоритмов визуализации, методов обнаружения знаний и доступа к БД в рамках одной достаточно удобной системы. MineSet подходит для многих коммерчески значимых областей применения, включая, например, сферу телекоммуникаций (поиск закономерностей в потоках телефонных звонков с целью выявления случаев мошенничества), банковское дело (принятие решений о предоставлении займов, управление мелкими операциями купли-продажи), розничную торговлю (отслеживание товарных запасов), обслуживание кредитных карточек (контроль транзакций), фармацевтику (испытания лекарств, расшифровка генетических кодов) и др.
Do'stlaringiz bilan baham: |