ГЛАВА 4. ИНСТРУМЕНТАЛЬНЫЕ СРЕДСТВА ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА И ОБРАБОТКИ ДАННЫХ
4.1. Общая характеристика инструментальных средств
Разработка инструментальных средств (ИC) интеллектуального анализа и обработки данных активно развивается; только в Северной Америке существует порядка 20 фирм, занимающихся созданием этого класса ИС [1]. Для выбора требуемого ИС необходимо ответить на ряд вопросов, основные из которых следующие:
какого рода задачи решает данное ИС ?
какую операционную систему и аппаратные средства использует?
требует ли выделения подмножества данных или работает со всей информацией БД непосредственно?
какой пользовательский интерфейс оно применяет для ввода и интерпретации данных?
каково максимальное число обрабатываемых переменных и записей?
какие подходы используются для моделирования данных (статистический анализ, нейронная сеть, дерево решений, визуализация и т. д.)?
в какой мере ИС чувствительно к искажениям данных?
насколько понятны результаты и т.д.?
Обычно ИС интеллектуального анализа и обработки данных классифицируются по методам, которые используются в ИС для анализа и извлечения знаний: классификация, кластеризация, визуализация, нечеткая логика, статистические методы, комбинированные методы и т.д. Примеры существующих ИС в области интеллектуального анализа и обработки данных приведены в табл.4.1. В табл. 4.2 приведены функциональные характеристики некоторых современных ИС интеллектуального анализа и обработки данных.
Таблица 4.1
Примеры ИС интеллектуального анализа и обработки данных
Методы
классифи-кации
|
Методы
кластери-зации
|
Методы визуали-зации
|
Методы нечеткой логики
|
Статисти-ческие
методы
|
Комбиниро-ванные методы
|
АС2 (ISOFT, США)
AIM (AbTech Corp., США)
C4.5 (Morgan Kaufmann Publishers, США)
DataLogic/R
(Reduct Systems, США)
IND (COSMIC, США)
IDIS (Intelligence Ware, США)
KATE (AcknoSoft, США)
|
Autoclass III (COSMIC, США)
DBProfile
(Advanced Software Applications, CША)
ModelMax (Advanced Software Applications CША)
|
NetMAP (ALTA Analytics Inc., США)
WinViz
(Informa-tion Techno-logy Institute, США)
|
DataEngine (Mgmnt. Intelligenter Technologien, США)
Level5
Quest
(Information Builders Inc., США)
|
Cornerstone (BBN Software Products, США)
DATA (TreeAge Software, США)
JMP
(SAS Institute, CША)
SAS
(SAS Institute, CША)
|
Clementine (Integral Solutions Ltd., США)
Data Mariner (Logica UK Ltd., CША)
Database Mining Work-
station (HNC Software Inc., США)
Information Harvester (Information Harvesting, Inc., США)
Recon (Lockheed Martin Product & Services, CША)
G2 Web Miner (Gensym, США)
|
Таблица 4.2
Характеристики программных средств обнаружения знаний
Произво-дитель
|
Наимено-вание продукта
|
Плат-формы
|
Базо-вые
мето
ды
|
Функциональные характеристики
|
Mega-puter Intelli-gence
(Москва, Россия)
|
PolyAnalyst
|
OS/2 Warp,
Win NT
|
Нейрон-ные сети,
класси-фика-ция
|
Объектно-ориентированная среда для анализа данных. В отличие от традиционных систем на основе обучающихся нейронных сетей PA не только находит закономерности, имеющиеся в данных, но и представляет их в символическом виде посредством формул, прогнозных таблиц, структурированных файлов, алгоритмов и графиков.
|
NCS
(Саутгемптон, Англия)
|
NeuFrame
|
Win 95, 98, NT
|
Нейрон-ные сети,
Нечет-кая
логика
|
Пакет программ для разработки приложений на основе нейронных сетей на платформе Windows. С помощью отдельных компонентов пакета можно создавать модели, обучать и эксплуатировать нейронные сети, комбинировать алгоритмы нейросети и нечеткой логики
|
NeoVista
(Купертино, шт. Калифорния)
|
Decision Series
|
HP, Sun, Digital
|
Нейрон-ные сети, класте-ризация, генети-ческие алгори-тмы (ГА), ассоци-ативные правила
|
Система для автоматического поиска знаний в коммерческих базах данных (Oracle, Sybase и Informix) Состоит из четырех модулей, реализующих различные алгоритмы обнаружения знаний (нейросети, кластеризацию, ГА, ассоциативные правила), и интегрирующего модуля, обеспечивающего интерфейс обрабатывающих модулей с источниками данных - хранилищами данных или базами данных.
|
NeuraI
Ware
(Питсбург штат Пенсиль-вания)
|
Neural
Works
Profess.
II/PLUS
|
PC, Sun, IBM
RS/
6000, Apple
Macin-tosh SGI,
Digital, HP
|
Нейрон-ные сети, вероят-ностные сети, регрес-сионный анализ, класте-ризация
|
Инструментальная среда для разработки приложений на основе нейронных сетей. Поддерживает 25 различных типов моделей. Имеется полный набор средств для обучения, тестирования и мониторинга нейронных сетей. В качестве источников информации могут выступать электронные таблицы, dbf-файлы, ASCII-файлы, двоичные файлы.
|
REDUCT Systems
(Саскачеван, Канада)
|
Datalogic,
Reduct
|
Unix, Windows, DOS
|
Класси-фикация
|
Набор взаимодополняющих программ, предназначенных для решения задач моделирования, прогнозирования, построения экспертных систем и систем поддержки принятия решений. Ориентированы на работу с большими базами данных.
|
Silicon Graphics
(Маунтин-Вью, шт. Калифорния)
|
MineSet 1.0
|
Silicon Graphics под ОС IRIX 5.3, б.2
|
Пакет про-грамм пред-назна-ченный для визуализации данных
|
Пакет поддерживает работу с СУБД Oracle, Informix и Sybase. В первой версии продукта реализован единственный алгоритм - выявление ассоциативных правил, связывающих сущности базы данных или хранилища данных.
|
SPSS
(Чикаго, шт. Илли-нойс)
|
Neural
Connection
|
Windows
|
Нейрон-ные сети
|
Среда для решения задач классификации данных, построения прогнозов и анализа временных рядов. Описание моделей данных выполняется средствами визуального программирования. Входные данные для модели импортируются через электронные таблицы или специальные модули фильтрации. Для моделирования и прогнозирования предлагаются три варианта нейронных сетей и модули статистического анализа.
|
Thinking Machines
(Бэдфорд, шт. Массачу-сетс)
|
Darwin
|
Sun, PC
|
Нейрон-ные сети, генети-ческие алгорит-мы, класси-фикация, регресси-онный анализ
|
Поддерживается работа с реляционными СУБД, навигационными базами данных и текстовыми файлами. Параллельная обработка запросов. В состав системы входит шесть модулей.
|
WizSoft
(Тель-Авив, Израиль)
|
WizWhy
|
Win 95, NT
|
Класси-фикация на основе правил
|
Программа для выявления правил, свойственных конкретной базе данных на основе оригинального математического аппарата. Правила служат основой для построения прогнозов. Правила идентифицируются или посредством логических выражений (if-then-else) без ограничений условий или в виде математических функций (не более пяти аргументов). Для каждого правила вычисляется уровень значимости - вероятность выполнения правила для исследуемого множества.
|
AbTech
(Шaлeт-cвилл,
шт. Вайоминг)
|
Model
Quest
|
Win 95, 98, NT
|
Стати-стичес-кие сети
|
Интегрированная среда для решения задач прогнозирования, принятия решений и управления. В основе системы лежит концепция “статистических сетей” ( Statistical
Network) как сплава нейронных сетей и статистических методов обработки. Согласно этой технологии, сложная проблема дробится на ряд более простых частей (узлов), которые поддаются решению средствами регрессионного анализа.
|
Angoss
(Торонто, Канада)
|
Knowledge Seeker
|
Windows DOS, Unix
|
Класси-фикация
на основе деревьев решений
|
Система выявляет причинно-следственные взаимосвязи между данными и представляет их графически в виде деревьев решений либо в виде правил на языке Prolog. В основе продукта лежит метод автоматического определения взаимосвязей (Automatic Interaction Detection, AID), в соответствии с которым в заданном наборе входных полей программа автоматически находит поле, которое оказывает максимально влияние на выходные поля.
|
Attar Software (Ланкашир Велико-брита-ния);
|
XpertRule Profiler
|
Windows 95, 98, NT
|
Класси-фикация
на осно-
ве деревьев решений
|
Программа обнаружения знаний из больших БД в архитектуре клиент/сервер. Система способна обращаться к любым базам данных, поддерживающим стандарт ODBC. При этом максимальное число записей в одной таблице может достигать 1 млрд., а максимальное число полей - 1000 шт.
|
Attar Software (Ланкашир Велико-брита-ния);
|
XpertRule
Analyser
|
Windows 95, 98, NT
|
Класси-фикация, генерация правил, нейрон-
ные сети, генети-ческие алгоритмы
|
Программа предназначена для построения моделей данных и выявления скрытых зависимостей. Доступ к информации осуществляется через драйверы ODBC. Кроме того. возможен импорт данных из текстовых файлов и электронных таблиц. Для анализа данных используется построение деревьев решений на основе вероятностных правил, генетических алгоритмов или нейронных сетей. Все три способа применимы к одним и тем же исходным данным.
|
BioCornp bystems
(Редмонд, шт. Вашингтон)
|
Neuro
Genetic
Optimizer
(NGO)
|
Win
95,
98, NT
|
Нейрон-ные сети, генети-ческие алгоритмы
|
Инструментальная среда для оптимизации входных сигналов и структуры нейронных сетей на основе генетических алгоритмов. Благодаря компоненту Penney (“надстройка” для MS Excel) нейронные сети, подготовленные в NGO, можно использовать непосредственно в электронных таблицах.
|
CWI
(Амстердам Нидерланды)
|
Data Surveyor
|
Unix серверы, рабочие станции под Unix или Windows
|
Индукция на основе правил классифи-кации
|
Среда обнаружения знаний (поиск зависимостей и трендов, выявление кластеров данных), реализованная в архитектуре клиент/сервер. Входная информация загружается в систему из собственного сервера баз данных (Data Server), в который предварительно реплицируются данные из прикладных систем. Ориентирована на весьма квалифицированных пользователей, обладающих знаниями в предметной области на уровне эксперта, поскольку в процессе работы система активно “консультируется” с пользователем.
|
California Scientific Software
(Невада-Сити, шт. Калифор-ния)
| BrainMaker |
DOS, Windows 95,98 NT,Macintosh
|
Нейрон-ные сети.
|
Инструментальная среда для разработки приложений на основе нейронных сетей. Исходная информация загружается из электронных таблиц Lotus1-2-3 и MS Excel, dbf- и ASCII- файлов. Профессиональная версия поддерживает форматы Metastock, CSI и SmartTrader. Компонент NetMaker представляет собой электронную таблицу, которая служит для обучения нейронной сети и выполнения расчетов (вычисление скользящего среднего, среднеквадратичных отклонений и т.п.).
|
Hugin Expert A/S (Аалборг Дания)
|
HUGIN System
|
Windows 95, 98, NT Sun Solaris 2 x
|
Поиск зависи-мостей
|
Графическая оболочка для создания баз знаний на основе байесовских сетей. Состоит из пяти компонентов: процессора логических выводов, интерфейса прикладного программирования, компилятора, исполняемой системы и редактора.
|
Information Discovery
(Хермоса Бич, шт Калифорния)
|
Data Mining
Suite
|
HP 9000, RS/6000 UltraSpark
|
Классифи-кация, правила
|
Интегрированная среда для создания приложений на основе Internet и интрасетей для решения задач, связанных с получением новой информацией и прогнозированием. Система имеет трехуровневую архитектуру клиент/сервер, поддерживает работу с основными СУБД (Oracle, Sybase, Informix и др.). Клиентские приложения могут оформляться в виде Windows - приложений или использовать броузеры. Пакет объединяет несколько продуктов: IDIS(Information Discovery System - поиск знаний в больших базах данных), IDIS РМ (Predictive Modeler - прогнозирование) и Map/ IDIS (Map Discovery System - поиск в больших
БД групп данных с общими географическими признаками.
|
Integral Solutions
(Бэсингсток Великобри-ания)
|
Clementine
|
HP SGI VAX/
VMS DEC Alpha и др.
|
Класси-фикация, визуали-зация
|
Система использует технологию нейронных сетей и деревьев решений.Обучаемые «процессоры знаний» автоматически выявляют взаимосвязи между данными и формулируют правила в виде исходного кода на языке С. В интерфейсе Сlementine реализована концепция визуального программирования.
|
IBM
(Армонк, шт. Нью-Йорк)
|
Intelligent Miner
|
Серверы PowerPC Power server, PS/2, AIX, Widows 98 и NT
|
Кластери-зация, класси-фикация прогно-зирование
|
Интегрированная среда для выполнения операций обнаружения знаний в архитектуре клиент/сервер. Система позволяет выявлять скрытые корреляционные зависимости в данных методами построения прогнозных моделей, сегментации БД. И дисперсионного анализа. Имеется открытый интерфейс прикладного программирования (API) благодаря которому пользователи могут вызывать функции Intelligent Miner из своих приложений
|
Наиболее эффективны для пользователей инструментальные средства, обеспечивающие комбинирование методов извлечения знаний; среди последних ведущие позиции занимают MineSet фирмы Silicon Graphics, Intelligent Miner фирмы IBM, IDIS фирмы Information Discovery, семейство инструментальных средств фирмы Cognos.
Do'stlaringiz bilan baham: |