67
боты нескольких пользователей. Ему важно, чтобы логическое пред-
ставление данных было удобно для проведения анализа.
Рисунок 2.19
Подключение к источникам данных в Deductor Studio
Последовательность обработки и визуализации данных объеди-
нены в сценарии древовидной структуры. Сценарий всегда начинает-
ся с импорта данных из произвольного источника. После импорта
следуют обработчики данных любой глубины и вложенности. При-
мер различных сценариев представлен на рисунок 2.20.
Рисунок 2.20
Цикл обработки информации в Deductor Studio
68
Вне зависимости от природы данных
форма их представления
как при импорте, так и при экспорте единая – это плоская таблица.
Мастера экспорта и импорта обеспечивают взаимодействие с любыми
источниками и приемниками данных,
используя стандартные меха-
низмы доступа (
ODBC
, ADO и др.) Обработка и визуализация
это
еще две операции по работе с данными. Под обработкой понимаются
любые действия с данными, начиная с простых (например, сортиров-
ка данных) и заканчивая сложными (например, построение модели
нейронной сети).
Реализованные в
Deductor
механизмы
обработки данных обес-
печивают практически все потребности анализа бизнес-данных и свя-
занные с ним действия над данными (очистка, слияние, объединение,
фильтрация). Инструменты визуализации в Deductor позволяют ин-
терпретировать результаты анализа графическими методами.
Наличие мощного набора механизмов обработки и визуализации
позволяет двигаться по шагам, от наиболее простых способов анализа
к более мощным,
таким образом, первые результаты пользователь
получает практически сразу, но при
этом можно легко наращивать
мощность решения.
Рассмотрим решение задачи корреляционного анализа сред-
ствами аналитической платформы Deductor. Для оценки зависимо-
сти потребительских расходов на душу населения от таких входных
факторов как численность населения, средне-душевые денежные до-
ходы, валовый региональный продукт и других использовались данные
Федеральной
службы
государственной
статистики
(http://www.gks.ru/bgd/regl/B10_14p/IssWWW.exe/Stg/d01/01-02-1.htm),
представленные на рисунке 2.21. Принцип корреляционного анализа
состоит в поиске таких значений, которые в наименьшей степени
коррелированы (взаимосвязаны) с выходным результатом. Такие
факторы могут быть исключены из результирующего набора дан-
ных практически без потери полезной информации. Критерием при-
нятия решения об исключении является порог значимости. Если кор-
реляция (степень взаимозависимости) между входным и выходным
факторами меньше порога значимости, то соответствующий фак-
тор отбрасывается как незначащий.