Рисунок 2.18
Цикл обработки информации в Deductor Studio
Получение данных для анализа осуществляется путем подклю-
чения к источникам данных (рисунок 2.19).
Подключение
– это базо-
вое понятие аналитической платформы, позволяющее отделить про-
цесс анализа данных от процесса доступа к ним. Аналитику неважно,
в каком месте хранятся данные, на каком носителе, в какой физиче-
ской структуре, как производится доступ к ним и синхронизация ра-
67
боты нескольких пользователей. Ему важно, чтобы логическое пред-
ставление данных было удобно для проведения анализа.
Рисунок 2.19
Подключение к источникам данных в Deductor Studio
Последовательность обработки и визуализации данных объеди-
нены в сценарии древовидной структуры. Сценарий всегда начинает-
ся с импорта данных из произвольного источника. После импорта
следуют обработчики данных любой глубины и вложенности. При-
мер различных сценариев представлен на рисунок 2.20.
Рисунок 2.20
Цикл обработки информации в Deductor Studio
68
Вне зависимости от природы данных форма их представления
как при импорте, так и при экспорте единая – это плоская таблица.
Мастера экспорта и импорта обеспечивают взаимодействие с любыми
источниками и приемниками данных, используя стандартные меха-
низмы доступа (
ODBC
, ADO и др.) Обработка и визуализация
это
еще две операции по работе с данными. Под обработкой понимаются
любые действия с данными, начиная с простых (например, сортиров-
ка данных) и заканчивая сложными (например, построение модели
нейронной сети).
Реализованные в
Deductor
механизмы обработки данных обес-
печивают практически все потребности анализа бизнес-данных и свя-
занные с ним действия над данными (очистка, слияние, объединение,
фильтрация). Инструменты визуализации в Deductor позволяют ин-
терпретировать результаты анализа графическими методами.
Наличие мощного набора механизмов обработки и визуализации
позволяет двигаться по шагам, от наиболее простых способов анализа
к более мощным, таким образом, первые результаты пользователь
получает практически сразу, но при этом можно легко наращивать
мощность решения.
Рассмотрим решение задачи корреляционного анализа сред-
ствами аналитической платформы Deductor. Для оценки зависимо-
сти потребительских расходов на душу населения от таких входных
факторов как численность населения, средне-душевые денежные до-
ходы, валовый региональный продукт и других использовались данные
Федеральной
службы
государственной
статистики
(http://www.gks.ru/bgd/regl/B10_14p/IssWWW.exe/Stg/d01/01-02-1.htm),
представленные на рисунке 2.21. Принцип корреляционного анализа
состоит в поиске таких значений, которые в наименьшей степени
коррелированы (взаимосвязаны) с выходным результатом. Такие
факторы могут быть исключены из результирующего набора дан-
ных практически без потери полезной информации. Критерием при-
нятия решения об исключении является порог значимости. Если кор-
реляция (степень взаимозависимости) между входным и выходным
факторами меньше порога значимости, то соответствующий фак-
тор отбрасывается как незначащий.
69
Do'stlaringiz bilan baham: |