Современные организации вынуждены быстро реагировать на изменения, происходящие на рынке. Ясно, чтобы делать это, необходим быстрый доступ ко всем видам информации прежде, чем можно принять любые логические решения. Чтобы помочь принятию правильного решения для организации, необходимо иметь средства исследования прошлого и на основании этого определить соответствующие тенденции. Далее, чтобы выполнять любой анализ тенденций, необходимо иметь доступ ко всей требуемой информации, и эта информация хранится в основном в очень больших базах данных. Наиболее простой способ получить доступ к этим данным и помочь эффективному процессу принятия решений состоит в том, чтобы установить хранилище данных.
В большинстве организаций существуют действительно большие базы данных при работе с нормальными ежедневными транзакциями, а некоторые приложения используют транзакционные мониторы. Эти типы баз данных известны как операционные базы данных. Как правило они были разработаны, не для того чтобы хранить историю данных или отвечать на запросы, а для того чтобы поддерживать все приложения для повседневных транзакций. Поэтому они оптимизированы для этого типа работы, с быстрой реакцией и с большим числом пользователей.
Второй тип баз данных, получающих распространение в организациях - это хранилище данных [2]. Оно проектируется для стратегической поддержки принятия решений, и, в значительной степени формируется из баз данных, которые являются операционными БД. Основная характеристика хранилища данных состоит в том, что оно содержит громадное количество данных (миллиарды записей). Меньшие, локальные хранилища данных называются информационными витринами (datamarts). Существуют некоторые определённые правила, управляющие основной структурой хранилища данных, а именно, такая структура должна быть:
1). зависимой от времени, т.е. содержащей информацию, собранную в течение какого-то времени. Это означает, что всегда должна существовать связь между информацией в хранилище и временем, когда она была введена. Это - один из наиболее важных аспектов хранилища данных в контексте связи последнего с обнаружением знаний, потому что тогда информация может быть привязана к соответствующему периоду времени;
2). некорректируемой, то есть данные в хранилище данных никогда не модифицируются, а используются только для запросов. Таким образом, такие данные могут только быть загружены из других баз данных типа операционной базы данных. Конечные пользователи, желающие модифицировать данные, должны использовать операционную базу данных, так как только последняя может быть модифицирована, изменена или удалена. Это означает, что хранилище данных будет всегда заполняться историческими данными;
3). предметно-ориентируемой, то есть сформированной вокруг всех существующих приложений операционных данных. Не вся информация в операционной базе данных полезна для хранилища данных, так как хранилище данных проектируется специально для поддержки принятия решений, в то время как операционная база данных содержит информацию для ежедневного использования.
4). интегрированная, то есть она отражает деловую информацию организации. В среде операционных данных хранится много типов информации, используемых в ряде приложений, и некоторые приложения будут использовать различные имена для одних и тех же самых сущностей. Тем не менее, в хранилище данных необходимо объединить эту информацию и сделать её непротиворечивой; для описания индивидуальной сущности должно существовать одно имя.
На практике, результатом этого является то, что вся информация, требуемая конечному пользователю, должна быть специально инициализирована так, чтобы было просто найти соответствующие данные. Хранилище данных проектируется специально для запросов поддержки принятия решений, поэтому выделяются из операционных данных и хранятся в хранилище данных только те данные, которые необходимы для поддержки принятия решений.
Проектирование хранилища данных требует специальных знаний по проектированию данных, потому что модель данных состоит из данных, необходимых пользователям, которые хотят иметь быстрый доступ, и поэтому проектирование данных для хранилища может полностью отличаться от проектирования операционной базы данных. После разработки модели корпоративных данных для хранилища данных, необходимо создать среду управления специфическими данными. Если существует ряд баз данных, поддерживающих операционные данные, необходимо скопировать эту информацию в хранилище данных, и необходимо иметь средства управления этой средой.
Как только хранилище данных установлено, необходимо фиксировать состояние памяти этих данных и помещать их в локальные сервера базы данных по мере необходимости. Установка хранилища данных создает наиболее благоприятную среду для выполнения процесса поддержки принятия решений; она предоставляет гибкость в выполнении специальных запросов, а также при формировании решений, основанных на исторических данных. При наличии хранилища данных конечный пользователь может захотеть сделать объединения из многих таблиц, и это может создать огромные требования к системе. По этой причине технология хранилищ данных требует быстродействующей машины и широкого разнообразия оптимизационных процессов.
При установке хранилища данных конечный пользователь и администратор должны иметь доступ ко всей информации в таблицах и атрибутах. Они захотят знать ряд вещей таких как:
1). где размещаются данные;
2). какие данные существуют;
3). какие существуют типы или форматы данных;
4). как эти данные связаны с другими данными в других базах данных;
5). откуда получены данные и куда будут отосланы.
По этим причинам необходима другая база данных, содержащая так называемые мета-данные, которая описывает структуру содержания базы данных. В сложных базах данных обязательны адекватные мета-данные, так как они определяют структуру, как операционных данных, так и хранилищ данных. Мета-данные используются как конечными пользователями для формулирования запросов, так и администраторами данных для структурирования управления локальной базой данных.
Do'stlaringiz bilan baham: |