Хранилище данных — различия между версиями

(Новая страница: «'''Хранилище данных'''(Data warehousing) - предметно-ориентированная информационная база данных, с…»)
 
(Дизайн хранилищ данных)
 
(не показаны 4 промежуточные версии этого же участника)
Строка 1: Строка 1:
'''Хранилище данных'''(Data warehousing) - предметно-ориентированная информационная база данных, строится на базе СУБД и [[СППР]]. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из [[OLTP]]-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и [[OLAP]]-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность.
+
'''Хранилище данных''' (Data warehousing) - предметно-ориентированная информационная база данных, строится на базе СУБД и [[СППР]]. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из [[OLTP]]-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и [[OLAP]]-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность.
  
 
== Принципы организации хранилища ==
 
== Принципы организации хранилища ==
Строка 9: Строка 9:
 
== Дизайн хранилищ данных ==
 
== Дизайн хранилищ данных ==
 
Существуют два архитектурных направления:
 
Существуют два архитектурных направления:
* нормализованные хранилища данных;
+
* '''нормализованные хранилища данных''' (таблицы) - данные находятся в предметно ориентированных таблицах [https://ru.wikipedia.org/wiki/Третья_нормальная_форма 3NF]. Для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — '''витрины данных''', на основе которых уже выводятся отчетные формы;
* хранилища с измерениями.
+
* '''хранилища с измерениями''' (куб данных, datacube) - используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в 3NF, в том числе, для протоколирования изменения в измерениях.
  
=== Нормализованные хранилища данных ===
+
Данные в хранилище данных поступают из разных источников (реляционные БД, системы быстрых транзакций [[OLTP]]) после обработки [[ETL]] (Extract, Transform, Load). Для анализа данных используется [[OLAP]]-куб.
В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы.
+
  
'''Преимущества:''' простые в создании и управлении.
+
[[Файл:DataWarhouse.png|center|500px]]
 
+
'''Недостатки:''' большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы. При громадных объемах данных могут использовать несколько уровней «витрин»/«хранилищ».
+
 
+
=== Хранилища с измерениями ===
+
Хранилища с измерениями используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях.
+
 
+
'''Преимущества:'''
+
* простота и понятность для разработчиков и пользователей
+
* благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах.
+
 
+
'''Недостатки:'''
+
* сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.
+
* при достаточно большом объеме данных схемы «звезда» и «снежинка» также дают снижение производительности при соединениях с измерениями.
+
  
 
== См. также ==
 
== См. также ==
 
* [[CWM]]
 
* [[CWM]]
* [[Business intelligence]]
+
* [[Business Intelligence]]
 +
 
 +
[[Категория:Технологии]]

Текущая версия на 12:27, 20 июля 2016

Хранилище данных (Data warehousing) - предметно-ориентированная информационная база данных, строится на базе СУБД и СППР. Данные, поступающие в хранилище данных, как правило, доступны только для чтения. Данные из OLTP-системы копируются в хранилище данных таким образом, чтобы при построении отчётов и OLAP-анализе не использовались ресурсы транзакционной системы и не нарушалась её стабильность.

Принципы организации хранилища

  • Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.
  • Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.
  • Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.
  • Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

Дизайн хранилищ данных

Существуют два архитектурных направления:

  • нормализованные хранилища данных (таблицы) - данные находятся в предметно ориентированных таблицах 3NF. Для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы;
  • хранилища с измерениями (куб данных, datacube) - используют схему «звезда» или схему «снежинка». При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в 3NF, в том числе, для протоколирования изменения в измерениях.

Данные в хранилище данных поступают из разных источников (реляционные БД, системы быстрых транзакций OLTP) после обработки ETL (Extract, Transform, Load). Для анализа данных используется OLAP-куб.

DataWarhouse.png

См. также