1. Дисциплина «Информационные технологии в экономике» Раздел 2. Технологии интеграции и хранения данных Тема 4. Концепция хранилищ данных ПЕРМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ Балаш Максим Николаевич к.э.н., доцент Пермь, 200 9
2.
3.
4.
5. Процесс накопления данных Назначение технологического процесса накопления данных состоит в создании, хранении и поддержании в актуальном состоянии информационного фонда, необходимого для выполнения функциональных задач системы управления, для которой построен контур информационной технологии. Процесс накопления данных состоит из ряда основных процедур, таких, как выбор хранимых данных, хранение данных, их актуализация и извлечение . Логический (модельный) уровень процесса накопления связан с физическим через программы, осуществляющие создание канонической структуры БД, схемы ее хранения и работу с данными. Программа извлечения ПИ Программа актуализации ПА Программа создания структуры хранения БД ПС Программа создания канонической структуры БД ПКС
6. Процесс накопления данных. Выбор хранимых данных Информационный фонд систем управления должен формироваться на основе принципов необходимой полноты и минимальной избыточности хранимой информации. Эти принципы реализуются процедурой выбора хранимых данных , в процессе выполнения которой производится анализ циркулирующих в системе данных и на основе их группировки на входные, промежуточные и выходные определяется состав хранимых данных. Входные данные - это данные, получаемые из первичной информации и создающие информационный образ предметной области. Они подлежат хранению в первую очередь. Промежуточные данные - это данные, формирующиеся из других данных при алгоритмических преобразованиях. Как правило, они не хранятся, но накладывают ограничения на емкость оперативной памяти компьютера. Выходные данные являются результатом обработки первичных (входных) данных по соответствующей модели, они входят в состав управляющего информационного потока своего уровня и подлежат хранению в определенном временном интервале. Вообще, данные имеют свой жизненный цикл существования, который фактически и отображается в процедурах процесса накопления.
7. Процесс накопления данных. Хранение, актуализация и извлечение данных Процедура хранения данных состоит в том, чтобы сформировать и поддерживать структуру хранения данных в памяти ЭВМ . Современные структуры хранения данных должны быть независимы от программ, использующих эти данные, и реализовывать вышеуказанные принципы (полнота и минимальная избыточность). Такие структуры получили название баз данных . Процедура актуализации данных позволяет изменить значения данных, записанных в базе, либо дополнить определенный раздел, группу данных. Устаревшие данные могут быть удалены с помощью соответствующей операции. Процедура извлечения данных необходима для пересылки из базы данных требующихся данных либо для преобразования , либо для отображения , либо для передачи по вычислительной сети. При выполнении процедур актуализации и извлечения обязательно выполняются операции поиска данных по заданным признакам и их сортировки , состоящие в изменении порядка расположения данных при хранении или извлечении. Осуществление процедур создания структуры хранения (базы данных), актуализации, извлечения и удаления данных производится с помощью специальных программ, называемых системами управления базами данных.
8.
9.
10. Модели баз данных Модели баз данных базируются на предположении, что структуры данных обладают относительной устойчивостью. Поэтому возможно построение базы данных с постоянной структурой и изменяемыми значениями данных. Выделяются следующие основные модели баз данных: Представляет данные в виде объектов, объединяющих в себе данные, представляющие атрибуты (свойства, характеристики), и функции (методы), использующие и обрабатывающие эти данные. Объектная модель 4. Представляет данные в виде двумерных таблиц и связей (отношений) между ними. Реляционная модель 3. Представляет данные в виде диаграммы связей между основным и зависимым объектами (без ограничения на число обратных связей). Сетевая модель 2. Представляет данные в виде древовидного графа, в котором объекты располагаются по уровням соподчиненности (иерархии) объектов. Иерархическая модель 1. Краткая характеристика модели Название модели баз данных № п/п
11.
12.
13.
14. Объектная модель базы данных Объект - достаточно крупный блок функционально взаимосвязанных данных, при извлечении которого из БД включаются функции обработки и/или отображения данных, входящие в состав объекта. Типы и структуры данных, из которых состоит объект, могут быть различными у разных объектов и создаваться самим программистом на основе стандартных типов данных используемого языка программирования. Создаваемые и описываемые программистом типы данных получили название абстрактных типов данных. Свойство - это характеристика, с помощью которой описывается внешний вид и работа объекта. Событие - это действие, которое связано с объектом. Событие может быть вызвано пользователем (щелчок мышью), инициировано прикладной программой или операционной системой. Метод - это функция или процедура, управляющая работой объекта при его реакции на событие. Объектная модель представляет данные в виде объектов, объединяющих в себе данные, представляющие атрибуты (свойства, характеристики), и функции (методы), использующие и обрабатывающие эти данные.
15.
16.
17. Понятие транзакции Транзакция - это последовательность операторов манипулирования данными, выполняющаяся как единое целое и переводящая базу данных из одного целостного состояния в другое целостное состояние. Транзакция обладает четырьмя важными свойствами, известными как свойства АСИД: Если транзакция выполнена, то результаты ее работы должны сохраниться в базе данных, даже если в следующий момент произойдет сбой системы. Долговечность 4 Транзакции разных пользователей не должны мешать друг другу (например, как если бы они выполнялись строго по очереди). Изоляция 3 Транзакция переводит базу данных из одного согласованного (целостного) состояния в другое согласованное (целостное) состояние. Внутри транзакции согласованность базы данных может нарушаться. Согласованность 2 Транзакция выполняется как атомарная операция - либо выполняется вся транзакция целиком, либо она целиком не выполняется. Атомарность 1 Описание Свойство №
18.
19. Хранилища данных ( Data Warehouse ) Хранилище данных — предметно-ориентированный, интегрированный, привязанный ко времени и неизменяемый набор данных, предназначенный для поддержки принятия решений. Это означает, что данные не обновляются в оперативном режиме, а лишь регулярно пополняются за счет информации из оперативных систем обработки. При этом новые данные никогда не заменяют прежние, а лишь дополняют их. Таким образом, база данных хранилища постоянно пополняется новыми данными, последовательно интегрируемыми с уже накопленной информацией. Неизменяемость 4 Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому моменту или промежутку времени. Привязанность хранилища данных ко времени следует из большой длительности того периода, за который была накоплена сохраняемая в нем информация, из явной или неявной связи временных отметок со всеми сохраняемыми данными, а также из того факта, что хранимая информация фактически представляет собой набор моментальных снимков состояния данных. Привязка ко времени 3 Оперативно-прикладные данные обычно поступают из разных источников, которые часто имеют несогласованное представление одних и тех же данных, например, используют разный формат. Для предоставления пользователю единого обобщенного представления данных необходимо создать интегрированный источник, обеспечивающий согласованность хранимой информации. Интегрированность 2 Хранилище данных организовано вокруг основных предметов (или субъектов) организации (например, клиенты, товары и продажи), а не вокруг прикладных областей деятельности (выписка счета клиенту, контроль товарных запасов и продажа товаров). Это свойство отражает необходимость хранения данных, предназначенных для поддержки принятия решений, а не обычных оперативно-прикладных данных. Предметная ориентированность 1 Комментарий Характеристика №
20. Сравнение OLTP -систем и хранилищ данных Обслуживает работников руководящего звена Обслуживает работников исполнительного звена Поддержка принятия стратегических решений Поддержка принятия повседневных решений Нерегламентированный и неструктурированный способ обработки данных Повторяющийся способ обработки данных Средняя и низкая интенсивность обработки транзакций Высокая интенсивность обработки транзакций Предназначена для проведения анализа Предназначена для обработки транзакций Непредсказуемый способ использования данных Предсказуемый способ использования данных Ориентирована на предметные области Ориентирована на прикладные области Хранит подробные сведения, а также частично и значительно обобщенные данные Хранит подробные сведения Содержит исторические, текущие и прогнозные данные Содержит текущие данные Аналитическая система на основе хранилища данных OLTP-система
23. Архитектура хранилищ данных Менеджер загрузки Менеджер загрузки (load manager ), который часто называют внешним ( front-end ) компонентом, выполняет все операции, связанные с извлечением и загрузкой данных хранилище. Эти операции включают преобразования данных, необходимостью для их подготовки к вводу в хранилище. Размеры и сложность данного компонента могут варьироваться в значительной степени, поскольку в его состав обычно входят не только программы собственной разработки, но и инструменты, созданные сторонними поставщиками. Менеджер запросов Менеджер запросов ( query manager ), который часто называют внутренним ( back-end ) компонентом, выполняет все операции, связанные с управлением пользовательскими запросами. Этот компонент обычно создается на базе предоставляемых разработчиком СУБД инструментов доступа к данным, инструментов мониторинга хранилища и программ собственной разработки, использующих весь набор функциональных возможностей СУБД. К числу выполняемых этим компонентом операций относятся управление запросами к соответствующим таблицам и составление графиков выполнения этих запросов.
24. Архитектура хранилищ данных Детальные данные В этой части хранилища данных хранятся все детальные данные. Как правило, детальные данные периодически добавляются в хранилище с автоматическим выполнением обобщения исходной информации до необходимого уровня. Частично и глубоко обобщенные данные B этой области хранилища размещаются все данные, предварительно обработанные менеджером хранилища с целью их частичного или глубокого обобщения ( aggregate ). Назначение обобщенных данных состоит в повышении производительности запросов. Хотя предварительное обобщение информации связано с некоторым повышением расходов на обслуживание, однако эти дополнительные затраты компенсируются за счет исключения необходимости многократно выполнять обобщающие операции (например, сортировку или группирование) при обработке каждого из запросов пользователей. Хранимые обобщенные данные обновляются по мере загрузки новых порций детальных данных в хранилище. Архивные и резервные копии Этот компонент хранилища данных отвечает за подготовку детальной и обобщенной информации к помещению в резервные и архивные копии. Хотя обобщенные данные генерируются на основе детальных, может потребоваться помещать в резервную заранее обобщенные данные, если предполагаемый период их хранения превышает срок хранения тех детальных данных, на основе которых они были созданы. Как правило, резервные и архивные копии размещаются на таких носителях, как магнитная лента или оптический диск. Метаданные Метаданные — это описание информационного содержания хранилища данных: что в нем содержится, откуда что поступает, какие операции выполнялись во время очистки, как осуществлялись интеграция и обобщение. Средства доступа конечных пользователей к данным используют метаданные для выбора способа построения запроса.
28. Архитектура хранилищ данных Нисходящий поток - процессы, связанные с архивированием и резервным копированием информации в хранилище данных. Архивирование устаревших данных играет важную роль при обеспечении высокой эффективности и производительности хранилища данных за счет переноса устаревших данных с ограниченной ценностью на архивный носитель, например магнитную ленту или оптические диски. Однако если схема секционирования базы данных выполнена правильно, то общее количество оперативных данных не должно влиять на производительность хранилища данных. Нисходящий поток информации включает процедуры, обеспечивающие возможность восстановления текущего состояния хранилища в случае потери данных из-за сбоев в программном или аппаратном обеспечении. Архивные данные следует хранить таким образом, чтобы в случае необходимости они снова могли быть восстановлены в хранилище данных.
29.
30. Подходы к организации хранилища данных. Централизованное хранилище данных Такой подход означает, что при нескольких источниках информации - операционных базах данных создается единое централизованное хранилище. В первичных источниках информация хранится в «сыром» - недоработанном виде, то есть в структуре информационного пространства данного источника информации или операционной БД. Вся поступающая в ХД информация должна быть преобразована в принятую в данном ХД структуру. Передача данных из операционных БД в ХД, которая сопровождается доработкой, может быть организована по заданному временному графику и правилам доработки. Допускаются неожиданные запросы «на лету», что предъявляет более строгие требования к инструментальным средствам ХД.
31. Подходы к организации хранилища данных. Распределенное хранилище данных Этот подход к хранению данных основан на распределении функций ХД по местам их возникновения или группировке нескольких операционных БД вокруг локального или регионального информационного хранилища. Эти хранилища могут быть ориентированы на определенную предметную область или на регион в корпоративных структурах. Система локальных хранилищ действует в качестве распределенного хранилища. Не исключается и наличие центрального хранилища данных.
32. Подходы к организации хранилища данных. Автономные витрины данных При таком подходе информация, относящаяся к крупной предметной области – например, информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных функционально-ориентированных базах данных, которые называют витринами данных ( Data Mart ). Этот подход является развитием концепции распределенного ХД в направлении функциональной ориентированности.
33. Подходы к организации хранилища данных. Единое интегрированное хранилище и многие витрины данных В таком варианте имеется крупное предметно-ориентированное информационное хранилище агрегированной и подработанной информации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности через функционально-ориентированные витрины данных. Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неоднозначность данных - информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов.