SlideShare una empresa de Scribd logo
1 de 66
Descargar para leer sin conexión
SISTEMAS DE APOIO À INTELIGÊNCIA
                  DE NEGÓCIOS
                                Asterio K. Tanaka
                        http://www.uniriotec.br/~tanaka/SAIN
                                 tanaka@uniriotec.br




 OLAP e Modelagem Dimensional – Conceitos Básicos
  Material baseado em originais de Maria Luiza Campos (http://dataware.nce.ufrj.br/)
Complementado com referências atuais de Ralph Kimball (http://www.kimballgroup.com/)

                                                                       Asterio K. Tanaka
• Visão multidimensional de dados
• Agregados e hierarquias de dimensões
• Ferramentas OLAP
   – As doze regras de Codd
   – Operações dimensionais para OLAP
   – Tipos de ferramentas: MOLAP, ROLAP, HOLAP
• Conceitos de modelagem dimensional
   – Esquema estrela: Fatos e Dimensões
• Tabelas de Fatos
   – Fatos aditivos, semi-aditivos, não-aditivos
• Tabelas de Dimensões
   – Hierarquias, Normalização/Desnormalização
   – Esquema Snow Flake
• Modelagem dimensional e projeto de DW
   – Data Warehouse Bus Architecture & Matrix
   – Mitos, Passos, Dicas, Armadilhas
   – Processo de projeto
                                                   Asterio K. Tanaka
Modelagem de DW para OLAP
• Requisitos diferentes das aplicações do
  ambiente transacional:
   –flexibilidade quanto às análises a suportar
   –medidas a analisar precisam ser vistas sob
    diferentes perspectivas (dimensões)
• Enfoque diferente da modelagem no ambiente
  operacional
• Abordagem utilizada:
      MODELAGEM DIMENSIONAL



                                       Asterio K. Tanaka
Visão multidimensional


• Facilita o entendimento e visualização de
  problemas típicos de suporte à decisão
• Mais intuitiva para o processamento analítico
• Utilizada pelas ferramentas OLAP

  A visão lógica é multidimensional, embora a
 estrutura física possa ter a mesma visão tabular
                do modelo relacional.



                                         Asterio K. Tanaka
Estrutura Relacional
   Volume de vendas (do revendedor GLEASON)

MODEL              COLOR          SALES VOLUME
MINI VAN           BLUE                  6
MINI VAN           RED                   5
MINI VAN           WHITE                 4
SPORTS COUPE       BLUE                  3
SPORTS COUPE       RED                   5
SPORTS COUPE       WHITE                 5
SEDAN              BLUE                  4
SEDAN              RED                   3
SEDAN              WHITE                 2




                                              Asterio K. Tanaka
Visão matricial ou multidimensional
        Volume de Vendas (do revendedor Gleason)

                    Mini Van    6       5     4
                M
                O
                D    Coupe      3       5     5
                E
                L
                     Sedan
                                4       3     2

                               Blue    Red   White


                                      COLOR


 Um array multidimensional tem um número fixo de dimensões e
  os valores são armazenados nas células
 Cada dimensão consiste de um número de elementos


                                                       Asterio K. Tanaka
Acrescentando mais uma coluna...
                   MODEL          COLOR   DEALERSHIP   VOLUME
                   MINI VAN       BLUE    CLYDE          6
                   MINI VAN       BLUE    GLEASON        6
                   MINI VAN       BLUE    CARR           2
                   MINI VAN       RED     CLYDE          3
                   MINI VAN       RED     GLEASON        5
                   MINI VAN       RED     CARR           5
                   MINI VAN       WHITE   CLYDE          2
Volume de Vendas   MINI VAN       WHITE   GLEASON        4
                   MINI VAN       WHITE   CARR           3
   de todos os     SPORTS COUPE   BLUE    CLYDE          2
  revendedores     SPORTS COUPE
                   SPORTS COUPE
                                  BLUE
                                  BLUE
                                          GLEASON
                                          CARR
                                                         3
                                                         2
                   SPORTS COUPE   RED     CLYDE          7
                   SPORTS COUPE   RED     GLEASON        5
                   SPORTS COUPE   RED     CARR           2
                   SPORTS COUPE   WHITE   CLYDE          4
                   SPORTS COUPE   WHITE   GLEASON        5
                   SPORTS COUPE   WHITE   CARR           1
                   SEDAN          BLUE    CLYDE          6
                   SEDAN          BLUE    GLEASON        4
                   SEDAN          BLUE    CARR           2
                   SEDAN          RED     CLYDE          1
                   SEDAN          RED     GLEASON        3
                   SEDAN          RED     CARR           4
                   SEDAN          WHITE   CLYDE          2
                   SEDAN          WHITE   GLEASON        2
                   SEDAN          WHITE   CARR           3




                                                                Asterio K. Tanaka
Visão multidimensional
                Volume de Vendas


   M   Mini Van

   O
   D    Coupe
   E
   L    Sedan
                                         Carr
                                       Gleason
                                     Clyde
                                                 DEALERSHIP
                  Blue   Red White



                   COLOR

• O cubo é, de fato, apenas uma metáfora visual.
• É uma representação intuitiva do fato porque todas as
  dimensões coexistem para todo ponto no cubo e são
  independentes umas das outras.


                                                              Asterio K. Tanaka
Adicionando Dimensões - Hipercubos

                                                     Volume de Vendas

M   Mini Van                                  Mini Van                                    Mini Van
O
D    Coupe                                     Coupe                                        Coupe
E
L    Sedan
                                      Carr
                                    Gleason     Sedan
                                                                                  Carr
                                                                                Gleason     Sedan
                                                                                                                              Carr
                                                                                                                            Gleason
                                  Clyde                                       Clyde                                       Clyde            DEALERSHIP
               Blue   Red White                          Blue   Red   White                          Blue   Red   White


                 COLOR                                     COLOR                                       COLOR




               JANUARY                                   FEBRUARY                                       MARCH




                                                                                                                                      Asterio K. Tanaka
Níveis nas dimensões ou Hierarquias
                              Total de vendas

          Produto      Dimensão:
                                        Brasil
          Alfa1        área
                            NE           SUL             NO
                       PE     SE    RS       SC     AC     AM

        Dimensão: 7    34    23    45        62     56     150
        tempo
                  14   23    92    73        23      234
           abril
                  21    13   87    21         14
        1996     29                     34

          maio   15     ….. 46                     …..
                  30   18




     • Hierarquias são a base das agregações

                                                                 Asterio K. Tanaka
Agregados


             Vendas                    Categoria                Região

Produto
                                              Trimestre
XPTO
                             ...
XPTA
                                   Estado
                             ES
XPTN                       SP
                         RJ
        ço bril aio...
      ar A M
    M
             Mês
                                                      Asterio K. Tanaka
Problemas
      Calcular os agregados no momento
       da recuperação ou armazená-los?

A r m a zen a m en to             T em po de
                          X
                                  R es pos ta




            BD3
           BD4
            BD2
            BD1




                                               BD3
                                               BD4
                                   BD1
                                         BD2
                                           Asterio K. Tanaka
A Síndrome da Explosão no
                                Volume de Dados

                         70000
                                                                                               65536
  Número de Agregações



                         60000
                         50000
                         40000
                         30000
                         20000
                                                                                       16384
                         10000
                                                                            4096
                             0       16       64       256       1024
                                 2        3        4         5          6          7       8

                                              Número de Dimensões
(4 níveis em cada dimensão)
                                                                                               Asterio K. Tanaka
Agregados


• As hierarquias permitem que o usuário possa ter
  acesso a dados com maior ou menor detalhe
• Os valores apresentados quando o analista
  consulta dados em níveis hierárquicos mais altos
  são valores agregados




                                           Asterio K. Tanaka
Hierarquias e Agregados


Produto      Tempo      Geografia
                                    Consultas
 Marca        Ano          País
                                    Vendas por
                                     Produto,
                                     Marca,
Categoria   Trimestre    Região     Trimestre
                                      Ano e
                                     eRegião
                                      Região

Produto       Mês         Estado

                                      Asterio K. Tanaka
Ferramentas OLAP
• OLAP: On Line Analytical Processing
   – Conjunto de técnicas para tratar informações contidas em DW.
   – Visão Multidimensional dos Dados
• Termo proposto por E.F. Codd, em 1993
   – Providing OLAP to User-Analysts: An IT Mandate.
• “Doze Regras de Codd” para ferramentas OLAP:
   –   Visão conceitual multidimensional
   –   Transparência
   –   Acessibilidade
   –   Desempenho de Informações consistentes
   –   Arquitetura Cliente Servidor
   –   Dimensionalidade genérica
   –   Manipulação de dados dinâmicos
   –   Suporte a multiusuários
   –   Operações ilimitadas em dimensões cruzadas
   –   Manipulação intuitiva de dados
   –   Flexibilidade nas consultas
   –   Níveis de dimensão e agregação ilimitados


                                                               Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP

   • Visão conceitual multidimensional
      – Os dados são modelados em diversas dimensões podendo
        haver cruzamento de todos os tipos de informações
   • Transparência
      – OLAP deve atender a todas as solicitações do analista, não
        importando de onde os dados virão. Todas as implicações
        devem ser transparentes para os usuários finais.
   • Acessibilidade
      – As ferramentas OLAP devem permitir conexão com todas as
        bases de dados legadas. A distribuição de informações deve
        ser mapeada para permitir o acesso a qualquer base.
   • Desempenho de Informações consistentes
      – As ferramentas OLAP devem possuir conhecimento sobre
        todas as informações armazenadas que possa disponibilizar,
        sem complexidade para o usuário final, qualquer tipo de
        consulta.


                                                            Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP
   • Arquitetura Cliente Servidor
      – OLAP deve ser construída em arquitetura C/S para que possa
        atender a qualquer usuário em qualquer ambiente operacional
   • Dimensionalidade genérica
      – Deve ser capaz de tratar informações em qualquer
        quantidade de dimensões
   • Manipulação de dados dinâmicos
      – Devido ao grande volume de informações armazenadas nas
        diversas dimensões de um modelo multidimensional, é
        comum a esparsidade dos dados, e então essas células nulas
        devem ser tratadas para evitar custos com memória.
   • Suporte a multiusuários
      – Nas grandes organizações, é comum vários analistas
        trabalharem com a mesma massa de dados.




                                                             Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP

   • Operações ilimitadas em dimensões cruzadas
      – As ferramentas OLAP devem ser capazes de navegar nas
        diversas dimensões existentes.
   • Manipulação intuitiva de dados
      – O usuários devem ser capazes de manipular os dados
        livremente, sem necessitar de qualquer tipo de ajuda.
   • Flexibilidade nas consultas
      – O usuário deve ter a flexibilidade para efetuar qualquer tipo
        de consulta.
   • Níveis de dimensão e agregação ilimitados
      – Devido às várias dimensões existentes, deve haver vários
        níveis de agregação dos dados.




                                                               Asterio K. Tanaka
Operações OLAP
• Ferramentas OLAP fornecem suporte para funções
  de análise de dados, típicas de aplicações avançadas
  de planilhas eletrônicas.
• Operações dimensionais de ferramentas OLAP:
   – Slice and Dice (Ponto, Plano, Cubo)
   – Rotation (Rotação ou Pivotamento)
   – Drilling
        » Drill Down
        » Drill Across e Drill Through
        » Drill Up (Roll Up)
   – Ranking (Classificação por uma coluna)




                                              Asterio K. Tanaka
Operadores Dimensionais




• Ponto - Valor pontual
   – Interseção de valores (Fato) com relação aos eixos (Dimensões)
• Plano – Slicing
   – Duas dimensões variando com outras fixas.
• Cubo – Dicing
   – Todas as dimensões variando
• Rotação – Pivotamento
   – Mudança dos eixos das dimensões, para fins de visualização
   – Vide tabelas dinâmicas no MS Excel


                                                         Asterio K. Tanaka
Operadores Drilling

                      Drill-down




Drill-up ou Roll-up




                                     Asterio K. Tanaka
Operadores Drilling




           Drill
          Across




                     Drill
                   Through



                             Asterio K. Tanaka
Tipos de ferramentas OLAP
• OLAP Multidimensional (MOLAP)
   – Utilizam estrutura de dados multidimensional e permitem a navegação pelos
     níveis de detalhamento em tempo real.
   – O BD e o SGBD são multidimensionais
   – Estrutura de dados é um array com um número fixo de dimensões. O
     (hiper)cubo é uma metáfora visual, onde as dimensões coexistem para todo
     ponto e são independentes entre si.
• OLAP RELACIONAL (ROLAP)
   – Decorrência do uso consagrado de SGBDs relacionais nos BDs operacionais
     (transacionais), com as vantagens da tecnologia aberta e padronizada
     (SQL).
   – Utiliza os metadados no apoio à descrição do modelo de dados e na
     construção de consultas. Através de uma camada semântica acima do
     esquema relacional, os dados são apresentados ao usuário com visão
     multidimensional.
• OLAP HÍBRIDO (HOLAP)
   – Tendência dos modernos SGBDs relacionais de adicionar uma arquitetura
     multidimensional para prover facilidades a ambientes de suporte a decisão.
   – Proporciona o desempenho e flexibilidade de um BD multidimensional e
     mantém a gerenciabilidade, escalabilidade, confiabilidade e acessibilidade
     conquistadas pelos BDs relacionais.


                                                                    Asterio K. Tanaka
Modelagem Multidimensional
• Proposto por Ralph Kimball para projeto de DW
  – Dimensional Modeling Manifesto, 1997
  – O próprio Kimball atribui a origem a um projeto conduzido por
    uma empresa (General Mills) e uma universidade (Dartmouth)
    nos anos 1960s.
• Dominante no projeto de DW
  – Para Kimball, em todo o DW
  – Para Inmon, nos data marts
• Características:
  – Distingue melhor as dimensões dos fatos medidos
  – Simplifica a visualização dimensional (essencial em consultas
    OLAP)
  – Na verdade é uma mistura de modelagem conceitual com
    modelagem lógica, pois já é bastante voltada para a abordagem
    relacional (a literatura fala sempre em tabelas)
                                                       Asterio K. Tanaka
Esquema Estrela
Uma tabela de fatos cercada de tabelas de dimensões




                      F a to




                                             Asterio K. Tanaka
Esquema Estrela - Exemplo

                                   D im en s ã o P r oduto
D im en s ã o
T em po                            pk_produto
                F a to V en da s   descricao
pk_tempo                           categoria
                pk_tempo           marca
data
                pk_produto
mes
                pk_loja
quadrimestre
                preco_venda
ano
                unidades_venda
Flag_feriado
                preco_custo        D im en s ã o L oja

                                   pk_loja
                                   nome_loja
                                   endereço
                                   cidade
                                   estado

                                                  Asterio K. Tanaka
Exemplo Consultas
       “Vendas por categoria de produto sobre os últimos seis
         meses”
       “Vendas por marca entre 1990 e 1995”

       Dimensão Loja       Colunas da chave composta ligando a tabela
                                de fatos às tabelas de dimensão                Medidas Numéricas


                                pk_tempo   pk_produto   pk_loja   preco_venda unidades_venda    preco_custo
Dimensão Produto




 Tabelas       Dimensão Tempo
                                                              Tabela de Fatos
   de
Dimensão
                                           ...
                                                                                     Asterio K. Tanaka
Consulta SQL sobre um esquema estrela
select                                            Qtd Vendida
  [Loja].[NomeLoja], [Tempo].[DataCompleta],
  [Produto].[Descricao],                        de cada Produto
  Sum( [Vendas].[Unidades_Venda]) as Total          por Loja e
from
  [Vendas], [Tempo], [Produto], [Loja]
                                                      por Data
where
  [Vendas].[CodTempo] = [Tempo].[CodTempo] and
  [Vendas].[CodProduto] = [Produto].[CodProduto] and
  [Vendas].[CodLoja] = [Loja].[CodLoja]
group by
 [Loja].[NomeLoja], [Tempo].[DataCompleta], [Produto].[Descricao]
order by
  [Tempo].[DataCompleta], [Loja].[NomeLoja],
  [Produto].[Descricao]




                                                     Asterio K. Tanaka
Resultados

NomeLoja          DataCompleta Descricao       Total
================================================
East Loja         Oct 1, 1994  Athletic Drink 57
East Loja         Oct 1, 1994  Beef Stew       128
East Loja         Oct 1, 1994  Buffalo Jerky 202
East Loja         Oct 1, 1994  Chicken Dinner 161
East Loja         Oct 1, 1994  Clear Refresher 73
East Loja         Oct 1, 1994  Dried Grits     102
East Loja         Oct 1, 1994  Dry Tissues     16
East Loja         Oct 1, 1994  Extra Nougat 442
East Loja         Oct 1, 1994  Fizzy Classic 46
East Loja         Oct 1, 1994  Fizzy Light     65
East Loja         Oct 1, 1994  Lasagna         162
East Loja         Oct 1, 1994  Lots of Nuts    248
East Loja         Oct 1, 1994  Onion Slices    120

                                              Asterio K. Tanaka
Esquema Estrela de DW
        5 W e 3 H (vide BPM)

        When                    Where




               How many
What                                    Why
               How much




        Who                      How


                Tipos de dimensão mais comuns
                                         Asterio K. Tanaka
Esquema estrela com tabela de fatos Estoque
     e dimensões Produto, Loja e Data


                                              Asterio K. Tanaka
Esquema estrela com tabela de fatos Itens
e dimensões Produto, Promoção, Atendente, Loja e Data
                                               Asterio K. Tanaka
Esquema estrela (constelação) com
 tabelas de fatos Itens e Estoque.
  As dimensões Produto, Loja e
    Data são compartilhadas e
          “conformadas”
                   Asterio K. Tanaka
Modelagem Dimensional
• Esquema Estrela é simétrico
  – Comparado a esquemas ER típicos
• Tabela de Fatos
  – Expressa relacionamento M:N entre dimensões
  – Tabela dominante
     » Usualmente com grande volume de dados; ocupam 90% do
       espaço em um DW típico
     » Tendem a ter muitas linhas e poucas colunas
• Tabelas de Dimensões
  – Tabelas que “qualificam” os fatos, com muitos campos
    descritivos (é comum ter dimensões com dezenas de colunas)
  – Dimensões apresentam-se em consultas qualificadas como “por
    dimensão” (vendas “por semana” “por marca” “por loja”) e são
    as bases para agregações e agrupamentos.
  – Uma junção liga cada tabela de dimensão à tabela de fatos
  – Volume bem menor que as tabelas de fatos
  – O poder de um DW é diretamente proporcional à qualidade e
    profundidade dos atributos das dimensões.
                                                      Asterio K. Tanaka
(Mais uma) Comparação entre
 Modelagem ER e Multidimensional

               ER                        Multidimensional
1 diagrama (vários processos de     Vários diagramas dimensionais
negócio)                            (1 para cada processo de negócio)


Usuários acham difícil entender e   Usuários reconhecem “o seu
navegar pelo modelo                 negócio”

Muitas junções para responder a     Poucas junções
consultas

Dados atômicos                      Dados atômicos e agregados
Planos de consultas extremamente    Planos de consultas “genéricos”
distintos e específicos para as     (simetria do modelo)
consultas previstas




                                                                 Asterio K. Tanaka
Tabela de Fatos
Ex: Tabelas Itens e Estoque
• Tabela de fatos normalizada em 3a forma normal
• Chave primária composta por um subconjunto das
  chaves das dimensões (subconjunto que garanta
  unicidade – às vezes todas as chaves)
   – Vide por exemplo a tabela Itens, se houvesse uma dimensão
     CupomFiscal (bastariam as chaves de CupomFiscal e de Produto
     como chave primária)
• Por ser o DW histórico, a tabela de fatos tem muitas
  linhas (milhões, bilhões) e poucas colunas (chaves
  das dimensões e medidas dos fatos).
• Medidas do fatos são usualmente numéricas, mas
  podem ser não numéricas ou sem medida (tabelas
  sem fato)
• Fatos são tipicamente aditivos, mas podem ser
   – Semi-aditivos ou mesmo Não aditivos
                                                       Asterio K. Tanaka
Fatos Aditivos
Ex: Quantidade, Valor na Tabela Itens
• São númericos e podem ser somados em
  relação às dimensões existentes
  – Ex: quantidade e valor podem ser somados ao longo
    de qualquer dimensão (Produto, Promoção, Atendente,
    Loja e Data)
• Sempre que, em uma modelagem, um dado
  numérico for apresentado, então este será um
  bom indício de um atributo em fatos.
• Em geral, fatos aditivos representam medidas
  de atividade do negócio, ligadas ao seus
  indicadores de desempenho (KPI – Key
  performance indicators).
                                             Asterio K. Tanaka
Fatos Semi-Aditivos
Ex: Quantidade na Tabela Estoque
• Também são numéricos, mas não podem ser somados
  em relação a todas as dimensões existentes (a semântica
  não permite)
   – Ex: quantidade em estoque só pode ser somada ao longo da
     dimensão Produto. Nas dimensões Loja e Data, a soma não faria
     muito sentido (especialmente nesta última, nenhum sentido)
• Em geral, fatos semi-aditivos representam leituras
  medidas de intensidade do negócio.
   – São snapshots destas leituras que entram no DW.
   – O valor atual já leva em consideração valores passados.
• Fatos semi-aditivos típicos: Níveis de Estoque, Saldos,
  Fechamento diário/mensal de conta, etc...


                                                           Asterio K. Tanaka
Fatos Não-Aditivos
• Algumas observações não numéricas podem
  eventualmente ser fatos.
   – Ex: DW de registro de acidentes de trânsito
      » Atributos: carro1, carro2, motorista1, motorista2,
         descrição do acidente, descrição do tempo e descrição
         da pista.
• Informações textuais são fatos que só permitem
  contagem e estatísticas associadas a contagens.
  Alternativamente, poderiam ser modeladas como
  dimensões ligadas a uma tabela de fatos “sem
  fatos”, isto é, só para contagem.
   – Ex: DW de registro de inscrições em turmas por disciplina,
     por semestre, por curso, por aluno, por professor.



                                                        Asterio K. Tanaka
Tabelas de Dimensões
•   Objetivo:
    –   Contém descrições textuais do negócio (fato)
    –   Atributos de dimensões servem como cabeçalho das linhas
        e colunas das análises e filtro nas consultas e relatórios
•   Características:
    –   Chaves simples (em geral, artificiais: “surrogate keys”)
         » Números inteiros de 4 bytes: 232 > + 2 bilhões
    –   Muitas colunas (dezenas); poucas linhas (centenas ou
        milhares) se comparadas com tabelas de fatos
    –   Usualmente não dependente do tempo
         » Tempo é outra dimensão (quase sempre presente)
    –   Desnormalizada (em geral, na 2a forma normal)
    –   Hierarquias implícitas (à custa da 3a forma normal)


                                                          Asterio K. Tanaka
Dívida: Segunda forma normal
  •   Informalmente:
        – Uma relação está em 2FN se todo atributo não-primo (isto é,
          que não seja membro de chave) for totalmente dependente de
          qualquer chave.




                                                  Tabela Estoque_2
Tabela Estoque_1 não está em 2FN                  está em 2FN. Na
     Loja_Codigo → {Nome_Loja, Dados_Loja}
 Produto_Codigo → {Nome_Produto, Dados_Produto}     verdade, está
                                                  também em 3FN

  Em geral, as tabelas de fatos são normalizadas em 3FN
                                                               Asterio K. Tanaka
Dívida: Terceira forma normal
  •     Informalmente:
         – Uma relação está em 3FN se estiver em 2FN e nenhum
           atributo não-primo (isto é, que não seja membro de uma
           chave) for transitivamente dependente da chave.




Tabela Produto_1 não está
         em 3FN                      Tabela Produto_2
        Codigo → Marca_Codigo         está em 3FN.
      Marca_Codigo → Dados_Marca

  Num esquema estrela, as tabelas de dimensões não
  são normalizadas em 3FN; estão apenas em Asterio K. Tanaka
                                             2FN.
Hierarquias de Dimensões
• Uma dimensão pode ter múltiplas hierarquias
  além de outros atributos descritivos
• Exemplos:
   – Para a dimensão Loja
     » Geografia física: CEP, cidade, estado, região, país
     » Geografia de vendas: território, região, zona
     » Geografia de distribuição: área primária, região
  – Para a dimensão Produto
     » Hierarquia de Marcas
     » Hierarquia de Categorias
     » Hierarquia de Tipo de Armazenamento



                                                       Asterio K. Tanaka
Tabelas de Dimensão

Segundo KIMBALL, as tabelas de
  dimensão não devem ser
  normalizadas pois:
  1) não há atualização freqüente nas bases;
  2) o espaço em disco economizado é
      relativamente pequeno;
  3) esse ganho de espaço não justifica a perda de
      performance na realização de consultas por
      conta das junções necessárias em caso de
      normalização.


                                          Asterio K. Tanaka
Variações do Esquema Estrela
      Esquema floco de neve
• O esquema floco de neve é uma variação do
  esquema estrela no qual todas as tabelas
  dimensão são normalizadas na terceira forma
  normal (3FN)
• Reduzem a redundância mas aumentam a
  complexidade do esquema e consequentemente
  a compreensão por parte dos usuários
• Dificultam as implementações de ferramentas
  de visualização dos dados


                                       Asterio K. Tanaka
Esquema Floco de Neve

Dimensões normalizadas




                    Fatos como no
                   Esquema estrela
                                     Asterio K. Tanaka
Esquema Flocos de Neve -
                            Exemplo

Ano
Ano      M ês
                                           T a bela de F a tos
                         T em po                                  P r oduto
         Mês                                   D e V en da s
         Ano             pk_tempo                                pk_produto              …
                         data                   pk_tempo         descProd
                         mês                                     Categoria
                                               pk_produto

                                   L oja         pk_loja

                       Cida de   Pk_loja
                                 Cidade
                       Cidade
                       Estado              Unidades_vendidas
         E s ta do

         Estado                               Preco_venda
         País
P a ís
                                               Preco_custo
País
Região
                     M edida s
                                                                     Asterio K. Tanaka
Mitos sobre Modelagem Dimensional
1. Modelos dimensionais e Data Marts são para dados
   sumarizados somente
2. Modelos dimensionais e Data Marts são soluções
   departamentais, não empresariais
3. Modelos dimensionais e Data Marts não são
   escaláveis
4. Modelos dimensionais e Data Marts são apropriados
   somente quando há um padrão de uso previsível
5. Modelos dimensionais e Data Marts não podem ser
   integrados e levam a soluções isoladas
• Ralph Kimball; Margy Ross. The Data Warehouse Toolkit. John Wiley, 2002 – Cap. 1
• Margy Ross & Ralph Kimball Fables and Facts: Do you know the difference between
  dimensional modeling truth and fiction? Oct 2004
  http://www.intelligententerprise.com/showArticle.jhtml?articleID=49400912

                                                                   Asterio K. Tanaka
Data Warehouse Bus Architecture




Definindo um barramento padrão para o ambiente de DW, data marts separados podem
ser implementados por grupos diferentes em tempos diferentes. Todos os processos da
cadeia de valores da organização criarão uma família de modelos dimensionais que
compartilham um conjunto completo de dimensões comuns e conformadas.
                                                                     Asterio K. Tanaka
Data Warehouse Bus Matrix
                                             COMMON DIMENSIONS




                                  Ven ouse
                                  W a tion



                                  Sh i c t
                                             r
                                  St o t




                                  Co r
                                       duc




                                       p pe
                                      nt r a
                                       re h
                                       mo

                                        do
                                       re
                                      te
        BUSINESS PROCESSES




                                  Pro

                                  Pro
                                  Da
        Store Sales                X   X X X
        Store Inventory            X   X X
        Store Deliveries           X   X X
        Warehouse Inventory        X   X     X X
        Warehouse Deliveries       X   X     X X
        Purchase Orders            X   X     X X X X

As linhas da matriz correspondem a data marts e as colunas a dimensões conformadas.
A matriz é a ferramenta usada para criar, documentar, gerenciar e comunicar a
arquitetura de barramento. Segundo Kimball, é o artefato de análise mais importante
do desenvolvimento de um DW. É uma ferramenta híbrida, que serve para design
técnico, para gerência de projeto e como forma de comunicação organizacional.
                                                                     Asterio K. Tanaka
Quatro Passos da Modelagem
                     Dimensional
1. Selecionar o processo de negócio a modelar
 •   Um processo é uma atividade de negócio natural da organização que tipicamente é
     suportada por um sistema fonte de coleções de dados.
 •   Exemplos: vendas, compras de matéria prima, pedidos, expedições, faturamento,
     inventário, contas a pagar/receber.
2. Declarar o grão do processo de negócio
 •   Significa especificar exatamente o que uma linha da tabela fato representa.
 •   Exemplos: uma linha de um cupom fiscal, um cartão de embarque individual, um nível
     diário de estoque de cada produto, um saldo mensal de cada conta bancária.
3. Escolher as dimensões que se aplicam a cada linha da tabela de
  fatos
 •   Implica em responder à pergunta: “Como o pessoal do negócio descreve os dados que
     resultam do processo de negócio?”
 •   Exemplos: data, produto, cliente, tipo de transação, status de pedido.
4. Identificar os fatos que irão popular cada linha da tabela de fatos
 •   Implica em responder à pergunta: “O que nós estamos medindo?” Os fatos candidatos
     devem ser coerentes com o grão declarado no passo 2.
 •   Exemplos: quantidade, valor.

                                                                        Asterio K. Tanaka
Quatro Passos da Modelagem
           Dimensional
Requisitos do negócio



           1. Processo de negócio
           2. Grão
           3. Dimensões
           4. Fatos


                        Realidade dos dados


                                              Asterio K. Tanaka
Dicas importantes na Modelagem Dimensional

• Resista à tentação de simplesmente examinar as
  fontes de dados somente: não há substituto para o
  input dos usuários do negócio.
•   Caso exista, use um modelo de dados convencional E-R como ponto
    de partida para o trabalho de modelagem dimensional.
     – Observe os relacionamentos 1:N existentes. Eles podem sugerir
       dimensões.
     – Observe as entidades fortes. Elas também podem sugerir
       dimensões.
     – Observe as entidades que expressam documentos como Nota
       Fiscal, Pedido, Ordem de Compra, etc. Elas podem sugerir fatos.
     – Observe os relacionamentos M:N. Na sua interseção, pode haver
       valores numéricos. Isto sugere fatos.
     – Observe os atributos que estarão nas tabelas de dimensões.
       Analise a relação de hierarquias entre esses atributos de dimensão.
       Atente para os relacionamentos M:N entre eles. Isto pode definir
       granularidade.
                                                             Asterio K. Tanaka
Dicas importantes na Modelagem Dimensional
• As tabelas FATOS, tipicamente, armazenam dados, valores
  atômicos ou agregados obtidos a partir destes.
• As medidas das tabelas FATOS são normalmente aditivas em
  certas dimensões (ou em todas).
• As tabelas FATOS possuem chaves que as conectam às
  diferentes DIMENSÕES que as circundam. Essa conexão se dá
  num nível de granularidade compatível entre elas (FATO e
  DIMENSÃO).
• As tabelas DIMENSÃO armazenam os valores de filtro, acesso e
  textos que caracterizam os dados trabalhados.
• As tabelas FATOS são normalmente normalizadas (3a forma
  normal).
• As tabelas DIMENSÕES são normalmente desnormalizadas (2a
  forma normal - Esquema Estrela).
• A granularidade combinada da tabela FATO com a de suas
  tabelas DIMENSÕES determina o número de linhas das tabelas
  do projeto.

                                                    Asterio K. Tanaka
Modelo Entidades Relacionamentos




                              Asterio K. Tanaka
Exemplo de Modelagem

1. Selecionar o processo de negócio
 •   Vendas no caixa da loja
2. Declarar o grão
 •   Venda individual de cada produto por loja (isto é, uma linha
     de cada cupom fiscal de venda)
3. Escolher as dimensões
 •   Dimensões principais
     • Data, Produto, Loja
 •   Outras dimensões descritivas relevantes possíveis
     (compatíveis com o grão escolhido)
     • Promoção, Atendente
4. Identificar os fatos
 •   Quantidade e Valor de cada venda


                                                      Asterio K. Tanaka
Exemplo: esquema resultante




                        Asterio K. Tanaka
Dez Armadilhas a evitar no projeto de DW
  (a maioria válida para qualquer projeto de sistema)

1. Negligenciar o reconhecimento de que o sucesso do DW
   está amarrado à aceitação do usuário.
2. Presumir que o negócio, seus requisitos e análises, assim
   como os dados subjacentes e a tecnologia, são estáticos.
3. Carregar somente dados sumarizados nas estruturas
   dimensionais da área de apresentação.
4. Popular modelos dimensionais de forma isolada, sem
   levar em conta a arquitetura que os amarra juntos usando
   dimensões compartilhadas e conformadas
5. Tornar os dados supostamente consultáveis na área de
   apresentação desnecessariamente complexos.



                                                  Asterio K. Tanaka
Dez Armadilhas a evitar no projeto de DW
    (a maioria válida para qualquer projeto de sistema)
6. Prestar mais atenção no desempenho operacional e na
   facilidade de desenvolvimento do “back-room” do que no
   desempenho de consultas e facilidade de uso do “front-room”.
7. Alocar energia para construir uma estrutura de dados
   normalizada, mesmo estourando o orçamento, do que para
   construir um área de apresentação viável baseada no modelo
   dimensional.
8. Atacar um projeto galático plurianual ao invés de perseguir
   esforços de desenvolvimento mais gerenciáveis, porém ainda
   desafiadores e iterativos.
9. Falhar em identificar e adotar uma gerência influente,
   acessível e razoavelmente visionária como patrocinador do
   negócio.
10.Tornar-se enamorado da tecnologia e dos dados ao invés de
   focar nos requisitos e objetivos do negócio.
                                                   Asterio K. Tanaka
Projeto de Data Warehouse = Projeto de Bancos de Dados
        Requisitos
        de Dados             Modelagem dos requisitos de dados
                             através de diagramas de Entidades e
                             Relacionamentos (DER) ou de
       Projeto               Classes e Objetos (DCO)
      Conceitual
     Esquema Conceitual      Mapeamento do esquema conceitual
                             para o modelo de dados do SGBD
         Projeto             escolhido, através de diagrama de
                             estruturas de dados (DED)
         Lógico
      Esquema Lógico
                             Mapeamento do esquema lógico
                             para os tipos de dados e restrições de
         Projeto             integridade do SGBD escolhido;
         Físico              criação de visões e índices.

      Esquema Físico
                                                      Asterio K. Tanaka
Esquema Estrela - Conceitual




                         Asterio K. Tanaka
Esquema Estrela - Lógico




                       Asterio K. Tanaka
Implementação do Modelo
              Dimensional

• SGBDs multidimensionais
  – Implementam fisicamente o modelo dimensional
  – Problemas de desempenho, segurança e
    confiabilidade
  – Problema de esparsidade: células onde não há
    dados (nulos)
• SGBDs relacionais
  – Maior aceitação (força do mercado de BD
    relacional)
  – Exige mapeamento (como qualquer projeto de BD
    relacional)

                                         Asterio K. Tanaka
Escolha do SGBD




                  Asterio K. Tanaka
Esquema Estrela - Físico (Dimensional)




                                Asterio K. Tanaka

Más contenido relacionado

La actualidad más candente

Data governance, Information security strategy
Data governance, Information security strategyData governance, Information security strategy
Data governance, Information security strategyvasanthi4ever
 
ISO 27001- Resumo - Mapa Mental dos Controles
ISO 27001- Resumo - Mapa Mental dos ControlesISO 27001- Resumo - Mapa Mental dos Controles
ISO 27001- Resumo - Mapa Mental dos ControlesCompanyWeb
 
Data Mart e Data Warehouse
Data Mart e Data WarehouseData Mart e Data Warehouse
Data Mart e Data WarehouseFernando Peres
 
Data Staging Strategy
Data Staging StrategyData Staging Strategy
Data Staging StrategyMilind Zodge
 
Data Quality and the FAIR principles
Data Quality and the FAIR principlesData Quality and the FAIR principles
Data Quality and the FAIR principlesAmrapali Zaveri, PhD
 
The Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindThe Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindDATAVERSITY
 
As boas práticas da Gestão de Dados Moderna
As boas práticas da Gestão de Dados ModernaAs boas práticas da Gestão de Dados Moderna
As boas práticas da Gestão de Dados ModernaBergson Lopes Rêgo, PMP
 
Azure reference architectures
Azure reference architecturesAzure reference architectures
Azure reference architecturesMasashi Narumoto
 
Row or Columnar Database
Row or Columnar DatabaseRow or Columnar Database
Row or Columnar DatabaseBiju Nair
 
Migrating your traditional Data Warehouse to a Modern Data Lake
Migrating your traditional Data Warehouse to a Modern Data LakeMigrating your traditional Data Warehouse to a Modern Data Lake
Migrating your traditional Data Warehouse to a Modern Data LakeAmazon Web Services
 
Strategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management SystemsStrategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management SystemsBoris Otto
 
MDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMark Schoeppel
 
The what, why, and how of master data management
The what, why, and how of master data managementThe what, why, and how of master data management
The what, why, and how of master data managementMohammad Yousri
 
Master Data Management - Aligning Data, Process, and Governance
Master Data Management - Aligning Data, Process, and GovernanceMaster Data Management - Aligning Data, Process, and Governance
Master Data Management - Aligning Data, Process, and GovernanceDATAVERSITY
 
Describing the Organisation Data Landscape
Describing the Organisation Data LandscapeDescribing the Organisation Data Landscape
Describing the Organisation Data LandscapeAlan McSweeney
 
How to Build & Sustain a Data Governance Operating Model
How to Build & Sustain a Data Governance Operating Model How to Build & Sustain a Data Governance Operating Model
How to Build & Sustain a Data Governance Operating Model DATUM LLC
 
Seven building blocks for MDM
Seven building blocks for MDMSeven building blocks for MDM
Seven building blocks for MDMKousik Mukherjee
 

La actualidad más candente (20)

Data governance, Information security strategy
Data governance, Information security strategyData governance, Information security strategy
Data governance, Information security strategy
 
ISO 27001- Resumo - Mapa Mental dos Controles
ISO 27001- Resumo - Mapa Mental dos ControlesISO 27001- Resumo - Mapa Mental dos Controles
ISO 27001- Resumo - Mapa Mental dos Controles
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Data Mart e Data Warehouse
Data Mart e Data WarehouseData Mart e Data Warehouse
Data Mart e Data Warehouse
 
Data Staging Strategy
Data Staging StrategyData Staging Strategy
Data Staging Strategy
 
Governança de TI
Governança de TIGovernança de TI
Governança de TI
 
Data Quality and the FAIR principles
Data Quality and the FAIR principlesData Quality and the FAIR principles
Data Quality and the FAIR principles
 
The Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data MindThe Importance of MDM - Eternal Management of the Data Mind
The Importance of MDM - Eternal Management of the Data Mind
 
Mdm: why, when, how
Mdm: why, when, howMdm: why, when, how
Mdm: why, when, how
 
As boas práticas da Gestão de Dados Moderna
As boas práticas da Gestão de Dados ModernaAs boas práticas da Gestão de Dados Moderna
As boas práticas da Gestão de Dados Moderna
 
Azure reference architectures
Azure reference architecturesAzure reference architectures
Azure reference architectures
 
Row or Columnar Database
Row or Columnar DatabaseRow or Columnar Database
Row or Columnar Database
 
Migrating your traditional Data Warehouse to a Modern Data Lake
Migrating your traditional Data Warehouse to a Modern Data LakeMigrating your traditional Data Warehouse to a Modern Data Lake
Migrating your traditional Data Warehouse to a Modern Data Lake
 
Strategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management SystemsStrategic Business Requirements for Master Data Management Systems
Strategic Business Requirements for Master Data Management Systems
 
MDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large EnterprisesMDM & BI Strategy For Large Enterprises
MDM & BI Strategy For Large Enterprises
 
The what, why, and how of master data management
The what, why, and how of master data managementThe what, why, and how of master data management
The what, why, and how of master data management
 
Master Data Management - Aligning Data, Process, and Governance
Master Data Management - Aligning Data, Process, and GovernanceMaster Data Management - Aligning Data, Process, and Governance
Master Data Management - Aligning Data, Process, and Governance
 
Describing the Organisation Data Landscape
Describing the Organisation Data LandscapeDescribing the Organisation Data Landscape
Describing the Organisation Data Landscape
 
How to Build & Sustain a Data Governance Operating Model
How to Build & Sustain a Data Governance Operating Model How to Build & Sustain a Data Governance Operating Model
How to Build & Sustain a Data Governance Operating Model
 
Seven building blocks for MDM
Seven building blocks for MDMSeven building blocks for MDM
Seven building blocks for MDM
 

Destacado

Normalização - Banco de Dados
Normalização - Banco de DadosNormalização - Banco de Dados
Normalização - Banco de DadosRoberto Grande
 
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...Caio Moreno
 
Open Source Business Intelligence
Open Source Business IntelligenceOpen Source Business Intelligence
Open Source Business IntelligenceDaniel Rabelo
 
Apresentação SpagoBI
Apresentação SpagoBIApresentação SpagoBI
Apresentação SpagoBIGrendene S/A
 
Modelo dimensional071009
Modelo dimensional071009Modelo dimensional071009
Modelo dimensional071009Valldo
 
Requisitos Sistemas E-Commerce
Requisitos Sistemas E-CommerceRequisitos Sistemas E-Commerce
Requisitos Sistemas E-CommerceOtaviano Silvério
 
Guia de escolha para graficos em relatorios ou dasboards.
Guia de escolha para graficos em relatorios ou dasboards.Guia de escolha para graficos em relatorios ou dasboards.
Guia de escolha para graficos em relatorios ou dasboards.Washington Bila Cox de Jesus
 
Visão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISVisão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISFelipe Ferreira
 
SpagoBI - Plataforma BI livre e aberta
SpagoBI - Plataforma BI livre e abertaSpagoBI - Plataforma BI livre e aberta
SpagoBI - Plataforma BI livre e abertaFabrício Basto
 
Integração dados prática ppt
Integração dados prática pptIntegração dados prática ppt
Integração dados prática pptRodrigo Ribeiro
 
PostgreSQL Tuning: O elefante mais rápido que um leopardo
PostgreSQL Tuning: O elefante mais rápido que um leopardoPostgreSQL Tuning: O elefante mais rápido que um leopardo
PostgreSQL Tuning: O elefante mais rápido que um leopardoelliando dias
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseVinícius Amaral
 
Data warehouse 01 introdução
Data warehouse   01 introduçãoData warehouse   01 introdução
Data warehouse 01 introduçãoRafael Pinheiro
 
A evolução do Business Intelligence
A evolução do Business IntelligenceA evolução do Business Intelligence
A evolução do Business IntelligenceGustavo Santade
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIJarley Nóbrega
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data WarehouseMessias Batista
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligencenesi
 

Destacado (20)

Normalização - Banco de Dados
Normalização - Banco de DadosNormalização - Banco de Dados
Normalização - Banco de Dados
 
Data Warehouse - Modelagem
Data Warehouse - ModelagemData Warehouse - Modelagem
Data Warehouse - Modelagem
 
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
Pentaho: Inteligência de Negócios utilizando Software Livre - FliSOL São Paul...
 
Open Source Business Intelligence
Open Source Business IntelligenceOpen Source Business Intelligence
Open Source Business Intelligence
 
Apresentação SpagoBI
Apresentação SpagoBIApresentação SpagoBI
Apresentação SpagoBI
 
Modelo dimensional071009
Modelo dimensional071009Modelo dimensional071009
Modelo dimensional071009
 
Requisitos Sistemas E-Commerce
Requisitos Sistemas E-CommerceRequisitos Sistemas E-Commerce
Requisitos Sistemas E-Commerce
 
Guia de escolha para graficos em relatorios ou dasboards.
Guia de escolha para graficos em relatorios ou dasboards.Guia de escolha para graficos em relatorios ou dasboards.
Guia de escolha para graficos em relatorios ou dasboards.
 
Visão geral do Integration Services - SSIS
Visão geral do Integration Services - SSISVisão geral do Integration Services - SSIS
Visão geral do Integration Services - SSIS
 
SpagoBI - Plataforma BI livre e aberta
SpagoBI - Plataforma BI livre e abertaSpagoBI - Plataforma BI livre e aberta
SpagoBI - Plataforma BI livre e aberta
 
Integração dados prática ppt
Integração dados prática pptIntegração dados prática ppt
Integração dados prática ppt
 
OLAP
OLAPOLAP
OLAP
 
PostgreSQL Tuning: O elefante mais rápido que um leopardo
PostgreSQL Tuning: O elefante mais rápido que um leopardoPostgreSQL Tuning: O elefante mais rápido que um leopardo
PostgreSQL Tuning: O elefante mais rápido que um leopardo
 
UCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data WarehouseUCP - Projeto de Banco de Dados - Data Warehouse
UCP - Projeto de Banco de Dados - Data Warehouse
 
Data warehouse 01 introdução
Data warehouse   01 introduçãoData warehouse   01 introdução
Data warehouse 01 introdução
 
Analise sistemas 03
Analise sistemas 03Analise sistemas 03
Analise sistemas 03
 
A evolução do Business Intelligence
A evolução do Business IntelligenceA evolução do Business Intelligence
A evolução do Business Intelligence
 
Aula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDIAula 01-Tutorial ETL com PDI
Aula 01-Tutorial ETL com PDI
 
Introdução ao Data Warehouse
Introdução ao Data WarehouseIntrodução ao Data Warehouse
Introdução ao Data Warehouse
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 

Dicas de Modelagem dimensional

  • 1. SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS Asterio K. Tanaka http://www.uniriotec.br/~tanaka/SAIN tanaka@uniriotec.br OLAP e Modelagem Dimensional – Conceitos Básicos Material baseado em originais de Maria Luiza Campos (http://dataware.nce.ufrj.br/) Complementado com referências atuais de Ralph Kimball (http://www.kimballgroup.com/) Asterio K. Tanaka
  • 2. • Visão multidimensional de dados • Agregados e hierarquias de dimensões • Ferramentas OLAP – As doze regras de Codd – Operações dimensionais para OLAP – Tipos de ferramentas: MOLAP, ROLAP, HOLAP • Conceitos de modelagem dimensional – Esquema estrela: Fatos e Dimensões • Tabelas de Fatos – Fatos aditivos, semi-aditivos, não-aditivos • Tabelas de Dimensões – Hierarquias, Normalização/Desnormalização – Esquema Snow Flake • Modelagem dimensional e projeto de DW – Data Warehouse Bus Architecture & Matrix – Mitos, Passos, Dicas, Armadilhas – Processo de projeto Asterio K. Tanaka
  • 3. Modelagem de DW para OLAP • Requisitos diferentes das aplicações do ambiente transacional: –flexibilidade quanto às análises a suportar –medidas a analisar precisam ser vistas sob diferentes perspectivas (dimensões) • Enfoque diferente da modelagem no ambiente operacional • Abordagem utilizada: MODELAGEM DIMENSIONAL Asterio K. Tanaka
  • 4. Visão multidimensional • Facilita o entendimento e visualização de problemas típicos de suporte à decisão • Mais intuitiva para o processamento analítico • Utilizada pelas ferramentas OLAP A visão lógica é multidimensional, embora a estrutura física possa ter a mesma visão tabular do modelo relacional. Asterio K. Tanaka
  • 5. Estrutura Relacional Volume de vendas (do revendedor GLEASON) MODEL COLOR SALES VOLUME MINI VAN BLUE 6 MINI VAN RED 5 MINI VAN WHITE 4 SPORTS COUPE BLUE 3 SPORTS COUPE RED 5 SPORTS COUPE WHITE 5 SEDAN BLUE 4 SEDAN RED 3 SEDAN WHITE 2 Asterio K. Tanaka
  • 6. Visão matricial ou multidimensional Volume de Vendas (do revendedor Gleason) Mini Van 6 5 4 M O D Coupe 3 5 5 E L Sedan 4 3 2 Blue Red White COLOR  Um array multidimensional tem um número fixo de dimensões e os valores são armazenados nas células  Cada dimensão consiste de um número de elementos Asterio K. Tanaka
  • 7. Acrescentando mais uma coluna... MODEL COLOR DEALERSHIP VOLUME MINI VAN BLUE CLYDE 6 MINI VAN BLUE GLEASON 6 MINI VAN BLUE CARR 2 MINI VAN RED CLYDE 3 MINI VAN RED GLEASON 5 MINI VAN RED CARR 5 MINI VAN WHITE CLYDE 2 Volume de Vendas MINI VAN WHITE GLEASON 4 MINI VAN WHITE CARR 3 de todos os SPORTS COUPE BLUE CLYDE 2 revendedores SPORTS COUPE SPORTS COUPE BLUE BLUE GLEASON CARR 3 2 SPORTS COUPE RED CLYDE 7 SPORTS COUPE RED GLEASON 5 SPORTS COUPE RED CARR 2 SPORTS COUPE WHITE CLYDE 4 SPORTS COUPE WHITE GLEASON 5 SPORTS COUPE WHITE CARR 1 SEDAN BLUE CLYDE 6 SEDAN BLUE GLEASON 4 SEDAN BLUE CARR 2 SEDAN RED CLYDE 1 SEDAN RED GLEASON 3 SEDAN RED CARR 4 SEDAN WHITE CLYDE 2 SEDAN WHITE GLEASON 2 SEDAN WHITE CARR 3 Asterio K. Tanaka
  • 8. Visão multidimensional Volume de Vendas M Mini Van O D Coupe E L Sedan Carr Gleason Clyde DEALERSHIP Blue Red White COLOR • O cubo é, de fato, apenas uma metáfora visual. • É uma representação intuitiva do fato porque todas as dimensões coexistem para todo ponto no cubo e são independentes umas das outras. Asterio K. Tanaka
  • 9. Adicionando Dimensões - Hipercubos Volume de Vendas M Mini Van Mini Van Mini Van O D Coupe Coupe Coupe E L Sedan Carr Gleason Sedan Carr Gleason Sedan Carr Gleason Clyde Clyde Clyde DEALERSHIP Blue Red White Blue Red White Blue Red White COLOR COLOR COLOR JANUARY FEBRUARY MARCH Asterio K. Tanaka
  • 10. Níveis nas dimensões ou Hierarquias Total de vendas Produto Dimensão: Brasil Alfa1 área NE SUL NO PE SE RS SC AC AM Dimensão: 7 34 23 45 62 56 150 tempo 14 23 92 73 23 234 abril 21 13 87 21 14 1996 29 34 maio 15 ….. 46 ….. 30 18 • Hierarquias são a base das agregações Asterio K. Tanaka
  • 11. Agregados Vendas Categoria Região Produto Trimestre XPTO ... XPTA Estado ES XPTN SP RJ ço bril aio... ar A M M Mês Asterio K. Tanaka
  • 12. Problemas Calcular os agregados no momento da recuperação ou armazená-los? A r m a zen a m en to T em po de X R es pos ta BD3 BD4 BD2 BD1 BD3 BD4 BD1 BD2 Asterio K. Tanaka
  • 13. A Síndrome da Explosão no Volume de Dados 70000 65536 Número de Agregações 60000 50000 40000 30000 20000 16384 10000 4096 0 16 64 256 1024 2 3 4 5 6 7 8 Número de Dimensões (4 níveis em cada dimensão) Asterio K. Tanaka
  • 14. Agregados • As hierarquias permitem que o usuário possa ter acesso a dados com maior ou menor detalhe • Os valores apresentados quando o analista consulta dados em níveis hierárquicos mais altos são valores agregados Asterio K. Tanaka
  • 15. Hierarquias e Agregados Produto Tempo Geografia Consultas Marca Ano País Vendas por Produto, Marca, Categoria Trimestre Região Trimestre Ano e eRegião Região Produto Mês Estado Asterio K. Tanaka
  • 16. Ferramentas OLAP • OLAP: On Line Analytical Processing – Conjunto de técnicas para tratar informações contidas em DW. – Visão Multidimensional dos Dados • Termo proposto por E.F. Codd, em 1993 – Providing OLAP to User-Analysts: An IT Mandate. • “Doze Regras de Codd” para ferramentas OLAP: – Visão conceitual multidimensional – Transparência – Acessibilidade – Desempenho de Informações consistentes – Arquitetura Cliente Servidor – Dimensionalidade genérica – Manipulação de dados dinâmicos – Suporte a multiusuários – Operações ilimitadas em dimensões cruzadas – Manipulação intuitiva de dados – Flexibilidade nas consultas – Níveis de dimensão e agregação ilimitados Asterio K. Tanaka
  • 17. “Doze Regras de Codd” para ferramentas OLAP • Visão conceitual multidimensional – Os dados são modelados em diversas dimensões podendo haver cruzamento de todos os tipos de informações • Transparência – OLAP deve atender a todas as solicitações do analista, não importando de onde os dados virão. Todas as implicações devem ser transparentes para os usuários finais. • Acessibilidade – As ferramentas OLAP devem permitir conexão com todas as bases de dados legadas. A distribuição de informações deve ser mapeada para permitir o acesso a qualquer base. • Desempenho de Informações consistentes – As ferramentas OLAP devem possuir conhecimento sobre todas as informações armazenadas que possa disponibilizar, sem complexidade para o usuário final, qualquer tipo de consulta. Asterio K. Tanaka
  • 18. “Doze Regras de Codd” para ferramentas OLAP • Arquitetura Cliente Servidor – OLAP deve ser construída em arquitetura C/S para que possa atender a qualquer usuário em qualquer ambiente operacional • Dimensionalidade genérica – Deve ser capaz de tratar informações em qualquer quantidade de dimensões • Manipulação de dados dinâmicos – Devido ao grande volume de informações armazenadas nas diversas dimensões de um modelo multidimensional, é comum a esparsidade dos dados, e então essas células nulas devem ser tratadas para evitar custos com memória. • Suporte a multiusuários – Nas grandes organizações, é comum vários analistas trabalharem com a mesma massa de dados. Asterio K. Tanaka
  • 19. “Doze Regras de Codd” para ferramentas OLAP • Operações ilimitadas em dimensões cruzadas – As ferramentas OLAP devem ser capazes de navegar nas diversas dimensões existentes. • Manipulação intuitiva de dados – O usuários devem ser capazes de manipular os dados livremente, sem necessitar de qualquer tipo de ajuda. • Flexibilidade nas consultas – O usuário deve ter a flexibilidade para efetuar qualquer tipo de consulta. • Níveis de dimensão e agregação ilimitados – Devido às várias dimensões existentes, deve haver vários níveis de agregação dos dados. Asterio K. Tanaka
  • 20. Operações OLAP • Ferramentas OLAP fornecem suporte para funções de análise de dados, típicas de aplicações avançadas de planilhas eletrônicas. • Operações dimensionais de ferramentas OLAP: – Slice and Dice (Ponto, Plano, Cubo) – Rotation (Rotação ou Pivotamento) – Drilling » Drill Down » Drill Across e Drill Through » Drill Up (Roll Up) – Ranking (Classificação por uma coluna) Asterio K. Tanaka
  • 21. Operadores Dimensionais • Ponto - Valor pontual – Interseção de valores (Fato) com relação aos eixos (Dimensões) • Plano – Slicing – Duas dimensões variando com outras fixas. • Cubo – Dicing – Todas as dimensões variando • Rotação – Pivotamento – Mudança dos eixos das dimensões, para fins de visualização – Vide tabelas dinâmicas no MS Excel Asterio K. Tanaka
  • 22. Operadores Drilling Drill-down Drill-up ou Roll-up Asterio K. Tanaka
  • 23. Operadores Drilling Drill Across Drill Through Asterio K. Tanaka
  • 24. Tipos de ferramentas OLAP • OLAP Multidimensional (MOLAP) – Utilizam estrutura de dados multidimensional e permitem a navegação pelos níveis de detalhamento em tempo real. – O BD e o SGBD são multidimensionais – Estrutura de dados é um array com um número fixo de dimensões. O (hiper)cubo é uma metáfora visual, onde as dimensões coexistem para todo ponto e são independentes entre si. • OLAP RELACIONAL (ROLAP) – Decorrência do uso consagrado de SGBDs relacionais nos BDs operacionais (transacionais), com as vantagens da tecnologia aberta e padronizada (SQL). – Utiliza os metadados no apoio à descrição do modelo de dados e na construção de consultas. Através de uma camada semântica acima do esquema relacional, os dados são apresentados ao usuário com visão multidimensional. • OLAP HÍBRIDO (HOLAP) – Tendência dos modernos SGBDs relacionais de adicionar uma arquitetura multidimensional para prover facilidades a ambientes de suporte a decisão. – Proporciona o desempenho e flexibilidade de um BD multidimensional e mantém a gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs relacionais. Asterio K. Tanaka
  • 25. Modelagem Multidimensional • Proposto por Ralph Kimball para projeto de DW – Dimensional Modeling Manifesto, 1997 – O próprio Kimball atribui a origem a um projeto conduzido por uma empresa (General Mills) e uma universidade (Dartmouth) nos anos 1960s. • Dominante no projeto de DW – Para Kimball, em todo o DW – Para Inmon, nos data marts • Características: – Distingue melhor as dimensões dos fatos medidos – Simplifica a visualização dimensional (essencial em consultas OLAP) – Na verdade é uma mistura de modelagem conceitual com modelagem lógica, pois já é bastante voltada para a abordagem relacional (a literatura fala sempre em tabelas) Asterio K. Tanaka
  • 26. Esquema Estrela Uma tabela de fatos cercada de tabelas de dimensões F a to Asterio K. Tanaka
  • 27. Esquema Estrela - Exemplo D im en s ã o P r oduto D im en s ã o T em po pk_produto F a to V en da s descricao pk_tempo categoria pk_tempo marca data pk_produto mes pk_loja quadrimestre preco_venda ano unidades_venda Flag_feriado preco_custo D im en s ã o L oja pk_loja nome_loja endereço cidade estado Asterio K. Tanaka
  • 28. Exemplo Consultas “Vendas por categoria de produto sobre os últimos seis meses” “Vendas por marca entre 1990 e 1995” Dimensão Loja Colunas da chave composta ligando a tabela de fatos às tabelas de dimensão Medidas Numéricas pk_tempo pk_produto pk_loja preco_venda unidades_venda preco_custo Dimensão Produto Tabelas Dimensão Tempo Tabela de Fatos de Dimensão ... Asterio K. Tanaka
  • 29. Consulta SQL sobre um esquema estrela select Qtd Vendida [Loja].[NomeLoja], [Tempo].[DataCompleta], [Produto].[Descricao], de cada Produto Sum( [Vendas].[Unidades_Venda]) as Total por Loja e from [Vendas], [Tempo], [Produto], [Loja] por Data where [Vendas].[CodTempo] = [Tempo].[CodTempo] and [Vendas].[CodProduto] = [Produto].[CodProduto] and [Vendas].[CodLoja] = [Loja].[CodLoja] group by [Loja].[NomeLoja], [Tempo].[DataCompleta], [Produto].[Descricao] order by [Tempo].[DataCompleta], [Loja].[NomeLoja], [Produto].[Descricao] Asterio K. Tanaka
  • 30. Resultados NomeLoja DataCompleta Descricao Total ================================================ East Loja Oct 1, 1994 Athletic Drink 57 East Loja Oct 1, 1994 Beef Stew 128 East Loja Oct 1, 1994 Buffalo Jerky 202 East Loja Oct 1, 1994 Chicken Dinner 161 East Loja Oct 1, 1994 Clear Refresher 73 East Loja Oct 1, 1994 Dried Grits 102 East Loja Oct 1, 1994 Dry Tissues 16 East Loja Oct 1, 1994 Extra Nougat 442 East Loja Oct 1, 1994 Fizzy Classic 46 East Loja Oct 1, 1994 Fizzy Light 65 East Loja Oct 1, 1994 Lasagna 162 East Loja Oct 1, 1994 Lots of Nuts 248 East Loja Oct 1, 1994 Onion Slices 120 Asterio K. Tanaka
  • 31. Esquema Estrela de DW 5 W e 3 H (vide BPM) When Where How many What Why How much Who How Tipos de dimensão mais comuns Asterio K. Tanaka
  • 32. Esquema estrela com tabela de fatos Estoque e dimensões Produto, Loja e Data Asterio K. Tanaka
  • 33. Esquema estrela com tabela de fatos Itens e dimensões Produto, Promoção, Atendente, Loja e Data Asterio K. Tanaka
  • 34. Esquema estrela (constelação) com tabelas de fatos Itens e Estoque. As dimensões Produto, Loja e Data são compartilhadas e “conformadas” Asterio K. Tanaka
  • 35. Modelagem Dimensional • Esquema Estrela é simétrico – Comparado a esquemas ER típicos • Tabela de Fatos – Expressa relacionamento M:N entre dimensões – Tabela dominante » Usualmente com grande volume de dados; ocupam 90% do espaço em um DW típico » Tendem a ter muitas linhas e poucas colunas • Tabelas de Dimensões – Tabelas que “qualificam” os fatos, com muitos campos descritivos (é comum ter dimensões com dezenas de colunas) – Dimensões apresentam-se em consultas qualificadas como “por dimensão” (vendas “por semana” “por marca” “por loja”) e são as bases para agregações e agrupamentos. – Uma junção liga cada tabela de dimensão à tabela de fatos – Volume bem menor que as tabelas de fatos – O poder de um DW é diretamente proporcional à qualidade e profundidade dos atributos das dimensões. Asterio K. Tanaka
  • 36. (Mais uma) Comparação entre Modelagem ER e Multidimensional ER Multidimensional 1 diagrama (vários processos de Vários diagramas dimensionais negócio) (1 para cada processo de negócio) Usuários acham difícil entender e Usuários reconhecem “o seu navegar pelo modelo negócio” Muitas junções para responder a Poucas junções consultas Dados atômicos Dados atômicos e agregados Planos de consultas extremamente Planos de consultas “genéricos” distintos e específicos para as (simetria do modelo) consultas previstas Asterio K. Tanaka
  • 37. Tabela de Fatos Ex: Tabelas Itens e Estoque • Tabela de fatos normalizada em 3a forma normal • Chave primária composta por um subconjunto das chaves das dimensões (subconjunto que garanta unicidade – às vezes todas as chaves) – Vide por exemplo a tabela Itens, se houvesse uma dimensão CupomFiscal (bastariam as chaves de CupomFiscal e de Produto como chave primária) • Por ser o DW histórico, a tabela de fatos tem muitas linhas (milhões, bilhões) e poucas colunas (chaves das dimensões e medidas dos fatos). • Medidas do fatos são usualmente numéricas, mas podem ser não numéricas ou sem medida (tabelas sem fato) • Fatos são tipicamente aditivos, mas podem ser – Semi-aditivos ou mesmo Não aditivos Asterio K. Tanaka
  • 38. Fatos Aditivos Ex: Quantidade, Valor na Tabela Itens • São númericos e podem ser somados em relação às dimensões existentes – Ex: quantidade e valor podem ser somados ao longo de qualquer dimensão (Produto, Promoção, Atendente, Loja e Data) • Sempre que, em uma modelagem, um dado numérico for apresentado, então este será um bom indício de um atributo em fatos. • Em geral, fatos aditivos representam medidas de atividade do negócio, ligadas ao seus indicadores de desempenho (KPI – Key performance indicators). Asterio K. Tanaka
  • 39. Fatos Semi-Aditivos Ex: Quantidade na Tabela Estoque • Também são numéricos, mas não podem ser somados em relação a todas as dimensões existentes (a semântica não permite) – Ex: quantidade em estoque só pode ser somada ao longo da dimensão Produto. Nas dimensões Loja e Data, a soma não faria muito sentido (especialmente nesta última, nenhum sentido) • Em geral, fatos semi-aditivos representam leituras medidas de intensidade do negócio. – São snapshots destas leituras que entram no DW. – O valor atual já leva em consideração valores passados. • Fatos semi-aditivos típicos: Níveis de Estoque, Saldos, Fechamento diário/mensal de conta, etc... Asterio K. Tanaka
  • 40. Fatos Não-Aditivos • Algumas observações não numéricas podem eventualmente ser fatos. – Ex: DW de registro de acidentes de trânsito » Atributos: carro1, carro2, motorista1, motorista2, descrição do acidente, descrição do tempo e descrição da pista. • Informações textuais são fatos que só permitem contagem e estatísticas associadas a contagens. Alternativamente, poderiam ser modeladas como dimensões ligadas a uma tabela de fatos “sem fatos”, isto é, só para contagem. – Ex: DW de registro de inscrições em turmas por disciplina, por semestre, por curso, por aluno, por professor. Asterio K. Tanaka
  • 41. Tabelas de Dimensões • Objetivo: – Contém descrições textuais do negócio (fato) – Atributos de dimensões servem como cabeçalho das linhas e colunas das análises e filtro nas consultas e relatórios • Características: – Chaves simples (em geral, artificiais: “surrogate keys”) » Números inteiros de 4 bytes: 232 > + 2 bilhões – Muitas colunas (dezenas); poucas linhas (centenas ou milhares) se comparadas com tabelas de fatos – Usualmente não dependente do tempo » Tempo é outra dimensão (quase sempre presente) – Desnormalizada (em geral, na 2a forma normal) – Hierarquias implícitas (à custa da 3a forma normal) Asterio K. Tanaka
  • 42. Dívida: Segunda forma normal • Informalmente: – Uma relação está em 2FN se todo atributo não-primo (isto é, que não seja membro de chave) for totalmente dependente de qualquer chave. Tabela Estoque_2 Tabela Estoque_1 não está em 2FN está em 2FN. Na Loja_Codigo → {Nome_Loja, Dados_Loja} Produto_Codigo → {Nome_Produto, Dados_Produto} verdade, está também em 3FN Em geral, as tabelas de fatos são normalizadas em 3FN Asterio K. Tanaka
  • 43. Dívida: Terceira forma normal • Informalmente: – Uma relação está em 3FN se estiver em 2FN e nenhum atributo não-primo (isto é, que não seja membro de uma chave) for transitivamente dependente da chave. Tabela Produto_1 não está em 3FN Tabela Produto_2 Codigo → Marca_Codigo está em 3FN. Marca_Codigo → Dados_Marca Num esquema estrela, as tabelas de dimensões não são normalizadas em 3FN; estão apenas em Asterio K. Tanaka 2FN.
  • 44. Hierarquias de Dimensões • Uma dimensão pode ter múltiplas hierarquias além de outros atributos descritivos • Exemplos: – Para a dimensão Loja » Geografia física: CEP, cidade, estado, região, país » Geografia de vendas: território, região, zona » Geografia de distribuição: área primária, região – Para a dimensão Produto » Hierarquia de Marcas » Hierarquia de Categorias » Hierarquia de Tipo de Armazenamento Asterio K. Tanaka
  • 45. Tabelas de Dimensão Segundo KIMBALL, as tabelas de dimensão não devem ser normalizadas pois: 1) não há atualização freqüente nas bases; 2) o espaço em disco economizado é relativamente pequeno; 3) esse ganho de espaço não justifica a perda de performance na realização de consultas por conta das junções necessárias em caso de normalização. Asterio K. Tanaka
  • 46. Variações do Esquema Estrela Esquema floco de neve • O esquema floco de neve é uma variação do esquema estrela no qual todas as tabelas dimensão são normalizadas na terceira forma normal (3FN) • Reduzem a redundância mas aumentam a complexidade do esquema e consequentemente a compreensão por parte dos usuários • Dificultam as implementações de ferramentas de visualização dos dados Asterio K. Tanaka
  • 47. Esquema Floco de Neve Dimensões normalizadas Fatos como no Esquema estrela Asterio K. Tanaka
  • 48. Esquema Flocos de Neve - Exemplo Ano Ano M ês T a bela de F a tos T em po P r oduto Mês D e V en da s Ano pk_tempo pk_produto … data pk_tempo descProd mês Categoria pk_produto L oja pk_loja Cida de Pk_loja Cidade Cidade Estado Unidades_vendidas E s ta do Estado Preco_venda País P a ís Preco_custo País Região M edida s Asterio K. Tanaka
  • 49. Mitos sobre Modelagem Dimensional 1. Modelos dimensionais e Data Marts são para dados sumarizados somente 2. Modelos dimensionais e Data Marts são soluções departamentais, não empresariais 3. Modelos dimensionais e Data Marts não são escaláveis 4. Modelos dimensionais e Data Marts são apropriados somente quando há um padrão de uso previsível 5. Modelos dimensionais e Data Marts não podem ser integrados e levam a soluções isoladas • Ralph Kimball; Margy Ross. The Data Warehouse Toolkit. John Wiley, 2002 – Cap. 1 • Margy Ross & Ralph Kimball Fables and Facts: Do you know the difference between dimensional modeling truth and fiction? Oct 2004 http://www.intelligententerprise.com/showArticle.jhtml?articleID=49400912 Asterio K. Tanaka
  • 50. Data Warehouse Bus Architecture Definindo um barramento padrão para o ambiente de DW, data marts separados podem ser implementados por grupos diferentes em tempos diferentes. Todos os processos da cadeia de valores da organização criarão uma família de modelos dimensionais que compartilham um conjunto completo de dimensões comuns e conformadas. Asterio K. Tanaka
  • 51. Data Warehouse Bus Matrix COMMON DIMENSIONS Ven ouse W a tion Sh i c t r St o t Co r duc p pe nt r a re h mo do re te BUSINESS PROCESSES Pro Pro Da Store Sales X X X X Store Inventory X X X Store Deliveries X X X Warehouse Inventory X X X X Warehouse Deliveries X X X X Purchase Orders X X X X X X As linhas da matriz correspondem a data marts e as colunas a dimensões conformadas. A matriz é a ferramenta usada para criar, documentar, gerenciar e comunicar a arquitetura de barramento. Segundo Kimball, é o artefato de análise mais importante do desenvolvimento de um DW. É uma ferramenta híbrida, que serve para design técnico, para gerência de projeto e como forma de comunicação organizacional. Asterio K. Tanaka
  • 52. Quatro Passos da Modelagem Dimensional 1. Selecionar o processo de negócio a modelar • Um processo é uma atividade de negócio natural da organização que tipicamente é suportada por um sistema fonte de coleções de dados. • Exemplos: vendas, compras de matéria prima, pedidos, expedições, faturamento, inventário, contas a pagar/receber. 2. Declarar o grão do processo de negócio • Significa especificar exatamente o que uma linha da tabela fato representa. • Exemplos: uma linha de um cupom fiscal, um cartão de embarque individual, um nível diário de estoque de cada produto, um saldo mensal de cada conta bancária. 3. Escolher as dimensões que se aplicam a cada linha da tabela de fatos • Implica em responder à pergunta: “Como o pessoal do negócio descreve os dados que resultam do processo de negócio?” • Exemplos: data, produto, cliente, tipo de transação, status de pedido. 4. Identificar os fatos que irão popular cada linha da tabela de fatos • Implica em responder à pergunta: “O que nós estamos medindo?” Os fatos candidatos devem ser coerentes com o grão declarado no passo 2. • Exemplos: quantidade, valor. Asterio K. Tanaka
  • 53. Quatro Passos da Modelagem Dimensional Requisitos do negócio 1. Processo de negócio 2. Grão 3. Dimensões 4. Fatos Realidade dos dados Asterio K. Tanaka
  • 54. Dicas importantes na Modelagem Dimensional • Resista à tentação de simplesmente examinar as fontes de dados somente: não há substituto para o input dos usuários do negócio. • Caso exista, use um modelo de dados convencional E-R como ponto de partida para o trabalho de modelagem dimensional. – Observe os relacionamentos 1:N existentes. Eles podem sugerir dimensões. – Observe as entidades fortes. Elas também podem sugerir dimensões. – Observe as entidades que expressam documentos como Nota Fiscal, Pedido, Ordem de Compra, etc. Elas podem sugerir fatos. – Observe os relacionamentos M:N. Na sua interseção, pode haver valores numéricos. Isto sugere fatos. – Observe os atributos que estarão nas tabelas de dimensões. Analise a relação de hierarquias entre esses atributos de dimensão. Atente para os relacionamentos M:N entre eles. Isto pode definir granularidade. Asterio K. Tanaka
  • 55. Dicas importantes na Modelagem Dimensional • As tabelas FATOS, tipicamente, armazenam dados, valores atômicos ou agregados obtidos a partir destes. • As medidas das tabelas FATOS são normalmente aditivas em certas dimensões (ou em todas). • As tabelas FATOS possuem chaves que as conectam às diferentes DIMENSÕES que as circundam. Essa conexão se dá num nível de granularidade compatível entre elas (FATO e DIMENSÃO). • As tabelas DIMENSÃO armazenam os valores de filtro, acesso e textos que caracterizam os dados trabalhados. • As tabelas FATOS são normalmente normalizadas (3a forma normal). • As tabelas DIMENSÕES são normalmente desnormalizadas (2a forma normal - Esquema Estrela). • A granularidade combinada da tabela FATO com a de suas tabelas DIMENSÕES determina o número de linhas das tabelas do projeto. Asterio K. Tanaka
  • 56. Modelo Entidades Relacionamentos Asterio K. Tanaka
  • 57. Exemplo de Modelagem 1. Selecionar o processo de negócio • Vendas no caixa da loja 2. Declarar o grão • Venda individual de cada produto por loja (isto é, uma linha de cada cupom fiscal de venda) 3. Escolher as dimensões • Dimensões principais • Data, Produto, Loja • Outras dimensões descritivas relevantes possíveis (compatíveis com o grão escolhido) • Promoção, Atendente 4. Identificar os fatos • Quantidade e Valor de cada venda Asterio K. Tanaka
  • 58. Exemplo: esquema resultante Asterio K. Tanaka
  • 59. Dez Armadilhas a evitar no projeto de DW (a maioria válida para qualquer projeto de sistema) 1. Negligenciar o reconhecimento de que o sucesso do DW está amarrado à aceitação do usuário. 2. Presumir que o negócio, seus requisitos e análises, assim como os dados subjacentes e a tecnologia, são estáticos. 3. Carregar somente dados sumarizados nas estruturas dimensionais da área de apresentação. 4. Popular modelos dimensionais de forma isolada, sem levar em conta a arquitetura que os amarra juntos usando dimensões compartilhadas e conformadas 5. Tornar os dados supostamente consultáveis na área de apresentação desnecessariamente complexos. Asterio K. Tanaka
  • 60. Dez Armadilhas a evitar no projeto de DW (a maioria válida para qualquer projeto de sistema) 6. Prestar mais atenção no desempenho operacional e na facilidade de desenvolvimento do “back-room” do que no desempenho de consultas e facilidade de uso do “front-room”. 7. Alocar energia para construir uma estrutura de dados normalizada, mesmo estourando o orçamento, do que para construir um área de apresentação viável baseada no modelo dimensional. 8. Atacar um projeto galático plurianual ao invés de perseguir esforços de desenvolvimento mais gerenciáveis, porém ainda desafiadores e iterativos. 9. Falhar em identificar e adotar uma gerência influente, acessível e razoavelmente visionária como patrocinador do negócio. 10.Tornar-se enamorado da tecnologia e dos dados ao invés de focar nos requisitos e objetivos do negócio. Asterio K. Tanaka
  • 61. Projeto de Data Warehouse = Projeto de Bancos de Dados Requisitos de Dados Modelagem dos requisitos de dados através de diagramas de Entidades e Relacionamentos (DER) ou de Projeto Classes e Objetos (DCO) Conceitual Esquema Conceitual Mapeamento do esquema conceitual para o modelo de dados do SGBD Projeto escolhido, através de diagrama de estruturas de dados (DED) Lógico Esquema Lógico Mapeamento do esquema lógico para os tipos de dados e restrições de Projeto integridade do SGBD escolhido; Físico criação de visões e índices. Esquema Físico Asterio K. Tanaka
  • 62. Esquema Estrela - Conceitual Asterio K. Tanaka
  • 63. Esquema Estrela - Lógico Asterio K. Tanaka
  • 64. Implementação do Modelo Dimensional • SGBDs multidimensionais – Implementam fisicamente o modelo dimensional – Problemas de desempenho, segurança e confiabilidade – Problema de esparsidade: células onde não há dados (nulos) • SGBDs relacionais – Maior aceitação (força do mercado de BD relacional) – Exige mapeamento (como qualquer projeto de BD relacional) Asterio K. Tanaka
  • 65. Escolha do SGBD Asterio K. Tanaka
  • 66. Esquema Estrela - Físico (Dimensional) Asterio K. Tanaka