O documento descreve as definições, objetivos, características e aplicações de Data Warehouse e Data Mining. Define Data Warehouse como uma coleção de dados integrados e não voláteis para apoiar a tomada de decisão e Data Mining como técnicas estatísticas e de inteligência artificial aplicadas à análise de grandes volumes de dados.
1. UNIVERSIDADE DO ESTADO DO AMAPÁ
ENGENHARIA DE PRODUÇÃO
ACADÊMICOS: JADDY OLIVEIRA; JEORGE SILVA; LUAN FELIPE;
MARLUCIA SANTOS; ROSINALDO MONTEIRO
2. DEFINIÇÃO
Data Warehouse (DW) pode ser definido
como uma coleção de dados, orientados por
assunto, integrados, variáveis com o tempo e
não voláteis, para dar suporte ao processo de
tomada de decisão.
3. OBJETIVOS
Criar uma visão única e centralizada dos
dados que estavam dispersos em diversos
Bancos de Dados;
Permitir que usuários finais executem
consultas, gerem relatórios e façam análises.
Permitir um maior desempenho e menor
custo de espaço para o armazenamento de
dados.
4. Extract-Transform-Load (ETL)
Uma das características de um DW é que
antes dos dados serem armazenados eles
passam por um processo de extração, tradução,
filtragem e integração com os dados relevantes
já contidos no DW.
5. Extrair dados das mais diversas fontes de
dados, garantir a qualidade de dados e padrões
de consistência, traduzir dados de forma que
fontes distintas possam ser usadas juntas, e
finalmente a entrega de dados em um formato
de apresentação pronto de forma que
desenvolvedores de aplicação possam construir
aplicativos aos usuários finais encarregados de
tomar decisões (KIMBALL e CASERTA, 2004) .
7. Orientado por assunto:
O DW está orientado em torno do
principal assunto da organização,
armazenando informações agrupadas por
assuntos de interesse da empresa que são
considerados mais importantes, sendo estes
chamados de processos de negócio de um
empreendimento.
8. Integrado:
Num DW os dados devem ser transformados
em formatos comuns de medida referência e
armazenamento para que possam ser
aproveitados.
Por exemplo, considere-se sexo como um
elemento de dado. Uma aplicação pode codificar
sexo como M/F, outra como 1/0 e uma terceira
como H/M. Assim, conforme os dados são trazidos
para o DW, eles serão convertidos para um estado
uniforme.
9. Variável no tempo:
Os dados de um DW são precisos em
relação ao tempo e representam resultados
operacionais do momento em que foram
capturados. A cada mudança, uma nova
entrada é criada, ou seja, os dados não são
atualizáveis.
10. Não volátil:
Após serem integrados e transformados,
os dados são carregados em bloco para o DW,
para que estejam disponíveis aos usuários para
acesso, possibilitando realizar apenas consultas
e geração de relatórios necessários à tomada
de decisão, não permitindo, portanto
atualizações nos mesmos.
11. BD OPERACIONAL DATA WAREHOUSE
USUÁRIOS Funcionários Alta Administração
UTILIZAÇÃO Tarefas cotidianas Decisões estratégicas
PADRÃO DE USO Previsível Difícil de prever
PRINCÍPIOS DE
FUNCIONAMENTO
Com base em
transações
Com base em análise
de dados
VALORES DOS
DADOS
Valores atuais e
voláteis
Valores históricos e
imutáveis
DETALHAMENTO Alto Sumarizado
ORNIGANIZAÇÃO
DOS DADOS
Orientado a
aplicações
Orientado a assunto
BD OPERACIONAL X DW
12. PRINCIPAL FERRAMENTA
OLAP- Online Analytical Processing (Processo
Analítico emTempo Real)
Sistema de armazenamento de dados agregados
com capacidade para manipular e analisar um grande
volume de dados sob múltiplas perspectivas. As
aplicações OLAP são usadas pelos gestores em
qualquer nível da organização, permitindo análises
comparativas que facilitam a tomada de decisões
diárias.
13. Benefícios do OLAP
Fornece às organizações um método de
acessar, visualizar e analisar os dados
corporativos com alta flexibilidade e
desempenho.
Dessa forma, usuários finais podem
rapidamente analisar inúmeros cenários, gerar
relatórios, e descobrir tendências e fatos
relevantes, independentemente do tamanho,
complexidade e fonte dos dados corporativos.
14. Modelo de dados OLAP
A informação é conceitualmente organizada
em cubos que armazenam valores quantitativos
ou medidas. As medidas são identificadas por
duas ou mais dimensões (categorias descritivas)
que formam a estrutura de um cubo (Data
Marts). Uma dimensão pode ser qualquer visão
do negócio que faça sentido para sua análise,
como produto, departamento , região ou tempo.
15. Aplicações do OLAP
Finanças
Análise de L&P, Relatórios L&P, Orçamento, Análise de
Balanço, Fluxo de Caixa, Contas a Receber.
Vendas
Análise de vendas (por região, produto, vendedor, etc.),
Previsões, Lucratividade de Cliente/Contrato, Análise de
Canais de Distribuição.
Marketing
Análise de Preço/Volume, Lucratividade de Produto, Análise
de Mercados.
Recursos
Humanos
Análise de Benefícios, Projeção de Salários, Análise de
"Headcount".
Manufatura
Gerência de Estoque, Cadeia de Fornecimento,
Planejamento de Demanda, Análise de custos de matéria-
prima.
16. FASES DE IMPLEMENTAÇÃO DE UM DW
1ª - Definição da Infraestrutura: o BD projetado deverá
suportar o alto crescimento de dados, consultas
complexas e não previstas, diversidade de integração,
diferentes tipos de tecnologias etc.
2ª - Levantamento dos dados: Identificação dos dados
que deverão ser extraídos dos sistemas transacionais.
Em seguida, estes serão integrados e testados para que
se verifique se há distorções neles.
17. 3ª - Modelagem: Iniciação da modelagem para
armazenamento no DW.
4ª - Extração de dados: extração de dados dos sistemas
transacionais no formato adequado para importação no
DW.
5ª - Modelagem multidimensional: onde serão
desenvolvidos os cubos, definindo as visões
multidimensionais nas ferramentas OLAP.
6ª - Análise dos resultados: o analista de suporte a
decisão com o apoio do arquiteto do DW, poderão
identificar falhas no processo de extração, validando ou
não as informações contidas no DW.
18. 7ª - Visões pré-definidas: disponibilização de visões
direcionadas e, frequentemente, extraídas do DW,
através de relatórios.
8ª - Segurança da informação: trata de quem
pode, quem deve, como pode e por onde as
informações devem ser consultadas.
9ª - Administração: estará voltada para o banco de
dados, verificando a integridade, o desempenho e o
volume de dados. Deve-se ter atenção especial para
os cubos, das ferramentas OLAP.
19. APLICAÇÕES DE UM DW
US West – empresa americana com sede em Denver
(EUA), provedora de serviços de telecomunicações.
Em meados da dec. de 90, implantou um DW, para
facilitar o acesso dos funcionários.
Sears Roebuck and Company - maior rede de lojas
de departamentos dos EUA. Criou um DW para
armazenar os dados provenientes das vendas,
substituindo os seus 18 BDs que continham muitos
dados redundantes, obsoletos e até contraditórios.
20. DEFINIÇÃO
É um conjunto de técnicas de estatística e
inteligência artificial aplicadas à análise de
grandes volumes de dados, para dar subsídio à
tomada de decisões.
21. OBJETIVOS
O objetivo principal do Data Mining (DM) é
extrair as informações valiosas contidas nos
dados, ou seja, fazer uma “mineração de
dados”.
22. PRINCIPAIS CARACTERÍSTICAS
Estatística Clássica: É a base da maioria das
tecnologias a partir da qual o DM é
construído.
Inteligência Artificial (IA): Tenta imitar a
maneira como o homem pensa na resolução
dos problemas estatísticos.
Machine Learning: Tenta fazer com que os
programas de computador “aprendam” com
os dados que eles estudam.
23. PRINCIPAIS FERRAMENTAS
Redes neurais: Sistemas computacionais
baseados numa aproximação à computação
baseada em ligações.
Indução de regras: Refere-se à detecção de
tendências dentro de grupos de dados, ou de
“regras” sobre o dado.
24. Árvores de decisão: Baseiam-se numa análise
que trabalha testando automaticamente todos
os valores do dado.
Análise de séries temporais: Interpreta os
resultados dos modelos de forma especializada.
Visualização: Mapeia o dado sendo minerado
de acordo com dimensões especificadas.
25. FASES DE IMPLEMENTAÇÃO DE UM DM
1ª - Entendimento do negócio: Tem por
objetivo identificar as metas e requerimentos e
então convertê-las para uma aplicação de DM.
2ª - Entendimento dos dados: Extração de uma
amostra dos dados e avaliação do ambiente em
que os mesmos se encontram.
3ª - Preparação dos dados: Criação de
programas de extração, limpeza e
transformação dos dados.
26. FASES DE IMPLEMENTAÇÃO DE UM DM
4ª - Modelagem: Seleção do algoritmo a ser
utilizado e efetivo processamento do modelo.
5ª - Avaliação do modelo: Avaliação de vários
modelos pelo analista responsável.
6ª - Publicação: Criação e validação do modelo.
27. APLICAÇÕES DE UM DM
Para Assistência Médica;
Em Ciência eTecnologia;
Para o Poder Judiciário;
Para Bancos deVarejo.