SlideShare una empresa de Scribd logo
1 de 46
Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
Custo de armazenamento Poder de armazenamento Bancos de dados  Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004].  Introdução
Visão Geral
KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
Histórico Visão Geral
Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
Etapa para extrações das informações(KDD)
Limpeza dos dados:  Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas.  Integração dos dados:  Unificação de todas as fontes de dados em uma única e consolidada fonte.  Etapa para extrações das informações
Seleção dos dados:  selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
Etapas 1 – 4:  Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
Etapa para extrações das informações
Tarefas de Mineração
Tarefas de mineração
Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais:  p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
Técnicas para Mineração
Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada  Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
Ferramentas de Mineração de Dados
Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
Exemplo Clássico
O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo 	@attributeoutlook {sunny, overcast, rainy} 	@attributetemperaturereal%Atributo e tipo 	@attributehumidity real 	@attributewindy {TRUE, FALSE} 	@attribute play {yes, no} 	@data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão  <=75  >75
Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny |   humidity <= 75: yes (2.0) |   humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy |   windy = TRUE: no (2.0) |   windy = FALSE: yes (3.0) NumberofLeaves  : 	5 Sizeofthetree : 	8
Algoritmo para minerar regras de associação. Weka + Apriori 	IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não  IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim	IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
Weka - Apriori Best rules found:  1.temperature=cool humidity=normal windy=FALSE     ==> play=yes 		conf:(1)  2. temperature=cool windy=FALSE play=yes   	  ==> humidity=normal     conf:(1)  3. outlook=overcast temperature=hot windy=FALSE  ==> play=yes     conf:(1)  4. temperature=cool windy=FALSE   	==> humidity=normal play=yes     conf:(1)  5. outlook=rainy temperature=mild windy=FALSE  ==> play=yes     conf:(1)
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
Áreas de Aplicação
Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros
Conclusão
Obrigado Perguntas?

Más contenido relacionado

La actualidad más candente

Pesquisa de Marketing
Pesquisa de MarketingPesquisa de Marketing
Pesquisa de MarketingSilvia Pahins
 
Criação de tabelas com HTML
Criação de tabelas com HTMLCriação de tabelas com HTML
Criação de tabelas com HTMLLeonardo Soares
 
Aula 02 evolução historica sistemas de informação - db
Aula 02   evolução historica sistemas de informação - dbAula 02   evolução historica sistemas de informação - db
Aula 02 evolução historica sistemas de informação - dbDaniela Brauner
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoRademaker Siena
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dadosvini_campos
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados ConceitosCleber Ramos
 
Aula 04 - Pesquisa de mercado - Prof. Rodrigo Sávio
Aula 04 - Pesquisa de mercado - Prof. Rodrigo SávioAula 04 - Pesquisa de mercado - Prof. Rodrigo Sávio
Aula 04 - Pesquisa de mercado - Prof. Rodrigo SávioRodrigo Sávio
 
Implantando a governança de ti
Implantando a governança de tiImplantando a governança de ti
Implantando a governança de tiSilvino Neto
 
Seminário Plano de Negócios
Seminário Plano de NegóciosSeminário Plano de Negócios
Seminário Plano de NegóciosRenato Bafi
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosRafael Albani
 
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIG
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIGAdministração Sistemas de Informação - Sistema de Informações Gerenciais – SIG
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIGCursos Profissionalizantes
 
Segurança da Informação
Segurança da InformaçãoSegurança da Informação
Segurança da InformaçãoFábio Ferreira
 
Fundamentos de banco de dados 01 indrodução
Fundamentos de banco de dados   01 indroduçãoFundamentos de banco de dados   01 indrodução
Fundamentos de banco de dados 01 indroduçãoRafael Pinheiro
 
Planejamento estratégico francisco
Planejamento estratégico   franciscoPlanejamento estratégico   francisco
Planejamento estratégico franciscoFrancisco Alves
 
Sistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosSistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosClaudio Barbosa
 
Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Soraia Lima
 
Histórico e evolução da internet 6
Histórico e evolução da internet 6Histórico e evolução da internet 6
Histórico e evolução da internet 6Julia Teobaldo
 
PESQUISA DE MERCADO
PESQUISA DE MERCADOPESQUISA DE MERCADO
PESQUISA DE MERCADONayara Lopes
 
Sistemas de Gestão de Bases de Dados
Sistemas de Gestão de Bases de DadosSistemas de Gestão de Bases de Dados
Sistemas de Gestão de Bases de DadosClara Ferreira
 

La actualidad más candente (20)

Pesquisa de Marketing
Pesquisa de MarketingPesquisa de Marketing
Pesquisa de Marketing
 
Criação de tabelas com HTML
Criação de tabelas com HTMLCriação de tabelas com HTML
Criação de tabelas com HTML
 
Aula 02 evolução historica sistemas de informação - db
Aula 02   evolução historica sistemas de informação - dbAula 02   evolução historica sistemas de informação - db
Aula 02 evolução historica sistemas de informação - db
 
Mer - Modelo Entidade Relacionamento
Mer - Modelo Entidade RelacionamentoMer - Modelo Entidade Relacionamento
Mer - Modelo Entidade Relacionamento
 
1.Introdução Banco de Dados
1.Introdução Banco de Dados1.Introdução Banco de Dados
1.Introdução Banco de Dados
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados Conceitos
 
Sistemas de Informação
Sistemas de InformaçãoSistemas de Informação
Sistemas de Informação
 
Aula 04 - Pesquisa de mercado - Prof. Rodrigo Sávio
Aula 04 - Pesquisa de mercado - Prof. Rodrigo SávioAula 04 - Pesquisa de mercado - Prof. Rodrigo Sávio
Aula 04 - Pesquisa de mercado - Prof. Rodrigo Sávio
 
Implantando a governança de ti
Implantando a governança de tiImplantando a governança de ti
Implantando a governança de ti
 
Seminário Plano de Negócios
Seminário Plano de NegóciosSeminário Plano de Negócios
Seminário Plano de Negócios
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
 
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIG
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIGAdministração Sistemas de Informação - Sistema de Informações Gerenciais – SIG
Administração Sistemas de Informação - Sistema de Informações Gerenciais – SIG
 
Segurança da Informação
Segurança da InformaçãoSegurança da Informação
Segurança da Informação
 
Fundamentos de banco de dados 01 indrodução
Fundamentos de banco de dados   01 indroduçãoFundamentos de banco de dados   01 indrodução
Fundamentos de banco de dados 01 indrodução
 
Planejamento estratégico francisco
Planejamento estratégico   franciscoPlanejamento estratégico   francisco
Planejamento estratégico francisco
 
Sistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e EstratégicosSistemas Transacionais, Gerenciais e Estratégicos
Sistemas Transacionais, Gerenciais e Estratégicos
 
Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)Lei Geral de Proteção aos Dados (LGPD)
Lei Geral de Proteção aos Dados (LGPD)
 
Histórico e evolução da internet 6
Histórico e evolução da internet 6Histórico e evolução da internet 6
Histórico e evolução da internet 6
 
PESQUISA DE MERCADO
PESQUISA DE MERCADOPESQUISA DE MERCADO
PESQUISA DE MERCADO
 
Sistemas de Gestão de Bases de Dados
Sistemas de Gestão de Bases de DadosSistemas de Gestão de Bases de Dados
Sistemas de Gestão de Bases de Dados
 

Similar a Data Mining: Visão Geral e Técnicas

Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)Jéssica Góis Scala
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESSelliando dias
 
Data warehousing
Data warehousingData warehousing
Data warehousingacistec
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Marcos Vinicius Fidelis
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business IntelligenceDouglas Scheibler
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDBBrunno Gomes
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Fabrício Barth
 

Similar a Data Mining: Visão Geral e Técnicas (20)

Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Data mining
Data miningData mining
Data mining
 
Data Mining (mineração de dados)
Data Mining (mineração de dados)Data Mining (mineração de dados)
Data Mining (mineração de dados)
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Regras de Produção: o Motor de Inferência JESS
Regras de Produção:o Motor de Inferência JESSRegras de Produção:o Motor de Inferência JESS
Regras de Produção: o Motor de Inferência JESS
 
Data warehousing
Data warehousingData warehousing
Data warehousing
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Mineração
MineraçãoMineração
Mineração
 
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
Pentaho Data Mining - FTSL - Fórum de Tecnologia de Software Livre - Serpro -...
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
DP-900-BR-01.pptx
DP-900-BR-01.pptxDP-900-BR-01.pptx
DP-900-BR-01.pptx
 
Bi microsoft & pentaho
Bi microsoft & pentahoBi microsoft & pentaho
Bi microsoft & pentaho
 
Mongodb workshop cinlug
Mongodb workshop cinlugMongodb workshop cinlug
Mongodb workshop cinlug
 
DDD > Experiências
DDD > ExperiênciasDDD > Experiências
DDD > Experiências
 
Entendo Business Intelligence
Entendo Business IntelligenceEntendo Business Intelligence
Entendo Business Intelligence
 
Mini-Curso de MongoDB
Mini-Curso de MongoDBMini-Curso de MongoDB
Mini-Curso de MongoDB
 
Big data
Big dataBig data
Big data
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 

Más de Eduardo de Lucena Falcão

Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaEduardo de Lucena Falcão
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSEduardo de Lucena Falcão
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Eduardo de Lucena Falcão
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchEduardo de Lucena Falcão
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídosEduardo de Lucena Falcão
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoEduardo de Lucena Falcão
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...Eduardo de Lucena Falcão
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...Eduardo de Lucena Falcão
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Eduardo de Lucena Falcão
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresEduardo de Lucena Falcão
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASEduardo de Lucena Falcão
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaEduardo de Lucena Falcão
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I Eduardo de Lucena Falcão
 

Más de Eduardo de Lucena Falcão (20)

Dais 2015
Dais 2015Dais 2015
Dais 2015
 
Wcga 2015
Wcga 2015Wcga 2015
Wcga 2015
 
Programando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataformaProgramando em X3D para integração de aplicações e suporte multiplataforma
Programando em X3D para integração de aplicações e suporte multiplataforma
 
Minicurso sobre X3D
Minicurso sobre X3DMinicurso sobre X3D
Minicurso sobre X3D
 
Aula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNSAula 8 - Comunicação entre Componentes com SQS e SNS
Aula 8 - Comunicação entre Componentes com SQS e SNS
 
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
Aula 7 - Hands On - Configurando nossa aplicação na AWS com EC2, Elastic Load...
 
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud WatchAula 6 - EC2, ELB, Auto Scaling, Cloud Watch
Aula 6 - EC2, ELB, Auto Scaling, Cloud Watch
 
Introduction to Cloud Computing
Introduction to Cloud ComputingIntroduction to Cloud Computing
Introduction to Cloud Computing
 
Aula 4 - Introdução a aws
Aula 4 - Introdução a awsAula 4 - Introdução a aws
Aula 4 - Introdução a aws
 
Aula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computingAula 3 - Introdução a cloud computing
Aula 3 - Introdução a cloud computing
 
Aula 2 introdução a sistemas distribuídos
Aula 2   introdução a sistemas distribuídosAula 2   introdução a sistemas distribuídos
Aula 2 introdução a sistemas distribuídos
 
Aula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvidoAula 1 - Estudando o problema a ser resolvido
Aula 1 - Estudando o problema a ser resolvido
 
Apresentação do Curso
Apresentação do CursoApresentação do Curso
Apresentação do Curso
 
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
II EPI - Estudo e Avaliação do Problema de Otimização da Multiplicação de Cad...
 
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
INFORMAÇÃO ARQUEOLÓGICA DE INGÁ: preservação, acesso e uso a partir de um amb...
 
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
Estudo e Avaliação do Problema de Otimização da Multiplicação de Cadeias de M...
 
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de ComputadoresSEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
SEAC: Um Simulador Online para Ensino de Arquitetura de Computadores
 
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRASProcesso de Tradução Automática da Língua Portuguesa para LIBRAS
Processo de Tradução Automática da Língua Portuguesa para LIBRAS
 
Desafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústriaDesafios da tecnologia da computação e indústria
Desafios da tecnologia da computação e indústria
 
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
TCC - PUBLICAÇÃO E ACESSO A CONTEÚDOS 3D ATRAVÉS DA WEB: O CASO DO MUSEU3I
 

Data Mining: Visão Geral e Técnicas

  • 1. Data Mining Ângelo Vidal de Negreiros Eduardo de Lucena Falcão Eduardo Farias Silva
  • 2. Introdução Visão Geral KDD, Data Mining, Data Warehouses Histórico Etapa para extrações das Informações Tarefas Técnicas Ferramentas Conclusão Sumário
  • 3. Custo de armazenamento Poder de armazenamento Bancos de dados Grande quantidade de dados brutos (>>Terabytes) Relações e associações entre dados Informações relevantes através de reconhecimento de padrões “Somente persistir os dados já não é mais suficiente para encontrar oportunidades de negócio. Atualmente, é cada vez mais necessário que se tire um proveito maior dos dados” [Viana 2004]. Introdução
  • 5. KDD - Knowledge Discovery in Database processo não trivial de identificar em grandes conjuntos de dados padrões que sejam válidos, novos, úteis e compreensíveis, buscando melhorar o entendimento de um problema ou um procedimento de tomada de decisão [Fayyadet al. 1996]. Data Mining Mineração de Dados (ou Data Mining) é o passo dentro do KDD que consiste de um conjunto de técnicas que permitem extrair informações úteis para um determinado domínio a partir de grandes bases de dados [Fayyadet al. 1996]. Visão Geral
  • 6. Data Warehouses sistema de computação utilizado para armazenar informações relativas às atividades de uma organização em bancos de dados, de forma consolidada Mineração de Dados – uma das formas de se extrair informação Qualidade da análise é dependente da qualidade dos dados Visão Geral
  • 8. Integrado Não volátil Variante no tempo Granularidade Etc. Características de um DW
  • 9. Planejamento Levantamento de necessidades Modelagem Dimensional Projeto Físico dos BDs Projeto de ETC (*) Desenvolvimento de aplicações Validação e Teste Treinamento Implantação Projeto de um DW
  • 10. Etapa para extrações das informações(KDD)
  • 11. Limpeza dos dados: Dados incompletos ou inconsistentes  Dados completos e consistentes Corrigir ou atenuar tais problemas. Integração dos dados: Unificação de todas as fontes de dados em uma única e consolidada fonte. Etapa para extrações das informações
  • 12. Seleção dos dados: selecionar os dados que tem relevância para o negócio Transformação dos dados: os dados são transformados para facilitar a mineração Etapa para extrações das informações
  • 13. Etapas 1 – 4: Limpeza + integração + seleção + transformação Data WareHouse Os dados estão a ponto de bala Pronto para serem minerados Etapa para extrações das informações
  • 14. Mineração dos dados: são realizadas as tarefas de mineração de acordo com os objetivos definidos pelo usuário Avaliação dos padrões: avaliação sobre os padrões, identificando aqueles que têm importância para o negócio e expressividade estatística Apresentação dos conhecimentos: apresentação dos resultados para apresentados para apoiar a análise, tomada de decisão, etc. Etapa para extrações das informações
  • 15. Etapa para extrações das informações
  • 18. Análise de Amostragem Análise Descritiva Análise de Prognóstico Classificação das Tarefas
  • 19. Utilização de medidas estatísticas como esperança e desvio padrão Encontrar dados fora do padrão Aumentam a confiabilidade Identificação de fraude Análise de Amostragem
  • 20. Classificação – categorizar dados em classes Supermercado: frio, laticínios, higiene, etc Consumidores: região, sexo, etc Associação – identificar fatos que ocorrem em conjunto. Principal utilização: área de vendas – rearranjo de prateleiras e venda pacotes conjunto Análise Descritiva
  • 21. Descrição textual de um conjunto de características frequentes para um evento Utilizada para traçar perfis comportamentais: p. ex. fraudes de cartão de crédito Detecção de Sequências: estabelecimento de relações temporais entre os fatos Ex. clássico: Notebook + Mouse Análise Descritiva
  • 22. Inferir comportamento futuro ou estimar valores desconhecidos Baseia-se nas informações colhidas na análise descritiva Padrão de despesas + idade -> salário + nº de filhos Formação escolar + emprego atual + ramo de atividade -> salário daqui a X anos Análise de Prognóstico
  • 24. Algoritmo escolher um atributo; estender a árvore adicionando um ramo para cada valor do atributo; passar os exemplos para as folhas (tendo em conta o valor do atributo escolhido); para cada nó folha – se todos os exemplos são da mesma classe, associar esta classe ao nó folha, caso contrário, repetir os passos (a), (b) e (c). C4.5 (árvore de decisão)
  • 25.
  • 26. C4.5 (árvore de decisão) Gera um classificador na forma de árvore de decisão
  • 27. calcula a probabilidade de que um novo dado pertença a alguma classe previamente determinada Ingênua: considera que o efeito do valor de um atributo sobre uma determinada classe é independente Classificação Bayesiana
  • 28. Apredizado de regras de associação Aproximação “bottom-up” Exige grande capacidade de processamento Hipertensão na Coréia do Sul: índice de massa corpórea, proteína urinária, taxa de glicose e colesterol. Apriori
  • 29. Redes Neurais Metáfora do funcionamento docérebro humano Conjunto de dados iniciais para treinar a rede Predições sobre novos dados inseridos Nossa Caixa: transações mais comuns, valores movimentados, endereços mais frequentes e canais utilizados
  • 31. Ferramentas e aplicativos Weka, Microsoft Analisis Server, SAS Enterprise Miner, IBM IntelligentMiner, Oracle Darwin Data Mining Software Ferramentas de Mineração de Dados
  • 33. O weka lê os dados no formato .arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relationweather%Nome do arquivo @attributeoutlook {sunny, overcast, rainy} @attributetemperaturereal%Atributo e tipo @attributehumidity real @attributewindy {TRUE, FALSE} @attribute play {yes, no} @data%Início dos dados sunny,85,85,FALSE,no overcast,83,86,FALSE,yes Weka
  • 34. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão <=75 >75
  • 35. Algoritmo weka.classifier.j48.J48 Weka + Árvores de Decisão J48 prunedtree ------------------ outlook = sunny | humidity <= 75: yes (2.0) | humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) NumberofLeaves : 5 Sizeofthetree : 8
  • 36. Algoritmo para minerar regras de associação. Weka + Apriori IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF ? THEN vento = não AND umidade = normal AND jogar = sim
  • 37. Weka - Apriori Best rules found: 1.temperature=cool humidity=normal windy=FALSE ==> play=yes conf:(1) 2. temperature=cool windy=FALSE play=yes ==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=FALSE ==> play=yes conf:(1) 4. temperature=cool windy=FALSE ==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=FALSE ==> play=yes conf:(1)
  • 38. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 1: A primeira etapa é perceber que existe uma seqüência de letras que se repete bastante. Encontramos as seqüência "AB" e "ABC" e observamos que elas ocorrem com freqüência superior à das outras seqüência. Exemplo prático 1
  • 39. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 2: Após determinarmos as sequências "ABC" e "AB", verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO" Exemplo prático 1
  • 40. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Passo 3: Fazem-se agora induções, que geram algumas representações genéricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???“, onde '?' representa qualquer letra Exemplo prático 1
  • 41. Sequência:  ABCXYABCZKABDKCABCTUABEWLABCWO Por exemplo, a letra 'A' poderia significar "aquisição de pão“ A letra 'B' poderia, por exemplo, significar "aquisição de leite“ A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado Exemplo prático 1
  • 42. Sequência:  ABCVYABCVKABDKCABCVUABEWLABCVO Que padrão se observa? Na prática que exemplos podemos dar? Exemplo prático 2
  • 44. Mercado de Negócios Análise de crédito Retenção de clientes Análise de tendências Medicina Histórico de pacientes Análise de epidemias Outros