SlideShare una empresa de Scribd logo
1 de 44
Descargar para leer sin conexión
Mineração de Dados 
Dando Sentido à 
Informação
Membros 
● André Luis 
● Paulo Lima 
● Nayron Seilert 
● Joel Guedes 
● Odilon Santos 
● Jucelino Menezes
Dado, Informação e Conhecimento 
● Dado - a mais elementar descrição de coisas, 
eventos, atividades e transações 
● Informação – organização de dados com 
significado e valor 
● Conhecimento - a concepção do entendimento 
da informação, baseado no reconhecimento de 
padrões de tal maneira que haja compreensão 
da mesma 
1
Armazenar Dados
O que é Mineração de Dados? 
A habilidade de descobrir padrões interessantes 
de uma grande quantidade de Dados
DESCOBERTA DE CONHECIMENTO 
O modelo tradicional para transformação de 
dados em informação (conhecimento), consiste 
em um processo manual de todas as informações 
por especialistas, que fazem relatórios para 
poderem ser analizados. 
2
Na grande maioria dos casos, devido ao 
grande volume de dados, esse processo 
manual torna-se impraticável. 
Segundo Fayyad, o KDD(Knowledge Dicovery 
in Databases ou Descoberta de Conhecimento 
em Banco de Dados) é uma tentativa de 
solucionar o problema causado pela “Era da 
Informação”: a sobrecarga de dados.
KDD X DATA MINING 
Não é consenso a definição dos termos KDD e 
Data Mining. Grupo de autores consideram 
sinônimos os termos, para outro grupo KDD 
refere-se a todo o processo de descoberta de 
conhecimento, e a Mineração de Dados uma 
das atividades do processo.
PROCESSO DE KDD 
“KDD é um processo, de várias etapas, não 
trivial, interativo e iterativo, para identificação 
de padrões compreensíveis, válidos, novos e 
potencialmente úteis a partir de grande 
conjunto de dados”(FAYYAD, 1996).
ETAPAS DO PROCESSO DE KDD
● Seleção dos dados 
– Escolha da base a ser minerada, podendo ser amostra de 
dados, subconjunto de variáveis até grande massa de 
dados. 
● Pré-processamento 
– Eliminar ruídos, tuplas vazias, valores ilegítmos. 
● Transformação 
– Depende do objetivo da busca e do algoritmo a ser aplicado 
pois eles possuem as limitações a serem imposta a base de 
dados.
● Mineração 
– É a fase mais importante sendo utilizado algum 
algoritmo que utiliza uma determinda técnica, que 
tem por objetivo elaborar um modelo para 
representar um conjunto de dados. 
● Avaliação 
– Fase que identifica os padroes extraídos na fase de 
mineração. Essa fase envolve todos os 
participantesf que avaliam de forma criteriosa os 
resultados.
PREPARAÇÃO DOS DADOS 
3 
Em geral antes de se aplicar algoritmos de mineração é 
necessário explorar, conhecer e preparar os dados. 
Nesse sentido, uma das primeiras atividades é obter 
uma visualização dos dados, de forma a se ter uma 
visão geral, para decidir quais técnicas mais indicadas. 
Com visão inicial definida, é necessário explorar-los, 
buscando, além de mais conhecimento, encontrarmos 
valores que possa comprometer sua qualidade tais 
como:
● Valores em branco ou nulos; 
● Valores viciados; 
● Variáveis duplicadas; 
● Entre outras. 
À medida em que os problemas vão sendo 
encontrados e o entendimento vão sendo obtido 
ocorre a preparação dos dados para a aplicação 
dos algoritmos de mineração de dados.
A preparação dos dados na maioria dos 
projetos pode compreender até 80%. O 
processo de preparação dos dados consiste 
principalmente em: 
● Limpeza dos dados 
– Frequentemente os dados são encontrados com 
diversas inconsistencias: registros incompletos, 
valores errados, e dados inconsistentes. Esta etapa 
visa eliminar estes problemas.
● Integração dos dados 
– É comum obter os dados a serem minerados de 
diversas fontes: banco de dados, arquivos textos, 
planilhas, data warehouses, vídeos, imagens entre 
outras. Surge a necessidade de integração dos dados. 
● Transformação dos dados 
– Alguns algoritmos trabalham apenas com dados 
numéricos outros apenas com valores categoricos. 
Neste caso há necessidade de transformar valores 
numéricos em categóricos e vice-versa.
● Redução dos dados 
– O volume de dados usados na mineração 
costuma ser alto. Alguns casos tão grande que 
torna a mineração impraticável. Neste caso, as 
técnicas de redução de dados podem ser 
aplicadas para que a massa de dados original 
seja convertida em uma massa menor sem 
perder a representatividade dos dados 
originais.
Tarefas 
4.1 
Descrição: É a tarefa utilizada para descrever os padrões e 
tendências revelados pelos dados 
Classificação : 
Determinar quando uma transação de cartão de crédito pode ser 
uma fraude; 
Identificar em uma escola, qual a turma mais indicada para um 
determinado aluno; 
Diagnosticar onde uma determinada doença pode estar presente; 
Identificar quando uma pessoa pode ser uma ameaça para a 
segurança.
Estimação ou Regressão: 
Estimar a quantia a ser gasta por uma família de quatro pessoas durante a volta 
às 
aulas; 
Estimar a pressão ideal de um paciente baseando-se na idade, sexo e massa 
corporal. 
Predição: 
Predizer o valor de uma ação três meses adiante; 
Predizer o percentual que será aumentado de tráfego na rede se a velocidade 
aumentar; 
Predizer o vencedor do campeonato baseando-se na comparação das 
estatísticas dos times.
Agrupamento: 
Segmentação de mercado para um nicho de produtos; 
Para auditoria, separando comportamentos suspeitos; 
Reduzir para um conjunto de atributos similares registros com 
centenas de atributos.
Associação: 
Determinar os casos onde um novo medicamento pode 
apresentar efeitos colaterais; 
Identificar os usuários de planos que respondem bem a oferta de 
novos serviços.
Técnicas de MD 
Harrison (1998) afirma que não há uma técnica que 
resolva todos os problemas de mineração de dados. 
Diferentes métodos servem para diferentes 
propósitos, cada método oferece suas vantagens e 
suas desvantagens. A familiaridade com as técnicas 
é necessária para facilitar a escolha de uma delas de 
acordo com os problemas apresentados. Durante o 
processo de mineração, diversas técnicas devem ser 
testadas e combinadas a fim de que comparações 
possam ser feitas e então a melhor técnica (ou 
combinação de técnicas) seja utilizada. 
4.2
Processo de comparação com algumas 
técnicas
Associações 
● É uma das técnicas mais conhecidas de 
mineração de dados, devido ao problema da 
Análise da Cesta de Compras. Consiste em 
identificar o relacionamento dos itens mais 
frequentes em um determinado conjunto de 
dados, e permite obter resultados do tipo: SE 
compra leite e pão TAMBÉM compra manteiga. 
Esta construção recebe o nome de Regra de 
Associação (Association Rules).
Exemplo:
Classificações 
● As técnicas de classificação podem ser 
supervisionadas e não-supervisionadas.
Exemplo
Raciocínio Baseado em Casos 
● “O MBR procura os vizinhos mais próximos nos 
exemplos conhecidos e combina seus valores 
para atribuir valores de classificação ou de 
previsão” 
● 1) escolher o conjunto de dados de 
treinamento; 2) determinar a função de 
● distância; 3) escolher o número de vizinhos 
mais próximos; e 4) determinar a função de 
● combinação.
Algoritmos Genéticos 
● Um algoritmo genético é um procedimento 
iterativo para evoluir uma população de 
organismos e é usado em mineração de dados 
para formular hipóteses sobre dependências entre 
variáveis, na forma de algum formalismo interno. 
● Exemplos: Algoritmo Genético Simples (Goldberg, 
● 1989), Genitor e CHC (Whitley, 1993), Algoritmo de 
Hillis (Hillis, 1997), GA-Nuggets (Freitas, 1999), GA-PVMINER 
(Araújo et al, 1999).
Redes Neurais Artificiais 
● As redes neurais são uma classe especial de 
sistemas modelados seguindo analogia com o 
funcionamento do cérebro humano e são formadas 
de neurônios artificiais conectados de maneira 
similar aos neurônios do cérebro humano. 
● Exemplos de redes neurais: Perceptron, Rede MLP, 
Redes de Kohonen, Rede Hopfield, Rede BAM, 
Redes ART, Rede IAC, Rede LVQ, Rede 
Counterpropagation, Rede RBF, Rede PNN, Rede 
Time Delay.
Como Escolher a Técnica de Mineração de dados 
mais Adequada 
● Segundo Harrison (1998), a escolha das técnicas 
de mineração de dados dependerá da tarefa 
específica a ser executada e dos dados 
disponíveis para análise. 
● 1) traduzir o problema de negócio a ser resolvido 
em séries de tarefas de mineração de dados; 
● 2) compreender a natureza dos dados disponíveis 
em termos de conteúdo e tipos de campos de 
dados e estrutura das relações entre os registros.
Áreas de Aplicação de Técnicas de 
Mineração de dados 
● Marketing 
● Detecção de fraudes 
● Medicina 
● Instituições governamentais 
● Ciência 
● Controle de processos e controle de qualidade 
● Banco 
● Apólice de seguro 
● Transporte 
● C & T 
● Web
LIMITAÇÕES 
Apesar da grande potencialidade oferecida pela Mineração de 
Dados, alguns fatores devem ser analisados. Veja alguns fatores 
que podem prejudicar as técnicas de mineração: 
● As relações entre os atributos precisam ser muito bem 
definidas, caso contrário os resultados podem ser mal 
interpretados; 
● Usar um grande número de variáveis. 
5
● Permitir que o processo de treinamento execute por muito tempo, 
até que se consiga obter indícios que possam levar à conclusões 
factíveis; 
● Gerar subsídios para uma conclusão errada tornando-a mais 
plausível. Porém, uma interpretação falha pode disfarçar as falhas 
nos dados; 
Outra questão que trás grande impacto na utilização da Mineração 
de Dados refere-se à privacidade e à legislação. Trabalhar com dados 
sobre o indivíduo trás implicações que precisam ser consideradas e 
analisadas.
DESAFIOS DA MD. 
Veja alguns desafios que precisam ser superados: 
● Técnicas para lidar com base de dados cada vez maiores, chegando a casa dos 
Terabytes; 
● Cada vez mais as tabelas possuem mais atributos, aumentando o espaço de busca 
(alta dimensionalidade); 
● A velocidade com que os dados mudam faz com que os modelos gerem resultados 
inválidos; 
● O problema da baixa qualidade dos dados; 
● Complexidade dos relacionamentos entre os atributos; 
● A baixa interação e a dificuldade de inserção de conhecimento prévio nos modelos; 
● Os sistemas cada vez mais dependem de outros sistemas, gerando problemas de 
integração.
MINERAÇÃO DE ESTRUTURAS 
COMPLEXAS 
A Mineração de Dados foi inicialmente concebida para utilizar-se de 
repositórios estruturados de dados (Banco de Dados, Data Warehouse, 
Arquivos, etc). Porém, atualmente os dados são representados por diversos 
formatos: Não estruturado, Espacial e Temporal, entre outros. Com a 
necessidade da mineração nestes tipos de dados surge uma área que vem 
sendo bastante pesquisada que é a Mineração de Dados em estruturas 
complexas. Veja alguns exemplos desse tipo de Mineração. 
Mineração de Fluxo de Dados: Algumas aplicações trafegam um volume 
altíssimo de dados, temporalmente ordenados, voláteis e potencialmente 
infinito. Minerar estas informações após terem sido armazenadas é uma 
tarefa inviável. Ao invés disso, a mineração ocorre à medida em que os 
dados são lidos. 
6
Mineração de Séries Temporais: Bases de Séries Temporais são aquelas que 
armazenam informações de um certo evento em um intervalo de tempo definido. 
Por exemplo, bases que armazenam o valor das ações de um mercado, velocidade 
do vento, medidas da atmosfera. 
Mineração de Grafos: Os grafos são muito importantes na modelagem de 
estruturas complexas, como circuitos, imagens, proteínas, redes biológicas, redes 
sociais, etc. E com isso surge novas variações de algoritmos tradicionais facilitar a 
mineração desses tipos de dados. 
Mineração de Objetos: Diferente das bases relacionais, que armazenam os dados 
de uma forma estruturada (tabelas), as bases orientadas a objetos, guardam os 
dados em forma de objetos (formados por um identificador, atributos e métodos). 
Mineração de Dados Espaciais: Bases espaciais envolvem um conjunto de dados 
relacionados às questões espaciais, tais como mapas. A mineração espacial visa 
identificar os padrões armazenados nesses dados de uma forma implícita.
Mineração de Textos Grande parte dos dados de uma instituição é 
armazenada de forma semiestruturada e não estruturada, através de 
textos, e-mail,, documentos (atas, memorandos, ofícios), etc. A busca de 
padrões e conhecimento nestes documentos é muito comum. Porém, na 
maioria das vezes, o resultado obtido é falho: A mineração de textos, visa 
ajudar neste processo. 
Mineração da Internet: A mineração da Internet tem sido alvo de recentes 
pesquisas, pois ela reúne em seu ambiente, quase a totalidade dos tipos de 
estruturas complexas e simples que existem. Mineração da Internet (ou Web 
Mining), consiste em minerar as estruturas de ligação, o conteúdo, os 
padrões de acesso, classificação de documentos, entre outras.
Softwares para Mineração de 
Dados 
WEKA É uma das melhores ferramentas livre. Possui uma 
série de algoritmos para as tarefas de mineração. Os 
algoritmos podem ser aplicados diretamente da ferramenta, 
ou utilizados por programas Java. 
SAS Enterprise Miner Suite é uma ferramenta para a mineração de 
Dados desenvolvida pela Oracle para o uso em seu banco de 
dados ORACLE. 
IBM Intelligent Miner Ferramenta de mineração da IBM para a 
mineração de dados no banco de dados DB2 
7
Empresas de software para Data 
Mining 
SAS 
http://www.sas.com 
Oracle 
http://www.oracle.com 
IBM 
http://www.ibm.com/ 
WEKA 
http://www.cs.waikato.ac.nz/ml/weka/ 
Clementine 
http://spss-clementine.software.informer.com/
Merci beaucoup!

Más contenido relacionado

La actualidad más candente

Criptografia
CriptografiaCriptografia
CriptografiaPaula P.
 
Arquitetura e Organização de Computadores: Evolução e Desempenho de Computadores
Arquitetura e Organização de Computadores: Evolução e Desempenho de ComputadoresArquitetura e Organização de Computadores: Evolução e Desempenho de Computadores
Arquitetura e Organização de Computadores: Evolução e Desempenho de ComputadoresWellington Oliveira
 
Banco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de ConcorrênciaBanco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de ConcorrênciaJuliano Padilha
 
Banco de dados orientados a objetos
Banco de dados orientados a objetos Banco de dados orientados a objetos
Banco de dados orientados a objetos Raquel Machado
 
Segurança da Informação
Segurança da InformaçãoSegurança da Informação
Segurança da InformaçãoMarco Mendes
 
Genealogia
GenealogiaGenealogia
GenealogiaURCA
 
Empreendedorismo aula 01
Empreendedorismo   aula 01Empreendedorismo   aula 01
Empreendedorismo aula 01Thiago Ianatoni
 
Estrutura de Dados - Aula 02 - Estrutura de Dados e TAD
Estrutura de Dados - Aula 02 - Estrutura de Dados e TADEstrutura de Dados - Aula 02 - Estrutura de Dados e TAD
Estrutura de Dados - Aula 02 - Estrutura de Dados e TADLeinylson Fontinele
 
Câncer e o ciclo celular
Câncer e o ciclo celularCâncer e o ciclo celular
Câncer e o ciclo celularLuane Carenina
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisFabrício Lopes Sanchez
 
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)Sistemas Operacionais - Aula 01 (Conceitos básicos de so)
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)Leinylson Fontinele
 
Engenharia de Requisitos
Engenharia de RequisitosEngenharia de Requisitos
Engenharia de RequisitosCloves da Rocha
 
Redes de computadores
Redes de computadoresRedes de computadores
Redes de computadoresJakson Silva
 

La actualidad más candente (20)

Criptografia
CriptografiaCriptografia
Criptografia
 
Arquitetura e Organização de Computadores: Evolução e Desempenho de Computadores
Arquitetura e Organização de Computadores: Evolução e Desempenho de ComputadoresArquitetura e Organização de Computadores: Evolução e Desempenho de Computadores
Arquitetura e Organização de Computadores: Evolução e Desempenho de Computadores
 
Banco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de ConcorrênciaBanco de Dados - Transações e Controle de Concorrência
Banco de Dados - Transações e Controle de Concorrência
 
Aula 1 semana
Aula 1 semanaAula 1 semana
Aula 1 semana
 
Banco de dados orientados a objetos
Banco de dados orientados a objetos Banco de dados orientados a objetos
Banco de dados orientados a objetos
 
Segurança da Informação
Segurança da InformaçãoSegurança da Informação
Segurança da Informação
 
Árvore Binária
Árvore BináriaÁrvore Binária
Árvore Binária
 
Genealogia
GenealogiaGenealogia
Genealogia
 
Elicitação e Análise
Elicitação e AnáliseElicitação e Análise
Elicitação e Análise
 
Empreendedorismo aula 01
Empreendedorismo   aula 01Empreendedorismo   aula 01
Empreendedorismo aula 01
 
Estrutura de Dados - Aula 02 - Estrutura de Dados e TAD
Estrutura de Dados - Aula 02 - Estrutura de Dados e TADEstrutura de Dados - Aula 02 - Estrutura de Dados e TAD
Estrutura de Dados - Aula 02 - Estrutura de Dados e TAD
 
Câncer e o ciclo celular
Câncer e o ciclo celularCâncer e o ciclo celular
Câncer e o ciclo celular
 
Governança de TI - Aula05 - compliance, PETI e PDTI
Governança de TI - Aula05 - compliance, PETI e PDTIGovernança de TI - Aula05 - compliance, PETI e PDTI
Governança de TI - Aula05 - compliance, PETI e PDTI
 
Equipamentos de Rede
Equipamentos de RedeEquipamentos de Rede
Equipamentos de Rede
 
KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Estrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentaisEstrutura de Dados - Conceitos fundamentais
Estrutura de Dados - Conceitos fundamentais
 
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)Sistemas Operacionais - Aula 01 (Conceitos básicos de so)
Sistemas Operacionais - Aula 01 (Conceitos básicos de so)
 
Banco de Dados 2: Controle de Concorrência
Banco de Dados 2: Controle de ConcorrênciaBanco de Dados 2: Controle de Concorrência
Banco de Dados 2: Controle de Concorrência
 
Engenharia de Requisitos
Engenharia de RequisitosEngenharia de Requisitos
Engenharia de Requisitos
 
Redes de computadores
Redes de computadoresRedes de computadores
Redes de computadores
 

Destacado (18)

Plano contigência
Plano contigênciaPlano contigência
Plano contigência
 
07 Modelagem de banco de dados: Modelo Físico
07 Modelagem de banco de dados: Modelo Físico07 Modelagem de banco de dados: Modelo Físico
07 Modelagem de banco de dados: Modelo Físico
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Exemplo de plano de continuidade de ti
Exemplo de plano de continuidade de tiExemplo de plano de continuidade de ti
Exemplo de plano de continuidade de ti
 
Aula 12 banco de dados
Aula 12   banco de dadosAula 12   banco de dados
Aula 12 banco de dados
 
Aula 10 banco de dados
Aula 10   banco de dadosAula 10   banco de dados
Aula 10 banco de dados
 
Aula 11 banco de dados
Aula 11   banco de dadosAula 11   banco de dados
Aula 11 banco de dados
 
Aula03
Aula03Aula03
Aula03
 
Aula 5 banco de dados
Aula 5   banco de dadosAula 5   banco de dados
Aula 5 banco de dados
 
Aula 2 banco de dados
Aula 2   banco de dadosAula 2   banco de dados
Aula 2 banco de dados
 
Aula 3 banco de dados
Aula 3   banco de dadosAula 3   banco de dados
Aula 3 banco de dados
 
Aula 7 banco de dados
Aula 7   banco de dadosAula 7   banco de dados
Aula 7 banco de dados
 
Aula 9 banco de dados
Aula 9   banco de dadosAula 9   banco de dados
Aula 9 banco de dados
 
Aula 6 banco de dados
Aula 6   banco de dadosAula 6   banco de dados
Aula 6 banco de dados
 
Aula 4 banco de dados
Aula 4   banco de dados Aula 4   banco de dados
Aula 4 banco de dados
 
Conceitos de Sistemas de Informação
Conceitos de Sistemas de InformaçãoConceitos de Sistemas de Informação
Conceitos de Sistemas de Informação
 
Sistema de Informação
Sistema de InformaçãoSistema de Informação
Sistema de Informação
 
Sistema de Informação na Empresa
Sistema de Informação na EmpresaSistema de Informação na Empresa
Sistema de Informação na Empresa
 

Similar a Mineração de Dados em

Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaWosley Arruda
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negóciosDaniel Nóro
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptxadrian990162
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Wosley Arruda
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dadosTalita Lima
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosCássio Alan Garcia
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - BrazilMarcos Vinicius Fidelis
 

Similar a Mineração de Dados em (20)

Artigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolhaArtigo ferramentas mineracao_-_melhor_escolha
Artigo ferramentas mineracao_-_melhor_escolha
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Inteligencia de negócios
Inteligencia de negóciosInteligencia de negócios
Inteligencia de negócios
 
Weka pentaho day2014-fidelis
Weka pentaho day2014-fidelisWeka pentaho day2014-fidelis
Weka pentaho day2014-fidelis
 
Mineração_de_Dados.pptx
Mineração_de_Dados.pptxMineração_de_Dados.pptx
Mineração_de_Dados.pptx
 
Mineração
MineraçãoMineração
Mineração
 
Data mining
Data miningData mining
Data mining
 
Big Data x Data Mining - Hadoop
Big Data x Data Mining - HadoopBig Data x Data Mining - Hadoop
Big Data x Data Mining - Hadoop
 
Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6Artigo 1-fraudes-agua-passini-seminco2002-6
Artigo 1-fraudes-agua-passini-seminco2002-6
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Data mining
Data miningData mining
Data mining
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de DadosSistema de Recomendação de Produtos Utilizando Mineração de Dados
Sistema de Recomendação de Produtos Utilizando Mineração de Dados
 
Data Mining
Data Mining Data Mining
Data Mining
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Flisol 2016 fidelis - Curitiba - PR - Brazil
Flisol 2016   fidelis - Curitiba - PR - BrazilFlisol 2016   fidelis - Curitiba - PR - Brazil
Flisol 2016 fidelis - Curitiba - PR - Brazil
 
Desvendando os mistérios do Data Science
Desvendando os mistérios do Data ScienceDesvendando os mistérios do Data Science
Desvendando os mistérios do Data Science
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 

Mineração de Dados em

  • 1. Mineração de Dados Dando Sentido à Informação
  • 2. Membros ● André Luis ● Paulo Lima ● Nayron Seilert ● Joel Guedes ● Odilon Santos ● Jucelino Menezes
  • 3. Dado, Informação e Conhecimento ● Dado - a mais elementar descrição de coisas, eventos, atividades e transações ● Informação – organização de dados com significado e valor ● Conhecimento - a concepção do entendimento da informação, baseado no reconhecimento de padrões de tal maneira que haja compreensão da mesma 1
  • 5.
  • 6.
  • 7. O que é Mineração de Dados? A habilidade de descobrir padrões interessantes de uma grande quantidade de Dados
  • 8. DESCOBERTA DE CONHECIMENTO O modelo tradicional para transformação de dados em informação (conhecimento), consiste em um processo manual de todas as informações por especialistas, que fazem relatórios para poderem ser analizados. 2
  • 9. Na grande maioria dos casos, devido ao grande volume de dados, esse processo manual torna-se impraticável. Segundo Fayyad, o KDD(Knowledge Dicovery in Databases ou Descoberta de Conhecimento em Banco de Dados) é uma tentativa de solucionar o problema causado pela “Era da Informação”: a sobrecarga de dados.
  • 10. KDD X DATA MINING Não é consenso a definição dos termos KDD e Data Mining. Grupo de autores consideram sinônimos os termos, para outro grupo KDD refere-se a todo o processo de descoberta de conhecimento, e a Mineração de Dados uma das atividades do processo.
  • 11. PROCESSO DE KDD “KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grande conjunto de dados”(FAYYAD, 1996).
  • 13. ● Seleção dos dados – Escolha da base a ser minerada, podendo ser amostra de dados, subconjunto de variáveis até grande massa de dados. ● Pré-processamento – Eliminar ruídos, tuplas vazias, valores ilegítmos. ● Transformação – Depende do objetivo da busca e do algoritmo a ser aplicado pois eles possuem as limitações a serem imposta a base de dados.
  • 14. ● Mineração – É a fase mais importante sendo utilizado algum algoritmo que utiliza uma determinda técnica, que tem por objetivo elaborar um modelo para representar um conjunto de dados. ● Avaliação – Fase que identifica os padroes extraídos na fase de mineração. Essa fase envolve todos os participantesf que avaliam de forma criteriosa os resultados.
  • 15. PREPARAÇÃO DOS DADOS 3 Em geral antes de se aplicar algoritmos de mineração é necessário explorar, conhecer e preparar os dados. Nesse sentido, uma das primeiras atividades é obter uma visualização dos dados, de forma a se ter uma visão geral, para decidir quais técnicas mais indicadas. Com visão inicial definida, é necessário explorar-los, buscando, além de mais conhecimento, encontrarmos valores que possa comprometer sua qualidade tais como:
  • 16. ● Valores em branco ou nulos; ● Valores viciados; ● Variáveis duplicadas; ● Entre outras. À medida em que os problemas vão sendo encontrados e o entendimento vão sendo obtido ocorre a preparação dos dados para a aplicação dos algoritmos de mineração de dados.
  • 17. A preparação dos dados na maioria dos projetos pode compreender até 80%. O processo de preparação dos dados consiste principalmente em: ● Limpeza dos dados – Frequentemente os dados são encontrados com diversas inconsistencias: registros incompletos, valores errados, e dados inconsistentes. Esta etapa visa eliminar estes problemas.
  • 18. ● Integração dos dados – É comum obter os dados a serem minerados de diversas fontes: banco de dados, arquivos textos, planilhas, data warehouses, vídeos, imagens entre outras. Surge a necessidade de integração dos dados. ● Transformação dos dados – Alguns algoritmos trabalham apenas com dados numéricos outros apenas com valores categoricos. Neste caso há necessidade de transformar valores numéricos em categóricos e vice-versa.
  • 19. ● Redução dos dados – O volume de dados usados na mineração costuma ser alto. Alguns casos tão grande que torna a mineração impraticável. Neste caso, as técnicas de redução de dados podem ser aplicadas para que a massa de dados original seja convertida em uma massa menor sem perder a representatividade dos dados originais.
  • 20.
  • 21. Tarefas 4.1 Descrição: É a tarefa utilizada para descrever os padrões e tendências revelados pelos dados Classificação : Determinar quando uma transação de cartão de crédito pode ser uma fraude; Identificar em uma escola, qual a turma mais indicada para um determinado aluno; Diagnosticar onde uma determinada doença pode estar presente; Identificar quando uma pessoa pode ser uma ameaça para a segurança.
  • 22. Estimação ou Regressão: Estimar a quantia a ser gasta por uma família de quatro pessoas durante a volta às aulas; Estimar a pressão ideal de um paciente baseando-se na idade, sexo e massa corporal. Predição: Predizer o valor de uma ação três meses adiante; Predizer o percentual que será aumentado de tráfego na rede se a velocidade aumentar; Predizer o vencedor do campeonato baseando-se na comparação das estatísticas dos times.
  • 23. Agrupamento: Segmentação de mercado para um nicho de produtos; Para auditoria, separando comportamentos suspeitos; Reduzir para um conjunto de atributos similares registros com centenas de atributos.
  • 24. Associação: Determinar os casos onde um novo medicamento pode apresentar efeitos colaterais; Identificar os usuários de planos que respondem bem a oferta de novos serviços.
  • 25. Técnicas de MD Harrison (1998) afirma que não há uma técnica que resolva todos os problemas de mineração de dados. Diferentes métodos servem para diferentes propósitos, cada método oferece suas vantagens e suas desvantagens. A familiaridade com as técnicas é necessária para facilitar a escolha de uma delas de acordo com os problemas apresentados. Durante o processo de mineração, diversas técnicas devem ser testadas e combinadas a fim de que comparações possam ser feitas e então a melhor técnica (ou combinação de técnicas) seja utilizada. 4.2
  • 26. Processo de comparação com algumas técnicas
  • 27. Associações ● É uma das técnicas mais conhecidas de mineração de dados, devido ao problema da Análise da Cesta de Compras. Consiste em identificar o relacionamento dos itens mais frequentes em um determinado conjunto de dados, e permite obter resultados do tipo: SE compra leite e pão TAMBÉM compra manteiga. Esta construção recebe o nome de Regra de Associação (Association Rules).
  • 29. Classificações ● As técnicas de classificação podem ser supervisionadas e não-supervisionadas.
  • 31. Raciocínio Baseado em Casos ● “O MBR procura os vizinhos mais próximos nos exemplos conhecidos e combina seus valores para atribuir valores de classificação ou de previsão” ● 1) escolher o conjunto de dados de treinamento; 2) determinar a função de ● distância; 3) escolher o número de vizinhos mais próximos; e 4) determinar a função de ● combinação.
  • 32. Algoritmos Genéticos ● Um algoritmo genético é um procedimento iterativo para evoluir uma população de organismos e é usado em mineração de dados para formular hipóteses sobre dependências entre variáveis, na forma de algum formalismo interno. ● Exemplos: Algoritmo Genético Simples (Goldberg, ● 1989), Genitor e CHC (Whitley, 1993), Algoritmo de Hillis (Hillis, 1997), GA-Nuggets (Freitas, 1999), GA-PVMINER (Araújo et al, 1999).
  • 33. Redes Neurais Artificiais ● As redes neurais são uma classe especial de sistemas modelados seguindo analogia com o funcionamento do cérebro humano e são formadas de neurônios artificiais conectados de maneira similar aos neurônios do cérebro humano. ● Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay.
  • 34. Como Escolher a Técnica de Mineração de dados mais Adequada ● Segundo Harrison (1998), a escolha das técnicas de mineração de dados dependerá da tarefa específica a ser executada e dos dados disponíveis para análise. ● 1) traduzir o problema de negócio a ser resolvido em séries de tarefas de mineração de dados; ● 2) compreender a natureza dos dados disponíveis em termos de conteúdo e tipos de campos de dados e estrutura das relações entre os registros.
  • 35. Áreas de Aplicação de Técnicas de Mineração de dados ● Marketing ● Detecção de fraudes ● Medicina ● Instituições governamentais ● Ciência ● Controle de processos e controle de qualidade ● Banco ● Apólice de seguro ● Transporte ● C & T ● Web
  • 36. LIMITAÇÕES Apesar da grande potencialidade oferecida pela Mineração de Dados, alguns fatores devem ser analisados. Veja alguns fatores que podem prejudicar as técnicas de mineração: ● As relações entre os atributos precisam ser muito bem definidas, caso contrário os resultados podem ser mal interpretados; ● Usar um grande número de variáveis. 5
  • 37. ● Permitir que o processo de treinamento execute por muito tempo, até que se consiga obter indícios que possam levar à conclusões factíveis; ● Gerar subsídios para uma conclusão errada tornando-a mais plausível. Porém, uma interpretação falha pode disfarçar as falhas nos dados; Outra questão que trás grande impacto na utilização da Mineração de Dados refere-se à privacidade e à legislação. Trabalhar com dados sobre o indivíduo trás implicações que precisam ser consideradas e analisadas.
  • 38. DESAFIOS DA MD. Veja alguns desafios que precisam ser superados: ● Técnicas para lidar com base de dados cada vez maiores, chegando a casa dos Terabytes; ● Cada vez mais as tabelas possuem mais atributos, aumentando o espaço de busca (alta dimensionalidade); ● A velocidade com que os dados mudam faz com que os modelos gerem resultados inválidos; ● O problema da baixa qualidade dos dados; ● Complexidade dos relacionamentos entre os atributos; ● A baixa interação e a dificuldade de inserção de conhecimento prévio nos modelos; ● Os sistemas cada vez mais dependem de outros sistemas, gerando problemas de integração.
  • 39. MINERAÇÃO DE ESTRUTURAS COMPLEXAS A Mineração de Dados foi inicialmente concebida para utilizar-se de repositórios estruturados de dados (Banco de Dados, Data Warehouse, Arquivos, etc). Porém, atualmente os dados são representados por diversos formatos: Não estruturado, Espacial e Temporal, entre outros. Com a necessidade da mineração nestes tipos de dados surge uma área que vem sendo bastante pesquisada que é a Mineração de Dados em estruturas complexas. Veja alguns exemplos desse tipo de Mineração. Mineração de Fluxo de Dados: Algumas aplicações trafegam um volume altíssimo de dados, temporalmente ordenados, voláteis e potencialmente infinito. Minerar estas informações após terem sido armazenadas é uma tarefa inviável. Ao invés disso, a mineração ocorre à medida em que os dados são lidos. 6
  • 40. Mineração de Séries Temporais: Bases de Séries Temporais são aquelas que armazenam informações de um certo evento em um intervalo de tempo definido. Por exemplo, bases que armazenam o valor das ações de um mercado, velocidade do vento, medidas da atmosfera. Mineração de Grafos: Os grafos são muito importantes na modelagem de estruturas complexas, como circuitos, imagens, proteínas, redes biológicas, redes sociais, etc. E com isso surge novas variações de algoritmos tradicionais facilitar a mineração desses tipos de dados. Mineração de Objetos: Diferente das bases relacionais, que armazenam os dados de uma forma estruturada (tabelas), as bases orientadas a objetos, guardam os dados em forma de objetos (formados por um identificador, atributos e métodos). Mineração de Dados Espaciais: Bases espaciais envolvem um conjunto de dados relacionados às questões espaciais, tais como mapas. A mineração espacial visa identificar os padrões armazenados nesses dados de uma forma implícita.
  • 41. Mineração de Textos Grande parte dos dados de uma instituição é armazenada de forma semiestruturada e não estruturada, através de textos, e-mail,, documentos (atas, memorandos, ofícios), etc. A busca de padrões e conhecimento nestes documentos é muito comum. Porém, na maioria das vezes, o resultado obtido é falho: A mineração de textos, visa ajudar neste processo. Mineração da Internet: A mineração da Internet tem sido alvo de recentes pesquisas, pois ela reúne em seu ambiente, quase a totalidade dos tipos de estruturas complexas e simples que existem. Mineração da Internet (ou Web Mining), consiste em minerar as estruturas de ligação, o conteúdo, os padrões de acesso, classificação de documentos, entre outras.
  • 42. Softwares para Mineração de Dados WEKA É uma das melhores ferramentas livre. Possui uma série de algoritmos para as tarefas de mineração. Os algoritmos podem ser aplicados diretamente da ferramenta, ou utilizados por programas Java. SAS Enterprise Miner Suite é uma ferramenta para a mineração de Dados desenvolvida pela Oracle para o uso em seu banco de dados ORACLE. IBM Intelligent Miner Ferramenta de mineração da IBM para a mineração de dados no banco de dados DB2 7
  • 43. Empresas de software para Data Mining SAS http://www.sas.com Oracle http://www.oracle.com IBM http://www.ibm.com/ WEKA http://www.cs.waikato.ac.nz/ml/weka/ Clementine http://spss-clementine.software.informer.com/