SlideShare una empresa de Scribd logo
1 de 30
Clustering
“Uma técnica de Data Mining para
agrupamentos de dados segundo seu
grau de semelhança.”
- Wikipedia
Fernando Machado fm@fmachado.com http://twitter.com/fmachado
Agenda
• Por que este tema?
• Data Mining
– Exemplos de casos reais
– Processo de descoberta de conhecimento
(KDD)
• Clustering
– Algoritmo K-means
Por que Clustering?
• Primeiros contatos
– 1999 a 2002
• Extração de notícias da web
– Versões até 2002
• Supervisão humana permanente
• Manutenção constante
• Alta taxa de erros
• Falhas na arquitetura
Por que Clustering?
• Extração de notícias da web
– Versão 2009 - ...
• Supervisão humana mínima
– Exceto no início onde houve treinamento
• Manutenção mínima
– Infraestrutura
• Taxa de erros < 5%
– Inteligência Artificial básica
• Escalável e alto desempenho
– Horizontal e vertical
– Seach-engine alta performance
www.guianews.com.br
em 02/dez/2000
www.guianews.com.br
em 19/mar/2010
Afinal, o que é
e para que serve
Clustering?
Afinal, o que é
e para que serve
Clustering
Data Mining?
Data Mining
É o processo de
descoberta
automática de
informações úteis
em grandes
depósitos de dados.
Data Mining
Grandes depósitos
de dados?
Quão grande são
esses depósitos?
Data Mining
Yahoo! Groups
40 TB de dados para indexar
Data Mining
Possui aproximadamente 19 PB de
dados transferidos através de sua
rede a cada dia
1 petabyte = 1.024 terabytes
19 petabytes = 19.456 terabytes
Data Mining
• Em maio de 2009, o Brasil chegou à
157.501.813 acessos no Serviço Móvel
Pessoal (...).
• A Vivo ainda lidera o mercado com
29,38% de participação (...).
• Como a Vivo faz para identificar
tendências ou o comportamento de
seus ~45.675.525 clientes?
Data Mining
• Atua sobre grandes bancos de dados;
• Visa descobrir padrões
úteis e recentes;
• Envolve estatística e
algoritmos sofisticados;
Data Mining – Padrões?
• Esta é uma compra fraudulenta?
• Que tipo de produto devo oferecer para
este cliente?
• Como as mudanças nas sequências do
DNA de um indivíduo afetam o risco do
desenvolvimento de novas doenças?
Data Mining
• Data mining é uma parte integral da
descoberta de conhecimento em banco
de dados (KDD);
• KDD Knowledge Discovery in Database
– Processo geral de conversão de dados brutos
em informações úteis.
Afinal, o que é
e para que serve
Clustering?
Clustering
• Uma técnica de Data Mining para
agrupamentos de dados segundo seu
grau de semelhança.
• Você consegue identificar visualmente
agrupamentos?
Clustering
Clustering
Clustering
Clustering
Clustering
• Em Data Mining, uma das atividades
obrigatórias é o pré-processamento.
• Verificação dos dados:
– Ignorar registros errados?
• É possível alguém ter filhos aos 10 anos de idade?
• É possível que ela esteja trabalhando nesta
empresa?
– Que valores adotar quando um atributo não
estiver preenchido?
Clustering
Visualmente é fácil?
Vamos ver usando matemática...

Más contenido relacionado

La actualidad más candente

Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018everis
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e HadoopThiago Santiago
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceLeandro Guerra
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoClaudio Bonel
 
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Claudio Bonel
 
Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIClaudio Bonel
 
Software as a Service
Software as a ServiceSoftware as a Service
Software as a ServiceDenis Vieira
 
Apresentação Institucional - Qlik Sense 3.0
Apresentação Institucional - Qlik Sense 3.0Apresentação Institucional - Qlik Sense 3.0
Apresentação Institucional - Qlik Sense 3.0Lucas Magalhães
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoThiago Santiago
 
Apresentação Executiva Paralelo CS - Qlik - Business Intelligence
Apresentação Executiva Paralelo CS - Qlik - Business IntelligenceApresentação Executiva Paralelo CS - Qlik - Business Intelligence
Apresentação Executiva Paralelo CS - Qlik - Business IntelligenceLucas Magalhães
 
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Neo4j
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Lucas Modesto
 
Apostila sobre Big Data
Apostila sobre Big DataApostila sobre Big Data
Apostila sobre Big DataFernando Palma
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015Tableau Software
 
Adriano Amaral - Novas Tendências
Adriano Amaral - Novas TendênciasAdriano Amaral - Novas Tendências
Adriano Amaral - Novas TendênciasBrasscom
 

La actualidad más candente (20)

BIG data
BIG dataBIG data
BIG data
 
Cloud tendências 2018
Cloud tendências 2018Cloud tendências 2018
Cloud tendências 2018
 
Instituto Infnet - BigData e Hadoop
Instituto Infnet  - BigData e HadoopInstituto Infnet  - BigData e Hadoop
Instituto Infnet - BigData e Hadoop
 
Introdução - Big Data e Business Intelligence
Introdução - Big Data e Business IntelligenceIntrodução - Big Data e Business Intelligence
Introdução - Big Data e Business Intelligence
 
Governança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª EdiçãoGovernança de dados - Power Bi Talks 3ª Edição
Governança de dados - Power Bi Talks 3ª Edição
 
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
Slides da Palestra - Designing de Soluções de BI - PASS DevSQL RJ - 05/06/2018
 
Governança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BIGovernança de Dados para BI, em tempos de Self-Service BI
Governança de Dados para BI, em tempos de Self-Service BI
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Microsoft Power BI
Microsoft Power BIMicrosoft Power BI
Microsoft Power BI
 
TIEnergia2016
TIEnergia2016TIEnergia2016
TIEnergia2016
 
Software as a Service
Software as a ServiceSoftware as a Service
Software as a Service
 
Apresentação Institucional - Qlik Sense 3.0
Apresentação Institucional - Qlik Sense 3.0Apresentação Institucional - Qlik Sense 3.0
Apresentação Institucional - Qlik Sense 3.0
 
Hadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da InformaçãoHadoop Day - MeetUp - O poder da Informação
Hadoop Day - MeetUp - O poder da Informação
 
Apresentação Executiva Paralelo CS - Qlik - Business Intelligence
Apresentação Executiva Paralelo CS - Qlik - Business IntelligenceApresentação Executiva Paralelo CS - Qlik - Business Intelligence
Apresentação Executiva Paralelo CS - Qlik - Business Intelligence
 
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
Qualicorp Scales to Millions of Customers and Data Relationships to Provide W...
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.Guia sobre análise de dados e aprendizado de máquina para CIO.
Guia sobre análise de dados e aprendizado de máquina para CIO.
 
Apostila sobre Big Data
Apostila sobre Big DataApostila sobre Big Data
Apostila sobre Big Data
 
As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015As 10 principais tendências em business intelligence para 2015
As 10 principais tendências em business intelligence para 2015
 
Adriano Amaral - Novas Tendências
Adriano Amaral - Novas TendênciasAdriano Amaral - Novas Tendências
Adriano Amaral - Novas Tendências
 

Destacado

Destacado (6)

Business Intelligence & Data Mining - Knowledge Discovery in Databases
Business Intelligence & Data Mining - Knowledge Discovery in DatabasesBusiness Intelligence & Data Mining - Knowledge Discovery in Databases
Business Intelligence & Data Mining - Knowledge Discovery in Databases
 
Data mining
Data miningData mining
Data mining
 
Técnicas de data mining
Técnicas de data miningTécnicas de data mining
Técnicas de data mining
 
Apresentação data mining
Apresentação data miningApresentação data mining
Apresentação data mining
 
Data Mining
Data Mining Data Mining
Data Mining
 
Data warehouse & data mining
Data warehouse & data miningData warehouse & data mining
Data warehouse & data mining
 

Similar a Clustering

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?Diego Nogare
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Adolfo Guimaraes
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Marcos Vinicius Fidelis
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentasluanrjesus
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dadosEdvaldo Castro
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 
GED - Gerenciamento Eletrônico de Documentos
GED - Gerenciamento Eletrônico de DocumentosGED - Gerenciamento Eletrônico de Documentos
GED - Gerenciamento Eletrônico de DocumentosPaulo Milreu
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência ArtificialLeandro de Castro
 

Similar a Clustering (20)

KDD e Data Mining
KDD e Data MiningKDD e Data Mining
KDD e Data Mining
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
Minicurso: O que o twitter está pensando? Extraindo informações do twitter ut...
 
Pentaho Weka latinoware
Pentaho Weka latinowarePentaho Weka latinoware
Pentaho Weka latinoware
 
Mineração de dados
Mineração de dadosMineração de dados
Mineração de dados
 
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014 Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
Construção de Classificadores utilizando Pentaho Data Mining (WEKA) - FTSL 2014
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
BigData
BigDataBigData
BigData
 
Carreira do profissional de dados
Carreira do profissional de dadosCarreira do profissional de dados
Carreira do profissional de dados
 
MySQL e Big Data
MySQL e Big DataMySQL e Big Data
MySQL e Big Data
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 
GED - Gerenciamento Eletrônico de Documentos
GED - Gerenciamento Eletrônico de DocumentosGED - Gerenciamento Eletrônico de Documentos
GED - Gerenciamento Eletrônico de Documentos
 
Profissional Ti Global V2
Profissional Ti Global V2Profissional Ti Global V2
Profissional Ti Global V2
 
2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial2019: LCoN - Centro de Excelência em Inteligência Artificial
2019: LCoN - Centro de Excelência em Inteligência Artificial
 

Clustering

  • 1. Clustering “Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança.” - Wikipedia Fernando Machado fm@fmachado.com http://twitter.com/fmachado
  • 2. Agenda • Por que este tema? • Data Mining – Exemplos de casos reais – Processo de descoberta de conhecimento (KDD) • Clustering – Algoritmo K-means
  • 3. Por que Clustering? • Primeiros contatos – 1999 a 2002 • Extração de notícias da web – Versões até 2002 • Supervisão humana permanente • Manutenção constante • Alta taxa de erros • Falhas na arquitetura
  • 4. Por que Clustering? • Extração de notícias da web – Versão 2009 - ... • Supervisão humana mínima – Exceto no início onde houve treinamento • Manutenção mínima – Infraestrutura • Taxa de erros < 5% – Inteligência Artificial básica • Escalável e alto desempenho – Horizontal e vertical – Seach-engine alta performance
  • 7.
  • 8. Afinal, o que é e para que serve Clustering?
  • 9.
  • 10. Afinal, o que é e para que serve Clustering Data Mining?
  • 11. Data Mining É o processo de descoberta automática de informações úteis em grandes depósitos de dados.
  • 12. Data Mining Grandes depósitos de dados? Quão grande são esses depósitos?
  • 13. Data Mining Yahoo! Groups 40 TB de dados para indexar
  • 14. Data Mining Possui aproximadamente 19 PB de dados transferidos através de sua rede a cada dia
  • 15. 1 petabyte = 1.024 terabytes 19 petabytes = 19.456 terabytes
  • 16. Data Mining • Em maio de 2009, o Brasil chegou à 157.501.813 acessos no Serviço Móvel Pessoal (...). • A Vivo ainda lidera o mercado com 29,38% de participação (...). • Como a Vivo faz para identificar tendências ou o comportamento de seus ~45.675.525 clientes?
  • 17. Data Mining • Atua sobre grandes bancos de dados; • Visa descobrir padrões úteis e recentes; • Envolve estatística e algoritmos sofisticados;
  • 18. Data Mining – Padrões? • Esta é uma compra fraudulenta? • Que tipo de produto devo oferecer para este cliente? • Como as mudanças nas sequências do DNA de um indivíduo afetam o risco do desenvolvimento de novas doenças?
  • 19. Data Mining • Data mining é uma parte integral da descoberta de conhecimento em banco de dados (KDD); • KDD Knowledge Discovery in Database – Processo geral de conversão de dados brutos em informações úteis.
  • 20.
  • 21. Afinal, o que é e para que serve Clustering?
  • 22. Clustering • Uma técnica de Data Mining para agrupamentos de dados segundo seu grau de semelhança. • Você consegue identificar visualmente agrupamentos?
  • 27.
  • 28. Clustering • Em Data Mining, uma das atividades obrigatórias é o pré-processamento. • Verificação dos dados: – Ignorar registros errados? • É possível alguém ter filhos aos 10 anos de idade? • É possível que ela esteja trabalhando nesta empresa? – Que valores adotar quando um atributo não estiver preenchido?
  • 30. Visualmente é fácil? Vamos ver usando matemática...

Notas del editor

  1. Em 1999 eu fui convidado a ser sócio de uma empresa de tecnologia e um dos produtos que comecei a desenvolver desde que entrei foi uma engine de busca e extração de notícias da internet, bem antes do lançamento do Google News. As primeiras versões do software necessitavam de acompanhamento humano contínuo já que a forma de identificar uma notícia era completamente manual. O sistema possuía uma alta taxa de erros devido a mudanças na estrutura dos sites de notícias e falhas na arquitetura do software (desempenho e escalabilidade).
  2. No final de 2008 eu fui convidado pelo meu ex-sócio a refazer a engine. Apesar de não ter desenvolvido outros softwares similares, continuei lendo a respeito e estudando o assunto. No início de 2009, uma nova versão foi colocada no ar e agora com melhorias significativas, onde eu pude colocar em prática o que aprendi nos anos após minha saída da empresa.
  3. Esta é a versão do projeto em dezembro de 2002 obtida através do www.archive.org. Se beleza representasse qualidade de software, a foto diz tudo.
  4. Esta é a versão do projeto em março de 2009. Agora a engine é capaz de identificar o conteúdo do site de forma automática e sem intervenção humana.
  5. Fonte: http://en.wikipedia.org/wiki/Terabyte
  6. Fonte: http://en.wikipedia.org/wiki/Petabyte
  7. Fonte: http://www.itweb.com.br/noticias/index.asp?cod=58401
  8. Fonte: http://en.wikipedia.org/wiki/Data_mining
  9. Fonte: http://en.wikipedia.org/wiki/Data_mining