SlideShare una empresa de Scribd logo
1 de 67
Descargar para leer sin conexión
Uma introdução a
Data Science
Apoio:
•  Pesquisa Cientifica (LHC, Genética, Meteorologia)
•  Mercado Financeiro
•  Cultura (Literatura,Jornais, Netflix)
•  Processos industriais
•  … e a internet!
Alguns números:
-  LHC: 70 TB/dia de dados
-  NYSE: 1 TB/dia de trading data
-  Facebook: 1.5 bilhão de likes em marcas por mês
-  Apontador: 50 milhões de pageviews por mês
-  Maplink: 1.8 bilhões de coordenadas processadas por mês
dados e dados… por toda parte!
Fontes:
- http://en.wikipedia.org/wiki/Large_Hadron_Collider
- http://marciaconner.com/blog/data-on-big-data/
hum?
•  O usuário realiza ações em um site.
•  Ações podem indicar preferências
•  Entender ações dos usuários aumenta o grau de informação sobre
ele.
•  Customização e experiência do usuário.
•  HPC (clusters, GPU, etc)
•  Map Reduce (Hadoop, Disco, etc)
Como fazer Big Data?
Processamento:
Armazenamento:
•  Banco de dados escaláveis (noSQL): MongoDB, Cassandra,
Dynamo..
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
6 de 21
Metodologia Big Data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink - 7 de 21
•  HPC (clusters, GPU, etc)
•  Map Reduce (Hadoop, Disco, etc)
9 de 21
Como fazer Big Data?
Processamento:
Armazenamento:
•  Banco de dados escaláveis (noSQL): MongoDB, Cassandra,
Dynamo..
“Estou na Campus Party”
“Campus Party esse mês”
“O campus da USP é no Butanta”
Estou 1
na 1
Campus 1
Party 1
Campus 2
Party 2
esse 2
mês 2
O 3
campus 3
da 3
USP 3
é 3
no 3
Butanta 3
Estou 1
na 1
Campus 1,2,3
Party 1,2
esse 2
Mes 2
o 3
da 3
USP 3
e 3
no 3
butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
•  Projeto Apache
•  Framework de MapReduce
•  Sistema de arquivos distribuido entre todas as máquinas do cluster
(HDFS)
•  Hbase, Hive, PIG, Mahout
•  Yelp, Yahoo, Facebook, Amazon, Netflix, Apontador & Maplink
14 de 21
E o Hadoop? O que é?
•  Apenas os dados não trazem soluções dos problemas.
•  Modelos estatísticos trazem intuição teórica sobre o que estamos
estudando.
•  Dados processados com suposições teóricas equivocadas podem
levar a conclusões erradas.
15 de 21
Só Hadoop resolve meu problema?
Vamos construir um e-commerce com um sistema
de recomendação e descontos personalizados:
16 de 21
Como assim modelo?
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
17 de 21
Sr David steps, dono da loja virtual VelhoGeek:
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Notebook	
  HAL	
   Informa(ca	
   	
  R$2000.00	
  	
  
3	
   Celular	
  Pear	
  youPhone	
   Telefonia	
   	
  R$1800.00	
  	
  
4	
   Celular	
  Blue	
  Robot	
   Telefonia	
   	
  R$1600.00	
  	
  
5	
   Celular	
  youClone	
  com	
  8	
  chips	
   Telefonia	
   	
  R$800.00	
  	
  
6	
   Celular	
  EscritórioFone	
  for	
  Businessmen	
   Telefonia	
   	
  R$1000.00	
  	
  
7	
   Tênis	
  Mike	
   Roupas	
  e	
  Acessórios	
   	
  R$300.00	
  	
  
8	
   Tênis	
  Rei	
   Roupas	
  e	
  Acessórios	
   	
  R$150.00	
  	
  
9	
   Fone	
  de	
  Ouvido	
  youPhone	
  original	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
10	
   Mouse	
  CheapJunk	
  Systems	
   Acessórios	
  de	
  Informá(ca	
   	
  R$5.00	
  	
  
11	
   Mouse	
  MacroHard	
  sem	
  fio	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
12	
   CD:	
  Boy	
  Band	
  do	
  Ano	
  "Live	
  AcusXco"	
   Música	
   	
  R$25.00	
  	
  
13	
   CD:	
  Cool	
  Jazz	
  CollecXon	
  	
   Música	
   	
  R$25.00	
  	
  
14	
   Fraldas	
  Pimpolho	
  -­‐	
  200	
  unidades	
   Bebê	
   	
  R$50.00	
  	
  
15	
   Carrinho	
  de	
  Bebê	
  	
   Bebê	
   	
  R$150.00	
  	
  
16	
   Cerveja	
  -­‐	
  6	
  pack	
   Alimentos	
   	
  R$12.00	
  	
  
21	
   Vinho	
  -­‐	
  "Chateau	
  PeXt	
  Verdot"	
  bordeaux	
  grand	
  cru	
  classé	
   Alimentos	
   	
  R$120.00	
  	
  
18	
   Jogo	
  de	
  Videogame	
  -­‐	
  God	
  of	
  Ba`le	
   Jogos	
   	
  R$50.00	
  	
  
19	
   Livro:	
  "Receitas	
  para	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
20	
   Livro:	
  "God	
  of	
  Ba`le	
  -­‐	
  Estratégias	
  para	
  Ganhar"	
   Livros	
   	
  R$25.00	
  	
  
21	
   Livro:	
  "Como	
  Não	
  Matar	
  o	
  Seu	
  Bebê:	
  a	
  Arte	
  da	
  Guerra	
  para	
  Pais	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
22	
   Livro:	
  "Espeleologia	
  Comparada:	
  Introdução	
  ao	
  Cálculo	
  Setorial	
  MulXplexado"	
   Livros	
   	
  R$55.00	
  	
  
18 de 21
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
19 de 21
COMO descobrir isso?
•  Volume de dados gigante
•  Dados indicam informações sobre os usuários
•  Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
•  Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
BIG Data
•  Dados são armazenados de maneira estruturada
•  Uma pequena parcela dos dados são armazenados
o que foi feito até hoje
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
metodologia big data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink -
•  Não é necessário um volume absurdo de dados
•  Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
•  Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
Small-Big-Medium Data
•  Furacão Francis
Walmart: Como preparar de maneira mais precisa os estoques das lojas
no caminho da tormenta?
•  O que queriam descobrir?
Quais produtos devem estocar?
Quantidade de cada produto?
Quanto tempo antês serão comprados?
pensamento analítico?
•  Precificação do crédito
Decidir para quem e em que condições fornecer o cartão de crédito
• O que quero descobrir?
Quanto de anuidade devo cobrar?
Qual a chance daquele usuário pagar a fatura?
Quanto tempo ele vai ficar sem pagar?
Quanto ele deve ter de limite?
pensamento analítico?
porque usamos a estatística?
Não sabemos toda a informação sobre o usuário
No total das opções, um usuário preencheu uma pequena parte
Mesmo para pessoas bem conhecidas, as decisões não são
determinísticas
21 de 21
relembrando a estatística
P(dado = 2) =
#resultados=2
#jogadas
NX
0
P(xi) = 1
21 de 21
relembrando a estatística!
21 de 21
relembrando a estatística!
Eventos:
relembrando a estatística!
Eventos:
21 de 21
relembrando a estatística
E[X] =
NX
i=0
xi
N
=
NX
i=1
r
(xi x)2
N
21 de 21
relembrando a estatística!
Eventos:
21 de 21
cuidado!
21 de 21
Independência estatistica
P(A, B) = P(A)P(B)
21 de 21
e o que SÃO os erros?
Imprecisão que temos pela falta de informação
Incertezas naturais que temos sobre o sistema
21 de 21
jogo de dados
Se acerto, dobro o que apostei. Se erro, perco.
Esperança da jogada:
10
6
5
6
< 0
21 de 21
Relembrando a ESTATÍSTICA!
21 de 21
OVERFITTING
21 de 21
OVERFITTING
Classificação
o que podemos fazer
21 de 21
Regressão
o que PODEMOS fazer
Cluster
o que podemos fazer
Cluster
o que podemos fazer
Otimizatição
o que podemos fazer
21 de 21
Categorização
o que PODEMOS fazer
Regressão
Regressão
Cassino: Qual a probabilidade de uma moeda ser coroa?
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Freqüencia
XEvidência
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Está quente?
Está ventando?
Está sol?
Choveu ontém?
Qual a estação do ano?
CONDIÇÕES
P(chover|julho, sol)
probabilidade condicional
P(A|B) =
P(A  B)
P(B)
P(A|B)P(B) = P(A  B)
o teorema de bayes
P(A|B)P(B) = P(A  B)
P(A|B)P(B) = P(A  B)
P(A|B) =
P(B|A)
P(B)
P(A)
probabilidade condicional e propriedades
P(A|B) =
P(A, B)
P(B)
=
P(A)P(B)
P(B)
= P(A)
P(A|A) = P(A)
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
P(filho|filha)
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
porque ela é importante
•  Data Scientist pode trazer conhecimento externo
•  eg: características dos usuários
•  eg: Crianças e bebidas alcoólicas
•  Introdduzir daos do BI
•  eg: homens e produtos para gravidez
•  eg: acordos comerciais
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar
•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
furacão francis
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes
•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.
•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADOR
o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</
DateTime><Destination xmlns:a="http://schemas.datacontract.org/
2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</
a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin
xmlns:a="http://schemas.datacontract.org/2004/07/
SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</
a:Lng></Origin>
SOBRE O ROTEIRIZADOR
o padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que quero saber?
Que produto recomendar?
Que desconto oferecer?
sr david steps, dono da loja virtual velhogeek:
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Notebook	
  HAL	
   Informa(ca	
   	
  R$2000.00	
  	
  
3	
   Celular	
  Pear	
  youPhone	
   Telefonia	
   	
  R$1800.00	
  	
  
4	
   Celular	
  Blue	
  Robot	
   Telefonia	
   	
  R$1600.00	
  	
  
5	
   Celular	
  youClone	
  com	
  8	
  chips	
   Telefonia	
   	
  R$800.00	
  	
  
6	
   Celular	
  EscritórioFone	
  for	
  Businessmen	
   Telefonia	
   	
  R$1000.00	
  	
  
7	
   Tênis	
  Mike	
   Roupas	
  e	
  Acessórios	
   	
  R$300.00	
  	
  
8	
   Tênis	
  Rei	
   Roupas	
  e	
  Acessórios	
   	
  R$150.00	
  	
  
9	
   Fone	
  de	
  Ouvido	
  youPhone	
  original	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
10	
   Mouse	
  CheapJunk	
  Systems	
   Acessórios	
  de	
  Informá(ca	
   	
  R$5.00	
  	
  
11	
   Mouse	
  MacroHard	
  sem	
  fio	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
12	
   CD:	
  Boy	
  Band	
  do	
  Ano	
  "Live	
  AcusXco"	
   Música	
   	
  R$25.00	
  	
  
13	
   CD:	
  Cool	
  Jazz	
  CollecXon	
  	
   Música	
   	
  R$25.00	
  	
  
14	
   Fraldas	
  Pimpolho	
  -­‐	
  200	
  unidades	
   Bebê	
   	
  R$50.00	
  	
  
15	
   Carrinho	
  de	
  Bebê	
  	
   Bebê	
   	
  R$150.00	
  	
  
16	
   Cerveja	
  -­‐	
  6	
  pack	
   Alimentos	
   	
  R$12.00	
  	
  
21	
   Vinho	
  -­‐	
  "Chateau	
  PeXt	
  Verdot"	
  bordeaux	
  grand	
  cru	
  classé	
   Alimentos	
   	
  R$120.00	
  	
  
18	
   Jogo	
  de	
  Videogame	
  -­‐	
  God	
  of	
  Ba`le	
   Jogos	
   	
  R$50.00	
  	
  
19	
   Livro:	
  "Receitas	
  para	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
20	
   Livro:	
  "God	
  of	
  Ba`le	
  -­‐	
  Estratégias	
  para	
  Ganhar"	
   Livros	
   	
  R$25.00	
  	
  
21	
   Livro:	
  "Como	
  Não	
  Matar	
  o	
  Seu	
  Bebê:	
  a	
  Arte	
  da	
  Guerra	
  para	
  Pais	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
22	
   Livro:	
  "Espeleologia	
  Comparada:	
  Introdução	
  ao	
  Cálculo	
  Setorial	
  MulXplexado"	
   Livros	
   	
  R$55.00	
  	
  
Nosso objetivo: aumentar vendas
um simples exemplo de recomendação
como descobrir isso?
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ )
p(i) + p(k)Prob(comprark|comprari, caracJ )
Prob(comprark|comprari, caracJ ) =
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
Prob(comprark)
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
=
Prob(comprari|comprark)Prob(caracJ |comprark)
Prob(comprari)Prob(caracJ )
Oferecer um segundo produto que maximize a esperança!
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Prob(comprark|comprari, caracJ ) =
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Caracteristicas: sexo, idade, classe de renda, educacao
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)
Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
live demo!
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracter´ıstica do usuario)
Caio C. Gomes
Diretor Big Data e Inovação
caio.gomes@apontador.com

Más contenido relacionado

La actualidad más candente

Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big DataHélio Silva
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoLuis Borges Gouveia
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 

La actualidad más candente (20)

Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big Data
Big DataBig Data
Big Data
 
O que é Data Science?
O que é Data Science?O que é Data Science?
O que é Data Science?
 
Big data
Big dataBig data
Big data
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Big Data
Big DataBig Data
Big Data
 
Data science
Data scienceData science
Data science
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Big Data e NoSQL
Big Data e NoSQLBig Data e NoSQL
Big Data e NoSQL
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 
O que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceitoO que é a ciência de dados (data science). Discussão do conceito
O que é a ciência de dados (data science). Discussão do conceito
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 

Destacado

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoCaio Gomes
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015rcdbarros
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemJose Papo, MSc
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupDiego Nogare
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosFabíola Fernandes
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?Nico Steppat
 

Destacado (9)

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na Nuvem
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
 
Data Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicandoData Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicando
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
 

Similar a Uma introdução concisa à Data Science

Transformando a Web com Dados
Transformando a Web com DadosTransformando a Web com Dados
Transformando a Web com DadosCaio Gomes
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big DataCaio Gomes
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no MercadoJoel Pinho Lucas
 
Big Ideas, small Data
Big Ideas, small DataBig Ideas, small Data
Big Ideas, small DataDigital House
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...E-Commerce Brasil
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Web Services LATAM
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoRafa Spoladore
 
Agile Data Insights - TDC PoA 2016
Agile Data Insights - TDC PoA 2016Agile Data Insights - TDC PoA 2016
Agile Data Insights - TDC PoA 2016Andressa Sivolella
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonLuiz Eduardo Le Masson
 

Similar a Uma introdução concisa à Data Science (20)

Transformando a Web com Dados
Transformando a Web com DadosTransformando a Web com Dados
Transformando a Web com Dados
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
Pgday campinas 2015
Pgday campinas 2015Pgday campinas 2015
Pgday campinas 2015
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Comjovem Experience 2023 - Análise de Dados
Comjovem Experience 2023 - Análise de DadosComjovem Experience 2023 - Análise de Dados
Comjovem Experience 2023 - Análise de Dados
 
Big Ideas, small Data
Big Ideas, small DataBig Ideas, small Data
Big Ideas, small Data
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data Science For Dummies From a Dummy
Data Science For Dummies From a DummyData Science For Dummies From a Dummy
Data Science For Dummies From a Dummy
 
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
[Conferência E-Commerce Brasil SC 2020] A indústria precisa acelerar no merca...
 
Amazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo RealAmazon Kinesis: Processamento de Big Data em Tempo Real
Amazon Kinesis: Processamento de Big Data em Tempo Real
 
Workshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big DataWorkshop / Meetup: Visão geral sobre Big Data
Workshop / Meetup: Visão geral sobre Big Data
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
Agile Data Insights - TDC PoA 2016
Agile Data Insights - TDC PoA 2016Agile Data Insights - TDC PoA 2016
Agile Data Insights - TDC PoA 2016
 
Introdução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores PythonIntrodução ao Big Data para Desenvolvedores Python
Introdução ao Big Data para Desenvolvedores Python
 

Más de Caio Gomes

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordasCaio Gomes
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmesCaio Gomes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big dataCaio Gomes
 
Big data em real time
Big data em real timeBig data em real time
Big data em real timeCaio Gomes
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkCaio Gomes
 

Más de Caio Gomes (7)

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordas
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
 
Big data em real time
Big data em real timeBig data em real time
Big data em real time
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & Maplink
 

Uma introdução concisa à Data Science

  • 1. Uma introdução a Data Science Apoio:
  • 2. •  Pesquisa Cientifica (LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industriais •  … e a internet! Alguns números: -  LHC: 70 TB/dia de dados -  NYSE: 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês dados e dados… por toda parte! Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
  • 3. hum? •  O usuário realiza ações em um site. •  Ações podem indicar preferências •  Entender ações dos usuários aumenta o grau de informação sobre ele. •  Customização e experiência do usuário.
  • 4.
  • 5. •  HPC (clusters, GPU, etc) •  Map Reduce (Hadoop, Disco, etc) Como fazer Big Data? Processamento: Armazenamento: •  Banco de dados escaláveis (noSQL): MongoDB, Cassandra, Dynamo..
  • 6. •  Toda informação do usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário 6 de 21 Metodologia Big Data Buscas, clicks, mouse hoover, movimentos no mapa
  • 8. •  HPC (clusters, GPU, etc) •  Map Reduce (Hadoop, Disco, etc) 9 de 21 Como fazer Big Data? Processamento: Armazenamento: •  Banco de dados escaláveis (noSQL): MongoDB, Cassandra, Dynamo..
  • 9. “Estou na Campus Party” “Campus Party esse mês” “O campus da USP é no Butanta” Estou 1 na 1 Campus 1 Party 1 Campus 2 Party 2 esse 2 mês 2 O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3 Estou 1 na 1 Campus 1,2,3 Party 1,2 esse 2 Mes 2 o 3 da 3 USP 3 e 3 no 3 butanta 3 10 de 21 Exemplo Map Reduce
  • 11. •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21 Vantagens do Map Reduce
  • 12. •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. 13 de 21 Desvantagens do Map Reduce
  • 13. •  Projeto Apache •  Framework de MapReduce •  Sistema de arquivos distribuido entre todas as máquinas do cluster (HDFS) •  Hbase, Hive, PIG, Mahout •  Yelp, Yahoo, Facebook, Amazon, Netflix, Apontador & Maplink 14 de 21 E o Hadoop? O que é?
  • 14. •  Apenas os dados não trazem soluções dos problemas. •  Modelos estatísticos trazem intuição teórica sobre o que estamos estudando. •  Dados processados com suposições teóricas equivocadas podem levar a conclusões erradas. 15 de 21 Só Hadoop resolve meu problema?
  • 15. Vamos construir um e-commerce com um sistema de recomendação e descontos personalizados: 16 de 21 Como assim modelo?
  • 16. “Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 17 de 21 Sr David steps, dono da loja virtual VelhoGeek:
  • 17. Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00     18 de 21
  • 18. •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 19 de 21 COMO descobrir isso?
  • 19. •  Volume de dados gigante •  Dados indicam informações sobre os usuários •  Faz tempo que existe uma avalanche de dados, que eram em geral sumarizados. •  Hoje existem ferramentas que permitem armazenar e processar esses dados em sua forma bruta. BIG Data
  • 20. •  Dados são armazenados de maneira estruturada •  Uma pequena parcela dos dados são armazenados o que foi feito até hoje
  • 21. •  Toda informação do usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário metodologia big data Buscas, clicks, mouse hoover, movimentos no mapa
  • 23. •  Não é necessário um volume absurdo de dados •  Operações complexas podem necessitar um grande parque computacional mesmo para uma pequena quantidade de dados •  Sistemas com pequena quantidade de dados podem se benificiar da Metodologia big data Small-Big-Medium Data
  • 24. •  Furacão Francis Walmart: Como preparar de maneira mais precisa os estoques das lojas no caminho da tormenta? •  O que queriam descobrir? Quais produtos devem estocar? Quantidade de cada produto? Quanto tempo antês serão comprados? pensamento analítico?
  • 25. •  Precificação do crédito Decidir para quem e em que condições fornecer o cartão de crédito • O que quero descobrir? Quanto de anuidade devo cobrar? Qual a chance daquele usuário pagar a fatura? Quanto tempo ele vai ficar sem pagar? Quanto ele deve ter de limite? pensamento analítico?
  • 26. porque usamos a estatística? Não sabemos toda a informação sobre o usuário No total das opções, um usuário preencheu uma pequena parte Mesmo para pessoas bem conhecidas, as decisões não são determinísticas
  • 27. 21 de 21 relembrando a estatística P(dado = 2) = #resultados=2 #jogadas NX 0 P(xi) = 1
  • 28. 21 de 21 relembrando a estatística!
  • 29. 21 de 21 relembrando a estatística! Eventos:
  • 31. 21 de 21 relembrando a estatística E[X] = NX i=0 xi N = NX i=1 r (xi x)2 N
  • 32. 21 de 21 relembrando a estatística! Eventos:
  • 34. 21 de 21 Independência estatistica P(A, B) = P(A)P(B)
  • 35. 21 de 21 e o que SÃO os erros? Imprecisão que temos pela falta de informação Incertezas naturais que temos sobre o sistema
  • 36. 21 de 21 jogo de dados Se acerto, dobro o que apostei. Se erro, perco. Esperança da jogada: 10 6 5 6 < 0
  • 37. 21 de 21 Relembrando a ESTATÍSTICA!
  • 41. 21 de 21 Regressão o que PODEMOS fazer
  • 45. 21 de 21 Categorização o que PODEMOS fazer Regressão Regressão
  • 46. Cassino: Qual a probabilidade de uma moeda ser coroa? a estatística bayesiana Metereologia: Qual a probabilidade de chover hoje? Freqüencia XEvidência
  • 47. a estatística bayesiana Metereologia: Qual a probabilidade de chover hoje? Está quente? Está ventando? Está sol? Choveu ontém? Qual a estação do ano? CONDIÇÕES P(chover|julho, sol)
  • 48. probabilidade condicional P(A|B) = P(A B) P(B) P(A|B)P(B) = P(A B)
  • 49. o teorema de bayes P(A|B)P(B) = P(A B) P(A|B)P(B) = P(A B) P(A|B) = P(B|A) P(B) P(A)
  • 50. probabilidade condicional e propriedades P(A|B) = P(A, B) P(B) = P(A)P(B) P(B) = P(A) P(A|A) = P(A)
  • 51. A estatística BAYESIANA ` Filho, Filho Filho, Filha Filha, Filho Filha, Filha P(filho|filha)
  • 52. A estatística BAYESIANA ` Filho, Filho Filho, Filha Filha, Filho Filha, Filha
  • 53. porque ela é importante •  Data Scientist pode trazer conhecimento externo •  eg: características dos usuários •  eg: Crianças e bebidas alcoólicas •  Introdduzir daos do BI •  eg: homens e produtos para gravidez •  eg: acordos comerciais
  • 54. •  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação) furacão francis
  • 55. •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering) precificação do cartão de crédito
  • 56. •  Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21 estimativa de trânsito
  • 57.
  • 58. SOBRE O ROTEIRIZADOR o que recebemos <Route><Category>1</Category><DateTime>0001-01-01T00:00:00</ DateTime><Destination xmlns:a="http://schemas.datacontract.org/ 2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</ a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/ SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</ a:Lng></Origin>
  • 59. SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
  • 60. “Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que quero saber? Que produto recomendar? Que desconto oferecer? sr david steps, dono da loja virtual velhogeek:
  • 61. Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00    
  • 62. Nosso objetivo: aumentar vendas um simples exemplo de recomendação como descobrir isso? •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer?
  • 63. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ ) p(i) + p(k)Prob(comprark|comprari, caracJ ) Prob(comprark|comprari, caracJ ) = Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) Prob(comprark) Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) = Prob(comprari|comprark)Prob(caracJ |comprark) Prob(comprari)Prob(caracJ ) Oferecer um segundo produto que maximize a esperança!
  • 64. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário Prob(comprark|comprari, caracJ ) = Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark)
  • 65. um simples exemplo de recomendação Idéia: promoção direcionada ao usuário Caracteristicas: sexo, idade, classe de renda, educacao p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark) Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
  • 67. 21 de 21 Teorema de Bayes: brigado! É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO statístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario) Caio C. Gomes Diretor Big Data e Inovação caio.gomes@apontador.com