SlideShare una empresa de Scribd logo
1 de 6
Esse tal de Big Data....
__________________________________________________________________··.
1
__________________________________________________________________________
E esse tal de Big Data ?
Hoje todas as pessoas que converso e que sabem que atuamos com Business Intelligence na Cetax
Consultoria, me perguntam:
E esse Big Data hein Marco? Eu vi até na Veja... está todo mundo falando disso.
“Vi que o Cientista de Dados é a profissão do futuro”, “Eu quero ser Cientista de Dados”.
Sempre penso muito antes de responder qualquer questão que foi colocada a mim, por isso vamos falar
um pouco sobre tudo que cerca o assunto antes de grandes definições.
Para quem nunca viu, abaixo está uma pesquisa feita no Google Trends (www.google.com/trends).
O termo é pesquisado nos EUA desde sempre, mas em 2011 houve uma explosão de pesquisas tanto aqui,
quanto lá na terra do Tio Sam.
Aqui no Brasil vemos um crescimento constante a partir de 2012 e um pico em Maio/2013, exatamente
quando a Veja publicou uma matéria sobre Big Data, não concordo com tudo que estava escrito na
matéria, mas isso fica para um post a parte.
Publicação da Veja
com Big Data na capa
Esse tal de Big Data....
__________________________________________________________________··.
2
__________________________________________________________________________Outro gráfico interessante que coloquei abaixo é uma comparação entre as pesquisas sobre Big Data x
Business Intelligence, essa pesquisa é Global. Podemos ver que o termo “Business Intelligence” reinou
absoluto até o começo desse ano, onde o “Big Data” ultrapassou o termo.
No gráfico abaixo uma comparação entre data warehouse x business Intelligence x big data.
Em 2006, “Business Intelligence” passou “Data Warehouse” e em 2013, “Big Data” passou “Business
Intelligence”.
Esse tal de Big Data....
__________________________________________________________________··.
3
__________________________________________________________________________
1) Big Data = Grandes Dados ou Grandes Volumes de
Dados ?
Alguns DBAs e programadores que conheço migraram seus currículos instantaneamente de “Especialistas
em Bancos de Dados” para “Especialistas em Big Data” afinal de contas trabalhavam com bancos de dados
de alguns Terabytes (TBs) e teoricamente isso é Big Data.
Na verdade não é simplesmente o volume de dados que define o Big Data, o conceito é calcado em um
pilar de 3 itens, algumas pessoas falam em 4, mas vamos aos 3 principais:
Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora
estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês.
Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de
2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026
Exabytes de informações.
Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de
fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a
tempo.
A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1,
ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios,
porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de
negócio.
Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado),
hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores,
navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
Esse tal de Big Data....
__________________________________________________________________··.
4
__________________________________________________________________________Uma nova série de ferramentas está se tornando parte dos projetos, são as ferramentas de machine data,
dados de máquina, quase qualquer aparelho eletrônico hoje em dia tem uma estrutura de dados ou
programação, o ponto é que nem todos podem ser acessados (ainda..).
2) Qual o volume de dados gerado diariamente ?
O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a
cada mês são gerados mais de 700 milhões de minutos por mês.
A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá
assistir todos os vídeos do Youtube.
Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS
(Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS.
O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15%
totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100
petabytes de informação.
Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não.
3) O que são informações estruturas e não estruturadas ?
Consideramos:
 Informações estruturadas - aquelas que possuem algum padrão ou formato que pode ser usado
na sua leitura e extração dos dados. Dados de bancos de dados, sistemas legados, arquivos texto
(sejam csv, txt ou XML).
 Informações não estruturadas – não possuem um formato padronizado para leitura, podem ser
arquivos Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros.
4) Quais ferramentas ? não está fácil escolher..
Ok, já sabemos o que é o termo, temos uma ideia do que ele faz, mas qual ferramenta devo escolher?
Não quero desanimar ninguém, mas olhando abaixo devem ter mais de umas 100 marcas diferentes em
categorias de softwares diferentes também.
Esse tal de Big Data....
__________________________________________________________________··.
5
__________________________________________________________________________
Deixei os Twitters dos responsáveis pela figura (Matt Turck e Shivon Zilis) que tiveram tempo e coragem
para montar o gráfico acima.
Em Maio/2013 fiz 2 cursos em Chicago-USA no TDWI (www.tdwi.org) com o Professor Krish Krishnan
(@datagenius), realmente foram muito bom, um curso bem completo sobre Big Data e outro específico e
mais focado no Hadoop.
Gostamos muito do Hadoop, nos parece ser uma suíte muito completa e estamos colocando nossas fichas
nele, mas claro, não colocamos todas as fichas na mesma aposta, a não ser que eu tenha certeza para
mandar o “All-In” como fazemos no pôquer.
Como essa aposta não é pôquer e tenho um quadro com cerca de 100 tecnologias diferentes, apostamos
uma quantidade de fichas no Hadoop, mas guardamos fichas para mais apostas.
Existem muitas ferramentas, muitos fabricantes, muitas a definições a acontecer, as perguntas que nos
fazem:
 Mas qual devo estudar?
Esse tal de Big Data....
__________________________________________________________________··.
6
__________________________________________________________________________ Qual é a melhor do mercado?
 Qual a mais usada?
Todo esse mercado ainda é muito recente, estamos falando de produtos comerciais que tem 2 ou 3 anos
no máximo. Muitas definições estão acontecendo nesse momento.
Sabemos que o mercado americano gera a maior parte das tendências de tecnologia mundialmente e pelo
que vimos, nem eles ainda tem uma ferramenta ou uma solução principal, ainda está tudo muito
fragmentado.
5) E o meu Data Warehouse, o que acontecerá ?
Ainda segundo o Professor Krish Krishnan, os dados oriundos do Big Data serão complementares ao Data
Warehouse existente, visto que ainda existirão sistemas legados com dados estruturados e bancos de
dados, da maneira que fazemos BI hoje.
O grande desafio será integrar os dados das estratégias de BI com as de Big Data, analisar separadamente
as informações não é complexo, medir Tweets, Likes do Facebook ou qualquer outro dado não estruturado
individualmente.
Passará a ser um grande desafio quando cruzarmos esses dados com Notas Fiscais, Pedidos, Entregas, etc.
Agradecimentos
Pessoal, agradeço por conseguirem chegar até aqui!
Mais artigos estão chegando:
 Gerenciamento de Projetos de BI.
 Cientista de Dados.
 Hadoop
Obrigado,
Marco Garcia
mgarcia@cetax.com.br
http://cetax.com.br

Más contenido relacionado

Destacado

Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoPesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoIdeia Inteligência
 
Operação lava jato
Operação lava jatoOperação lava jato
Operação lava jatoIsabel Cabral
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosRafael Albani
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados ConceitosCleber Ramos
 
Big Data
Big DataBig Data
Big DataNGDATA
 

Destacado (7)

Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava JatoPesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
Pesquisa: 50% dos brasileiros não veem exagero na Operação Lava Jato
 
Operação lava jato
Operação lava jatoOperação lava jato
Operação lava jato
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Aula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de DadosAula1 - Apresentação de Banco de Dados
Aula1 - Apresentação de Banco de Dados
 
Introdução a Bancos de Dados
Introdução a Bancos de DadosIntrodução a Bancos de Dados
Introdução a Bancos de Dados
 
Banco de Dados Conceitos
Banco de Dados ConceitosBanco de Dados Conceitos
Banco de Dados Conceitos
 
Big Data
Big DataBig Data
Big Data
 

Similar a O que é Big Data e como ele está mudando os negócios

Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big dataFelipe Ferraz
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informaçãoFabiana Andrade Pereira
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big datacictec
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Diego Nogare
 
Desmistificando o Big Data
Desmistificando o Big DataDesmistificando o Big Data
Desmistificando o Big DataZipCode
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesGabriel Prado
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Datainmetrics
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfssuserbd3b69
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 

Similar a O que é Big Data e como ele está mudando os negócios (20)

Futurecom - Big data
Futurecom - Big dataFuturecom - Big data
Futurecom - Big data
 
Big Data e profissionais da informação
Big Data e profissionais da informaçãoBig Data e profissionais da informação
Big Data e profissionais da informação
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Tendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big dataTendências de inovações para a tecnologia de big data
Tendências de inovações para a tecnologia de big data
 
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
Mini-Curso: Introdução à Big Data e Data Science - Aula 12 - Sessão de pergun...
 
Big data
Big dataBig data
Big data
 
Artigo big data_final
Artigo big data_finalArtigo big data_final
Artigo big data_final
 
Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?Será Mesmo o Cientista de Dados a Profissão do Futuro?
Será Mesmo o Cientista de Dados a Profissão do Futuro?
 
Desmistificando o Big Data
Desmistificando o Big DataDesmistificando o Big Data
Desmistificando o Big Data
 
Big data
Big dataBig data
Big data
 
Big Data: Desafios e Oportunidades
Big Data: Desafios e OportunidadesBig Data: Desafios e Oportunidades
Big Data: Desafios e Oportunidades
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big DataHackathon Inmetrics e Fiap: Desafios do Big Data
Hackathon Inmetrics e Fiap: Desafios do Big Data
 
Big Data
Big DataBig Data
Big Data
 
Data is the new oil
Data is the new oilData is the new oil
Data is the new oil
 
BigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdfBigData-Hekima-Ebook.pdf
BigData-Hekima-Ebook.pdf
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 

Más de Marco Garcia

Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de DadosMarco Garcia
 
Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaMarco Garcia
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroMarco Garcia
 
Webinar carreiras dados
Webinar carreiras dadosWebinar carreiras dados
Webinar carreiras dadosMarco Garcia
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosMarco Garcia
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessMarco Garcia
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxMarco Garcia
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataMarco Garcia
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataMarco Garcia
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business IntelligenceMarco Garcia
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)Marco Garcia
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosMarco Garcia
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data WarehouseMarco Garcia
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - PalestraMarco Garcia
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem DimensionalMarco Garcia
 

Más de Marco Garcia (17)

Webinar Carreiras de Dados
Webinar Carreiras de DadosWebinar Carreiras de Dados
Webinar Carreiras de Dados
 
Cases Big Data Aplicados a logística
Cases Big Data Aplicados a logísticaCases Big Data Aplicados a logística
Cases Big Data Aplicados a logística
 
Trabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado FinanceiroTrabalhos Big Data e Algoritmos - Mercado Financeiro
Trabalhos Big Data e Algoritmos - Mercado Financeiro
 
Webinar carreiras dados
Webinar carreiras dadosWebinar carreiras dados
Webinar carreiras dados
 
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e AlgorítmosCASES Cetax de Inteligência em Saúde - Dados e Algorítmos
CASES Cetax de Inteligência em Saúde - Dados e Algorítmos
 
Using Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing BusinessUsing Data To Tranform Your Business - Marketing Business
Using Data To Tranform Your Business - Marketing Business
 
Live - BigData
Live - BigDataLive - BigData
Live - BigData
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 
Integração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia CetaxIntegração de Dados com Apache NIFI - Marco Garcia Cetax
Integração de Dados com Apache NIFI - Marco Garcia Cetax
 
Construindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigDataConstruindo Data Lakes - Visão Prática com Hadoop e BigData
Construindo Data Lakes - Visão Prática com Hadoop e BigData
 
Carreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big DataCarreiras em Business Intelligence e Big Data
Carreiras em Business Intelligence e Big Data
 
Palestra Business Intelligence
Palestra Business IntelligencePalestra Business Intelligence
Palestra Business Intelligence
 
O que é Business Intelligence (BI)
O que é Business Intelligence (BI)O que é Business Intelligence (BI)
O que é Business Intelligence (BI)
 
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e FundamentosCurso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
Curso de Business Intelligence e Data Warehouse - Conceitos e Fundamentos
 
Cursos de Data Warehouse
Cursos de Data WarehouseCursos de Data Warehouse
Cursos de Data Warehouse
 
Business Intelligence - Palestra
Business Intelligence - PalestraBusiness Intelligence - Palestra
Business Intelligence - Palestra
 
Modelagem Dimensional
Modelagem DimensionalModelagem Dimensional
Modelagem Dimensional
 

O que é Big Data e como ele está mudando os negócios

  • 1. Esse tal de Big Data.... __________________________________________________________________··. 1 __________________________________________________________________________ E esse tal de Big Data ? Hoje todas as pessoas que converso e que sabem que atuamos com Business Intelligence na Cetax Consultoria, me perguntam: E esse Big Data hein Marco? Eu vi até na Veja... está todo mundo falando disso. “Vi que o Cientista de Dados é a profissão do futuro”, “Eu quero ser Cientista de Dados”. Sempre penso muito antes de responder qualquer questão que foi colocada a mim, por isso vamos falar um pouco sobre tudo que cerca o assunto antes de grandes definições. Para quem nunca viu, abaixo está uma pesquisa feita no Google Trends (www.google.com/trends). O termo é pesquisado nos EUA desde sempre, mas em 2011 houve uma explosão de pesquisas tanto aqui, quanto lá na terra do Tio Sam. Aqui no Brasil vemos um crescimento constante a partir de 2012 e um pico em Maio/2013, exatamente quando a Veja publicou uma matéria sobre Big Data, não concordo com tudo que estava escrito na matéria, mas isso fica para um post a parte. Publicação da Veja com Big Data na capa
  • 2. Esse tal de Big Data.... __________________________________________________________________··. 2 __________________________________________________________________________Outro gráfico interessante que coloquei abaixo é uma comparação entre as pesquisas sobre Big Data x Business Intelligence, essa pesquisa é Global. Podemos ver que o termo “Business Intelligence” reinou absoluto até o começo desse ano, onde o “Big Data” ultrapassou o termo. No gráfico abaixo uma comparação entre data warehouse x business Intelligence x big data. Em 2006, “Business Intelligence” passou “Data Warehouse” e em 2013, “Big Data” passou “Business Intelligence”.
  • 3. Esse tal de Big Data.... __________________________________________________________________··. 3 __________________________________________________________________________ 1) Big Data = Grandes Dados ou Grandes Volumes de Dados ? Alguns DBAs e programadores que conheço migraram seus currículos instantaneamente de “Especialistas em Bancos de Dados” para “Especialistas em Big Data” afinal de contas trabalhavam com bancos de dados de alguns Terabytes (TBs) e teoricamente isso é Big Data. Na verdade não é simplesmente o volume de dados que define o Big Data, o conceito é calcado em um pilar de 3 itens, algumas pessoas falam em 4, mas vamos aos 3 principais: Volume – Volume dos Dados: Passamos a falar muito rápido de Gigabytes para Terabytes e agora estamos falando de Petabytes e outros volumes que não vou saber colocar aqui de cabeça para vocês. Hoje são contabilizados em média 12 Terabytes de Tweets diariamente, em 2012 foram gerados cerca de 2.834 Exabytes (que são milhões de Gigabytes) a previsão é que em 2020 se gerem anualmente 40.026 Exabytes de informações. Velocity – Velocidade: Hoje para alguns negócios, 1 minuto pode ser muito tempo, detecção de fraudes, liberações de pagamentos, análises de dados médicos ou qualquer outra informação sensível a tempo. A maior parte dos projetos de DW/BI (Data Warehouse e Business Intelligence) ainda tem latência em D-1, ou seja, carregamos o dia anterior. Ainda acreditamos que essa solução se aplique a muitos negócios, porém, para algumas análises, quanto mais próximo do tempo real, maior pode ser o incremento de negócio. Variety – Variedade: Big Data também poderia ser considerado como Any Data (qualquer dado), hoje temos capacidade de capturar e analisar dados estruturados e não estruturados, texto, sensores, navegação Web, áudio, vídeo, arquivos de logs, catracas, centrais de ar condicionado, entre outros.
  • 4. Esse tal de Big Data.... __________________________________________________________________··. 4 __________________________________________________________________________Uma nova série de ferramentas está se tornando parte dos projetos, são as ferramentas de machine data, dados de máquina, quase qualquer aparelho eletrônico hoje em dia tem uma estrutura de dados ou programação, o ponto é que nem todos podem ser acessados (ainda..). 2) Qual o volume de dados gerado diariamente ? O Facebook armazena, acessa e analisa mais de 50 petabytes de informações geradas pelos usuários, a cada mês são gerados mais de 700 milhões de minutos por mês. A cada minuto são feitos uploads de 48 horas de vídeos no Youtube, ou seja, nunca ninguém conseguirá assistir todos os vídeos do Youtube. Diariamente mais de 500 milhões de mensagens são enviadas pelo Twitter, com uma média de 5700 TPS (Twittes per Second ou Mensagens por Segundo), o recorde é de 143.199 TPS. O Google processa diariamente mais de 3 bilhões de pesquisas em todo o mundo, sendo desse total 15% totalmente inéditas. Seu "motor" de pesquisa rastreia 20 bilhões de sites diariamente, armazenando 100 petabytes de informação. Sem contar todas as informações que as companhias geram diariamente, sejam elas estruturadas ou não. 3) O que são informações estruturas e não estruturadas ? Consideramos:  Informações estruturadas - aquelas que possuem algum padrão ou formato que pode ser usado na sua leitura e extração dos dados. Dados de bancos de dados, sistemas legados, arquivos texto (sejam csv, txt ou XML).  Informações não estruturadas – não possuem um formato padronizado para leitura, podem ser arquivos Word, Páginas de Internet/Intranet, Vídeos, áudios, entre outros. 4) Quais ferramentas ? não está fácil escolher.. Ok, já sabemos o que é o termo, temos uma ideia do que ele faz, mas qual ferramenta devo escolher? Não quero desanimar ninguém, mas olhando abaixo devem ter mais de umas 100 marcas diferentes em categorias de softwares diferentes também.
  • 5. Esse tal de Big Data.... __________________________________________________________________··. 5 __________________________________________________________________________ Deixei os Twitters dos responsáveis pela figura (Matt Turck e Shivon Zilis) que tiveram tempo e coragem para montar o gráfico acima. Em Maio/2013 fiz 2 cursos em Chicago-USA no TDWI (www.tdwi.org) com o Professor Krish Krishnan (@datagenius), realmente foram muito bom, um curso bem completo sobre Big Data e outro específico e mais focado no Hadoop. Gostamos muito do Hadoop, nos parece ser uma suíte muito completa e estamos colocando nossas fichas nele, mas claro, não colocamos todas as fichas na mesma aposta, a não ser que eu tenha certeza para mandar o “All-In” como fazemos no pôquer. Como essa aposta não é pôquer e tenho um quadro com cerca de 100 tecnologias diferentes, apostamos uma quantidade de fichas no Hadoop, mas guardamos fichas para mais apostas. Existem muitas ferramentas, muitos fabricantes, muitas a definições a acontecer, as perguntas que nos fazem:  Mas qual devo estudar?
  • 6. Esse tal de Big Data.... __________________________________________________________________··. 6 __________________________________________________________________________ Qual é a melhor do mercado?  Qual a mais usada? Todo esse mercado ainda é muito recente, estamos falando de produtos comerciais que tem 2 ou 3 anos no máximo. Muitas definições estão acontecendo nesse momento. Sabemos que o mercado americano gera a maior parte das tendências de tecnologia mundialmente e pelo que vimos, nem eles ainda tem uma ferramenta ou uma solução principal, ainda está tudo muito fragmentado. 5) E o meu Data Warehouse, o que acontecerá ? Ainda segundo o Professor Krish Krishnan, os dados oriundos do Big Data serão complementares ao Data Warehouse existente, visto que ainda existirão sistemas legados com dados estruturados e bancos de dados, da maneira que fazemos BI hoje. O grande desafio será integrar os dados das estratégias de BI com as de Big Data, analisar separadamente as informações não é complexo, medir Tweets, Likes do Facebook ou qualquer outro dado não estruturado individualmente. Passará a ser um grande desafio quando cruzarmos esses dados com Notas Fiscais, Pedidos, Entregas, etc. Agradecimentos Pessoal, agradeço por conseguirem chegar até aqui! Mais artigos estão chegando:  Gerenciamento de Projetos de BI.  Cientista de Dados.  Hadoop Obrigado, Marco Garcia mgarcia@cetax.com.br http://cetax.com.br