SlideShare una empresa de Scribd logo
1 de 9
Descargar para leer sin conexión
BIG DATA, ANALYTICS E SEUS PROFISSIONAIS – UMA VISÃO GERAL 
VIVALDO JOSÉ BRETERNITZ 
Profissional originário da área de Computação é professor da Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. É doutor em Ciências pela Universidade de São Paulo, com pós-doutoramento pela Universidade de Lisboa 
INTRODUÇÃO 
A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A velocidade e o volume com que estes vem sendo criados é alucinante: Smolan e Erwitt (2012) afirmam que até 2003 a humanidade havia gerado 5 exabytes, e que em 2013, bastavam dez minutos para que esse volume fosse criado. 
isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso exponencial de informações estruturadas e não estruturadas. 
Em 2011, o periódico The Economist entrevistou executivos de grandes organizações em sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram que a disponibilidade de dados havia alterado completamente a forma como suas organizações planejavam e operavam. 
Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com alguns aspectos básicos relacionados à captura e administração de dados e à sua efetiva exploração, dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o mercado vem chamando Cientistas de Dados (CD) – esses profissionais com esse perfil são muito raros e sua formação demanda muito tempo, o que torna sua utilização cara – Bertolucci (2012), citando pesquisas da consultoria McKinsey, diz que apenas nos Estados Unidos faltarão em 2018 aproximadamente 190.000 desses profissionais
Dado esse cenário, elaborou-se este ensaio que tem como objetivo apresentar uma visão geral acerca de Big Data, de Analytics (uma de suas áreas mais importantes), e dos profissionais envolvidos, pretendendo fornecer subsídios àqueles que se envolverão com o assunto. 
O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e acadêmica de seu autor, que no meio acadêmico vem se dedicando à pesquisa do assunto e à formação de pessoal que atuará na área. 
BIG DATA 
Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro aspectos: volume, velocidade, variedade e veracidade. 
O aspecto volume refere-se ao fato de que a quantidade de dados disponível em forma digital cresce de maneira exponencial, provenientes não só de sistemas convencionais, mas também de fontes como Facebook, Tweeter, You Tube, RFID, eletrônica embarcada, telefones celulares e assemelhados, sensores de diversos tipos, etc. 
Além do volume total citado anteriormente, McAfee e Brynjolfsson (2012) diziam que naquele ano, a cada segundo, mais dados transitavam pela internet do que o total armazenado na mesma 20 anos antes e que apenas o Walmart coletava mais de 2,5 petabytes a cada hora, derivados das transações efetuadas por seus clientes; cabe lembrar que um petabyte é um quatrilhão de bytes e um exabyte é esse número multiplicado por mil, ou um bilhão de gigabytes. 
Cabe lembrar o que disse Loukides (2012): como a capacidade de armazenar e processar dados deve continuar crescendo, o que é big hoje amanha será medium e na próxima semana small, no sentido de que novas técnicas, ferramentas e habilidades serão necessárias para tratar o assunto. 
Os mesmos autores apresentam outro aspecto relevante de Big Data: a velocidade em que dados podem ser capturados e processados, praticamente em tempo real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab: o grupo capturou dados relativos à localização de celulares de forma a inferir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos
Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros similares são relatados por Clifford (2012). 
No que se refere à variedade, cabe registrar que além de fontes diferentes, tais dados tem, frequentemente, características que fogem das tratadas pelos sistemas de informação convencionais, não sendo estruturados e referindo-se a coisas como movimento, temperatura, umidade e até mesmo variações na composição química do ar (LOHR, 2012). 
O aspecto veracidade está relacionado ao fato de que os dados não são “perfeitos”, no sentido de que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e também os custos para torná-los bons. 
Alguns autores consideram um quinto aspecto, a validade dos dados, ou seja, sua vida útil, o tempo em que os mesmos precisam ser mantidos (TAUBE, 2012). Esses aspectos são coletivamente chamados 4V ou 5V. 
As ferramentas computacionais, por outro lado, vem acompanhando o crescimento dessa velocidade e do volume de dados, em termos de capacidade de armazenamento e processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing) e em técnicas de inteligência artificial. 
No modelo convencional de armazenamento de dados e tomada de decisão, a organização filtra dados dos seus vários sistemas e após criar um data warehouse, constroem-se consultas (queries) de forma exploratória a fim de tomar decisões. Na prática busca-se informações (mining) em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI). Com stream computing, por outro lado, esse mining ocorre em tempo real, com uma corrente contínua de dados (streaming data) atravessando um conjunto de queries - por isso pode ser considerado um novo paradigma. 
Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de linguagem natural (natural-language processing), reconhecimento de padrões (pattern recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos
grandes volumes de dados (estruturados ou não-estruturados) conhecimento para auxiliar a gestão (LOHR, 2012). 
De forma a complementar as ferramentas computacionais, novos paradigmas de gerenciadores de bancos de dados como o Cassandra (ferramenta Open Source utilizada pelo Facebook, Twitter e Reddit), vem sendo apresentados como modelos que tratam imensos volumes de dados com muita velocidade de forma distribuída e frameworks como o Hadoop para dar suporte a essas aplicações. Soluções conjugando hardware e software na modalidade in memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA respectivamente, já estão disponíveis. 
As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde, segurança, manufatura, etc. McAfee e Brynjolfsson (2012) conduziram estudos que levaram à conclusão de que as empresas que efetivamente utilizam BD são 5% mais produtivas e 6% mais lucrativas que seus competidores – na atualidade esses números são um poderoso argumento em prol da utilização desses conceitos. 
Moraes (2012), relata como a aplicação de BD ajudou na campanha de reeleição do presidente norte-americano, Barack Obama, ajudando a orientar voluntários, indicar as melhores formas de arrecadar fundos e apontar quem poderia ser convencido a apoiar a reeleição do presidente. Os responsáveis pela campanha deram prioridade ao uso de BD em detrimento da propaganda veiculada na televisão. 
Os responsáveis pela campanha usaram a Amazon Web Services para armazenar e processar o enorme volume de dados capturados. Foram adotadas ferramentas de computação em nuvem para lidar com bancos de dados, como o Amazon DynamoDB e Amazon RDS. Uma das principais preocupações foi permitir que a base dados fosse trabalhada por diferentes aplicativos escritos em diversas linguagens de programação – para isso, se desenvolveu o Narwhal, um conjunto de serviços que funcionava como interface entre os dados e os muitos sistemas criados para a campanha. 
ANALYTICS 
Na atualidade, as organizações estão buscando explorar os grandes volumes de dados (big data) que reuniram e organizaram tentando obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência artificial e outras - alguns autores
usam expressões Advanced, Discovery ou Exploratory Analytics; a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics) 
Russom (2011) relaciona alguns dos motivos pelos quais as organizações vem utilizando BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar de oportunidades de vendas, automatizar decisões em processos em tempo real, identificar previamente clientes que tendem a deixar de se-lo (churn) e detectar fraudes. 
O mesmo autor identifica barreiras para a aplicação de BDA, destacando-se entre elas os custos envolvidos, falta de patrocínio da alta administração e problemas de escalabilidade do hardware e software disponível na organização. 
OS PROFISSIONAIS 
O mesmo Russom (2011), afirma que há uma barreira ainda maior que as já citadas: a carência de recursos humanos qualificados. 
Apesar de ferramental necessário estar sendo desenvolvido, é preciso lembrar que a utilização de BDA impõe às diversas áreas das organizações a aplicação de novas habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de BDA. 
Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de profissional; já se pode identificar uma série de funções ligadas ao tema, como as de Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas: Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando adequadamente; Data Stewards, os “donos” de cada fonte de dados e outros – note-se que para diversas funções não ainda sequer um nome em português. 
Há a percepção de que o profissional mais importante para a prática de BDA é o Cientista de Dados (Data Scientist); ainda não há uma definição precisa do que seja um Cientista de Dados; para fins deste trabalho poderíamos citar as de Davenport e Patil (2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto
trabalhava para o LinkedIn). Já Granville (2014) diz que um CD é um generalista que conhece negócios, matemática, estatística, ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e outras. Voulgaris (2014) também é pouco preciso; diz que o CD é o profissional que trabalha com big data de forma científica, criativa e inteligível. 
Davenport et al (2012) dizem que o CD precisa ter raciocínio lógico apurado, conhecimento profundo de estatística e software dessa área, modelagem, domínio de sistemas computacionais e conhecimento do negócio e do mercado em que atuará; além disso, é necessária a capacidade de comunicar seus insights a um pessoal com uma formação não técnica, usualmente os altos executivos da organização. 
Não havendo sequer uma definição precisa do que seja um Cientista de Dados, fica claro que ainda não existe uma estrutura consagrada para a formação desses profissionais – é preciso assumir que BDA é uma nova disciplina, que vem emergindo de um conjunto de outras, assim como a ciência da computação emergiu da matemática na segunda metado do século XX. 
As pessoas que estão fazendo esse trabalho na atualidade tem formação acadêmica muito diversificada, embora tenham os conhecimentos e habilidades acima mencionados e possuam cursos de pós-graduação stricto sensu. 
Começam a surgir no exterior alguns cursos de pós-graduação voltados especificamente para a formação de profissionais para BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu, sendo de se acreditar que a constante menção ao assunto na imprensa deva gerar grande interesse por esses cursos. 
Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA em cursos de graduação, inclusive criando laboratórios onde estudantes podem analisar dados de interesse de suas áreas específicas. Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos, movimento que também começa a se observar em suas subsidiárias no Brasil. 
À GUISA DE CONCLUSÃO
Na medida em que o volume de dados disponível e a capacidade para armazena-los e analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de forma similar. 
Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são administradas: novas formas de planejar e tomar decisões devem surgir, a competição deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em maior número. 
Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para atender às novas demandas e cursos destinados a preparar os recursos humanos necessários, quer no sentido negativo, quando empresas e instituições de ensino menos comprometidos com a qualidade lançam produtos e serviços de qualidade questionável. 
Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o joio do trigo, o que em nosso país, infelizmente, não acontece com a desejável frequência. 
REFERÊNCIAS 
BERTOLUCCI, J. Marketing Analytics: How To Start Without Data Scientists. InformationWeek, edição de 19.11.2012. Disponível em http://www.informationweek.com/big-data/news/big-data-analytics/marketing-analytics- how-to-start-without-data-scientists/240142289, Acesso em 15.05.2014. 
CLIFFORD, S. Retail Frenzy: Prices on the web change hourly. The New York Times, edição de 30.11.2012. 
DAVENPORT, T. H; PATIL, D. J. Data Scientist: the sexiest job of the 21st century. Harvard business Review, edição de outubro de 2012. 
EIU – Economist Intelligence Unit. Big data - Harnessing a game-changing asset. Londres: The Economist, 2011. 
GRANVILLE, V. Developing Analytic Talent. Becoming a Data Scientist. Indianapolis: John Wiley, 2014.
LOHR, S. The age of Big Data. The New York Times, edição de 11.02.2012. Disponível em: <www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the- world.html?_r=1&scp=1&sq=Big%20Data&st=cse>. Acesso em 09.05.2014. 
LOUKIDES, M. What Is Data Science? O’Reilly, edição digital (Kindle) disponível em http://www.amazon.com/What-Data-Science-Mike-Loukides- ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1- 1&keywords=data+scientist, baixado em 12.05.2014. 
MILLER, S. Colaborative approaches needed to close the Big Data skills gap. Journal of Organization Design, vol. 3, nº1, 2014. 
MORAES, M. Big Brother Obama. InfoExame, edição de dezembro de 2012. 
RUSSOM, P. Big Data Analytics. Renton: TDWI, 2011. 
SMOLAN, R; ERWITT, J. The human face of Big Data. Sausalito: Against All Odds Productions, 2012. 
TAUBE, B. Leveraging Big Data and real-time analytics to achieve situational awareness for smart grids (white paper). Redwood City: Versant Corporation U.S. Headquarters, 2012. 
VOULGARIS, Z. Data Scientist: the definitive guide to becoming a Data Scientist. Basking Ridge: Technics Publications. 
ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J; CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media, 2012. 
VIVALDO JOSÉ BRETERNITZ, profissional originário da área de Computação, é professor do Centro Universitário Padre Anchieta e da Universidade Presbiteriana Mackenzie. É Doutor em Ciências pela Universidade de São Paulo, com pós- doutoramento pela Universidade de Lisboa.
Big Data, Analytics e seus profissionais   uma visão geral

Más contenido relacionado

Más de Vivaldo Jose Breternitz

Más de Vivaldo Jose Breternitz (16)

Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abreBig Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
Big Data, Analytics e o Cientista de Dados – um novo campo de trabalho se abre
 
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...Apresentação do TCC das alunas Jessica Valente Juvele e   Stephanie de Angelo...
Apresentação do TCC das alunas Jessica Valente Juvele e Stephanie de Angelo...
 
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCCCLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
CLASSIFICAÇÃO DE TEXTOS APLICADA À AVALIAÇÃO ECONÔMICA - TCC
 
Big Data - uma visão executiva
Big Data - uma visão executivaBig Data - uma visão executiva
Big Data - uma visão executiva
 
Palestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de MatemáticaPalestra 'Algumas tendências em TI' para estudantes de Matemática
Palestra 'Algumas tendências em TI' para estudantes de Matemática
 
Vasp uma pequena história
Vasp uma pequena históriaVasp uma pequena história
Vasp uma pequena história
 
Ibm social business 20140310
Ibm social business 20140310Ibm social business 20140310
Ibm social business 20140310
 
Como criar uma sandbox no jazznet (3)
Como criar uma sandbox no jazznet (3)Como criar uma sandbox no jazznet (3)
Como criar uma sandbox no jazznet (3)
 
Companhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatosCompanhia Paulista de Estradas de Ferro - alguns fatos
Companhia Paulista de Estradas de Ferro - alguns fatos
 
Palestra IBM-Mack Zvm linux
Palestra  IBM-Mack Zvm linux  Palestra  IBM-Mack Zvm linux
Palestra IBM-Mack Zvm linux
 
Palestra mack ibm system z overview
Palestra mack  ibm system z overviewPalestra mack  ibm system z overview
Palestra mack ibm system z overview
 
O Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geralO Sistema Financeiro Nacional - uma visão geral
O Sistema Financeiro Nacional - uma visão geral
 
Big Data
Big DataBig Data
Big Data
 
Desenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calourosDesenvolvimento de games apresentação calouros
Desenvolvimento de games apresentação calouros
 
Redes sociais recepção calouros
Redes sociais recepção calourosRedes sociais recepção calouros
Redes sociais recepção calouros
 
A brief history of computers
A brief history of computersA brief history of computers
A brief history of computers
 

Último

Último (9)

ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docxATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
ATIVIDADE 1 - SISTEMAS DISTRIBUÍDOS E REDES - 52_2024.docx
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 

Big Data, Analytics e seus profissionais uma visão geral

  • 1. BIG DATA, ANALYTICS E SEUS PROFISSIONAIS – UMA VISÃO GERAL VIVALDO JOSÉ BRETERNITZ Profissional originário da área de Computação é professor da Faculdade de Computação e Informática da Universidade Presbiteriana Mackenzie. É doutor em Ciências pela Universidade de São Paulo, com pós-doutoramento pela Universidade de Lisboa INTRODUÇÃO A forma de atuação das organizações vem sendo moldada pela disponibilidade de dados. A velocidade e o volume com que estes vem sendo criados é alucinante: Smolan e Erwitt (2012) afirmam que até 2003 a humanidade havia gerado 5 exabytes, e que em 2013, bastavam dez minutos para que esse volume fosse criado. isso contribuiu para que fosse cunhado o termo Big Data (BD), hoje utilizado de forma genérica para descrever o crescimento, a disponibilidade e o uso exponencial de informações estruturadas e não estruturadas. Em 2011, o periódico The Economist entrevistou executivos de grandes organizações em sua primeira pesquisa sobre o tema Big Data (EIU, 2011). Apurou que a metade deles acreditava que os dados eram um importante ativo para suas organizações; 10% afirmaram que a disponibilidade de dados havia alterado completamente a forma como suas organizações planejavam e operavam. Mas a pesquisa apurou também que as organizações ainda tinham dificuldades com alguns aspectos básicos relacionados à captura e administração de dados e à sua efetiva exploração, dentre eles, a falta de pessoal adequadamente preparado, especialmente aqueles que o mercado vem chamando Cientistas de Dados (CD) – esses profissionais com esse perfil são muito raros e sua formação demanda muito tempo, o que torna sua utilização cara – Bertolucci (2012), citando pesquisas da consultoria McKinsey, diz que apenas nos Estados Unidos faltarão em 2018 aproximadamente 190.000 desses profissionais
  • 2. Dado esse cenário, elaborou-se este ensaio que tem como objetivo apresentar uma visão geral acerca de Big Data, de Analytics (uma de suas áreas mais importantes), e dos profissionais envolvidos, pretendendo fornecer subsídios àqueles que se envolverão com o assunto. O ensaio foi produzido a partir de pesquisa bibliográfica e da experiência profissional e acadêmica de seu autor, que no meio acadêmico vem se dedicando à pesquisa do assunto e à formação de pessoal que atuará na área. BIG DATA Alguns autores, como Zikipoulos et al (2012) dizem que Big Data se caracteriza por quatro aspectos: volume, velocidade, variedade e veracidade. O aspecto volume refere-se ao fato de que a quantidade de dados disponível em forma digital cresce de maneira exponencial, provenientes não só de sistemas convencionais, mas também de fontes como Facebook, Tweeter, You Tube, RFID, eletrônica embarcada, telefones celulares e assemelhados, sensores de diversos tipos, etc. Além do volume total citado anteriormente, McAfee e Brynjolfsson (2012) diziam que naquele ano, a cada segundo, mais dados transitavam pela internet do que o total armazenado na mesma 20 anos antes e que apenas o Walmart coletava mais de 2,5 petabytes a cada hora, derivados das transações efetuadas por seus clientes; cabe lembrar que um petabyte é um quatrilhão de bytes e um exabyte é esse número multiplicado por mil, ou um bilhão de gigabytes. Cabe lembrar o que disse Loukides (2012): como a capacidade de armazenar e processar dados deve continuar crescendo, o que é big hoje amanha será medium e na próxima semana small, no sentido de que novas técnicas, ferramentas e habilidades serão necessárias para tratar o assunto. Os mesmos autores apresentam outro aspecto relevante de Big Data: a velocidade em que dados podem ser capturados e processados, praticamente em tempo real, podendo dar a uma organização vantagem competitiva. Exemplificam essa afirmação relatando experimento conduzido pelo grupo de pesquisa do Prof. Alex Pentland, do MIT Media Lab: o grupo capturou dados relativos à localização de celulares de forma a inferir quantas pessoas colocaram seus carros nos estacionamentos de lojas do grupo americano Macy’s no Black Friday de 2011 (data que marca o inicio da temporada de compras de Natal nos
  • 3. Estados Unidos); isso permitiu estimar com precisão as vendas dessas lojas antes mesmo que elas ocorressem, gerando vantagens competitivas às áreas comerciais e de marketing e a terceiros, como investidores em bolsas de valores. Esse caso e outros similares são relatados por Clifford (2012). No que se refere à variedade, cabe registrar que além de fontes diferentes, tais dados tem, frequentemente, características que fogem das tratadas pelos sistemas de informação convencionais, não sendo estruturados e referindo-se a coisas como movimento, temperatura, umidade e até mesmo variações na composição química do ar (LOHR, 2012). O aspecto veracidade está relacionado ao fato de que os dados não são “perfeitos”, no sentido de que é preciso considerar o quão bons eles devem ser para que gerem informações úteis e também os custos para torná-los bons. Alguns autores consideram um quinto aspecto, a validade dos dados, ou seja, sua vida útil, o tempo em que os mesmos precisam ser mantidos (TAUBE, 2012). Esses aspectos são coletivamente chamados 4V ou 5V. As ferramentas computacionais, por outro lado, vem acompanhando o crescimento dessa velocidade e do volume de dados, em termos de capacidade de armazenamento e processamento. Destacam-se nesse assunto as pesquisas em corrente contínua de dados (stream computing) e em técnicas de inteligência artificial. No modelo convencional de armazenamento de dados e tomada de decisão, a organização filtra dados dos seus vários sistemas e após criar um data warehouse, constroem-se consultas (queries) de forma exploratória a fim de tomar decisões. Na prática busca-se informações (mining) em uma base de dados estática, que não reflete o momento, mas sim o contexto de horas, dias ou mesmo semanas atrás – tudo isso pode ser chamado Business Intelligence (BI). Com stream computing, por outro lado, esse mining ocorre em tempo real, com uma corrente contínua de dados (streaming data) atravessando um conjunto de queries - por isso pode ser considerado um novo paradigma. Na Inteligência Artificial, por sua vez, destacam-se os estudos em processamento de linguagem natural (natural-language processing), reconhecimento de padrões (pattern recognition) e aprendizado de máquina (machine learning) que podem ajudar a extrair dos
  • 4. grandes volumes de dados (estruturados ou não-estruturados) conhecimento para auxiliar a gestão (LOHR, 2012). De forma a complementar as ferramentas computacionais, novos paradigmas de gerenciadores de bancos de dados como o Cassandra (ferramenta Open Source utilizada pelo Facebook, Twitter e Reddit), vem sendo apresentados como modelos que tratam imensos volumes de dados com muita velocidade de forma distribuída e frameworks como o Hadoop para dar suporte a essas aplicações. Soluções conjugando hardware e software na modalidade in memory processing como as providas pela IBM e SAP, Netezza Accelerator e HANA respectivamente, já estão disponíveis. As possibilidades de aplicação desses conceitos são inúmeras, em finanças, saúde, segurança, manufatura, etc. McAfee e Brynjolfsson (2012) conduziram estudos que levaram à conclusão de que as empresas que efetivamente utilizam BD são 5% mais produtivas e 6% mais lucrativas que seus competidores – na atualidade esses números são um poderoso argumento em prol da utilização desses conceitos. Moraes (2012), relata como a aplicação de BD ajudou na campanha de reeleição do presidente norte-americano, Barack Obama, ajudando a orientar voluntários, indicar as melhores formas de arrecadar fundos e apontar quem poderia ser convencido a apoiar a reeleição do presidente. Os responsáveis pela campanha deram prioridade ao uso de BD em detrimento da propaganda veiculada na televisão. Os responsáveis pela campanha usaram a Amazon Web Services para armazenar e processar o enorme volume de dados capturados. Foram adotadas ferramentas de computação em nuvem para lidar com bancos de dados, como o Amazon DynamoDB e Amazon RDS. Uma das principais preocupações foi permitir que a base dados fosse trabalhada por diferentes aplicativos escritos em diversas linguagens de programação – para isso, se desenvolveu o Narwhal, um conjunto de serviços que funcionava como interface entre os dados e os muitos sistemas criados para a campanha. ANALYTICS Na atualidade, as organizações estão buscando explorar os grandes volumes de dados (big data) que reuniram e organizaram tentando obter informações que lhes sejam úteis, quer acerca do que vem ocorrendo, quer acerca do futuro. Essa exploração, a que se chama Analytics, é feita com o uso de diferentes ferramentas, baseadas em análise preditiva, mineração de dados, estatística, inteligência artificial e outras - alguns autores
  • 5. usam expressões Advanced, Discovery ou Exploratory Analytics; a partir deste ponto, neste trabalho, vai ser utilizada a expressão BDA (Big Data Analytics) Russom (2011) relaciona alguns dos motivos pelos quais as organizações vem utilizando BDA; os principais deles são conseguir desenvolver social marketing mais eficiente, obter mais e melhores insights acerca de seus negócios, segmentar base de clientes, identificar de oportunidades de vendas, automatizar decisões em processos em tempo real, identificar previamente clientes que tendem a deixar de se-lo (churn) e detectar fraudes. O mesmo autor identifica barreiras para a aplicação de BDA, destacando-se entre elas os custos envolvidos, falta de patrocínio da alta administração e problemas de escalabilidade do hardware e software disponível na organização. OS PROFISSIONAIS O mesmo Russom (2011), afirma que há uma barreira ainda maior que as já citadas: a carência de recursos humanos qualificados. Apesar de ferramental necessário estar sendo desenvolvido, é preciso lembrar que a utilização de BDA impõe às diversas áreas das organizações a aplicação de novas habilidades e formas de atuar; como ocorre com muita frequência, simplesmente aportar ao processo tecnologia no estado da arte não é suficiente, embora parte importante em uma estratégia de utilização de BDA. Já se percebe que não é possível encontrar essas novas habilidades em apenas um tipo de profissional; já se pode identificar uma série de funções ligadas ao tema, como as de Arquitetos de Dados, que definirão como os dados provenientes de diversas fontes serão organizados; Data Visualizers, que cuidarão de temas ligados à apresentação das informações geradas: Engenheiros de Dados, cuidando de manter a infraestrutura necessária funcionando adequadamente; Data Stewards, os “donos” de cada fonte de dados e outros – note-se que para diversas funções não ainda sequer um nome em português. Há a percepção de que o profissional mais importante para a prática de BDA é o Cientista de Dados (Data Scientist); ainda não há uma definição precisa do que seja um Cientista de Dados; para fins deste trabalho poderíamos citar as de Davenport e Patil (2012), que afirmam ser este um profissional de alto nível com treinamento e curiosidade para fazer descobertas no mundo de big data (Patil cunhou o termo em 2008, enquanto
  • 6. trabalhava para o LinkedIn). Já Granville (2014) diz que um CD é um generalista que conhece negócios, matemática, estatística, ciência da computação e relaciona alguns conhecimentos e capacidades específicas que o mesmo deve ter, tais como arquitetura de dados, comunicação no ambiente empresarial e outras. Voulgaris (2014) também é pouco preciso; diz que o CD é o profissional que trabalha com big data de forma científica, criativa e inteligível. Davenport et al (2012) dizem que o CD precisa ter raciocínio lógico apurado, conhecimento profundo de estatística e software dessa área, modelagem, domínio de sistemas computacionais e conhecimento do negócio e do mercado em que atuará; além disso, é necessária a capacidade de comunicar seus insights a um pessoal com uma formação não técnica, usualmente os altos executivos da organização. Não havendo sequer uma definição precisa do que seja um Cientista de Dados, fica claro que ainda não existe uma estrutura consagrada para a formação desses profissionais – é preciso assumir que BDA é uma nova disciplina, que vem emergindo de um conjunto de outras, assim como a ciência da computação emergiu da matemática na segunda metado do século XX. As pessoas que estão fazendo esse trabalho na atualidade tem formação acadêmica muito diversificada, embora tenham os conhecimentos e habilidades acima mencionados e possuam cursos de pós-graduação stricto sensu. Começam a surgir no exterior alguns cursos de pós-graduação voltados especificamente para a formação de profissionais para BDA; movimento similar se observa no Brasil, especialmente na modalidade lato sensu, sendo de se acreditar que a constante menção ao assunto na imprensa deva gerar grande interesse por esses cursos. Ainda no exterior, algumas universidades estão alterando seus currículos para incluir BDA em cursos de graduação, inclusive criando laboratórios onde estudantes podem analisar dados de interesse de suas áreas específicas. Grandes empresas vêm se preocupando com a qualificação de seus recursos humanos, movimento que também começa a se observar em suas subsidiárias no Brasil. À GUISA DE CONCLUSÃO
  • 7. Na medida em que o volume de dados disponível e a capacidade para armazena-los e analisa-los aumenta exponencialmente, é de se esperar que seu uso também aumente de forma similar. Isso caracteriza uma ruptura, ao impactar a forma pela qual as organizações são administradas: novas formas de planejar e tomar decisões devem surgir, a competição deve se acirrar e profissionais para atuar nesse cenário serão necessários cada vez em maior número. Tem se observado que, quando ocorrem rupturas similares a essa, os mercados de tecnologia e educação sofrem alterações, quer no sentido positivo, quando empresas e instituições de ensino respeitáveis passam a pesquisar o assunto e a oferecer serviços para atender às novas demandas e cursos destinados a preparar os recursos humanos necessários, quer no sentido negativo, quando empresas e instituições de ensino menos comprometidos com a qualidade lançam produtos e serviços de qualidade questionável. Cabe às empresas usuárias e aos profissionais que pretendem atuar na área tentar separar o joio do trigo, o que em nosso país, infelizmente, não acontece com a desejável frequência. REFERÊNCIAS BERTOLUCCI, J. Marketing Analytics: How To Start Without Data Scientists. InformationWeek, edição de 19.11.2012. Disponível em http://www.informationweek.com/big-data/news/big-data-analytics/marketing-analytics- how-to-start-without-data-scientists/240142289, Acesso em 15.05.2014. CLIFFORD, S. Retail Frenzy: Prices on the web change hourly. The New York Times, edição de 30.11.2012. DAVENPORT, T. H; PATIL, D. J. Data Scientist: the sexiest job of the 21st century. Harvard business Review, edição de outubro de 2012. EIU – Economist Intelligence Unit. Big data - Harnessing a game-changing asset. Londres: The Economist, 2011. GRANVILLE, V. Developing Analytic Talent. Becoming a Data Scientist. Indianapolis: John Wiley, 2014.
  • 8. LOHR, S. The age of Big Data. The New York Times, edição de 11.02.2012. Disponível em: <www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the- world.html?_r=1&scp=1&sq=Big%20Data&st=cse>. Acesso em 09.05.2014. LOUKIDES, M. What Is Data Science? O’Reilly, edição digital (Kindle) disponível em http://www.amazon.com/What-Data-Science-Mike-Loukides- ebook/dp/B007R8BHAK/ref=sr_1_1?s=books&ie=UTF8&qid=1399984583&sr=1- 1&keywords=data+scientist, baixado em 12.05.2014. MILLER, S. Colaborative approaches needed to close the Big Data skills gap. Journal of Organization Design, vol. 3, nº1, 2014. MORAES, M. Big Brother Obama. InfoExame, edição de dezembro de 2012. RUSSOM, P. Big Data Analytics. Renton: TDWI, 2011. SMOLAN, R; ERWITT, J. The human face of Big Data. Sausalito: Against All Odds Productions, 2012. TAUBE, B. Leveraging Big Data and real-time analytics to achieve situational awareness for smart grids (white paper). Redwood City: Versant Corporation U.S. Headquarters, 2012. VOULGARIS, Z. Data Scientist: the definitive guide to becoming a Data Scientist. Basking Ridge: Technics Publications. ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J; CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media, 2012. VIVALDO JOSÉ BRETERNITZ, profissional originário da área de Computação, é professor do Centro Universitário Padre Anchieta e da Universidade Presbiteriana Mackenzie. É Doutor em Ciências pela Universidade de São Paulo, com pós- doutoramento pela Universidade de Lisboa.