SlideShare una empresa de Scribd logo
1 de 34
Descargar para leer sin conexión
Web Data Mining com R:
processamento de dados [no R]
Fabr´ Jailson Barth
ıcio
Faculdade BandTec e VAGAS Tecnologia

Junho de 2013
Sum´rio
a
• Projeto R
• O que s˜o dados?
a
• Raw data versus dado tratado.
• Representa¸˜o de dados no R.
ca

Web Data Mining com R: processamento de dados [no R] —

Sum´rio
a

2
Projeto R
• http://www.r-project.org/
• R Studio - http://www.rstudio.com/
´
• E free
´
• E a linguagem de programa¸˜o mais popular para
ca
an´lise de dados
a
• Script ´ melhor que clicar e arastar:
e
´
E mais f´cil de comunicar.
a
Reproduz´
ıvel.
´
E necess´rio pensar mais sobre o problema.
a
• Existe uma quantia grande de pacotes dispon´
ıveis
Web Data Mining com R: processamento de dados [no R] —

Projeto R

3
Defini¸˜o de dados
ca
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
http://en.wikipedia.org/wiki/Data

Web Data Mining com R: processamento de dados [no R] —

Defini¸˜o de dados
ca

4
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
Set of items: conjunto de itens (objetos) de interesse.

Web Data Mining com R: processamento de dados [no R] —

Defini¸˜o de dados
ca

5
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
variables: uma medida ou uma caracter´
ıstica de um item.

Web Data Mining com R: processamento de dados [no R] —

Defini¸˜o de dados
ca

6
”Data are values of qualitative or quantitative variables,
belonging to a set of items.”
qualitative: cidade de origem, sexo, fez ou n˜o
a
tratamento.
quantitative: peso, altura, press˜o do sangue.
a

Web Data Mining com R: processamento de dados [no R] —

Defini¸˜o de dados
ca

7
Raw data versus dados processados
Raw data
• Fonte original dos dados
• Geralmente dif´ para fazer algum tipo de an´lise
ıcil
a
http://en.wikipedia.org/wiki/Raw Data

Web Data Mining com R: processamento de dados [no R] —

Raw data versus dados processados

8
Dados processados
• Dados que est˜o prontos para serem analisados
a
• O processamento pode incluir merging, subsetting,
transforming, etc...
• Todas as etapas devem ser registradas
http://en.wikipedia.org/wiki/Compute data processing

Web Data Mining com R: processamento de dados [no R] —

Raw data versus dados processados

9
Dados brutos

Web Data Mining com R: processamento de dados [no R] —

Dados brutos

10
Dados brutos
considera¸˜o o projeto da aprendizagem que pensa como didaticamente os cursos devem ser projetados com o
ca
uso da tecnologia adequada. Isso inclui levar em conta os aspectos sociais e culturais envolvidos. Deixo abaixo
algumas indica¸˜es de leitura que tratam isso. Assim, acho que dizer que tecnologia deve ser usada de forma
co
respons´vel, n˜o ´ discutir MOOCs. Outro ponto importante ´ destacar que os MOOCs aparecem no contexto
a
a e
e
da educa¸˜o aberta e Ciencia aberta e inclui REAs, que costumavam ser chamados de objetos de aprendizem e
ca
agora discutem-se as licen¸as, as perspectivas de reutiliza¸˜o e de localiza¸˜o; os peri´dicos abertos que
c
ca
ca
o
reagem aos altos valores de assinaturas dos peri´dicos tradicionais, as novas formas de publica¸˜o incluindo
o
ca
blogs; a educa¸˜o hibrida; os ambientes pessoais de aprendizagem, etc. No geral
ca

Web Data Mining com R: processamento de dados [no R] —

Dados brutos

11
Exemplo de dado processado
Table 1: Exemplo de tabela com as transa¸˜es dos usu´rios
co
a
usu´rio
a

categoria1

categoria2

categoria3

···

categoriam

user1

0

2

0

···

1

user2

1

1

0

···

0

user3

2

0

1

···

0

user4

0

1

0

···

0

···

···

···

···

···

···

usern

1

1

0

···

1

Web Data Mining com R: processamento de dados [no R] —

Exemplo de dado processado

12
Tiny data
• Cada vari´vel (atributo) forma uma coluna.
a
• Cada observa¸˜o (exemplo) forma uma linha.
ca
• Cada tabela ou arquivo armazena dados sobre uma
observa¸˜o (i.e., pessoas / hospitais)
ca
• http://vita.had.co.nz/papers/tidy-data.pdf

Web Data Mining com R: processamento de dados [no R] —

Tiny data

13
Big or small - you need
the right data

14
Representa¸˜o de dados
ca
no R

15
Tipos de dados importantes no R
• Classes: Character, Numeric, Integer, Logical
• Objetos: Vector, Matrices, Data frames, List, Factors,
Missing Values
• Operadores: Subsetting, Logical Subsetting

Representa¸˜o de dados no R —
ca

Tipos de dados importantes no R

16
Character
nome = "maria"
class(nome)
## [1] "character"
nome
## [1] "maria"

Representa¸˜o de dados no R —
ca

Character

17
Numeric
peso = 76.2
class(peso)
## [1] "numeric"
peso
## [1] 76.2

Representa¸˜o de dados no R —
ca

Numeric

18
Integer
qtdFilhos = 1L
class(qtdFilhos)
## [1] "integer"
qtdFilhos
## [1] 1

Representa¸˜o de dados no R —
ca

Integer

19
Logical
temCarro = TRUE
class(temCarro)
## [1] "logical"
temCarro
## [1] TRUE

Representa¸˜o de dados no R —
ca

Logical

20
Vectors
Um conjunto de valores da mesma classe.
pesos = c(76.2, 80.3, 90, 117.4)
pesos
## [1] 76.2 80.3 90 117.4
nomes = c("maria", "carlos", "pedro")
nomes
## [1] "maria" "carlos" "pedro"

Representa¸˜o de dados no R —
ca

Vectors

21
Lists
Um conjunto de valores que pode ser heterogˆneo.
e
pesosV = c(76.2, 80.3, 90, 117.4)
nomesV = c("maria", "carlos", "pedro", "ant^nio")
o
myList <- list(pesos = pesosV, nomes = nomesV)
myList
##
##
##
##
##

$pesos
[1] 76.2

80.3

$nomes
[1] "maria"

Representa¸˜o de dados no R —
ca

Lists

90.0 117.4

"carlos"

"pedro"

"ant^nio"
o

22
Lists
Um conjunto de valores que pode ser heterogˆneo.
e
pesosV = c(76.2, 80.3, 90, 117.4)
nomesV = c("maria", "carlos", "pedro", "ant^nio")
o
myList <- list(pesos = pesosV, nomes = nomesV)
myList
##
##
##
##
##

$pesos
[1] 76.2

80.3

$nomes
[1] "maria"

Representa¸˜o de dados no R —
ca

Lists

90.0 117.4

"carlos"

"pedro"

"ant^nio"
o

23
Matrizes
Vetores com m´ltiplas dimens˜es.
u
o
myMatrix = matrix(c(1, 2, 3, 4), byrow = T, nrow = 2)
myMatrix
## [,1] [,2]
## [1,] 1 2
## [2,] 3 4

Representa¸˜o de dados no R —
ca

Matrizes

24
Data frames
M´ltiplos vetores de classes diferentes, mas com o mesmo
u
tamanho.
vector1 = c(188.2, 181.3, 193.4)
vector2 = c("jeff", "roger", "andrew", "brian")
myDataFrame = data.frame(heights = vector1,
firstNames = vector2)
## Error: arguments imply differing number of rows: 3, 4
myDataFrame
## Error: object ’myDataFrame’ not found

Representa¸˜o de dados no R —
ca

Data frames

25
Data frames
> vector1 = c(188.2, 181.3, 193.4)
> vector2 = c("jeff", "roger", "andrew")
> myDataFrame = data.frame(heights = vector1,
firstNames = vector2)
> myDataFrame
heights firstNames
1
188.2
jeff
2
181.3
roger
3
193.4
andrew

Representa¸˜o de dados no R —
ca

Data frames

26
Factors
Vari´veis qualitativas que podem ser inclu´
a
ıdas no modelo.
smoker = c("yes", "no", "yes", "yes")
smokerFactor = as.factor(smoker)
smokerFactor
## [1] yes no yes yes
## Levels: no yes

Representa¸˜o de dados no R —
ca

Factors

27
Missing values
No R os valores faltantes s˜o codificados como NA
a
vector1 <- c(188.2, 181.3, 193.4, NA)
vector1
## [1] 188.2 181.3 193.4 NA
is.na(vector1)
## [1] FALSE FALSE FALSE TRUE

Representa¸˜o de dados no R —
ca

Missing values

28
Subsetting
vector1 = c(188.2, 181.3, 193.4, 192.3)
vector2 = c("jeff", "roger", "andrew", "brian")
myDataFrame = data.frame(heights = vector1,
firstNames = vector2)
vector1[1]
## [1] 188.2
vector1[c(1, 2, 4)]
## [1] 188.2 181.3 192.3

Representa¸˜o de dados no R —
ca

Subsetting

29
Subsetting
myDataFrame[1, 1:2]
## heights firstNames
## 1 188.2 jeff
myDataFrame$firstNames
## [1] jeff roger andrew brian
## Levels: andrew brian jeff roger

Representa¸˜o de dados no R —
ca

Subsetting

30
Logical subsetting
myDataFrame[myDataFrame$firstNames == "jeff", ]
## heights firstNames
## 1 188.2 jeff
myDataFrame[heights < 190, ]
##
##
##
##

heights
1 188.2
2 181.3
4 192.3

firstNames
jeff
roger
brian

Representa¸˜o de dados no R —
ca

Logical subsetting

31
Obtendo dados

32
Dados locais (toy examples)
help(data)
data()
data(iris)

Obtendo dados —

Dados locais (toy examples)

33
Earthquake data (dados reais)
fileUrl <"http://earthquake.usgs.gov/earthquakes
/catalogs/eqs7day-M1.txt"
download.file(fileUrl,destfile="./data/earthquakeData.csv",
method="curl")
dateDownloaded <- date()
eData <- read.csv("./data/earthquakeData.csv")
https://explore.data.gov/Geography-and-Environment/Worldwide-M1-Earthquakes-Past-7-Days/7tag-iwnu

Obtendo dados —

Earthquake data (dados reais)

34

Más contenido relacionado

Destacado

Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGPetronio Candido
 
Como potencializar seu negócio para análise preditiva
Como potencializar seu negócio para análise preditivaComo potencializar seu negócio para análise preditiva
Como potencializar seu negócio para análise preditivaVitor Massari
 
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample ApplicationsLeandro de Castro
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os ClientesLeandro de Castro
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupDiego Nogare
 
2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)Leandro de Castro
 
Aula 01 introdução e conceitos básicos sobre gestão
Aula 01   introdução e conceitos básicos sobre gestãoAula 01   introdução e conceitos básicos sobre gestão
Aula 01 introdução e conceitos básicos sobre gestãoDalton Martins
 
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Dalton Martins
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Cássio Alan Garcia
 
2010: Computação Natural - Uma Jornada Ilustrada
2010: Computação Natural - Uma Jornada Ilustrada2010: Computação Natural - Uma Jornada Ilustrada
2010: Computação Natural - Uma Jornada IlustradaLeandro de Castro
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e AplicaçõesLeandro de Castro
 
2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune SystemsLeandro de Castro
 
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World ApplicationsLeandro de Castro
 
2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and ApplicationsLeandro de Castro
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do CursoLeandro de Castro
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerceLeandro de Castro
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre LiderançaLeandro de Castro
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in BusinessLeandro de Castro
 
Aprendizado de Máquina para Classificação de Dados
Aprendizado de Máquina para Classificação de DadosAprendizado de Máquina para Classificação de Dados
Aprendizado de Máquina para Classificação de DadosDiego Negretto
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerceLeandro de Castro
 

Destacado (20)

Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMGBig Data e Data Science: admirável mundo novo - IV SIC IFNMG
Big Data e Data Science: admirável mundo novo - IV SIC IFNMG
 
Como potencializar seu negócio para análise preditiva
Como potencializar seu negócio para análise preditivaComo potencializar seu negócio para análise preditiva
Como potencializar seu negócio para análise preditiva
 
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
2008: Applied AIS - A Roadmap of AIS Research in Brazil and Sample Applications
 
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
2011: Na Nova Geração do Ecommerce os Produtos Encontrarão os Clientes
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
 
2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)2004: Computação Natural (Cybertecnica)
2004: Computação Natural (Cybertecnica)
 
Aula 01 introdução e conceitos básicos sobre gestão
Aula 01   introdução e conceitos básicos sobre gestãoAula 01   introdução e conceitos básicos sobre gestão
Aula 01 introdução e conceitos básicos sobre gestão
 
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
Análise de Redes Sociais para educação à distância na plataforma ELGG para o ...
 
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
Estudo Comparativo de Aplicações em Mineração de Dados Aplicada a Sistemas de...
 
2010: Computação Natural - Uma Jornada Ilustrada
2010: Computação Natural - Uma Jornada Ilustrada2010: Computação Natural - Uma Jornada Ilustrada
2010: Computação Natural - Uma Jornada Ilustrada
 
2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações2010: Computação Natural e Aplicações
2010: Computação Natural e Aplicações
 
2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems2004: Engineering Applications of Artificial Immune Systems
2004: Engineering Applications of Artificial Immune Systems
 
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
2008: Natural Computing: The Virtual Laboratory and Two Real-World Applications
 
2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications2005: Natural Computing - Concepts and Applications
2005: Natural Computing - Concepts and Applications
 
2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso2012: Computação Natural - Slides do Curso
2012: Computação Natural - Slides do Curso
 
2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce2012: O Processo de Checkout em E-commerce
2012: O Processo de Checkout em E-commerce
 
2016: Notas sobre Liderança
2016: Notas sobre Liderança2016: Notas sobre Liderança
2016: Notas sobre Liderança
 
2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business2016: Applying AI Innovation in Business
2016: Applying AI Innovation in Business
 
Aprendizado de Máquina para Classificação de Dados
Aprendizado de Máquina para Classificação de DadosAprendizado de Máquina para Classificação de Dados
Aprendizado de Máquina para Classificação de Dados
 
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce2012: Tutorial sobre Sistemas de Recomendação para E-commerce
2012: Tutorial sobre Sistemas de Recomendação para E-commerce
 

Similar a Web Data Mining com R: pré-processamento de dados [no R]

R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreLuis Borges Gouveia
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Introdução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel BrandãoIntrodução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel BrandãoDaniel Brandão
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basicoAmadeo Santos
 
Sistemas de Informações - Aula 05: Banco de Dados e Redes
Sistemas de Informações - Aula 05: Banco de Dados e RedesSistemas de Informações - Aula 05: Banco de Dados e Redes
Sistemas de Informações - Aula 05: Banco de Dados e RedesMarcus Araújo
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
R e dados abertos, uma perfeita combinação
R e dados abertos, uma perfeita combinaçãoR e dados abertos, uma perfeita combinação
R e dados abertos, uma perfeita combinaçãoSillas Gonzaga
 
Como o R pode despertar sua paixão por dados
Como o R pode despertar sua paixão por dadosComo o R pode despertar sua paixão por dados
Como o R pode despertar sua paixão por dadosSillas Gonzaga
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatoriosarthurjosemberg
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de DadosNauber Gois
 
Workshop em Reportes dinamicos
Workshop  em Reportes dinamicosWorkshop  em Reportes dinamicos
Workshop em Reportes dinamicosSusan Aragon
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosEduardo de Lucena Falcão
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 

Similar a Web Data Mining com R: pré-processamento de dados [no R] (20)

Aprendendo R
Aprendendo RAprendendo R
Aprendendo R
 
R para Iniciantes
R para IniciantesR para Iniciantes
R para Iniciantes
 
R: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livreR: a alternativa ao SPSS e ao NVivo em software livre
R: a alternativa ao SPSS e ao NVivo em software livre
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Introdução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel BrandãoIntrodução ao Banco de dados - Prof. Daniel Brandão
Introdução ao Banco de dados - Prof. Daniel Brandão
 
Bancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWSBancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWS
 
01 banco de dados-basico
01 banco de dados-basico01 banco de dados-basico
01 banco de dados-basico
 
Sistemas de Informações - Aula 05: Banco de Dados e Redes
Sistemas de Informações - Aula 05: Banco de Dados e RedesSistemas de Informações - Aula 05: Banco de Dados e Redes
Sistemas de Informações - Aula 05: Banco de Dados e Redes
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
R e dados abertos, uma perfeita combinação
R e dados abertos, uma perfeita combinaçãoR e dados abertos, uma perfeita combinação
R e dados abertos, uma perfeita combinação
 
Como o R pode despertar sua paixão por dados
Como o R pode despertar sua paixão por dadosComo o R pode despertar sua paixão por dados
Como o R pode despertar sua paixão por dados
 
por_detras_dos_relatorios
por_detras_dos_relatoriospor_detras_dos_relatorios
por_detras_dos_relatorios
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Data science
Data scienceData science
Data science
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Workshop em Reportes dinamicos
Workshop  em Reportes dinamicosWorkshop  em Reportes dinamicos
Workshop em Reportes dinamicos
 
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de DadosDescoberta de Conhecimento em Bancos de Dados e Mineração de Dados
Descoberta de Conhecimento em Bancos de Dados e Mineração de Dados
 
Dados espaciais em R (2020)
Dados espaciais em R (2020)Dados espaciais em R (2020)
Dados espaciais em R (2020)
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 

Más de Fabrício Barth

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataFabrício Barth
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataFabrício Barth
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataFabrício Barth
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoFabrício Barth
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity RecognitionFabrício Barth
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando RFabrício Barth
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comFabrício Barth
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestFabrício Barth
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosFabrício Barth
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Fabrício Barth
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaFabrício Barth
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataFabrício Barth
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataFabrício Barth
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informaçõesFabrício Barth
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web MiningFabrício Barth
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFabrício Barth
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoFabrício Barth
 

Más de Fabrício Barth (19)

Mineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big DataMineração de padrões frequentes - Pós Graduação em Big Data
Mineração de padrões frequentes - Pós Graduação em Big Data
 
Redução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big DataRedução de dimensionalidade - Pós Graduação em Big Data
Redução de dimensionalidade - Pós Graduação em Big Data
 
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big DataHierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
Hierarquia de modelos e Aprendizagem de Máquina - Pós Graduação em Big Data
 
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Algoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionadoAlgoritmos de Agrupamento - Aprendizado não supervisionado
Algoritmos de Agrupamento - Aprendizado não supervisionado
 
Human Activity Recognition
Human Activity RecognitionHuman Activity Recognition
Human Activity Recognition
 
Oficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando ROficina: construção de modelos descritivos e preditivos utilizando R
Oficina: construção de modelos descritivos e preditivos utilizando R
 
Iniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.comIniciativas em Big Data no VAGAS.com
Iniciativas em Big Data no VAGAS.com
 
Web Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random ForestWeb Data Mining com R: identificação de spam utilizando Random Forest
Web Data Mining com R: identificação de spam utilizando Random Forest
 
Web Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivosWeb Data Mining com R: design de projetos para criação de modelos preditivos
Web Data Mining com R: design de projetos para criação de modelos preditivos
 
Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...Web Data Mining com R: criação de regras de associação a partir da navegação ...
Web Data Mining com R: criação de regras de associação a partir da navegação ...
 
Web Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquinaWeb Data Mining com r: aprendizagem de máquina
Web Data Mining com r: aprendizagem de máquina
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Uma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big DataUma introdução à mineração de informações na era do Big Data
Uma introdução à mineração de informações na era do Big Data
 
Projeto Simple Maps
Projeto Simple MapsProjeto Simple Maps
Projeto Simple Maps
 
Uma introdução à mineração de informações
Uma introdução à mineração de informaçõesUma introdução à mineração de informações
Uma introdução à mineração de informações
 
Data, Text and Web Mining
Data, Text and Web MiningData, Text and Web Mining
Data, Text and Web Mining
 
Ferramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de InformaçõesFerramentas Java para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações
 
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de ProjetoAtena: um sistema para suporte ao planejamento na área de Gestão de Projeto
Atena: um sistema para suporte ao planejamento na área de Gestão de Projeto
 

Web Data Mining com R: pré-processamento de dados [no R]

  • 1. Web Data Mining com R: processamento de dados [no R] Fabr´ Jailson Barth ıcio Faculdade BandTec e VAGAS Tecnologia Junho de 2013
  • 2. Sum´rio a • Projeto R • O que s˜o dados? a • Raw data versus dado tratado. • Representa¸˜o de dados no R. ca Web Data Mining com R: processamento de dados [no R] — Sum´rio a 2
  • 3. Projeto R • http://www.r-project.org/ • R Studio - http://www.rstudio.com/ ´ • E free ´ • E a linguagem de programa¸˜o mais popular para ca an´lise de dados a • Script ´ melhor que clicar e arastar: e ´ E mais f´cil de comunicar. a Reproduz´ ıvel. ´ E necess´rio pensar mais sobre o problema. a • Existe uma quantia grande de pacotes dispon´ ıveis Web Data Mining com R: processamento de dados [no R] — Projeto R 3
  • 4. Defini¸˜o de dados ca ”Data are values of qualitative or quantitative variables, belonging to a set of items.” http://en.wikipedia.org/wiki/Data Web Data Mining com R: processamento de dados [no R] — Defini¸˜o de dados ca 4
  • 5. ”Data are values of qualitative or quantitative variables, belonging to a set of items.” Set of items: conjunto de itens (objetos) de interesse. Web Data Mining com R: processamento de dados [no R] — Defini¸˜o de dados ca 5
  • 6. ”Data are values of qualitative or quantitative variables, belonging to a set of items.” variables: uma medida ou uma caracter´ ıstica de um item. Web Data Mining com R: processamento de dados [no R] — Defini¸˜o de dados ca 6
  • 7. ”Data are values of qualitative or quantitative variables, belonging to a set of items.” qualitative: cidade de origem, sexo, fez ou n˜o a tratamento. quantitative: peso, altura, press˜o do sangue. a Web Data Mining com R: processamento de dados [no R] — Defini¸˜o de dados ca 7
  • 8. Raw data versus dados processados Raw data • Fonte original dos dados • Geralmente dif´ para fazer algum tipo de an´lise ıcil a http://en.wikipedia.org/wiki/Raw Data Web Data Mining com R: processamento de dados [no R] — Raw data versus dados processados 8
  • 9. Dados processados • Dados que est˜o prontos para serem analisados a • O processamento pode incluir merging, subsetting, transforming, etc... • Todas as etapas devem ser registradas http://en.wikipedia.org/wiki/Compute data processing Web Data Mining com R: processamento de dados [no R] — Raw data versus dados processados 9
  • 10. Dados brutos Web Data Mining com R: processamento de dados [no R] — Dados brutos 10
  • 11. Dados brutos considera¸˜o o projeto da aprendizagem que pensa como didaticamente os cursos devem ser projetados com o ca uso da tecnologia adequada. Isso inclui levar em conta os aspectos sociais e culturais envolvidos. Deixo abaixo algumas indica¸˜es de leitura que tratam isso. Assim, acho que dizer que tecnologia deve ser usada de forma co respons´vel, n˜o ´ discutir MOOCs. Outro ponto importante ´ destacar que os MOOCs aparecem no contexto a a e e da educa¸˜o aberta e Ciencia aberta e inclui REAs, que costumavam ser chamados de objetos de aprendizem e ca agora discutem-se as licen¸as, as perspectivas de reutiliza¸˜o e de localiza¸˜o; os peri´dicos abertos que c ca ca o reagem aos altos valores de assinaturas dos peri´dicos tradicionais, as novas formas de publica¸˜o incluindo o ca blogs; a educa¸˜o hibrida; os ambientes pessoais de aprendizagem, etc. No geral ca Web Data Mining com R: processamento de dados [no R] — Dados brutos 11
  • 12. Exemplo de dado processado Table 1: Exemplo de tabela com as transa¸˜es dos usu´rios co a usu´rio a categoria1 categoria2 categoria3 ··· categoriam user1 0 2 0 ··· 1 user2 1 1 0 ··· 0 user3 2 0 1 ··· 0 user4 0 1 0 ··· 0 ··· ··· ··· ··· ··· ··· usern 1 1 0 ··· 1 Web Data Mining com R: processamento de dados [no R] — Exemplo de dado processado 12
  • 13. Tiny data • Cada vari´vel (atributo) forma uma coluna. a • Cada observa¸˜o (exemplo) forma uma linha. ca • Cada tabela ou arquivo armazena dados sobre uma observa¸˜o (i.e., pessoas / hospitais) ca • http://vita.had.co.nz/papers/tidy-data.pdf Web Data Mining com R: processamento de dados [no R] — Tiny data 13
  • 14. Big or small - you need the right data 14
  • 16. Tipos de dados importantes no R • Classes: Character, Numeric, Integer, Logical • Objetos: Vector, Matrices, Data frames, List, Factors, Missing Values • Operadores: Subsetting, Logical Subsetting Representa¸˜o de dados no R — ca Tipos de dados importantes no R 16
  • 17. Character nome = "maria" class(nome) ## [1] "character" nome ## [1] "maria" Representa¸˜o de dados no R — ca Character 17
  • 18. Numeric peso = 76.2 class(peso) ## [1] "numeric" peso ## [1] 76.2 Representa¸˜o de dados no R — ca Numeric 18
  • 19. Integer qtdFilhos = 1L class(qtdFilhos) ## [1] "integer" qtdFilhos ## [1] 1 Representa¸˜o de dados no R — ca Integer 19
  • 20. Logical temCarro = TRUE class(temCarro) ## [1] "logical" temCarro ## [1] TRUE Representa¸˜o de dados no R — ca Logical 20
  • 21. Vectors Um conjunto de valores da mesma classe. pesos = c(76.2, 80.3, 90, 117.4) pesos ## [1] 76.2 80.3 90 117.4 nomes = c("maria", "carlos", "pedro") nomes ## [1] "maria" "carlos" "pedro" Representa¸˜o de dados no R — ca Vectors 21
  • 22. Lists Um conjunto de valores que pode ser heterogˆneo. e pesosV = c(76.2, 80.3, 90, 117.4) nomesV = c("maria", "carlos", "pedro", "ant^nio") o myList <- list(pesos = pesosV, nomes = nomesV) myList ## ## ## ## ## $pesos [1] 76.2 80.3 $nomes [1] "maria" Representa¸˜o de dados no R — ca Lists 90.0 117.4 "carlos" "pedro" "ant^nio" o 22
  • 23. Lists Um conjunto de valores que pode ser heterogˆneo. e pesosV = c(76.2, 80.3, 90, 117.4) nomesV = c("maria", "carlos", "pedro", "ant^nio") o myList <- list(pesos = pesosV, nomes = nomesV) myList ## ## ## ## ## $pesos [1] 76.2 80.3 $nomes [1] "maria" Representa¸˜o de dados no R — ca Lists 90.0 117.4 "carlos" "pedro" "ant^nio" o 23
  • 24. Matrizes Vetores com m´ltiplas dimens˜es. u o myMatrix = matrix(c(1, 2, 3, 4), byrow = T, nrow = 2) myMatrix ## [,1] [,2] ## [1,] 1 2 ## [2,] 3 4 Representa¸˜o de dados no R — ca Matrizes 24
  • 25. Data frames M´ltiplos vetores de classes diferentes, mas com o mesmo u tamanho. vector1 = c(188.2, 181.3, 193.4) vector2 = c("jeff", "roger", "andrew", "brian") myDataFrame = data.frame(heights = vector1, firstNames = vector2) ## Error: arguments imply differing number of rows: 3, 4 myDataFrame ## Error: object ’myDataFrame’ not found Representa¸˜o de dados no R — ca Data frames 25
  • 26. Data frames > vector1 = c(188.2, 181.3, 193.4) > vector2 = c("jeff", "roger", "andrew") > myDataFrame = data.frame(heights = vector1, firstNames = vector2) > myDataFrame heights firstNames 1 188.2 jeff 2 181.3 roger 3 193.4 andrew Representa¸˜o de dados no R — ca Data frames 26
  • 27. Factors Vari´veis qualitativas que podem ser inclu´ a ıdas no modelo. smoker = c("yes", "no", "yes", "yes") smokerFactor = as.factor(smoker) smokerFactor ## [1] yes no yes yes ## Levels: no yes Representa¸˜o de dados no R — ca Factors 27
  • 28. Missing values No R os valores faltantes s˜o codificados como NA a vector1 <- c(188.2, 181.3, 193.4, NA) vector1 ## [1] 188.2 181.3 193.4 NA is.na(vector1) ## [1] FALSE FALSE FALSE TRUE Representa¸˜o de dados no R — ca Missing values 28
  • 29. Subsetting vector1 = c(188.2, 181.3, 193.4, 192.3) vector2 = c("jeff", "roger", "andrew", "brian") myDataFrame = data.frame(heights = vector1, firstNames = vector2) vector1[1] ## [1] 188.2 vector1[c(1, 2, 4)] ## [1] 188.2 181.3 192.3 Representa¸˜o de dados no R — ca Subsetting 29
  • 30. Subsetting myDataFrame[1, 1:2] ## heights firstNames ## 1 188.2 jeff myDataFrame$firstNames ## [1] jeff roger andrew brian ## Levels: andrew brian jeff roger Representa¸˜o de dados no R — ca Subsetting 30
  • 31. Logical subsetting myDataFrame[myDataFrame$firstNames == "jeff", ] ## heights firstNames ## 1 188.2 jeff myDataFrame[heights < 190, ] ## ## ## ## heights 1 188.2 2 181.3 4 192.3 firstNames jeff roger brian Representa¸˜o de dados no R — ca Logical subsetting 31
  • 33. Dados locais (toy examples) help(data) data() data(iris) Obtendo dados — Dados locais (toy examples) 33
  • 34. Earthquake data (dados reais) fileUrl <"http://earthquake.usgs.gov/earthquakes /catalogs/eqs7day-M1.txt" download.file(fileUrl,destfile="./data/earthquakeData.csv", method="curl") dateDownloaded <- date() eData <- read.csv("./data/earthquakeData.csv") https://explore.data.gov/Geography-and-Environment/Worldwide-M1-Earthquakes-Past-7-Days/7tag-iwnu Obtendo dados — Earthquake data (dados reais) 34