Minería de datos de gran escala usando R

Miner´ de datos de gran escala usando R
ıa

ıa

Sergio Hern´ndez
a
PhD computer science

Laboratorio de Procesamiento de Informaci´n Geoespacial.
o
Universidad Cat´lica del Maule. Chile
o
shernandez@ucm.cl

10 de Octubre 2012
3er Encuentro Regional de Software Libre

ıa
Introducci´n a R
o

Miner´ de datos
ıa

Figure : Aplicaciones de miner´ de datos
ıa

ıa
Introducci´n a R
o

Miner´ de datos
ıa

Figure : Acciones de miner´ de datos
ıa

ıa
Introducci´n a R
o

Miner´ de datos
ıa

Figure : Algoritmos de miner´ de datos
ıa

ıa
Introducci´n a R
o

Qu´ es R?
e

R es un lenguaje y un ambiente de computaci´n estad´
o ıstica creado
por Ross Ihaka y Robert Gentleman de la Universidad de Auckland
en Nueva Zelandia y es distribuido bajo licencia GNU General Public
License.

ıa
Introducciń a R
o

Qu´ es R?
e

R es un lenguaje y un ambiente de computaciń estad´
o ıstica creado
por Ross Ihaka y Robert Gentleman de la Universidad de Auckland
en Nueva Zelandia y es distribuido bajo licencia GNU General Public
License.
La sintaxis del lenguaje R proviene del lenguaje S creado por AT&T
Labs y desarrollado en el software comercial S Plus. El lenguaje es
orientado a objetos e interpretado, por lo tanto permite al usuario
“interactuar” con la linea de comandos, al mismo tiempo que crea
gr´ficos vectoriales de alta calidad.
a

ıa
Introducciń a R
o

C´mo se obtiene R?
o

Las fuentes, binarios y documentaciń de R se obtiene mediante una
o
colecciń de mirrors llamada CRAN
o
(http://CRAN.R-project.org/).

ıa
Introducci´n a R
o

C´mo se obtiene R?
o

o
o
El c´digo fuente es accesible directamente desde el servidor
o
Subversion : https://svn.r-project.org/R/.

ıa
Introducci´n a R
o

C´mo se obtiene R?
o

o
o
o
Los binarios est´n disponibles para plataformas ix86 y x86 64 y para
a
sistemas operativos Windows, Linux y Mac OS.

ıa
Introducci´n a R
o

C´mo se obtiene R?
o

o
o
o
Los binarios est´n disponibles para plataformas ix86 y x86 64 y para
a
sistemas operativos Windows, Linux y Mac OS.
Mirror en Chile : http://dirichlet.mat.puc.cl/

ıa
Introducci´n a R
o

Hola Mundo.R

> x<-1
> class(x)
[1] "numeric"
> s<-"hola mundo"
> class(s)
[1] "character"
> s
[1] "hola mundo"

ıa
R para miner´ de datos de gran escala
ıa

Por qu´ usar R para miner´ de datos?
e ıa

R es un entorno de computaci´n estad´
o ıstica de alta calidad
disponible de manera gratuita para m´ltiples plataformas.
u

ıa
ıa

e ıa

u
Gran parte de las funciones estad´
ısticas y matem´ticas que usan los
a
algoritmos de miner´ de datos forman parte de la distribuci´n base
ıa o
de R.

ıa
ıa

e ıa

u
Gran parte de las funciones estad´
ısticas y matem´ticas que usan los
a
algoritmos de miner´ de datos forman parte de la distribuci´n base
ıa o
de R.
Existe una gran comunidad de usuarios y una plataforma dedicada
(http://r-forge.r-project.org/softwaremap/tag_cloud.
php?tag=data+mining) para compartir c´digo, paquetes,
o
documentaci´n, etc. etc.
o

ıa
ıa

Por qu´ NO usar R para miner´ de datos?
e ıa

R fue creado en el a˜o 1995 cuando el espacio en disco duro y la
n
memoria RAM eran mucho m´s costosos que hoy en d´
a ıa.

ıa
ıa

Por qu´ NO usar R para miner´ de datos?
e ıa

R fue creado en el a˜o 1995 cuando el espacio en disco duro y la
n
memoria RAM eran mucho m´s costosos que hoy en d´
a ıa.
Particularmente, R adolece de los siguientes problemas:
No es multi-hilo por lo tanto no puede usar las arquitecturas
modernas multi-core o CPUs m´ltiples.
u
El tama˜o de los datos analizados tiene que ajustarse a la RAM de la
n
m´quina.
a

ıa
R paralelo

Hablando R en paralelo

Actualmente existen diversas estrategias basadas en computo
paralelo para vencer las deﬁciencias de R para bases de datos de
gran escala.

ıa
R paralelo


gran escala.
El c´mputo paralelo no requiere necesariamente supercomputadoras,
o
sino que tambi´n puede hacerse en m´quinas de memoria compartida
e a
(multicore) o distribuida (clusters). Estas estrategias se basan en:

ıa
R paralelo


gran escala.
o
e a
Dividir una tarea grande en varias m´s peque˜as y distribuirlas en
a n
varias CPUs.

ıa
R paralelo


gran escala.
o
e a
Dividir una tarea grande en varias m´s peque˜as y distribuirlas en
a n
varias CPUs.
Particionar el conjunto de datos de manera que cada grupo pueda
ajustarse a la RAM de la(s) m´quina.
a

ıa
R paralelo

Snow

El paquete snow (Simple Network of Workstations) permite usar un
cluster tradicional tipo Beowulf para realizar tareas vergonzosamente
paralelas.

ıa
R paralelo

Snow

paralelas.
snow usa una arquitectura maestro/esclavo, donde el maestro env´ ıa
trabajos a los esclavos y luego de realizado, los esclavos devuelven
los resultados al maestro.

ıa
R paralelo

Snow

paralelas.
snow usa una arquitectura maestro/esclavo, donde el maestro env´ ıa
trabajos a los esclavos y luego de realizado, los esclavos devuelven
los resultados al maestro.
Puede usar diferentes medios de transporte para comunicar el
maestro con los esclavos, lo cual lo hace altamente portable. M´s
a
espec´ıﬁcamente, es posible utilizar sockets, MPI (message passage
interface), PVM (parallel virtual machines) o NetWorkSpaces.

ıa
R paralelo

Hola Mundo paralelo usando Snow

> library(snow)
> cl <- makeCluster(4, type="MPI")
Loading required package: Rmpi
4 slaves are spawned successfully. 0 failed.
> mpi.remote.exec(paste("Hola Mundo CPU #",mpi.comm.rank(),"of",mpi.comm.size()))
$slave1
[1] "Hola Mundo CPU # 1 de 4"
$slave2
$slave3
$slave4

ıa
R paralelo

Clustering usando k-means
Edgar Anderson's Iris Data
2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5

7.5
6.5
Sepal.Length

5.5
4.5
2.0 2.5 3.0 3.5 4.0

Sepal.Width

7
6
5
Petal.Length

4
3
2
1
0.5 1.0 1.5 2.0 2.5

Petal.Width

4.5 5.5 6.5 7.5 1 2 3 4 5 6 7

ıa
R paralelo

K-means paralelo usando Snow

Table : Tiempo de ejecuci´n del algoritmo K-means con puntos de partida
o
aleatorios
# Puntos Secuencial [s] Paralelo [s]
1e2 0.016 0.009
1e3 0.126 0.117
1e4 1.010 0.301
1e6 (4 trabajos) 108.704 28.363
1e6 (10 trabajos) 108.704 35.642

ıa
R paralelo

Balanceo de carga con snow
Cluster Usage

4
3
Node

2
1
0

0 5 10 15 20 25

Elapsed Time

Figure : 4 trabajos con 250.000 tareas

ıa
R paralelo

Balanceo de carga con snow
Cluster Usage

4
3
Node

2
1
0

0 5 10 15 20 25 30 35

Elapsed Time

Figure : 10 trabajos con 100.000 tareas

ıa
Open Data + Visualization

R+Open Data

La ﬁlosof´ Open Data1 busca hacer disponibles algunos datos de
ıa
inter´s p´bico hacia la comunidad mediante APIs y protocolos
e u
especializados.

1 http://www.opendatafoundation.org/

ıa

R+Open Data

ıa
e u
especializados.
Esta iniciativa busca transparentar las pol´
ıticas publicas a trav´s de
e
buenas pr´cticas que permitan el acceso expedito, seguro y eﬁciente
a
de los datos.


ıa

R+Open Data

ıa
e u
especializados.
Esta iniciativa busca transparentar las pol´
ıticas publicas a trav´s de
e
buenas pr´cticas que permitan el acceso expedito, seguro y eﬁciente
a
de los datos.
Por otra parte, existe una variedad de dispositivos de monitoreo que
generan un gran volumen de datos georeferenciados en tiempo real
(clima, salud, calidad del aire) que pueden ser combinados y
reutilizados para diferentes aplicaciones.


ıa

Proyecto Agrosense

Figure : Sensores inal´mbricos
a

ıa

Proyecto Agrosense

Humedad del Suelo nivel 1: nodo 1 Humedad del Suelo nivel 2: nodo 1 Humedad del Suelo nivel 3: nodo 1
300

300

300
250

250

250
200

200

200
Centibares

Centibares

Centibares
150

150

150
100

100

100
50

50

50
0

0

0
2012−07−20 2012−07−27 2012−08−03 2012−08−12 2012−09−25 2012−07−20 2012−07−27 2012−08−03 2012−08−12 2012−09−25 2012−07−20 2012−07−27 2012−08−03 2012−08−12 2012−09−25

Dia Dia Dia

Figure : Sensores humedad del suelo en sector Punta de Diamante en la
comuna de San Clemente

ıa

Proyecto Agrosense

Figure : Visualizaci´n en Google Earth
o

ıa

Preguntas + Sugerencias?

Minería de datos de gran escala usando R

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (11)

Similar a Minería de datos de gran escala usando R

Similar a Minería de datos de gran escala usando R (20)

Minería de datos de gran escala usando R