SlideShare una empresa de Scribd logo
 
“Fundamentos de Data Mining con R” .	
  
	
  
	
  	
  www.sgcampus.com.mx	
  
Temario
1.  Minería de Datos
2.  Herramientas y requerimientos para Minería de datos
a)  R
b)  RStudio
c)  Shiny
d)  Miktex
3.  Auto-aprendizaje utilizando el lenguaje R.
4.  Modelos, técnicas y funciones.
a)  acceso a datos.
b)  Descarga
c)  lectura de archivos
d)  Limpieza básica
e)  Extracción de datos
f)  Técnicas y minería de datos
5.  Conclusiones
6.  Referencias
Objetivo
El participante conocerá algunos conceptos
fundamentales de la Minería de Datos a partir del uso de
funciones y paquetes del lenguaje R, para facilitar tanto
su comprensión y manejo del lenguaje, como de la
minería de datos, sus modelos y técnicas.
Minería de Datos
•  Minería de Datos, Inteligencia de Negocios y
Sistemas de soporte.
Minería de Datos
En	
   la	
   figura,	
   se	
   muestra	
   el	
   nivel	
   de	
   anidación	
   de	
   cada	
  
elemento	
  del	
  universo,	
  donde	
  se	
  enmarca	
  la	
  minería	
  de	
  
datos:	
  	
  un	
  entorno	
  o	
  ambiente	
  general,	
  en	
  el	
  que	
  se	
  sitúa	
  
el	
   Sistema	
   de	
   Soporte	
   para	
   la	
   toma	
   de	
   Decisiones	
  
(Decision	
   Support	
   Systems),	
   en	
   cuyo	
   seno	
   se	
   diseñan,	
  
conforman,	
   administran,	
   y	
   dirigen	
   los	
   negocios,	
   mismos	
  
que	
  crean	
  las	
  bases	
  de	
  datos	
  de	
  las	
  cuales	
  se	
  aplicará	
  la	
  
Inteligencia	
   de	
   Negocios(Bussines	
   Intelligence),	
   para	
   que	
  
emerja	
  el	
  KDD	
  (Knowledge	
  Discovery	
  Data),	
  que	
  sigue	
  una	
  
serie	
   de	
   pasos	
   o	
   procesos	
   entre	
   los	
   que	
   destaca	
   el	
   DM	
  
(Data	
  Mining),	
  herramienta	
  informáMca	
  del	
  KDD	
  en	
  la	
  cual	
  
se	
  aplican	
  métodos	
  inteligentes	
  para	
  extraer	
  patrones	
  de	
  
datos	
  (Han	
  &	
  Kamber,	
  2006).	
  	
  
Minería de Datos, Inteligencia de Negocios y
Sistemas de soporte.
Minería de Datos
	
  Existen	
  cuatro	
  metodologías:	
  1.-­‐	
  SEMMA,	
  2.-­‐	
  KDD	
  Roadmap,	
  3.-­‐	
  RAMSYS,	
  y	
  4.-­‐	
  DMIE.	
  Finalmente,	
  
CRISP-­‐DM	
  es	
  un	
  modelo	
  con	
  un	
  fuerte	
  componente	
  metodológico	
  (Marbán,	
  Mariscal,	
  &	
  Segovia,	
  2009).	
  	
  
Metodologías en Minería de Datos,.
Minería de Datos
Tipologías de la Minería de Datos
	
   La	
   Minería	
   de	
   Datos	
   es:	
   ‘…Extracción	
   no	
   trivial	
   de	
   información	
   implícita,	
   previamente	
  
desconocida	
  y	
  potencialmente	
  úMl	
  a	
  parMr	
  de	
  datos.”.	
  	
  
	
   Existen	
   algoritmos	
   tanto	
   de	
   aprendizaje	
   supervisado,	
   como	
   de	
   aprendizaje	
   no	
   supervisado	
  
cuyo	
   conocimiento	
   y	
   opMmización	
   facilita	
   el	
   descubrimiento	
   o	
   reconocimiento	
   de	
   patrones,	
   a	
  
través	
  de	
  la	
  clasificación	
  y	
  la	
  predicción.	
  	
  
	
  
	
  
	
  
	
  
	
  En	
  la	
  MDD,	
  algunas	
  variables	
  son	
  señaladas	
  como	
  el	
  objeMvo	
  y	
  existen	
  datos	
  sobre	
  su	
  desMno,	
  
mientras	
   que	
   en	
   la	
   MDI,	
   no	
   destaca	
   ninguna	
   variable	
   como	
   un	
   objeMvo,	
   pues	
   la	
   meta	
   es	
  
descubrir	
  algún	
  Mpo	
  de	
  relación	
  entre	
  todas	
  las	
  variables.	
  
Herramientas de Data Mining
Herramientas y requerimientos para Minería de datos
Auto-aprendizaje mediante R.
Requerimientos para el auto-aprendizaje
a)  Después de instalas las herramientas R , Rstudio, Shiny, Miktex, deberá continuar
con la instalación de algunos paquetes adicionales, tales como rmarkdown,
laticce, knitr, etc., los cuales podrá ir siguiendo durante la presentación.
b)  En esta primera parte les recomiendo el paquete swirl, install.packages(“swirl"),
después d edla instalación deberás escribir library(swirl) para poder utilizarlo.
c)  Después de instalarlo deberán abrirlo a fin de poder obtener información básica,
pero podemos empezar a trabajar con él. En este caso, si no sabes mucho sobre
matrices te recomiendo el primer modulo, de otra forma, toma el segundo
modulo sobre modelos de regresión. Un buen repaso a nadie le perjudica
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
a)  acceso a datos.
b)  Descarga
c)  lectura de archivos
d)  Limpieza básica
e)  Extracción de datos
f)  Técnicas y minería de datos
Modelos, técnicas y funciones	
  
•  Ejemplos	
  
a)  acceso a datos.
library(XML)	
  
url<-­‐	
  'hgp://en.wikipedia.org/wiki/World_populaMon'	
  
tbls	
  <-­‐readHTMLTable	
  (url)	
  
length(tbls)	
  
	
  
tbl	
  <-­‐readHTMLTable	
  (url,which=4)	
  
tbl[,c(1:3,5)]	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Descarga
# fileUrl <- "link?accessType=DOWNLOAD"
if(!file.exists(".UCI_HAR_Dataset")){dir.create("./UCI_HAR_Dataset")}
fileUrl <- "https://d396qusza40orc.cloudfront.net/getdata%2Fprojectfiles%2FUCI%20HAR%20Dataset.zip?accessType=DOWNLOAD"
# download.file(fileUrl, destfile = "directorio/nombre_archivo.csv", method = "curl")
download.file(fileUrl, destfile = "/Users/administrador/Specialization/UCI_HAR_Dataset/UCI_HAR_Dataset.zip", method = "curl”)
list.files("../Specialization")
dateDownloaded <- date()
dateDownloaded
### Step two
# Unzziped the file
# Set working directory setwd()
# Unzipped the data set in 'UCI_HAR_Dataset'
# The dataset directory is same as this script.
setwd("../Specialization/UCI_HAR_Dataset")
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
lectura de archivos
#	
  Package	
  Check	
  and	
  Install	
  
library(reshape2)	
  
#	
  or	
  	
  
pkg	
  <-­‐	
  "reshape2"	
  
if	
  (!require(pkg,	
  character.only	
  =	
  TRUE))	
  {	
  
	
  	
  install.packages(pkg)	
  
	
  	
  if	
  (!require(pkg,	
  character.only	
  =	
  TRUE))	
  	
  
	
  	
  	
  	
  stop(paste("Load	
  failure:	
  ",	
  pkg))	
  
}	
  
	
  
#	
  Read	
  dataset	
  
acMviMes	
  <-­‐	
  read.table(paste0(dataBaseDirectory,	
  "acMvity_labels.txt"),	
  header=FALSE,	
  stringsAsFactors=FALSE)	
  
features	
  <-­‐	
  read.table(paste0(dataBaseDirectory,	
  "features.txt"),	
  header=FALSE,	
  stringsAsFactors=FALSE)	
  
	
  
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
lectura de archivos
# Import and prepare the test Data
subject_test <- read.table(paste0(dataTestDirectory, "subject_test.txt"), header=FALSE)
x_test <- read.table(paste0(dataTestDirectory, "X_test.txt"), header=FALSE)
y_test <- read.table(paste0(dataTestDirectory, "y_test.txt"), header=FALSE)
tmp <- data.frame(Activity = factor(y_test$V1, labels = activities$V2))
testData <- cbind(tmp, subject_test, x_test)
# Import and prepare the train Data
subject_train <- read.table(paste0(dataTrainDirectory, "subject_train.txt"), header=FALSE)
x_train <- read.table(paste0(dataTrainDirectory, "X_train.txt"), header=FALSE)
y_train <- read.table(paste0(dataTrainDirectory, "y_train.txt"), header=FALSE)
tmp <- data.frame(Activity = factor(y_train$V1, labels = activities$V2))
trainData <- cbind(tmp, subject_train, x_train)
# Tidy Data
testTidyData <- rbind(testData, trainData)
names(testTidyData) <- c("Activity", "Subject", features[,2])
select <- features$V2[grep("mean()|std()", features$V2)]
tidyData <- testTidyData[c("Activity", "Subject", select)]
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Extracción de datos
# Write Tidy Data to Disk
write.table(tidyData, file="./tidyData.txt", row.names=FALSE)
# Tidy Data Average/Activity. Melt and Cast.
tidyData_Melt <- melt(tidyData, id=c("Activity", "Subject"), measure.vars=select)
tidyData_Mean <- dcast(tidyData_Melt, Activity + Subject ~ variable, mean)
# Write Tidy Average Data
write.table(tidyData_Mean, file="./tidyAverageData.txt", row.names=FALSE)
message(" DONE")
Modelos, técnicas y funciones	
  
•  R	
  en	
  acción	
  
Limpieza básica
microdataSurvey <- read.table("/Users/administrador/Specialization/microdataSurvey.csv", sep = ",", header = TRUE)
head(microdataSurvey)
# Extraer solamente la columna que me interesa
propertyValue <- microdataSurvey[,c(37)]
propertyValue
# Limpiar datos
ld = complete.cases(propertyValue)
propertyValue = propertyValue[ld]
propertyValue
# Utilizo el comando which para saber cuáles índices del vector o columna cumplen con una condición lógica
which(propertyValue >= 24)
# Asigno el resultado a un vector
mayorValue <- which(propertyValue >= 24)
# Extraigo el resultado o la cantidad de casos que cumplen con la condición
length(mayorValue)	
  
	
  	
  
Conclusiones
Ante	
  la	
  pregunta	
  de	
  que	
  herramienta	
  es	
  mejor	
  para	
  trabajar	
  con	
  
Minería	
   de	
   Datos,tendré	
   que	
   responder	
   que	
   aquella	
   que	
   les	
  
facilite	
  más	
  su	
  propio	
  trabajo	
  y	
  comprensión	
  sobre	
  lo	
  que	
  están	
  
haciendo,	
   Matlab	
   es	
   una	
   buena	
   opción	
   pero	
   Mene	
   un	
   costo,	
  
Octave,	
  es	
  open	
  source	
  pero	
  conlleva	
  un	
  poco	
  más	
  de	
  trabajo,	
  R	
  
es	
  una	
  herramienta	
  formidable,	
  pero	
  como	
  podrán	
  notar	
  exige	
  
cierto	
   dominio	
   de	
   programación	
   y	
   sobre	
   todo	
   mucho	
   interés,	
  
teniendo	
  en	
  cuenta	
  que	
  en	
  Minería	
  de	
  datos	
  lo	
  importante	
  no	
  
son	
  los	
  datos,	
  sino	
  la	
  pregunta	
  que	
  se	
  quiere	
  responder.	
  
Referencias	
  
1.  Paradis, E.: R para Principiantes, The Comprehensive R Archive Networkhttp://cran.rproject.org/doc/
contrib/rdebuts_es.pdf (2003). Accedido el 26 de marzo de 2014.
2.  Sauter, V.L.: Decision Support Systems for Business Intelligence. John Wiley & Sons (2010).
3.  Gilchrist, M.; Lehmann, D.; Skrubbeltrang, G.;Vachon, F.: Knowledge Discovery in Databases for
Competitive Advantage. Journal of Management and Strategy, Vol. 3, No. 2, pp. 2-15 (2012).
4.  Jiawei, H.; Kamber, M.: Data Mining: Concepts and Techniques. Elsevier (2006).
5.  Marbán, O.; Mariscal, G.; Segovia, J.: A Data Mining & Knowledge DiscoveryProcess Model. Ponce,
J.; Karahoca, A.: En Data Mining and Knowledge Discovery in Real Life Applications, I-Tech
Education and Publishing, pp. 1-17 (2009).
6.  Torgo, L.: Data Mining with R: Learning with case studies. CRC Press Taylor &Francis Group (2011).
7.  Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Thomas, C.; Wirth, R.: CRISP-DM 1.0
Step-by-step data mining guide. CRISP-DM Consortium,
8.  ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/User Manual/
CRISP-DM.pdf (2000). Accedido el 17 de Noviembre de 2013.
Datos	
  de	
  contacto	
  
"
GRACIAS POR SU ATENCIÓN"
"
"
Rafael Reséndiz Ramírez"
Instituto de Ingeniería"
Universidad Autónoma de Baja California"
"
Calle de la Norma s/n y Blvd Benito Juárez, "
Col. Insurgentes Este. C.P. 21280"
Mexicali, Baja California, México"
"
rafael.resendiz@uabc.edu.mx"
rafael.resendiz@educacionbc.edu.mx "
rafaresend@gmail.com 	
  

Más contenido relacionado

La actualidad más candente

Diseño Logico de Base de datos Relacionales
Diseño Logico de Base de datos RelacionalesDiseño Logico de Base de datos Relacionales
Diseño Logico de Base de datos Relacionales
Robert Rodriguez
 
Taller de base de datos ags dic_2014 control escolar
Taller de base de datos ags dic_2014 control escolarTaller de base de datos ags dic_2014 control escolar
Taller de base de datos ags dic_2014 control escolar
Luiz Castro
 
Tablas Hash
Tablas HashTablas Hash
Tablas Hash
vicomanuel
 
ETL
ETLETL
metodos de busqueda en inteligencia artificial
metodos de busqueda en inteligencia artificialmetodos de busqueda en inteligencia artificial
metodos de busqueda en inteligencia artificial
NoraVelasquez4
 
metodologia de diseño de base de datos
metodologia de diseño de base de datosmetodologia de diseño de base de datos
metodologia de diseño de base de datosemnero
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia Artificial
Alan López
 
Metodo de busqueda
Metodo de busquedaMetodo de busqueda
Metodo de busqueda
Robert Rivero
 
Cuadro comparativo algoritmos de busqueda
Cuadro comparativo algoritmos de busquedaCuadro comparativo algoritmos de busqueda
Cuadro comparativo algoritmos de busquedaCristopher Morales Ruiz
 
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
Rubi Veronica Chimal Cuxin
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
MSc Aldo Valdez Alvarado
 
3. algoritmos de ordenamiento interno
3. algoritmos de ordenamiento interno3. algoritmos de ordenamiento interno
3. algoritmos de ordenamiento interno
Fernando Solis
 
Administración de Memoria
Administración de MemoriaAdministración de Memoria
Administración de Memoria
Prof. Javier Troya
 
Reporte metodos de busqueda y ordenamiento
Reporte metodos de busqueda y ordenamientoReporte metodos de busqueda y ordenamiento
Reporte metodos de busqueda y ordenamiento
TAtiizz Villalobos
 
Inteligencia Artificial Redes bayesianas
Inteligencia Artificial  Redes bayesianasInteligencia Artificial  Redes bayesianas
Inteligencia Artificial Redes bayesianas
hmartinezc2
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
lalopg
 
Metodos de ordenamiento
Metodos de ordenamientoMetodos de ordenamiento
Metodos de ordenamiento
Smith Suarez Vargas
 

La actualidad más candente (20)

Diseño Logico de Base de datos Relacionales
Diseño Logico de Base de datos RelacionalesDiseño Logico de Base de datos Relacionales
Diseño Logico de Base de datos Relacionales
 
Taller de base de datos ags dic_2014 control escolar
Taller de base de datos ags dic_2014 control escolarTaller de base de datos ags dic_2014 control escolar
Taller de base de datos ags dic_2014 control escolar
 
Tablas Hash
Tablas HashTablas Hash
Tablas Hash
 
ETL
ETLETL
ETL
 
metodos de busqueda en inteligencia artificial
metodos de busqueda en inteligencia artificialmetodos de busqueda en inteligencia artificial
metodos de busqueda en inteligencia artificial
 
metodologia de diseño de base de datos
metodologia de diseño de base de datosmetodologia de diseño de base de datos
metodologia de diseño de base de datos
 
Redes Bayesianas
Redes BayesianasRedes Bayesianas
Redes Bayesianas
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia Artificial
 
Metodo de busqueda
Metodo de busquedaMetodo de busqueda
Metodo de busqueda
 
Cuadro comparativo algoritmos de busqueda
Cuadro comparativo algoritmos de busquedaCuadro comparativo algoritmos de busqueda
Cuadro comparativo algoritmos de busqueda
 
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
Informe técnico Unidad 4 Estructuras no lineales (Rubí Verónica)
 
Machine Learning para Todos
Machine Learning para TodosMachine Learning para Todos
Machine Learning para Todos
 
3. algoritmos de ordenamiento interno
3. algoritmos de ordenamiento interno3. algoritmos de ordenamiento interno
3. algoritmos de ordenamiento interno
 
Administración de Memoria
Administración de MemoriaAdministración de Memoria
Administración de Memoria
 
Heap sort
Heap sortHeap sort
Heap sort
 
Reporte metodos de busqueda y ordenamiento
Reporte metodos de busqueda y ordenamientoReporte metodos de busqueda y ordenamiento
Reporte metodos de busqueda y ordenamiento
 
Arboles Binarios
Arboles BinariosArboles Binarios
Arboles Binarios
 
Inteligencia Artificial Redes bayesianas
Inteligencia Artificial  Redes bayesianasInteligencia Artificial  Redes bayesianas
Inteligencia Artificial Redes bayesianas
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Metodos de ordenamiento
Metodos de ordenamientoMetodos de ordenamiento
Metodos de ordenamiento
 

Similar a Fundamentos de Data Mining con R

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Anyeni Garay
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD
travon1
 
Inteligencia de los Negocios en la Empresa Moderna
Inteligencia de los Negocios en la Empresa ModernaInteligencia de los Negocios en la Empresa Moderna
Inteligencia de los Negocios en la Empresa Moderna
nelsoncotrinagarca
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
travon1
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
María Inés Cahuana Lázaro
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Departamento de Redes UNL
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
Stratebi
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
Edicion Ticnews
 
Minería de Datos - Unidad 1
Minería de Datos - Unidad 1Minería de Datos - Unidad 1
Minería de Datos - Unidad 1
Pedro Aaron
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
Armando Romani
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
04071977
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
Stratebi
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
CristianChicuiPrez
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
PabloMolina111
 
R Services con SQL Server
R Services con SQL ServerR Services con SQL Server
R Services con SQL Server
dbLearner
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Beatriz Martín @zigiella
 

Similar a Fundamentos de Data Mining con R (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD La minería de datos en el proceso de KDD
La minería de datos en el proceso de KDD
 
Inteligencia de los Negocios en la Empresa Moderna
Inteligencia de los Negocios en la Empresa ModernaInteligencia de los Negocios en la Empresa Moderna
Inteligencia de los Negocios en la Empresa Moderna
 
Mineria de datos-una_introduccion
Mineria de datos-una_introduccionMineria de datos-una_introduccion
Mineria de datos-una_introduccion
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Revista TicNews Marzo 2015
Revista TicNews Marzo 2015Revista TicNews Marzo 2015
Revista TicNews Marzo 2015
 
Minería de Datos - Unidad 1
Minería de Datos - Unidad 1Minería de Datos - Unidad 1
Minería de Datos - Unidad 1
 
Mineria de datos ok
Mineria de datos okMineria de datos ok
Mineria de datos ok
 
Marisela labrador
Marisela labradorMarisela labrador
Marisela labrador
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Guia examen adsi
Guia examen adsiGuia examen adsi
Guia examen adsi
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
SEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdfSEMANA4_APUNTE_S4.pdf
SEMANA4_APUNTE_S4.pdf
 
Monografia Data Mining
Monografia Data Mining   Monografia Data Mining
Monografia Data Mining
 
R Services con SQL Server
R Services con SQL ServerR Services con SQL Server
R Services con SQL Server
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
 
Diapositiva d
Diapositiva dDiapositiva d
Diapositiva d
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
Software Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
Software Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
Software Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
Software Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
Software Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
Software Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
Software Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
Software Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
Software Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
Software Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Software Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
Software Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
Software Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
Software Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

herramientas de sitio web 3.0 2024
herramientas de sitio web 3.0  2024herramientas de sitio web 3.0  2024
herramientas de sitio web 3.0 2024
julio05042006
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
JimmyTejadaSalizar
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
ValeriaAyala48
 
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB  S2. PARA VSATMANUAL DEL DECODIFICADOR DVB  S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
Ing. Julio Iván Mera Casas
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
AlejandraCasallas7
 
Trabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De ProgramaciónTrabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De Programación
SofiaCollazos
 
actividad 2 tecnologia (3).pdf junto con mis compañeros
actividad 2 tecnologia (3).pdf junto con mis compañerosactividad 2 tecnologia (3).pdf junto con mis compañeros
actividad 2 tecnologia (3).pdf junto con mis compañeros
aljitagallego
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
espinozaernesto427
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
cristianrb0324
 
absorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratoriosabsorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratorios
JuanAlvarez413513
 
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaCatalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
AMADO SALVADOR
 
Sitios web 3.0 funciones ventajas y desventajas
Sitios web 3.0 funciones ventajas y desventajasSitios web 3.0 funciones ventajas y desventajas
Sitios web 3.0 funciones ventajas y desventajas
paulroyal74
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
SamuelRamirez83524
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
AlejandraCasallas7
 
Actividad Conceptos básicos de programación.pdf
Actividad Conceptos básicos de programación.pdfActividad Conceptos básicos de programación.pdf
Actividad Conceptos básicos de programación.pdf
NajwaNimri1
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
coloradxmaria
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
tamarita881
 
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
SERVANDOBADILLOPOLEN
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
PABLOCESARGARZONBENI
 
Computacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajasComputacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajas
sofiahuarancabellido
 

Último (20)

herramientas de sitio web 3.0 2024
herramientas de sitio web 3.0  2024herramientas de sitio web 3.0  2024
herramientas de sitio web 3.0 2024
 
maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
 
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB  S2. PARA VSATMANUAL DEL DECODIFICADOR DVB  S2. PARA VSAT
MANUAL DEL DECODIFICADOR DVB S2. PARA VSAT
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
 
Trabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De ProgramaciónTrabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De Programación
 
actividad 2 tecnologia (3).pdf junto con mis compañeros
actividad 2 tecnologia (3).pdf junto con mis compañerosactividad 2 tecnologia (3).pdf junto con mis compañeros
actividad 2 tecnologia (3).pdf junto con mis compañeros
 
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
 
absorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratoriosabsorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratorios
 
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaCatalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
 
Sitios web 3.0 funciones ventajas y desventajas
Sitios web 3.0 funciones ventajas y desventajasSitios web 3.0 funciones ventajas y desventajas
Sitios web 3.0 funciones ventajas y desventajas
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
Actividad Conceptos básicos de programación.pdf
Actividad Conceptos básicos de programación.pdfActividad Conceptos básicos de programación.pdf
Actividad Conceptos básicos de programación.pdf
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
 
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
 
Computacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajasComputacion cuántica y sus ventajas y desventajas
Computacion cuántica y sus ventajas y desventajas
 

Fundamentos de Data Mining con R

  • 1.   “Fundamentos de Data Mining con R” .        www.sgcampus.com.mx  
  • 2. Temario 1.  Minería de Datos 2.  Herramientas y requerimientos para Minería de datos a)  R b)  RStudio c)  Shiny d)  Miktex 3.  Auto-aprendizaje utilizando el lenguaje R. 4.  Modelos, técnicas y funciones. a)  acceso a datos. b)  Descarga c)  lectura de archivos d)  Limpieza básica e)  Extracción de datos f)  Técnicas y minería de datos 5.  Conclusiones 6.  Referencias
  • 3. Objetivo El participante conocerá algunos conceptos fundamentales de la Minería de Datos a partir del uso de funciones y paquetes del lenguaje R, para facilitar tanto su comprensión y manejo del lenguaje, como de la minería de datos, sus modelos y técnicas.
  • 4. Minería de Datos •  Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
  • 5. Minería de Datos En   la   figura,   se   muestra   el   nivel   de   anidación   de   cada   elemento  del  universo,  donde  se  enmarca  la  minería  de   datos:    un  entorno  o  ambiente  general,  en  el  que  se  sitúa   el   Sistema   de   Soporte   para   la   toma   de   Decisiones   (Decision   Support   Systems),   en   cuyo   seno   se   diseñan,   conforman,   administran,   y   dirigen   los   negocios,   mismos   que  crean  las  bases  de  datos  de  las  cuales  se  aplicará  la   Inteligencia   de   Negocios(Bussines   Intelligence),   para   que   emerja  el  KDD  (Knowledge  Discovery  Data),  que  sigue  una   serie   de   pasos   o   procesos   entre   los   que   destaca   el   DM   (Data  Mining),  herramienta  informáMca  del  KDD  en  la  cual   se  aplican  métodos  inteligentes  para  extraer  patrones  de   datos  (Han  &  Kamber,  2006).     Minería de Datos, Inteligencia de Negocios y Sistemas de soporte.
  • 6. Minería de Datos  Existen  cuatro  metodologías:  1.-­‐  SEMMA,  2.-­‐  KDD  Roadmap,  3.-­‐  RAMSYS,  y  4.-­‐  DMIE.  Finalmente,   CRISP-­‐DM  es  un  modelo  con  un  fuerte  componente  metodológico  (Marbán,  Mariscal,  &  Segovia,  2009).     Metodologías en Minería de Datos,.
  • 7. Minería de Datos Tipologías de la Minería de Datos   La   Minería   de   Datos   es:   ‘…Extracción   no   trivial   de   información   implícita,   previamente   desconocida  y  potencialmente  úMl  a  parMr  de  datos.”.       Existen   algoritmos   tanto   de   aprendizaje   supervisado,   como   de   aprendizaje   no   supervisado   cuyo   conocimiento   y   opMmización   facilita   el   descubrimiento   o   reconocimiento   de   patrones,   a   través  de  la  clasificación  y  la  predicción.              En  la  MDD,  algunas  variables  son  señaladas  como  el  objeMvo  y  existen  datos  sobre  su  desMno,   mientras   que   en   la   MDI,   no   destaca   ninguna   variable   como   un   objeMvo,   pues   la   meta   es   descubrir  algún  Mpo  de  relación  entre  todas  las  variables.  
  • 8. Herramientas de Data Mining Herramientas y requerimientos para Minería de datos
  • 9. Auto-aprendizaje mediante R. Requerimientos para el auto-aprendizaje a)  Después de instalas las herramientas R , Rstudio, Shiny, Miktex, deberá continuar con la instalación de algunos paquetes adicionales, tales como rmarkdown, laticce, knitr, etc., los cuales podrá ir siguiendo durante la presentación. b)  En esta primera parte les recomiendo el paquete swirl, install.packages(“swirl"), después d edla instalación deberás escribir library(swirl) para poder utilizarlo. c)  Después de instalarlo deberán abrirlo a fin de poder obtener información básica, pero podemos empezar a trabajar con él. En este caso, si no sabes mucho sobre matrices te recomiendo el primer modulo, de otra forma, toma el segundo modulo sobre modelos de regresión. Un buen repaso a nadie le perjudica  
  • 10. Modelos, técnicas y funciones   •  R  en  acción   a)  acceso a datos. b)  Descarga c)  lectura de archivos d)  Limpieza básica e)  Extracción de datos f)  Técnicas y minería de datos
  • 11. Modelos, técnicas y funciones   •  Ejemplos   a)  acceso a datos. library(XML)   url<-­‐  'hgp://en.wikipedia.org/wiki/World_populaMon'   tbls  <-­‐readHTMLTable  (url)   length(tbls)     tbl  <-­‐readHTMLTable  (url,which=4)   tbl[,c(1:3,5)]  
  • 12. Modelos, técnicas y funciones   •  R  en  acción   Descarga # fileUrl <- "link?accessType=DOWNLOAD" if(!file.exists(".UCI_HAR_Dataset")){dir.create("./UCI_HAR_Dataset")} fileUrl <- "https://d396qusza40orc.cloudfront.net/getdata%2Fprojectfiles%2FUCI%20HAR%20Dataset.zip?accessType=DOWNLOAD" # download.file(fileUrl, destfile = "directorio/nombre_archivo.csv", method = "curl") download.file(fileUrl, destfile = "/Users/administrador/Specialization/UCI_HAR_Dataset/UCI_HAR_Dataset.zip", method = "curl”) list.files("../Specialization") dateDownloaded <- date() dateDownloaded ### Step two # Unzziped the file # Set working directory setwd() # Unzipped the data set in 'UCI_HAR_Dataset' # The dataset directory is same as this script. setwd("../Specialization/UCI_HAR_Dataset")  
  • 13. Modelos, técnicas y funciones   •  R  en  acción   lectura de archivos #  Package  Check  and  Install   library(reshape2)   #  or     pkg  <-­‐  "reshape2"   if  (!require(pkg,  character.only  =  TRUE))  {      install.packages(pkg)      if  (!require(pkg,  character.only  =  TRUE))            stop(paste("Load  failure:  ",  pkg))   }     #  Read  dataset   acMviMes  <-­‐  read.table(paste0(dataBaseDirectory,  "acMvity_labels.txt"),  header=FALSE,  stringsAsFactors=FALSE)   features  <-­‐  read.table(paste0(dataBaseDirectory,  "features.txt"),  header=FALSE,  stringsAsFactors=FALSE)    
  • 14. Modelos, técnicas y funciones   •  R  en  acción   lectura de archivos # Import and prepare the test Data subject_test <- read.table(paste0(dataTestDirectory, "subject_test.txt"), header=FALSE) x_test <- read.table(paste0(dataTestDirectory, "X_test.txt"), header=FALSE) y_test <- read.table(paste0(dataTestDirectory, "y_test.txt"), header=FALSE) tmp <- data.frame(Activity = factor(y_test$V1, labels = activities$V2)) testData <- cbind(tmp, subject_test, x_test) # Import and prepare the train Data subject_train <- read.table(paste0(dataTrainDirectory, "subject_train.txt"), header=FALSE) x_train <- read.table(paste0(dataTrainDirectory, "X_train.txt"), header=FALSE) y_train <- read.table(paste0(dataTrainDirectory, "y_train.txt"), header=FALSE) tmp <- data.frame(Activity = factor(y_train$V1, labels = activities$V2)) trainData <- cbind(tmp, subject_train, x_train) # Tidy Data testTidyData <- rbind(testData, trainData) names(testTidyData) <- c("Activity", "Subject", features[,2]) select <- features$V2[grep("mean()|std()", features$V2)] tidyData <- testTidyData[c("Activity", "Subject", select)]
  • 15. Modelos, técnicas y funciones   •  R  en  acción   Extracción de datos # Write Tidy Data to Disk write.table(tidyData, file="./tidyData.txt", row.names=FALSE) # Tidy Data Average/Activity. Melt and Cast. tidyData_Melt <- melt(tidyData, id=c("Activity", "Subject"), measure.vars=select) tidyData_Mean <- dcast(tidyData_Melt, Activity + Subject ~ variable, mean) # Write Tidy Average Data write.table(tidyData_Mean, file="./tidyAverageData.txt", row.names=FALSE) message(" DONE")
  • 16. Modelos, técnicas y funciones   •  R  en  acción   Limpieza básica microdataSurvey <- read.table("/Users/administrador/Specialization/microdataSurvey.csv", sep = ",", header = TRUE) head(microdataSurvey) # Extraer solamente la columna que me interesa propertyValue <- microdataSurvey[,c(37)] propertyValue # Limpiar datos ld = complete.cases(propertyValue) propertyValue = propertyValue[ld] propertyValue # Utilizo el comando which para saber cuáles índices del vector o columna cumplen con una condición lógica which(propertyValue >= 24) # Asigno el resultado a un vector mayorValue <- which(propertyValue >= 24) # Extraigo el resultado o la cantidad de casos que cumplen con la condición length(mayorValue)      
  • 17. Conclusiones Ante  la  pregunta  de  que  herramienta  es  mejor  para  trabajar  con   Minería   de   Datos,tendré   que   responder   que   aquella   que   les   facilite  más  su  propio  trabajo  y  comprensión  sobre  lo  que  están   haciendo,   Matlab   es   una   buena   opción   pero   Mene   un   costo,   Octave,  es  open  source  pero  conlleva  un  poco  más  de  trabajo,  R   es  una  herramienta  formidable,  pero  como  podrán  notar  exige   cierto   dominio   de   programación   y   sobre   todo   mucho   interés,   teniendo  en  cuenta  que  en  Minería  de  datos  lo  importante  no   son  los  datos,  sino  la  pregunta  que  se  quiere  responder.  
  • 18. Referencias   1.  Paradis, E.: R para Principiantes, The Comprehensive R Archive Networkhttp://cran.rproject.org/doc/ contrib/rdebuts_es.pdf (2003). Accedido el 26 de marzo de 2014. 2.  Sauter, V.L.: Decision Support Systems for Business Intelligence. John Wiley & Sons (2010). 3.  Gilchrist, M.; Lehmann, D.; Skrubbeltrang, G.;Vachon, F.: Knowledge Discovery in Databases for Competitive Advantage. Journal of Management and Strategy, Vol. 3, No. 2, pp. 2-15 (2012). 4.  Jiawei, H.; Kamber, M.: Data Mining: Concepts and Techniques. Elsevier (2006). 5.  Marbán, O.; Mariscal, G.; Segovia, J.: A Data Mining & Knowledge DiscoveryProcess Model. Ponce, J.; Karahoca, A.: En Data Mining and Knowledge Discovery in Real Life Applications, I-Tech Education and Publishing, pp. 1-17 (2009). 6.  Torgo, L.: Data Mining with R: Learning with case studies. CRC Press Taylor &Francis Group (2011). 7.  Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Thomas, C.; Wirth, R.: CRISP-DM 1.0 Step-by-step data mining guide. CRISP-DM Consortium, 8.  ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/User Manual/ CRISP-DM.pdf (2000). Accedido el 17 de Noviembre de 2013.
  • 19. Datos  de  contacto   " GRACIAS POR SU ATENCIÓN" " " Rafael Reséndiz Ramírez" Instituto de Ingeniería" Universidad Autónoma de Baja California" " Calle de la Norma s/n y Blvd Benito Juárez, " Col. Insurgentes Este. C.P. 21280" Mexicali, Baja California, México" " rafael.resendiz@uabc.edu.mx" rafael.resendiz@educacionbc.edu.mx " rafaresend@gmail.com