“R”
Es el lenguaje de programación que se utiliza para realizar el análisis estadístico de grandes volúmenes de información con la finalidad de descubrir patrones entre los datos que facilite la toma de decisiones
3. Directorio
Nezahualcóyotl
Titulo de la presentación
Dra. en C. Magally Martínez Reyes
Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl
M. en GyA. P. Ma.
Teresa Cruz Patiño Subdirector Académico
CP.
Martha Osorio González Subdirector Administrativo
D. en C.A.
Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados
M. en A.
Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional
M. en C. E.
Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional
M S.S.
Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud
Dra. en Ing. de Sist.
Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas
Inteligentes
M. en I.
Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte
Dr. en E.J.
Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
5. Contenido
Titulo de la presentación
Minería de Datos
Unidad . Entorno y lenguaje de programación R
Contenidos:
2.1 Instalación de R
2.2 Que es R
2.3 Requerimientos
2.4 Uso de R
7. Presentación
Titulo de la presentación
El presente Material Visual de la Unidad de Aprendizaje Mineria de
datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne
los contenidos de la unidad 2. La minería de datos en el proceso de
KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las
cuales impartirán en cuatro horas semanales.
8. Que es R
“R”
Es el lenguaje de programación que se utiliza para realizar el análisis
estadístico de grandes volúmenes de información con la finalidad de
descubrir patrones entre los datos que facilite la toma de decisiones
18. Instalación de R-Studio
Para analizar un programa en R o analizar un conjunto de datos, se
requiere un entorno de desarrollo integrado (IDE), “Rstudio
profesional Drivers” esto facilita codificación depuración y gestión.
https://rstudio.com/products/rstudio/download/
Proceso de instalación
26. VARIABLES, DATOS Y OPERADORES EN R
Para realizar operaciones con datos y consultar sus resultados debes
utilizar variables, conocer el tipo de dato a los que éstas se encuentran
asociadas y usar operadores que los transformen en la salida esperada.
• Variables
Una variable es un espacio en la memoria de la PC donde se almacena
información a la que se puede acceder para desplegar su contenido o
realizar diversas operaciones.
La sintaxis para utilizar una variable en este lenguaje de programación
es:
27. VARIABLES, DATOS Y OPERADORES EN R
A diferencia de otros lenguajes de programación, en R no es necesario
declarar el tipo de dato de una variable, ya que el intérprete ajusta el
valor de ésta con su correspondiente tipo
años <- 18
28. VARIABLES, DATOS Y OPERADORES EN R
Tipos de datos
En el lenguaje de programación R los tipos básicos de datos son:
• Numeric → números reales
1
• Complex → números complejos, por ejemplo: 56+4i,
donde:
“i” es la unidad imaginaria.
• Character → cadenas alfanuméricas delimitadas por comillas
hola
• Logical → valores lógicos de verdadero (TRUE) o falso (FALSE)
x ! = false
29. VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores lógicos:
permiten determinar si la
comparación entre dos o
más variables es
verdadera
(TRUE) o falsa (FALSE).
Operator Significado Ejemplo
&& And (Y) D<-12 ; E<-6 ; F<-2
(D>E) && (E>F)
TRUE
|| Or (O) D<-12 ; E<-6 ; F<-2
(D>E) || (E>F)
TRUE
! No(!) D<-12
D!=12
FALSE
30. VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores relacionales: son
útiles para comparar el valor
de dos o más variables
Operator Significado Ejemplo
> Mayor que Num1>5
< Menor que Num2<78
>= Mayor o igual que edad>=18
<= Menor o igual que año_nacimiento<=1984
== Igual que monto==2584
!= Distinto que Valor!=2
31. VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores aritméticos: se
utilizan para realizar
operaciones numéricas con
los contenidos de las
variables o asignar el
resultado de cierta operación
a una variable
Operator Significado Ejemplo
+ Suma a<-184+10
- Resta b<-18-6
* Multiplicacion a*b
/ Division d<-x/6
^ Potencia e<- 3^3
%% Modulo f<-12%%2
32. VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
En el lenguaje de programación R las estructuras que representan un
tipo de dato son consideradas como objetos.
Clasificación de objetos
Object Definition Example
Vectores Es una secuencia de datos del mismo tipo a
los que se
accede por medio de un índice que
comienza con el
número uno
33. VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Lista Es un conjunto de datos de diferentes tipos,
que pueden almacenar listas (árboles de
decisión) para manipular y analizar
información no estructurada.
Para acceder a los elementos de una lista, se
utilizan los corchetes dobles [ [ ] ] en cuyo
interior se coloca el índice del elemento
(posición en la que éste se encuentra dentro
de la estructura de datos).
Arreglos Es un conjunto de datos de diferentes
tipos, que almacenan sus elementos de
forma multidimensional, por lo que para
acceder a sus elementos se requiere el
mismo número de índices y de dimensiones.
34. VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Matriz
Es un conjunto de datos del mismo tipo que
se alma-cena en filas y columnas
(bidimensional), por lo que para acceder a
sus contenidos se requiere de dos
índices.
35. VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Data frame
Es un conjunto de datos de
diferente tipo que están
almacenados en tablas
(ejemplo de ello son las bases
de datos y las hojas de
cálculo), en donde las filas
representan unidades
muestrales y las columnas a
las variables. La longitud de
las columnas de esta
estructura de datos debe ser
fija.
36. VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Arreglos
Es un conjunto de
datos de diferentes
tipos que se clasifican
en categorías después
de analizar la
información (por
ejemplo, sexo,
nacionalidad, estado
civil, escolaridad). Por
lo regular, este tipo
de objeto se utiliza en
conjunto con DATA
FRAMES.
37. Estructuras de control R
For:
Sirve para ejecutar mas de una vez un script en R
For(i in n1:n2)
{
Codigo
}
Donde:
i: variable de control
n1: número de comienzo de la interacción
N2: número en que finaliza la iteración
38. Estructuras de control R
Ejemplo tablas de multiplicar con For:
for(i in 1:10)
{
cat("la tabla del", i,"por", 1:10, "es:n")
for(j in 1:10)
{
print(i*j)
}
}
Control de i de 1 a10
Impresión la table de verdad I por 1, 2, .. , 10
Control de j de 1 a 10
Impresión de la multiplicacion
39. Uso de vectores en R
Son la unidad de trabajo en R debido a que se puede concatenar además de
almacenar y realizar diferentes operaciones entre ellos.
V1
V2
.
.
Vn
Estructura:
C(10, 20, 30, 50, 60)
10 20 30 40 50 60 70 80
10 20 30 40 50 60 70 80
10 20 30 40 50 60 70 80
40. Uso de vectores en R
Ejemplo: registro de temperatura por tres días
temp1 <- c(10, 20, 30, 50, 60)
temp2 <- c(25, 30, 40, 25, 29)
temp3 <- c(28, 25, 23, 30, 28)
t<- c(temp1, temp2, temp3)
cat("los valores de la temperatura son:", t[])
cat("El minimo es")
min(t)
cat("El maximo es")
max(t)
Declaración del vector y asignación del dia
Concatenar vectores en uno solo
Desplegar las temperaturas (si se desea solo
un elemento ponerlo en el corchete)
Mostrar el mínimo
Mostrar el máximo
41. Uso de vectores en R
Ejemplo: registro de temperatura por tres días
cat("La media")
mean(t)
cat("La mediana")
median(t)
cat("El vector ordenado")
sort(t)
Mostrar Media
Mostrar mediana
Mostrar en orden
42. Operaciones con matrices R
Son elementos bidimensionales que almacenan información en filas y
columnas
matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35) , byrow=FALSE)
Donde:
matrix: declaración de matriz
nrow: numero de filas
ncol: numero de columnas
c(): variables
byrow=FALSE: se distribuye los elementos en columnas
Columna Columna
Fila
Fila
Fila
43. Operaciones con matrices R
Ejemplo matrices:
m<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35),
byrow=FALSE)
n<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35),
byrow=FALSE)
cat("La matrix es:", m[])
cat("la dimensión es:", dim(m))
cat("El numero de filas", nrow(m))
cat("El numero de columnas", ncol(m))
m2<-m*2
cat("Multiplicación de matriz por 2", m2)
cat("Producto matricial:")
prod<-(m%*%n)
cat(prod)
Declarando matriz m
Declarando matriz n
Mostrar matriz m
Dimensión de la matriz
Numero de filas
Numero de columnas
Multiplicación matriz
Producto matricial
44. Uso de listas con R
Son estructuras en las que se puede almacenar matrices, vectores u otras
listas (su dimensión puede ser diferente).
UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500),
Antiguedad=c(20, 15, 10), email=c("correito@mail.com
", "correito2@mail.com", "correito3@mail.com"))
1 objeto tipo carácter
3 objetos de tipo vector
Edificio No. de empleado Antigüedad email
ISIedA 322 20 correito@mail.com
ISIedA 400 15 correito2@mail.com
ISIedA 500 10 correito3@mail.com
45. Uso de listas con R
Ejemplo:
UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500),
Antiguedad=c(20, 15, 10), email=c("correito@mail.com
", "correito2@mail.com", "correito3@mail.com"))
str(UAEM_ISI)
UAEM_ISI
UAEM_ISI$N_empleado
UAEM_ISI[[4]]
str(UAEM_ISI[1:2])
str(UAEM_ISI[[4]][3])
Declaración lista
Estructura lista
Ver por vector o por
N_empleado
Mostrar contenido de
una lista
Contenido de una sublista
Despliega por componente
46. Uso de Data frames con R
Un data frame es una estructura que almacena en una estructura de filas y
columnas diferentes tipos de objetos (listas, matrices, vectores).
Condiciones de uso de dataframe
Mismo tipo de datos
Misma longitud de Vectores
Mismo numero de filas en las Matrices
47. Uso de Data frames con R
Un data frame es una estructura que almacena en una estructura de filas y
columnas diferentes tipos de objetos (listas, matrices, vectores).
Condiciones de uso de dataframe
Mismo tipo de datos
Misma longitud de Vectores
Mismo numero de filas en las Matrices
Datos Vectores Matrices
22
15
88
48. Uso de Frames con R
Alumno Cuenta sexo Semestre departamento Laboratorio materia
Saul 35896 M 1 Sistemas Mineria Mineria
Diego 32458 M 2 Sistemas Software Fundamentos
Fernando 38954 M 2 comercio Redes Redes
Rosa 35589 F 3 comercio Administración Ecomerce
49. Uso de Frames con R
Crear un vector con alumnos
Crear vector con cuenta
Crear vector con sexo
Crear vector con semestre
Crear vector departamentos
Declaración lista
Estructura lista
Creación del data frame
Mostrar contenido del data
frame
alumno<-c("Saul","Diego", "Fernando", "Rosa")
cuenta<-c(35896, 32458, 38954, 35589)
sexo <- c("M", "M", "M", "F")
semestre<-c(1, 2, 2,3)
departamento<-c("sistema", "sistemas", "comercio",
"comercio")
Carga_lab<-list(Laboratorio=c("mineria", "software", "redes",
"administracion"),materia=c("mineria", "fundamentos",
"redes", "ecomerce") )
str(Carga_lab)
ejemplo_dataframe = data.frame(alumno, cuenta, Sexo,
departamento, Carga_lab)
ejemplo_dataframe
50. Uso de Frames con R
Estructura del data frame
Dimensión data frame
Visualizar el data frame
como tabla
Desplegar un elemento
[[individual]][general]
Mostrar elemento
[fila,columna]
Mostrar solo columnas
[,columna]
Mostrar solo fila
[fila,]
str(ejemplo_dataframe)
dim(ejemplo_dataframe)
View(ejemplo_dataframe)
ejemplo_dataframe[[1]][4]
ejemplo_dataframe[1,2]
ejemplo_dataframe[,4]
ejemplo_dataframe[2,]
51. REFERENCIAS
1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455
2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541
3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790
4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960
5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617
6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560
7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919
8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923
9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711
10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN:
0521836573 9780521836579
11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with
XLMiner” Ed.Wiley ISBN: 9780470526828
12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson
13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976
14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662
15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183
16. Beltran B (s/a), “Notas Mineria de Datos” , FCC
17. Vallejos S. (2006) “Mineria de datos” LSIC