Minería de Datos I
Dr. Ricardo Rico Molina
rricom@uaemex.mx
Centro Universitario UAEM Nezahualcóyotl
Directorio
Titulo de la presentación
Directorio
Nezahualcóyotl
Titulo de la presentación
Dra. en C. Magally Martínez Reyes
Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl
M. en GyA. P. Ma.
Teresa Cruz Patiño Subdirector Académico
CP.
Martha Osorio González Subdirector Administrativo
D. en C.A.
Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados
M. en A.
Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional
M. en C. E.
Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional
M S.S.
Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud
Dra. en Ing. de Sist.
Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas
Inteligentes
M. en I.
Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte
Dr. en E.J.
Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
Mapa curricular
Titulo de la presentación
Contenido
Titulo de la presentación
Minería de Datos
Unidad . Entorno y lenguaje de programación R
Contenidos:
2.1 Instalación de R
2.2 Que es R
2.3 Requerimientos
2.4 Uso de R
Secuencia
Didáctica
Unidad . Entorno y lenguaje de programación R
Contenidos:
2.1 Que es R
2.2Instalación de R
2.3 Requerimientos
2.4 Uso de R
Presentación
Titulo de la presentación
El presente Material Visual de la Unidad de Aprendizaje Mineria de
datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne
los contenidos de la unidad 2. La minería de datos en el proceso de
KDD donde se desarrollara los temas: Etapas de proceso de KDD,
Integración y recopilación, Selección, limpieza y transformación,
Minería de Datos, Evaluación e Interpretación, Difusión y uso; las
cuales impartirán en cuatro horas semanales.
Que es R
“R”
Es el lenguaje de programación que se utiliza para realizar el análisis
estadístico de grandes volúmenes de información con la finalidad de
descubrir patrones entre los datos que facilite la toma de decisiones
Instalación de R
https://cran.r-project.org/
Instalación de R
https://cran.r-project.org/
Instalación de R
https://cran.r-project.org/
Instalación de R
https://cran.r-project.org/
1
2
3
Instalación de R
https://cran.r-project.org/
1
2
Instalación de R
https://cran.r-project.org/
1
Instalación por defecto
Instalación de R
https://cran.r-project.org/
1
Selección de carpeta para accesos
Instalación de R
https://cran.r-project.org/
1
Crear icono en escritorio
Instalación de R
https://cran.r-project.org/
1
Proceso de instalación
Instalación de R-Studio
Para analizar un programa en R o analizar un conjunto de datos, se
requiere un entorno de desarrollo integrado (IDE), “Rstudio
profesional Drivers” esto facilita codificación depuración y gestión.
https://rstudio.com/products/rstudio/download/
Proceso de instalación
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Proceso de instalación
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Instalación de R-Studio
https://rstudio.com/products/rstudio/download/
Editor de Código
VARIABLES, DATOS Y OPERADORES EN R
Para realizar operaciones con datos y consultar sus resultados debes
utilizar variables, conocer el tipo de dato a los que éstas se encuentran
asociadas y usar operadores que los transformen en la salida esperada.
• Variables
Una variable es un espacio en la memoria de la PC donde se almacena
información a la que se puede acceder para desplegar su contenido o
realizar diversas operaciones.
La sintaxis para utilizar una variable en este lenguaje de programación
es:
VARIABLES, DATOS Y OPERADORES EN R
A diferencia de otros lenguajes de programación, en R no es necesario
declarar el tipo de dato de una variable, ya que el intérprete ajusta el
valor de ésta con su correspondiente tipo
años <- 18
VARIABLES, DATOS Y OPERADORES EN R
Tipos de datos
En el lenguaje de programación R los tipos básicos de datos son:
• Numeric → números reales
1
• Complex → números complejos, por ejemplo: 56+4i,
donde:
“i” es la unidad imaginaria.
• Character → cadenas alfanuméricas delimitadas por comillas
hola
• Logical → valores lógicos de verdadero (TRUE) o falso (FALSE)
x ! = false
VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores lógicos:
permiten determinar si la
comparación entre dos o
más variables es
verdadera
(TRUE) o falsa (FALSE).
Operator Significado Ejemplo
&& And (Y) D<-12 ; E<-6 ; F<-2
(D>E) && (E>F)
TRUE
|| Or (O) D<-12 ; E<-6 ; F<-2
(D>E) || (E>F)
TRUE
! No(!) D<-12
D!=12
FALSE
VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores relacionales: son
útiles para comparar el valor
de dos o más variables
Operator Significado Ejemplo
> Mayor que Num1>5
< Menor que Num2<78
>= Mayor o igual que edad>=18
<= Menor o igual que año_nacimiento<=1984
== Igual que monto==2584
!= Distinto que Valor!=2
VARIABLES, DATOS Y OPERADORES EN R
Tipos de operadores
En el lenguaje de programación R, los operadores se clasifican en:
Operadores aritméticos: se
utilizan para realizar
operaciones numéricas con
los contenidos de las
variables o asignar el
resultado de cierta operación
a una variable
Operator Significado Ejemplo
+ Suma a<-184+10
- Resta b<-18-6
* Multiplicacion a*b
/ Division d<-x/6
^ Potencia e<- 3^3
%% Modulo f<-12%%2
VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
En el lenguaje de programación R las estructuras que representan un
tipo de dato son consideradas como objetos.
Clasificación de objetos
Object Definition Example
Vectores Es una secuencia de datos del mismo tipo a
los que se
accede por medio de un índice que
comienza con el
número uno
VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Lista Es un conjunto de datos de diferentes tipos,
que pueden almacenar listas (árboles de
decisión) para manipular y analizar
información no estructurada.
Para acceder a los elementos de una lista, se
utilizan los corchetes dobles [ [ ] ] en cuyo
interior se coloca el índice del elemento
(posición en la que éste se encuentra dentro
de la estructura de datos).
Arreglos Es un conjunto de datos de diferentes
tipos, que almacenan sus elementos de
forma multidimensional, por lo que para
acceder a sus elementos se requiere el
mismo número de índices y de dimensiones.
VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Matriz
Es un conjunto de datos del mismo tipo que
se alma-cena en filas y columnas
(bidimensional), por lo que para acceder a
sus contenidos se requiere de dos
índices.
VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Data frame
Es un conjunto de datos de
diferente tipo que están
almacenados en tablas
(ejemplo de ello son las bases
de datos y las hojas de
cálculo), en donde las filas
representan unidades
muestrales y las columnas a
las variables. La longitud de
las columnas de esta
estructura de datos debe ser
fija.
VARIABLES, DATOS Y OPERADORES EN R
TIPOS DE OBJETOS EN R
Object Definition Example
Arreglos
Es un conjunto de
datos de diferentes
tipos que se clasifican
en categorías después
de analizar la
información (por
ejemplo, sexo,
nacionalidad, estado
civil, escolaridad). Por
lo regular, este tipo
de objeto se utiliza en
conjunto con DATA
FRAMES.
Estructuras de control R
For:
Sirve para ejecutar mas de una vez un script en R
For(i in n1:n2)
{
Codigo
}
Donde:
i: variable de control
n1: número de comienzo de la interacción
N2: número en que finaliza la iteración
Estructuras de control R
Ejemplo tablas de multiplicar con For:
for(i in 1:10)
{
cat("la tabla del", i,"por", 1:10, "es:n")
for(j in 1:10)
{
print(i*j)
}
}
Control de i de 1 a10
Impresión la table de verdad I por 1, 2, .. , 10
Control de j de 1 a 10
Impresión de la multiplicacion
Uso de vectores en R
Son la unidad de trabajo en R debido a que se puede concatenar además de
almacenar y realizar diferentes operaciones entre ellos.
V1
V2
.
.
Vn
Estructura:
C(10, 20, 30, 50, 60)
10 20 30 40 50 60 70 80
10 20 30 40 50 60 70 80
10 20 30 40 50 60 70 80
Uso de vectores en R
Ejemplo: registro de temperatura por tres días
temp1 <- c(10, 20, 30, 50, 60)
temp2 <- c(25, 30, 40, 25, 29)
temp3 <- c(28, 25, 23, 30, 28)
t<- c(temp1, temp2, temp3)
cat("los valores de la temperatura son:", t[])
cat("El minimo es")
min(t)
cat("El maximo es")
max(t)
Declaración del vector y asignación del dia
Concatenar vectores en uno solo
Desplegar las temperaturas (si se desea solo
un elemento ponerlo en el corchete)
Mostrar el mínimo
Mostrar el máximo
Uso de vectores en R
Ejemplo: registro de temperatura por tres días
cat("La media")
mean(t)
cat("La mediana")
median(t)
cat("El vector ordenado")
sort(t)
Mostrar Media
Mostrar mediana
Mostrar en orden
Operaciones con matrices R
Son elementos bidimensionales que almacenan información en filas y
columnas
matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35) , byrow=FALSE)
Donde:
matrix: declaración de matriz
nrow: numero de filas
ncol: numero de columnas
c(): variables
byrow=FALSE: se distribuye los elementos en columnas
Columna Columna
Fila
Fila
Fila
Operaciones con matrices R
Ejemplo matrices:
m<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35),
byrow=FALSE)
n<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35),
byrow=FALSE)
cat("La matrix es:", m[])
cat("la dimensión es:", dim(m))
cat("El numero de filas", nrow(m))
cat("El numero de columnas", ncol(m))
m2<-m*2
cat("Multiplicación de matriz por 2", m2)
cat("Producto matricial:")
prod<-(m%*%n)
cat(prod)
Declarando matriz m
Declarando matriz n
Mostrar matriz m
Dimensión de la matriz
Numero de filas
Numero de columnas
Multiplicación matriz
Producto matricial
Uso de listas con R
Son estructuras en las que se puede almacenar matrices, vectores u otras
listas (su dimensión puede ser diferente).
UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500),
Antiguedad=c(20, 15, 10), email=c("correito@mail.com
", "correito2@mail.com", "correito3@mail.com"))
1 objeto tipo carácter
3 objetos de tipo vector
Edificio No. de empleado Antigüedad email
ISIedA 322 20 correito@mail.com
ISIedA 400 15 correito2@mail.com
ISIedA 500 10 correito3@mail.com
Uso de listas con R
Ejemplo:
UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500),
Antiguedad=c(20, 15, 10), email=c("correito@mail.com
", "correito2@mail.com", "correito3@mail.com"))
str(UAEM_ISI)
UAEM_ISI
UAEM_ISI$N_empleado
UAEM_ISI[[4]]
str(UAEM_ISI[1:2])
str(UAEM_ISI[[4]][3])
Declaración lista
Estructura lista
Ver por vector o por
N_empleado
Mostrar contenido de
una lista
Contenido de una sublista
Despliega por componente
Uso de Data frames con R
Un data frame es una estructura que almacena en una estructura de filas y
columnas diferentes tipos de objetos (listas, matrices, vectores).
Condiciones de uso de dataframe
Mismo tipo de datos
Misma longitud de Vectores
Mismo numero de filas en las Matrices
Uso de Data frames con R
Un data frame es una estructura que almacena en una estructura de filas y
columnas diferentes tipos de objetos (listas, matrices, vectores).
Condiciones de uso de dataframe
Mismo tipo de datos
Misma longitud de Vectores
Mismo numero de filas en las Matrices
Datos Vectores Matrices
22
15
88
Uso de Frames con R
Alumno Cuenta sexo Semestre departamento Laboratorio materia
Saul 35896 M 1 Sistemas Mineria Mineria
Diego 32458 M 2 Sistemas Software Fundamentos
Fernando 38954 M 2 comercio Redes Redes
Rosa 35589 F 3 comercio Administración Ecomerce
Uso de Frames con R
Crear un vector con alumnos
Crear vector con cuenta
Crear vector con sexo
Crear vector con semestre
Crear vector departamentos
Declaración lista
Estructura lista
Creación del data frame
Mostrar contenido del data
frame
alumno<-c("Saul","Diego", "Fernando", "Rosa")
cuenta<-c(35896, 32458, 38954, 35589)
sexo <- c("M", "M", "M", "F")
semestre<-c(1, 2, 2,3)
departamento<-c("sistema", "sistemas", "comercio",
"comercio")
Carga_lab<-list(Laboratorio=c("mineria", "software", "redes",
"administracion"),materia=c("mineria", "fundamentos",
"redes", "ecomerce") )
str(Carga_lab)
ejemplo_dataframe = data.frame(alumno, cuenta, Sexo,
departamento, Carga_lab)
ejemplo_dataframe
Uso de Frames con R
Estructura del data frame
Dimensión data frame
Visualizar el data frame
como tabla
Desplegar un elemento
[[individual]][general]
Mostrar elemento
[fila,columna]
Mostrar solo columnas
[,columna]
Mostrar solo fila
[fila,]
str(ejemplo_dataframe)
dim(ejemplo_dataframe)
View(ejemplo_dataframe)
ejemplo_dataframe[[1]][4]
ejemplo_dataframe[1,2]
ejemplo_dataframe[,4]
ejemplo_dataframe[2,]
REFERENCIAS
1. Kantardzic M. (2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455
2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541
3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790
4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960
5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617
6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560
7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919
8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923
9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711
10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN:
0521836573 9780521836579
11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with
XLMiner” Ed.Wiley ISBN: 9780470526828
12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson
13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976
14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662
15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183
16. Beltran B (s/a), “Notas Mineria de Datos” , FCC
17. Vallejos S. (2006) “Mineria de datos” LSIC
Entorno  y lenguaje de programación R

Entorno y lenguaje de programación R

  • 1.
    Minería de DatosI Dr. Ricardo Rico Molina rricom@uaemex.mx Centro Universitario UAEM Nezahualcóyotl
  • 2.
  • 3.
    Directorio Nezahualcóyotl Titulo de lapresentación Dra. en C. Magally Martínez Reyes Encargada del Despacho de la Dirección del Centro Universitario UAEM Nezahualcóyotl M. en GyA. P. Ma. Teresa Cruz Patiño Subdirector Académico CP. Martha Osorio González Subdirector Administrativo D. en C.A. Oliverio Cruz Mejía Coordinadora de Investigación y Estudios Avanzados M. en A. Victor Manuel Durán López Coordinador de Planeación y Desarrollo Institucional M. en C. E. Cesar Lucio Gutiérrez Ruiz Coordinador de la Licenciatura en Comercio Internacional M S.S. Carlos Anaya Hernández. Coordinadora de la Licenciatura en Educación para la Salud Dra. en Ing. de Sist. Doricela Gutiérrez Cruz Coordinador de la Licenciatura en Ingeniería en Sistemas Inteligentes M. en I. Javier Romero Torres Coordinador de la Licenciatura en Ingeniería en Transporte Dr. en E.J. Rodolfo Téllez Cuevas Coordinador de la Licenciatura en Seguridad Ciudadana
  • 4.
    Mapa curricular Titulo dela presentación
  • 5.
    Contenido Titulo de lapresentación Minería de Datos Unidad . Entorno y lenguaje de programación R Contenidos: 2.1 Instalación de R 2.2 Que es R 2.3 Requerimientos 2.4 Uso de R
  • 6.
    Secuencia Didáctica Unidad . Entornoy lenguaje de programación R Contenidos: 2.1 Que es R 2.2Instalación de R 2.3 Requerimientos 2.4 Uso de R
  • 7.
    Presentación Titulo de lapresentación El presente Material Visual de la Unidad de Aprendizaje Mineria de datos de la licenciatura en Ingeniería en Sistemas Inteligentes reúne los contenidos de la unidad 2. La minería de datos en el proceso de KDD donde se desarrollara los temas: Etapas de proceso de KDD, Integración y recopilación, Selección, limpieza y transformación, Minería de Datos, Evaluación e Interpretación, Difusión y uso; las cuales impartirán en cuatro horas semanales.
  • 8.
    Que es R “R” Esel lenguaje de programación que se utiliza para realizar el análisis estadístico de grandes volúmenes de información con la finalidad de descubrir patrones entre los datos que facilite la toma de decisiones
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
    Instalación de R-Studio Paraanalizar un programa en R o analizar un conjunto de datos, se requiere un entorno de desarrollo integrado (IDE), “Rstudio profesional Drivers” esto facilita codificación depuración y gestión. https://rstudio.com/products/rstudio/download/ Proceso de instalación
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
    VARIABLES, DATOS YOPERADORES EN R Para realizar operaciones con datos y consultar sus resultados debes utilizar variables, conocer el tipo de dato a los que éstas se encuentran asociadas y usar operadores que los transformen en la salida esperada. • Variables Una variable es un espacio en la memoria de la PC donde se almacena información a la que se puede acceder para desplegar su contenido o realizar diversas operaciones. La sintaxis para utilizar una variable en este lenguaje de programación es:
  • 27.
    VARIABLES, DATOS YOPERADORES EN R A diferencia de otros lenguajes de programación, en R no es necesario declarar el tipo de dato de una variable, ya que el intérprete ajusta el valor de ésta con su correspondiente tipo años <- 18
  • 28.
    VARIABLES, DATOS YOPERADORES EN R Tipos de datos En el lenguaje de programación R los tipos básicos de datos son: • Numeric → números reales 1 • Complex → números complejos, por ejemplo: 56+4i, donde: “i” es la unidad imaginaria. • Character → cadenas alfanuméricas delimitadas por comillas hola • Logical → valores lógicos de verdadero (TRUE) o falso (FALSE) x ! = false
  • 29.
    VARIABLES, DATOS YOPERADORES EN R Tipos de operadores En el lenguaje de programación R, los operadores se clasifican en: Operadores lógicos: permiten determinar si la comparación entre dos o más variables es verdadera (TRUE) o falsa (FALSE). Operator Significado Ejemplo && And (Y) D<-12 ; E<-6 ; F<-2 (D>E) && (E>F) TRUE || Or (O) D<-12 ; E<-6 ; F<-2 (D>E) || (E>F) TRUE ! No(!) D<-12 D!=12 FALSE
  • 30.
    VARIABLES, DATOS YOPERADORES EN R Tipos de operadores En el lenguaje de programación R, los operadores se clasifican en: Operadores relacionales: son útiles para comparar el valor de dos o más variables Operator Significado Ejemplo > Mayor que Num1>5 < Menor que Num2<78 >= Mayor o igual que edad>=18 <= Menor o igual que año_nacimiento<=1984 == Igual que monto==2584 != Distinto que Valor!=2
  • 31.
    VARIABLES, DATOS YOPERADORES EN R Tipos de operadores En el lenguaje de programación R, los operadores se clasifican en: Operadores aritméticos: se utilizan para realizar operaciones numéricas con los contenidos de las variables o asignar el resultado de cierta operación a una variable Operator Significado Ejemplo + Suma a<-184+10 - Resta b<-18-6 * Multiplicacion a*b / Division d<-x/6 ^ Potencia e<- 3^3 %% Modulo f<-12%%2
  • 32.
    VARIABLES, DATOS YOPERADORES EN R TIPOS DE OBJETOS EN R En el lenguaje de programación R las estructuras que representan un tipo de dato son consideradas como objetos. Clasificación de objetos Object Definition Example Vectores Es una secuencia de datos del mismo tipo a los que se accede por medio de un índice que comienza con el número uno
  • 33.
    VARIABLES, DATOS YOPERADORES EN R TIPOS DE OBJETOS EN R Object Definition Example Lista Es un conjunto de datos de diferentes tipos, que pueden almacenar listas (árboles de decisión) para manipular y analizar información no estructurada. Para acceder a los elementos de una lista, se utilizan los corchetes dobles [ [ ] ] en cuyo interior se coloca el índice del elemento (posición en la que éste se encuentra dentro de la estructura de datos). Arreglos Es un conjunto de datos de diferentes tipos, que almacenan sus elementos de forma multidimensional, por lo que para acceder a sus elementos se requiere el mismo número de índices y de dimensiones.
  • 34.
    VARIABLES, DATOS YOPERADORES EN R TIPOS DE OBJETOS EN R Object Definition Example Matriz Es un conjunto de datos del mismo tipo que se alma-cena en filas y columnas (bidimensional), por lo que para acceder a sus contenidos se requiere de dos índices.
  • 35.
    VARIABLES, DATOS YOPERADORES EN R TIPOS DE OBJETOS EN R Object Definition Example Data frame Es un conjunto de datos de diferente tipo que están almacenados en tablas (ejemplo de ello son las bases de datos y las hojas de cálculo), en donde las filas representan unidades muestrales y las columnas a las variables. La longitud de las columnas de esta estructura de datos debe ser fija.
  • 36.
    VARIABLES, DATOS YOPERADORES EN R TIPOS DE OBJETOS EN R Object Definition Example Arreglos Es un conjunto de datos de diferentes tipos que se clasifican en categorías después de analizar la información (por ejemplo, sexo, nacionalidad, estado civil, escolaridad). Por lo regular, este tipo de objeto se utiliza en conjunto con DATA FRAMES.
  • 37.
    Estructuras de controlR For: Sirve para ejecutar mas de una vez un script en R For(i in n1:n2) { Codigo } Donde: i: variable de control n1: número de comienzo de la interacción N2: número en que finaliza la iteración
  • 38.
    Estructuras de controlR Ejemplo tablas de multiplicar con For: for(i in 1:10) { cat("la tabla del", i,"por", 1:10, "es:n") for(j in 1:10) { print(i*j) } } Control de i de 1 a10 Impresión la table de verdad I por 1, 2, .. , 10 Control de j de 1 a 10 Impresión de la multiplicacion
  • 39.
    Uso de vectoresen R Son la unidad de trabajo en R debido a que se puede concatenar además de almacenar y realizar diferentes operaciones entre ellos. V1 V2 . . Vn Estructura: C(10, 20, 30, 50, 60) 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80 10 20 30 40 50 60 70 80
  • 40.
    Uso de vectoresen R Ejemplo: registro de temperatura por tres días temp1 <- c(10, 20, 30, 50, 60) temp2 <- c(25, 30, 40, 25, 29) temp3 <- c(28, 25, 23, 30, 28) t<- c(temp1, temp2, temp3) cat("los valores de la temperatura son:", t[]) cat("El minimo es") min(t) cat("El maximo es") max(t) Declaración del vector y asignación del dia Concatenar vectores en uno solo Desplegar las temperaturas (si se desea solo un elemento ponerlo en el corchete) Mostrar el mínimo Mostrar el máximo
  • 41.
    Uso de vectoresen R Ejemplo: registro de temperatura por tres días cat("La media") mean(t) cat("La mediana") median(t) cat("El vector ordenado") sort(t) Mostrar Media Mostrar mediana Mostrar en orden
  • 42.
    Operaciones con matricesR Son elementos bidimensionales que almacenan información en filas y columnas matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35) , byrow=FALSE) Donde: matrix: declaración de matriz nrow: numero de filas ncol: numero de columnas c(): variables byrow=FALSE: se distribuye los elementos en columnas Columna Columna Fila Fila Fila
  • 43.
    Operaciones con matricesR Ejemplo matrices: m<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35), byrow=FALSE) n<-matrix(nrow=3, ncol=3, c(12, 14, 16, 28, 20, 25, 31, 33, 35), byrow=FALSE) cat("La matrix es:", m[]) cat("la dimensión es:", dim(m)) cat("El numero de filas", nrow(m)) cat("El numero de columnas", ncol(m)) m2<-m*2 cat("Multiplicación de matriz por 2", m2) cat("Producto matricial:") prod<-(m%*%n) cat(prod) Declarando matriz m Declarando matriz n Mostrar matriz m Dimensión de la matriz Numero de filas Numero de columnas Multiplicación matriz Producto matricial
  • 44.
    Uso de listascon R Son estructuras en las que se puede almacenar matrices, vectores u otras listas (su dimensión puede ser diferente). UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500), Antiguedad=c(20, 15, 10), email=c("correito@mail.com ", "correito2@mail.com", "correito3@mail.com")) 1 objeto tipo carácter 3 objetos de tipo vector Edificio No. de empleado Antigüedad email ISIedA 322 20 correito@mail.com ISIedA 400 15 correito2@mail.com ISIedA 500 10 correito3@mail.com
  • 45.
    Uso de listascon R Ejemplo: UAEM_ISI<-list(Edificio="ISIedA",N_empleado=c(322, 400, 500), Antiguedad=c(20, 15, 10), email=c("correito@mail.com ", "correito2@mail.com", "correito3@mail.com")) str(UAEM_ISI) UAEM_ISI UAEM_ISI$N_empleado UAEM_ISI[[4]] str(UAEM_ISI[1:2]) str(UAEM_ISI[[4]][3]) Declaración lista Estructura lista Ver por vector o por N_empleado Mostrar contenido de una lista Contenido de una sublista Despliega por componente
  • 46.
    Uso de Dataframes con R Un data frame es una estructura que almacena en una estructura de filas y columnas diferentes tipos de objetos (listas, matrices, vectores). Condiciones de uso de dataframe Mismo tipo de datos Misma longitud de Vectores Mismo numero de filas en las Matrices
  • 47.
    Uso de Dataframes con R Un data frame es una estructura que almacena en una estructura de filas y columnas diferentes tipos de objetos (listas, matrices, vectores). Condiciones de uso de dataframe Mismo tipo de datos Misma longitud de Vectores Mismo numero de filas en las Matrices Datos Vectores Matrices 22 15 88
  • 48.
    Uso de Framescon R Alumno Cuenta sexo Semestre departamento Laboratorio materia Saul 35896 M 1 Sistemas Mineria Mineria Diego 32458 M 2 Sistemas Software Fundamentos Fernando 38954 M 2 comercio Redes Redes Rosa 35589 F 3 comercio Administración Ecomerce
  • 49.
    Uso de Framescon R Crear un vector con alumnos Crear vector con cuenta Crear vector con sexo Crear vector con semestre Crear vector departamentos Declaración lista Estructura lista Creación del data frame Mostrar contenido del data frame alumno<-c("Saul","Diego", "Fernando", "Rosa") cuenta<-c(35896, 32458, 38954, 35589) sexo <- c("M", "M", "M", "F") semestre<-c(1, 2, 2,3) departamento<-c("sistema", "sistemas", "comercio", "comercio") Carga_lab<-list(Laboratorio=c("mineria", "software", "redes", "administracion"),materia=c("mineria", "fundamentos", "redes", "ecomerce") ) str(Carga_lab) ejemplo_dataframe = data.frame(alumno, cuenta, Sexo, departamento, Carga_lab) ejemplo_dataframe
  • 50.
    Uso de Framescon R Estructura del data frame Dimensión data frame Visualizar el data frame como tabla Desplegar un elemento [[individual]][general] Mostrar elemento [fila,columna] Mostrar solo columnas [,columna] Mostrar solo fila [fila,] str(ejemplo_dataframe) dim(ejemplo_dataframe) View(ejemplo_dataframe) ejemplo_dataframe[[1]][4] ejemplo_dataframe[1,2] ejemplo_dataframe[,4] ejemplo_dataframe[2,]
  • 51.
    REFERENCIAS 1. Kantardzic M.(2011). “Data mining : concepts, models, methods, and algorithms” Ed John Wiley : IEEE Press. ISBN: 0470890452 9780470890455 2. Kao A. Poteet S. (2010). “Natural language processing and text mining” Ed. Springer ISBN: 9781849965583 9781846287541 3. Han J. Kamber M. Pei J. (2011). “Data mining : concepts and techniques” Ed. Elselvier. ISBN: 9780123814791 9789380931913 0123814790 4. Basu S. Davidson I. Wagstaff K. (2009). “Constrained clustering : advances in algorithms, theory, and applications” Ed. CRC Press ISBN: 9781584889960 5. LongB. Zhang Z, Yu P. (2010) “Relational data clustering : models, algorithms, and applications” Ed. Chapman & Hall/CRC ISBN: 9781420072617 6. Ian H. Witten, Eibe Frank, Mark A. Hall.(2011) Data mining : practical machine learning tools and techniques Ed. Elsevier ISBN: 9780123748560 7. Hernández J Ramírez M. Ferri C. (2004) “Introducción a la minería de datos” Ed. Pearson Educación : Prentice Hall ISBN: 9788420540917 8420540919 8. Dunham M. (2003) “Data mining introductory and advanced topics” Ed. Prentice Hall/Pearson Education ISBN: 0130888923 9. Growth R. (2000). “Data mining : building competitive advantage” Ed. Prentice Hall PTR ISBN: 0130862711 10. Feldman R. Sanger J. (2007). “The text mining handbook : advanced approaches in analyzing unstructured data” Ed. Cambridge University Press ISBN: 0521836573 9780521836579 11. Shmueli G. Patel N. Bruce P. (2010). “Data mining for business intelligence : concepts, techniques, and applications in Microsoft Office Excel with XLMiner” Ed.Wiley ISBN: 9780470526828 12. Bratko I. (2001). “Prolog programming for artificial intelligence” Ed. Pearson 13. Fayyad U. (1996). Advances in knowledge discovery. Ed. Pearson ISBN: 0262560976 14. Pajares P. Sanz.M. (2006). “Inteligencia artificial e ingeniería del conocimiento” Ed. Alfa omega ISBN 9701511662 15. Palma J. Marin M. (2008). “Inteligencia artificial técnicas, métodos y aplicaciones”. Ed. McGraw-Hill ISBN 9788448156183 16. Beltran B (s/a), “Notas Mineria de Datos” , FCC 17. Vallejos S. (2006) “Mineria de datos” LSIC