Data frame

Manejo de un marco de datos en R
Diego Torres
Estudiante de econom´ıa aplicada
COLEF
4 de julio de 2016
Resumen
Este trabajo tiene como objetivo explicar el manejo básico de un marco
de datos o data frame dentro del entorno R. A través de ejemplos sim-
ples se pretende enseñar el manejo del objeto más común del lenguaje
R. Dado que, tener una base de datos sobre la cual actuar, es el primer
paso para cualquier análisis estad´ıstico y/o econométrico, se ofrece el
siguiente documento como referencia para los que se inician en el uso
de este programa estad´ıstico.
Palabras clave: Lenguaje R, data frame, LATEX, Sweave
Introducción
Este trabajo fue elaborado con R, utilizando la herramienta Sweave que per-
mite combinar codigo escrito en R con texto compilado en LATEX. El objetivo
es presentar un manejo simple del principal objeto utilizado en R: marco
de datos o data frame. Una vez realizadas estas primeras acciones se puede
avanzar en el análisis propio de los datos.
El trabajo está orientado para quienes se inician en el uso de R, utilizando
ejemplos muy sencillos se presenta y explica la manera de realizar tareas
sencillas, pero importantes para el análisis de datos.
La razón de escribir este trabajo se debe a los problemas que enfrenté al
trabajar con la encuesta de ocupación y empleo de México, la cual ofrece una
1

gran cantidad de información en microdatos; son tantos datos que la encuesta
está dividida en dos partes y aunque hay herramientas más intuitivas para
trabajar con éstos como Excel de Microsoft Office, éste no puede cargar tanta
cantidad de información.
La estructura del informe se divide en tres apartados, en el primero se
aborda el tema de importación de datos, posteriormente la manipulación
inical de los mismos, en particular tareas como agregar o eliminar variables;
ordenar y filtrar variables; combinar marcos de datos. El tercer apartado trata
sobre la exportación de un marco de datos, lo cual es útil cuando se quiere
compartir la información con la que se trabajo o se quiere su portabilidad
para seguir trabajando en otra computadora. También se ofrece una breve
conclusión sobre el trabajo.
1. Importar datos
Para tener un trabajo ordenado, recomiendo crear un proyecto y establecer
un directorio de trabajo para cada proyecto, lo anterior consiste en definir una
carpeta en la que se guardará toda la información de las sesiones. La creación
de un nuevo proyecto se hace desde la barra de menus, dentro de la pestaña
file. Al hacerlo R pedirá seleccionar un directorio de trabajo, se puede ele-
gir entre uno ya existente o nuevo, basta seguir las instrucciones para definirlo.
Uno vez hecho lo anterior, el siguiente paso es introducir los datos, para
ello se puede introducirlos a mano o importarlos desde una fuente externa,
veamos como hacerlo.
1.1. Introducir datos desde R
Los siguientes ejemplos muestran diferentes maneras de introducir los datos.
Ejemplo 1:
Se puede introducir cada vector o lista de manera individual y posteriormente
juntarlos dentro de un marco de datos.
> Precio<-c(20,21,22,24)
> Cantidad<-c(17000,16400,16000,14000)
2

> Exporta<-c(0,0,0,1)
> Empresa<-c("Hernández", "Lópes", "Torres", "González")
Se le ha indicado a R lo siguiente, la primera linea le informa que de-
be crear un vector llamado Precio, compuesto de cuatro valores numéricos:
20, 21, 22 y 24; de manera similar para las siguientes dos l´ıneas, cambian-
do el nombre de la variable y sus valores, sin embargo, la cuarta l´ınea le
indica a R que creé una lista de caracteres, los argumentos están entre comillas.
Se puede utilizar la función ls para conocer cuántos y cuáles objetos tene-
mos cargados en el entorno R, al utilizarlo se tiene lo siguiente:
> ls()
[1] "Cantidad" "Empresa" "Exporta" "Precio"
Ahora se requiere unir los objetos dentro de un marco de datos, se logra
usando la función data.frame, abajo se ve la estructura, primero se escribe
el nombre con el que se guarda el marco de datos, le sigue el comando para
nombrar <-, la función y entre parentesis los objetos que lo componen; con
print se visualiza el resultado.
> marco.datos<-data.frame(Cantidad, Empresa, Exporta, Precio)
> print(marco.datos)
Cantidad Empresa Exporta Precio
1 17000 Hernández 0 20
2 16400 Lópes 0 21
3 16000 Torres 0 22
4 14000 González 1 24
Otra forma de introducir los datos es directamente al data frame, sobre
todo si se trata de una pequeña cantidad de datos, la forma ser´ıa la siguiente:
> marco.datos<-data.frame(Precio=c(20,21,22,24),
+ Cantidad=c(17000,16400,16000,14000), Exporta=c(0,0,0,1),
+ Empresa=c("Hernández", "López", "Torres", "González"))
> print(marco.datos)
3

Precio Cantidad Exporta Empresa
1 20 17000 0 Hernández
2 21 16400 0 López
3 22 16000 0 Torres
4 24 14000 1 González
1.2. Importar datos, archivo .csv
Si ya se cuenta con una base de datos creada en una fuente externa, sólo
basta con importar los datos y darle una estructura en forma de data frame.
La forma de hacerlo será:
Ejemplo 2:
Supongase que se tiene un documento ya creado con los datos, el cual
tiene una extensión .csv, además de que está guardado dentro de nuestro
espacio de trabajo. Para importar se procede de la forma siguiente:
> datos<-read.csv("datos.csv", header= T, sep=",")
> print(datos)
> datos==marco.datos
La primera l´ınea se lee, de afuera para dentro, se guardará en datos el
data frame, la función read.csv sirve para importar los datos de un archivo
con esa extensión, dentro del paréntesis se tiene primeramente el nombre
del documento a importar —si no se tuviera guardado dentro del espacio de
trabajo se deberá escribir la ruta exacta donde se encuentra, como puede ser
”C : /Usuarios/Diego/Documentos/datos.csv”. El argumento header = T
indica que la primera l´ınea del documento contiene el t´ıtulo de las variables,
sep = ”, ” informa que se utiliza a la coma como factor de separación, aunque
algunos documentos utilizan el tabulador, espacio en blanco, etc.
La segunda l´ınea imprime el marco de datos, en este caso omitimos los
resultados por cuestión de espacio. La tercera l´ınea compara los valores entre
los dos marcos de datos, dado que son los mismos R regresa solamente TRUE.
1.3. Importar datos, archivo .xls ó .xlsx
Si los datos a importar provienen de un documento con la extensión de una
hoja de calculo, las utilizadas en Excel, la forma de importar los datos cambia.
4

Se requiere la instalación de paquetes especiales para esta tarea.
Ejemplo 3
> install.packages("XLConnect", dependencies = T)
> library("XLConnect")
> datos2<-readWorksheetFromFile("datos.xlsx", sheet=1)
La primera l´ınea se escribe para instalar el paquete necesario para realizar
la importación de los datos, la segunda carga el paquete para ser usado,
finalmente se tiene la instrucción para importar los datos, se lee: crea un
nuevo marco de datos y llámalo datos 2, utiliza la función readWorksheet-
FromFile para obtener los datos, los argumentos de la función indican donde
está el archivo a importar —”datos.xlsx”, sheet=1 le indica a R que se en-
cuentran en la primera hoja. Esta función, como la mayor´ıa, permite realizar
más cosas agregando más argumentos, como puede ser indicar desde y has-
ta donde importar datos dentro de la hoja de calculo o definir un rango A1:D4.
El paquete XLConnect no es compatible con la versión 3.3.0, para saber
qué versión se tiene instalada se puede utilizar el comando R.version.string y
para saber la versión más reciente se debe visitar la página oficial R project.
Ejemplo 4
> install.packages("xlsx", dependencies = T)
> library("xlsx")
> datos3<-read.xlsx("datos.xlsx", 1)
Este nuevo paquete permite hacer muchas más cosas que sólo importar
datos, igual que los otros, la tercera l´ınea primeramente indica el nombre
del marco de datos —datos3—, luego está la función read.xlsx, cuyo primer
argumento es el nombre del archivo a importar junto con su extensión, nueva-
mente si el archivo no está guardado dentro de nuestro espacio de trabajo se
debe especificar la ruta completa del archivo. El segundo argumento le dice a
R que será la primera hoja del libro la que se desea importar.
2. Manipular un marco de datos
En esta sección se trabaja con la manipulación de un marco de datos, espec´ı-
ficamente con agregar, ordenar, filtrar y eliminar las variables que integran al
5

data frame.
2.1. Agregar y eliminar variables
Un marco de datos se puede entender como un conjunto de vectores o listas
que se agrupan en una estructura similar a una matriz; por variable se deberá
entender cada uno de los vectores o listas que componen el marco de datos, o
dicho en otras palabras se trata de las columnas. Para agregar una variable
o columna dentro del marco de datos existen diferentes métodos, los cuales
resuelven diferentes casos espec´ıficos aqu´ı vamos a presentar una manera muy
simple de hacerlo.
Siguiendo con los mismos datos de los ejemplos anteriores, se tiene un
marco de datos creado, llamado datos que contiene los valores de precio
y cantidad de cinco diferentes empresas, y un par de vectores o listas ya
generados y guardados dentro del espacio de trabajo, los cuales contienen
información sobre la condición de exportación y el nombre de las empresas.
Precio Cantidad
1 20 17000
2 21 16400
3 22 16000
4 24 14000
[,1]
[1,] 0
[2,] 0
[3,] 0
[4,] 1
[,1]
[1,] "Hernández"
[2,] "López"
[3,] "Torres"
[4,] "González"
Para agregar los dos vectores dentro de un marco de datos se presenta
una forma muy sencilla de hacerlo, esto es as´ı porque ya se tiene guardada
la información y su orden se corresponde con la estructura de los diferentes
objetos que se van a unir. En este caso utilizamos la ya conocida función
6

data.frame, la indicación del comando se lee: reescribe en el objeto datos
un marco de datos compuesto del antiguo más el vector Exporta y la lista
Empresa; además imprime el resultado para verlo.
> datos<-data.frame(datos, Exporta, Empresa); print(datos)
1 20 17000 0 Hernández
2 21 16400 0 López
3 22 16000 0 Torres
4 24 14000 1 González
La eliminación de un vector o lista de un marco de datos puede hacerse
de la siguiente forma:
> datos<-datos[-3]
> datos
Precio Cantidad Empresa
1 20 17000 Hernández
2 21 16400 López
3 22 16000 Torres
4 24 14000 González
Se ha eliminado la tercera columna del marco de datos, otra manera de
hacerlo es:
> datos[2]<-NULL
> datos
Precio Empresa
1 20 Hernández
2 21 López
3 22 Torres
4 24 González
Ahora se ha eliminado la segunda columna del marco de datos, también
se puede hacer la eliminación atendiendo al nombre de la variable y no a su
posición:
7

> datos$Precio<-NULL
> datos
Empresa
1 Hernández
2 López
3 Torres
4 González
La eliminación de columnas puede ser simultanea, es decir, eliminar más
de una a la vez, siempre y cuando estén ordenadas se puede usar el método:
1 20 17000 0 Hernández
2 21 16400 0 López
3 22 16000 0 Torres
4 24 14000 1 González
> datos[2:4]<-NULL
> datos
Precio
1 20
2 21
3 22
4 24
La salida que se arroja muestra que se han eliminado desde la columna dos
hasta la cuatro —2:4—; si las columnas a eliminar no estuvieran ordenadas,
aún se puden eliminar en un sólo paso, aunque se debe cambiar la estructura
de la orden:
> datos[c(1,3:4)]<-NULL
> datos
Cantidad
1 17000
2 16400
3 16000
4 14000
8

El resultado es la eliminación en conjunto de las columnas 1, 3 y 4, dejando
unicamente la información sobre la cantidad. Si se desea eliminar una o más
filas se puede seguir la siguiente estructura [- ’filas a quitar’, - ’columnas a
quitar’].
La orden que se indica abajo elimina desde la fila tres hasta la cuatro,
utilizando -c(3:4), junto con la columna cuatro (-4); por tanto cuando se
utiliza el operados corchete, [filas,columnas], con una coma adentro se indica
tanto las filas como las columnas de un objeto en forma matricial.
> datos[-c(3:4),-4]
Precio Cantidad Exporta
1 20 17000 0
2 21 16400 0
2.2. Ordenar y filtrar variables
La ordenación de las variables, dentro de un marco de datos, es sumamente
sencillo y puede hacerse atendiendo a la posición que ocupan o al nombre
asignado, utilizando el comando names() se obtienen los t´ıtulos de las varia-
bles guardadas dentro de un objeto y se puede ver el orden, para ordenar las
variables se utiliza el operador chochete [ ], igual que al eliminar columnas.
> names(datos)
[1] "Precio" "Cantidad" "Exporta" "Empresa"
> datos<-datos[c(4,2,3,1)]#atendiendo a la posición
> datos<-datos[c("Empresa", "Cantidad", "Exporta",
+ "Precio")]#utilizando sus nombres
> print(datos)
Empresa Cantidad Exporta Precio
1 Hernández 17000 0 20
2 López 16400 0 21
3 Torres 16000 0 22
4 González 14000 1 24
9

Cuadro 1: Algunos operadores usados en R
Aritméticos Comparativos Lógicos
+ suma < menor que ! Negación lógica
- resta > mayor que & Y lógico
* producto <= menor o igual que | Ó lógico
/ división >= mayor o igual que
ˆ potencia == igual
% % módulo != diferente
Fuente: Tomado de Ahumada (2003)
Filtrar valores es más complicado ya que se requiere escribir una orden
lógica que sea entendida por el programa. Es necesario saber previamente
los operadores lógicos que permiten hacer el filtrado de los datos, el cuadro 1
presenta algunos operadores.
La función subset() sirve para filtrar datos, la ventaja que tiene es su
simplicidad, ya que sólo exige indicar el objeto de donde se objetienen los
datos y un criterio de selección. Supongamos que se quiere conocer el nombre
de las empresas que realizan exportaciones junto con la empresa que ofrece
su producto a menor precio.
> subset(datos, Exporta==1 | Precio==min(Precio),
+ select = "Empresa")
Empresa
1 Hernández
4 González
La indicación fue, del objeto datos extrae los elementos que cumplen
con dos requisitos, primero empresas que exportan (Exporta==1) además,
también queremos (se utiliza el operador |), la empresa que ofrece el menor
precio (Precio==min(Precio)) lo cual se obtiene con ayuda de la función
min(). Como sólo queremos los nombres de las empresas que cumplen con
los dos requisitos, agregamos el argumento select que es igual a Empresa
porque ese es el t´ıtulo de la columna o variable que contiene los nombres de
las empresas, de no haber seleccionado una columna habr´ıa devuelto toda la
estructura del marco de datos.
10

Cuadro 2: Marcos de datos
Tabla A Tabla B Tabla C Tabla D
id age height gender id id math science id eyes
A 24 1.80 M A A 6.5 7.2 A blue
B 25 1.90 M B B 8.9 8.4 B brown
C 17 1.75 F C C 7.4 6.5 C green
D 19 1.65 F D D 9.2 8.7 D black
Fuente: tomado de R-econometr´ıa (2003)
2.3. Combinar marcos de datos
Suponga que se tienen diferentes marcos de datos y se desea unirlos res-
petando un orden definido por una variable clave, contenida en cada uno de
los data frame a unir. Para realizar esta tarea la función merge() ofrece un
resultado satisfactorio, con el inconveniente de que la unión se hace una a la
vez, para simplificar la tarea se puede combinar con el comando Reduce();
para ejemplificar su utilización replicaremos un ejercicio que se encuentra en
la web, dentro del blog R-econometr´ıa.
> A <- data.frame(id = c("A", "B", "C", "D"), age = c(24, 25,
+ 17, 19), height = c(1.8, 1.9, 1.75, 1.65))
> B <- data.frame(gender = c("M", "M", "F", "F"), id = c("A",
+ "B", "C", "D"))
> C <- data.frame(id = c("A", "B", "C", "D"), math = c(6.5,
+ 8.9, 7.4, 9.2), science = c(7.2, 8.4, 6.5, 8.7))
> D <- data.frame(id = c("A", "B", "C", "D"), eyes = c("blue",
+ "brown", "green", "black"))
Con el código anterior se introducen cuatro diferentes marcos de datos,
cada uno de ellos comparte una misma variable (id), el cuadro 2 muestra
todos los marcos de datos, una carcateristica es que la variable id se encuentra
siempre ordenada en forma descendente, sin embargo para combinar los datos
ne se requiere tener los datos ordenados.
> nuevo.df<-Reduce(merge, list(A,B,C,D))
El código arroja un nuevo marco de datos de nombre: nuevo.df que contiene
siete variables: id, age, height, gender, math, science y eyes, todas las variables
se ordenaron en función a la variable id. La combinación de funciones permite
agilizar la combinación, ya que permite combinar un gran número de marcos
a la vez.
11

3. Exportar un marco de datos
Una vez que se ha terminado de trabajar, total o parcialmente, con el marco
de datos, es conveniente conocer la forma de exportar la información, ya
sea para compartirla o trabajar en otro lugar y con otro equipo. La función
apropiada para esa tarea es write(), aunque existen variaciones de la misma
como write.csv() y write.table(). La primera función es la más sencilla usual-
mente utilizada para los objetos que son matrices, no propiamente un data
frame. La segunda función exporta el data frame reconomiendo al punto (.)
como separador de decimales y a la coma (,) como separador de datos; la
versión write.csv2() se recomienda para los usuarios europeos, ya que cambia
la configuración de los separadores. Con la útlima función se puede modificar
todos los parámetros.
> write.csv(nuevo.df, file="df.csv")
Conclusión
Este no es un trabajo exahustivo ni avanzado sobre el manejo de un marco
de datos, está orientado a quienes se inician en el uso de R. Los ejemplos son
ilustrativos y sólo indican una manera de utilizar las funciones, ya que los
argumentos de las mismas permiten elaborar configuraciones más diversas,
atendiendo a las necesidades espec´ıficas de cada tarea. Para la elaboración del
trabajo se consultaron diferentes fuentes, quedan enlistadas a continuación.
Referencias
Unir varios data.frames en un sólo paso: ’merge’ y ’re-
duce’. URL http://r-econ.blogspot.mx/2012/07/
unir-varios-dataframes-en-un-solo-paso.html.
R tutorial on reading and importing excel files into r.
URL https://www.datacamp.com/community/tutorials/
r-tutorial-read-excel-into-r.
Jorge A Ahumada. R para principiantes. University of Hawaii, 2003.
MA Morales. Generación automática de reportes con r y latex. Technical
report, Technical report, http://cran. r-project. org/doc/contrib/Rivera-
Tutorial Sweave. pdf, 2006.
12

Data frame

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (12)

Similar a Data frame

Similar a Data frame (20)

Último

Último (20)

Data frame