2. • Antes de profundizar en el conocimiento del lenguaje R, es útil
empezar motivándose mediante una interfaz que nos ofrezca
la realización de las tareas, al menos de las más sencillas.
Para ello, R-Commander es una interfaz ideal que, además de
permitirnos interactuar con R para realizar análisis
estadísticos básicos, presenta el código en lenguaje R que
corresponde a las acciones solicitadas.
• Es posible que, para muchos de los alumnos del curso, RCommander sea una herramienta suficiente para todos los
análisis estadísticos que tengan que abordar. Quienes
encuentren R-Commander insuficiente, una vez superado el
respeto inicial hacia R tendrán que manejarse directamente
con la consola de R, creando y editando instrucciones a
mano, lo que puede resultar más engorroso, pero que permite
un control total sobre los procedimientos que en cada
momento se van a aplicar.
3. Según la version de R y R-Commander que se eligió
instalar, hay distintas formas de abrir R-Commander:
Si instaló RExcel, siga las instrucciones de la sección 3.2.
Si instaló R-UCA, abriendo Rterm automáticamente se
abrirá también el R-Commander.
Si instaló directamente R, siga las instrucciones que
siguen, o mire la sección 2.4.2.
Desde la consola de R, seleccione Paquetes y después
Cargar paquete... como se muestra en la figura 34.
4. Aspecto
Una vez abierto el R-Commander como se explica en la
sección precedente, aparecerá una ventana parecida a la
figura 36.
5. La ventana consta de las siguientes partes:
•barra de menús;
•barra de elementos activos (conjuntos de datos y modelos);
•área de instrucciones;
•área de resultados;
•área de mensajes.
Los datos
•En las secciones que seguirán, se usará una base de datos
elaborada a partir de una encuesta realizada entre los turistas
que pernoctan en Asturias.
•Los datos son de distinta naturaleza: hay datos numéricos (por
ejemplo los gastos) y datos categóricos (por ejemplo el sexo).
•El tamaño de la base de datos es de 2565 unidades. Se
muestra una tabla de ejemplo en la figura 37.
6. Datos (I)
A continuación se explicarán los comandos básicos para abrir una
base con R-Commander. Los datos que usaremos en los ejemplos son
los mismos de la sección precedente.
El menú que contiene los comandos de esta sección está representado
en la figura 38.
7. Nuevo conjunto de datos
Este comando permite crear a mano y activar un nuevo conjunto de datos. Una
vez asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía,
que el usuario tendrá que rellenar con sus propios datos, como se muestra en la
figura 39.
8. • Este comando permite abrir un conjunto de datos ya
existente, guardado en un fichero con el formato nativo
de R (.rda). En la figura 40 se representa el
procedimiento para abrir la base de datos Turisguay, que
seguiremos utilizando a lo largo de los próximos
capítulos.
•
9. El programa R y el paquete R-Commander no solo
permiten crear y trabajar sobre datos con formato nativo,
sino que permiten también utilizar ficheros provenientes de
otros programas. Los formatos de fichero soportados por
R-Commander son :
•texto puro (en fichero, portapapeles o dirección URL);
•SPSS;
•Minitab;
•STATA;
•Excel;
•Access.
Como ejemplo, abramos el conjunto de datos
dataexcel.xlsx creado en Excel, siguendo las instrucciones
de la figura 41 en la página 163.
10. Con R-Commander es posible trabajar con varios
conjuntos de datos cargados al mismo tiempo. Sin
embargo, solo uno estará activo, y su nombre aparece en
la barra de elementos activos a la derecha de Conjunto de
datos, como se ilustra en la figura 42.
Para visualizar todos los conjuntos de datos disponibles,
haga doble clic en el recuadro de figura 43, y aparecerá
una ventanita con la lista de los nombres de los conjuntos
de datos que estan cargados.
11. A continuación se explicará, con tablas y ejemplos, el
funcionamiento de los principales comandos disponibles en
R-Commander para el cálculo de estadísticos. Los
comandos de esta sección se encuentran en el menú de la
figura 45.
•R
esúmenes
Resumenes
•Este menú contiene los estadísticos básicos para resumir
el conjunto de datos activo. Los comandos contenidos en
12. • Tablas de contingencia Permite hallar las frecuencias de
la distribución conjunta de dos variables categóricas, es
decir, el número de casos en que se manifiestan
simultáneamente cada combinación de valores de cada
variable.
• Si por ejemplo queremos contar cuántos encuestados se
quedarán durante el fin de semana (La estancia,
¿incluye fin de semana? (p9)), en función del Periodo de
recogida datos (p2), haremos como se muestra en la
figura 55. También se puede calcular el estadístico ji
cuadrado
del
contraste
de
independencia
u
homogeneidad.
13. Este menú permite construir tablas para la distribución
conjunta de tres, cuatro o más variables. Si por ejemplo
queremos hacer una tabla donde aparezcan las
frecuencias de las variable Periodo de recogida datos (p2)
y Procedencia de la persona entrevistada (p7), agrupadas
según la variable Sexo de la persona entrevistada (p18),
marcaremos en la primera columna p2, en la segunda p7 y
en la tercera p18. La salida se muestra en la figura 56.
14. • Test t para una muestra Sirve para hacer contrastes de
hipótesis para la media de una variable cuantitativa con
distribución normal. En la pantalla de construcción del
contraste se pueden elegir:
• tipo de contraste — bilateral (igualdad), unilaterales
(menor o mayor);
• valor de la media bajo la hipótesis nula;
• nivel de confianza para el intervalo de estimación.
• Por ejemplo, si queremos averiguar si la media del Gasto
total en el viaje por persona (gastotal) es mayor que 300,
haremos como se muestra en la figura 59, cuya salida
aparece en la figura 60.
15. • Test F para 2 varianzas La resolución del contraste t
para comparar medias de muestras independientes
depende de la homoscedasticidad (igualdad de
varianzas) en las dos muestras. Mediante el comando
que nos ocupa se puede realizar un contraste F para
comparar la varianza de dos muestras, suponiendo que
la variable sigue una distribución normal.
• Como ejemplo, pensemos en el Gasto en diversión en
pubes y discotecas (p13), en función de si el encuestado
se queda o no el fin de semana (La estancia, ¿incluye fin
de semana? (p9)). Para probar si las dos muestras
tienen la misma varianza seguimos los comandos que se
muestran en la figura 68. La salida es el resultado del
contraste de hipótesis con su P-valor (figura 69).
16. • Test de Wilcoxon para dos muestras Contraste no
paramétrico correspondiente al contraste t de medias.
• Si por ejemplo queremos averiguar si el Gasto en
diversión en pubes y discotecas (p13) es distinto
respecto a si el turista encuestado se queda durante el
fin de semana, podemos realizar el contraste como en se
muestra en la figura 72. La salida está representada en
la figura 73.
17. • Agrupación jerárquica Este comando permite hacer
agrupaciónes jerárquicas. Si por ejemplo queremos
agrupar las variables Gasto total diario por persona
(gasdia) y Gasto total en el viaje por persona (gastotal),
seguiremos las instrucciones de la figura 76. Además de
dibujar el dendrograma, tambien se creará una nueva
variable HClust.2, que puede ser agregada al conjunto
de datos activo con el comando del próximo epígrafe.