Ponencia en III Conference new technologies in Linguistics, Literatura, Media Studies and Journalism.
Autoras: Iris Valenciano y Elena Calvo
Fecha: Abril, 2o15.
Lugar: Universidad de Valencia
Más en: htttp://www.irisvalenciano.com
Spss: A user-friendly statistical software for linguistics and teacher
1. SPSS: a user-friendly
statistical software for
linguists and teachers.
1
ELENA CALVO IRIS VALENCIANO
irisvalenciano@gmail.comecalmar.uv@gmail.com
2. Statistical Inference
Introducción
2
Se suele trabajar con un intervalo de error del 5 %(Confidence
interval with a 5% critical value (i.e. 95% certainty)
PROCEDIMIENTO (Procedure):
We should take into account the level of statistical significance.
1.Hipótesis experimental vs. hipótesis nula
(Alternative Hypothesis vs. Null Hypothesis)
2. Ajustamos un modelo a los datos (elección de la técnica)
(Identify the test statistics that can be used)
3. Calculamos el test asociado (varianza explicada / varianza no explicada
por el modelo): F, T … (Performing the test)
4. Concluimos acerca de la verosimilitud de la hipótesis experimental
atendiendo al resultado del test (valor crítico, nivel de significación, nivel de
significación crítico) Is the observed effect statistically significant?
3. Proceso de recogida de datos
En nuestra investigación | Aplicación de un ejemplo real
3
Realizamos a los
estudiantes un
examen de writing,
para después aplicar
distintas
herramientas
estadisticas que nos
aporten más
información
Recogemos en una
base de datos los
resultados obtenido
tanto estructuras
grámaticales
utilizadas como nº
de errores
Codificamos algunas
variables, como son:
• Genero:
• Mujer: 1
• Hombre:2
• Ocupación principal:
• Estudiante 1,
• Desempleado: 2
• Trabajador: 3
¡Base de datos
preparada para
aplicar
los estadisticos!
START
STEP 03
STEP 02
STEP 01
STEP 04
4. Demographic
Statistical Variables Choice
En nuestra investigación | Aplicación de un ejemplo real
4
Writing Data
• Genre:
• Female: 1
• Male: 2
• Age
• Main occupation:
• Student: 1
• Unemployed: 2
• Employed: 3
• Educational Level:
• Master: 1
• Degree: 2
• High school: 3
• Vocational: 4
• Phrasal verbs
• Connectors
• Comparative
• Prepositions
• No. verbs
• No. adjectives
• No. adverbs
• No. grammaticals errors
• No. Spelling errors
• No. vocabulary errors
Linear Regression
Non metric
variable
model
• Type of studies:
• Science and
engineering: 1
• Social sciences: 2
• Humanities: 3
• Other languages
PREDICTIVE
MODELS
5. Final Database
En nuestra investigación | Aplicación de un ejemplo real
5
SPSS SOFTWARE: Final Database
6. Linear regression
En nuestra investigación | Aplicación de un ejemplo real
6
SPSS steps: Analizar > Regresión > Lineal
Dependent Variables: Pass / Fail
Independent Variables:
Phrasal verbs, connectors, Grammar
and vocab. errors, etc.
Z= 𝛽0 +𝛽1· phrasal verbs +𝛽2· conectores +𝛽3· comparativos+𝛽4· preposiciones +𝛽5· nº verbos + 𝛽6· nº adjetivos +
𝛽7· nº adverbios + 𝛽8· nº errores gramaticales + 𝛽9· nº errores spelling + 𝛽10· nº errores vocabulario.
Predicting the average Score in a Writing Exam.
Objetivo:
How to create a model to predict the likelihood of
passing or failing the exam?
Pedir distancias de Cook: Para detectar outliers
Ante la existencia de estos eliminarlos.
7. Modelo
Coeficientes no
estandarizados
Coeficientes
estandarizados
t Sig.B Error estándar Beta
1
(Constante) 8,588 ,158 7,619 ,000
Phrasal verbs -,859 ,050 -0,457 5,814 ,000
connectors ,003 ,009 0,007 2,238 ,44
comparative ,164 ,026 0,198 ,843 ,006
prepositions ,677 ,024 0,989 -8,381 ,000
nº verbs -,024 ,017 -0,055 -2,248 ,56
nº adj -,186 ,009 -0,505 3,750 ,006
nºadv -,167 ,016 -0,315 ,989 ,352
nº grammatical errors -,559 ,013 -0,984 6,540 ,000
nº spelling errors ,591 ,011 0,398 -,712 ,497
nº vocabulary errors -,242 ,036 -0,142 5,857 ,000
Linear regression
En nuestra investigación | Aplicación de un ejemplo real
7
Resultados:
Coeficientes no estandarizados
(No standardized coefficients)
Son las que nos sirven para la predicción
(Used to estimate or predict)
Z= 8,588 – 0,895· phrasal verbs + 0,003· connectors + 0,164· comparative + 0,677·
prepositions −0,559· nº gramar errors – 0,242 · vocabulary errors
Coeficientes
estandarizados
Nos sirve para
comprar que variables
tienen más peso y son
mas importantes
(Determining
significant variables)
Únicamente cogemos
las variables que sean:
Sig > 0,05
9. FACTOR ANALYSIS
En nuestra investigación | Aplicación de un ejemplo real
9
Factor analysis is a statistical procedure used to discover simple patterns in the relationships among the
variables. The main applications of factor analytic techniques are: to reduce the number of variables and to
classify them. It can be applied as a data reduction or structure detection method.(Cantos 2013:113).
SPSS steps: Analizar > Reducción de dimensiones > Factor
Matriz de componentea
Componente
1 2
Phrasal verbs ,921 ,029
connectors ,914 ,014
comparative ,910 -,139
prepositions ,947 ,127
nº verbs ,960 -,102
nº adj ,830 ,379
nºadv ,848 ,167
nº grammatical
errors
-,379 ,871
nº spelling errors ,015 ,758
nº vocabulary errors -,082 ,875
Método de extracción: análisis de
componentes principales.
a. 2 componentes extraídos.
Objetivo:
FACTOR 1:
Gramática
correcta
FACTOR 2:
Errores
gramaticales
Estas 2 componentes explican el 82% del
anterior modelo
Coeficientesa
Modelo Coeficientes no
estandarizados
Coeficientes
estandarizad
os
t Sig.
B Error
estándar
Beta
1 (Constante) 6,315 ,283 22,314 ,000
Componente 1 ,978 ,290 ,360 3,370 ,004
Componente 2 -2,239 ,290 -,823 -7,712 ,000
a. Variable dependiente: Pass / Fail
Nota media= 6,315 +0,978 · gramática correcta -2,239 ·
errores gramaticales
ANOVAa
Modelo Suma de
cuadrados
gl Media
cuadráti
ca
F Sig.
1 Regresión 113,473 2 56,737 35,419
,000b
Residuo 27,232 17 1,602
Total 140,706 19
a. Variable dependiente: Pass / Fail
b. Predictores: (Constante), REGR factor score 2 for analysis 1, REGR factor score
1 for analysis 1
Significatividad de las componentes
Significatividad global
10. Crossing Data : Chi-Square Test 1
0
SPSS steps: Analizar > Estadísticos descriptivos > Tabla cruzada
En nuestra investigación | Aplicación de un ejemplo real
pass Total
1 2
Type of
studies
Science and
engineering
Recuento 6 4 10
% dentro de pass 42,9% 66,7% 50,0%
Social science Recuento 6 2 8
% dentro de pass 42,9% 33,3% 40,0%
Humanities Recuento 2 0 2
% dentro de pass 14,3% 0,0% 10,0%
Total Recuento 14 6 20
% dentro de pass 100,0% 100,0% 100,0
%
Se puede observar como hay mas suspendidos de science and engineering (66,7%), y
un 33,3% de ciencias sociales, sin embargo ningún suspendido de humanidades.
Recuento de datos de dos variables
cualitativas
One of the most useful ways to look at information about applied linguistics is in the format of a
table; however the figures in the table are only descriptive. To examine hypotheses, we need to
employ a statistical test that allows us to investigate whether distributions of categorical variables
differ from one another. For linguistic purposes, the chi-square test is probably the most
commonly used. (Cantos 2013: 75). In our study the crossing data were “fail/pass the exam” and
“studies”.
11. Crossing data: Analysis of Variance (ANOVA) 1
1
SPSS steps: Analizar > Comparar medias > Medias
Objetivo:
Type of
studies
connectors comparative prepositions nº
grammatical
errors
nº spelling
errors
nº
vocabulary
errors
Science and
engineering
11,70 4,30 9,60 7,40 4,70 2,70
Social science 16,38 5,00 10,63 8,25 3,13 3,00
Humanities 20,50 10,00 13,50 5,50 4,50 2,50
Total 14,45 5,15 10,40 7,55 4,05 2,80
Cruce entre tipo de estudios y gramática utilizada
¿Qué información nos aporta?
Los alumnos que tienen o estudian
carreras de humanidades son los
que utilizan estructuras más
complejas y tienen menos errores
Se utiliza cuando la variable independiente es cualitativa politómica (más de
dos grupos de comparación) y las variables dependientes son cuantitativas.
Education
al Level connectors
comparati
ve
prepositio
ns
nº
grammatic
al errors
nº spelling
errors
nº
vocabulary
errors
Master 27,00 11,00 18,00 5,33 5,33 3,33
Degree 12,67 4,33 9,50 10,00 4,00 3,17
High
School
12,67 4,83 8,83 3,17 1,67 1,67
Voc. 11,20 3,00 8,80 11,20 6,20 3,40
Total 14,45 5,15 10,40 7,55 4,05 2,80
Cruce entre nivel de educación y gramática utilizada
¿Qué información nos aporta?
Los alumnos de master utilizan
estructuras mas complejas, sin
embargo los alumnos de High
School tienen menos errores.
There are many cases where we need to compare more than two means across groups. The ANOVA method of testing can be
useful in these cases. In our case, for instance, we have compared number of errors, number of prepositions, etc, with the
students' degrees or studies.
However, we have to take into account that the results in an ANOVA table serve only to indicate whether means differ significantly or not.
They do not indicate which means differ from another. (Cantos 2013:52-54).
12. 1
2
Cluster analysis, also called, segmentation analysis or taxonomy
analysis, is a method of data analysis for solving classification problems.
It seeks to identify homogeneous groups of cases.
The object of cluster analysis is to sort cases into groups, or clusters, so
that the degree of association is strong between members of the same
cluster and weak between members of different clusters. It simply
discovers structures in data without explaining why they exist. (Cantos
2013:90).
Clúster Analysis
13. Clúster Analysis 1
3
SPSS steps: Analizar > Clasificar > Clúster jerárquico
Objetivo:
En nuestra investigación | Aplicación de un ejemplo real
Agrupar a los estudiantes según características y estructuras
gramaticales a sí como errores realizados en el writing.
El dendrograma (Dendrogram) nos dice el número de grupos existentes, además
los etiquetamos mediante el nivel en el que están: FCE/PET
Clúster 1
Clúster 2
Clúster 3
Clúster 4
14. Clúster Analysis 1
4
Características de los grupos obtenidos:
En nuestra investigación | Aplicación de un ejemplo real
SPSS steps: Analizar > Comparar medias > Medias
Ward
Method
Phrasal
verbs connectors
compara
tive
prepositio
ns nº verbs nº adj nºadv
nº
grammati
cal errors
nº
spelling
errors
nº
vocabular
y errors
Nota
media
1 4,50 27,75 10,25 17,00 29,50 29,00 19,75 6,00 4,75 3,00 7,83
2 1,80 10,40 2,60 8,40 13,80 14,00 10,60 14,40 7,40 4,80 2,20
3 1,50 7,83 3,50 7,67 15,50 10,00 10,17 5,67 2,67 2,00 7,17
4 2,60 15,80 5,60 10,40 19,60 11,60 11,60 4,20 1,80 1,60 8,20
Todas las variables analizadas son estadísticamente significativas como se puede ver en la siguiente diapositiva*
Group 1
FCE Students
Average Score: 7.83
Utilization of more
complex structures:
More connectors.
More comparatives.
More verbs.
Group 2
FCE and PET Students
Average Score: 2.20
Little use of phrasal
verbs
Few verbs
Great number of
grammatical and
spelling errors
Group 3
PET Students
Average Score: 7.17
Few phrasal verbs
Little use of
connectors
Few grammar errors
Group 4
PET Students
Average Score: 8.20
Few phrasal verbs
Few comparatives
Few errors
15. Clúster Analysis 1
5
En nuestra investigación | Aplicación de un ejemplo real
Suma de
cuadrados gl
Media
cuadrática F Sig.
Phrasal verbs * Ward Method Entre grupos (Combinado) 24,450 3 8,150 10,432 ,000
Dentro de grupos 12,500 16 ,781
Total 36,950 19
connectors * Ward Method Entre grupos (Combinado) 1061,367 3 353,789 83,758 ,000
Dentro de grupos 67,583 16 4,224
Total 1128,950 19
comparative * Ward Method Entre grupos (Combinado) 153,900 3 51,300 16,205 ,000
Dentro de grupos 50,650 16 3,166
Total 204,550 19
prepositions * Ward Method Entre grupos (Combinado) 239,067 3 79,689 23,729 ,000
Dentro de grupos 53,733 16 3,358
Total 292,800 19
nº verbs * Ward Method Entre grupos (Combinado) 651,300 3 217,100 28,827 ,000
Dentro de grupos 120,500 16 7,531
Total 771,800 19
nº adj * Ward Method Entre grupos (Combinado) 996,000 3 332,000 34,227 ,000
Dentro de grupos 155,200 16 9,700
Total 1151,200 19
nºadv * Ward Method Entre grupos (Combinado) 264,967 3 88,322 6,996 ,003
Dentro de grupos 201,983 16 12,624
Total 466,950 19
nº grammatical errors * Ward Method Entre grupos (Combinado) 321,617 3 107,206 17,623 ,000
Dentro de grupos 97,333 16 6,083
Total 418,950 19
nº spelling errors * Ward Method Entre grupos (Combinado) 94,867 3 31,622 4,435 ,019
Dentro de grupos 114,083 16 7,130
Total 208,950 19
nº vocabulary errors * Ward Method Entre grupos (Combinado) 31,200 3 10,400 11,886 ,000
Dentro de grupos 14,000 16 ,875
Total 45,200 19
Pass / Fail * Ward Method Entre grupos (Combinado) 115,905 3 38,635 24,925 ,000
Dentro de grupos 24,801 16 1,550
Total 140,706 19
Significatividad de cada variable
16. Discriminant function analysis (DAF) 1
6
SPSS steps: Analizar > Clasificar > Discriminante
It also serves to make groups like the cluster, but in the discriminant analysis (DAF) the
researcher knows a priori which group the student belongs to.
D1=-10,923 -9,841· Pharsal Verbs – 5,838 · Prep
- 0,754 · nº adj -1,483 · nº gramatical errors
D2= -30,598 + 17,739· Pharsal Verbs -8,138 · Prep
- 0,827 · nº adj - 6,051 · nº gramatical errors
Discriminant function analysis (DAF) is used to assign individuals, for whom several variables
have been measured, to certain groups that have already been identified in the sample. Cluster
analysis can be applied to any kind of data, numerical or categorical. By contrast, DFA is a
technique used for verifying that apparent clusters are real and for deciding to which cluster a
new individual should be assigned. It is normally used to predict membership in naturally
occurring groups. (Cantos 2013:104).
Lambda de Wilks
Prueba de
funciones
Lambda de Wilks Chi-cuadrado gl Sig.
1 0,049 48,177 4 0
pass
Pass Fail
Phrasal verbs -9,841 17,739
prepositions 5,838 -8,138
nº adj -,754 ,827
nº grammatical
errors
-1,483 6,051
(Constante) -10,923 -30,598
18. REFERENCES 1
8
Software SPSS
Cantos, P. (2013). Stathistical Methods in Language and Linguistic
Research. Mid Glarmorgan. Equinox Publishing Ltd.
Clavel, B. (2012).Second Language Acquisition and Teaching
English as a Foreign Language. Valencia: Universitat de València.
Fuster, M. and B. Clavel (2010): Second Language Vocabulary
Acquisition and its Pedagogical Implications. In L. Pérez, I.
Parrado and P. Tabarés, eds., Estudios de Morfología de la
Lengua Inglesa (V). Valladolid: Centro Buendía, Universidad de
Valladolid, 205-212.
19. Conclusion 1
9
STADISTICAL INFERENCE: to consider if the obtained results are significant.
REGRESSION LINEAL: Take us to the production of different predictive models.
FACTOR ANALYSIS:
It can be applied as a data reduction or structure detection method.
CHI-SQUARE: to determine some relations among variables.
ANOVA:
To compare more than two means across groups.
CLUSTER:
To sort cases into groups.
DISCRIMINANT ANALYSIS:
It is normally used to predict membership in naturally occurring groups.
20. Thanks for your attention
Puedes descargar la presentación en: http://elenacalvo.esy.es/spss/