SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
Predicción de victorias en los equipos locales, del
fútbol argentino, según las acciones de jugadores
Trabajo Final Integrador
Pablo Matı́as Tempone
Año 2017
1
Especialización Maestrı́a Datamining Tempone, Pablo
Índice
1. Resumen 4
2. Introducción 5
3. Materiales y métodos 6
3.1. Descripción de la base de datos . . . . . . . . . . . . . . . . . 6
3.1.1. Sumario de variables . . . . . . . . . . . . . . . . . . . 6
3.1.2. Caracterı́sticas de la base . . . . . . . . . . . . . . . . 8
3.2. Herramientas utilizadas . . . . . . . . . . . . . . . . . . . . . 9
3.3. Aplicación de técnicas con el foco en los jugadores . . . . . . 9
3.3.1. Análisis exploratorio . . . . . . . . . . . . . . . . . . . 9
3.3.2. Correlación en las variables . . . . . . . . . . . . . . . 11
3.3.3. Análisis de componentes principales . . . . . . . . . . 11
3.3.4. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3.5. ¿Los jugadores son más ofensivos cuando son locales? 15
3.4. Aplicación de técnicas con el foco en los equipos . . . . . . . 19
3.4.1. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4.2. ¿Qué equipos son parecidos entre sı́? . . . . . . . . . . 20
3.4.3. Variables de cada aspecto . . . . . . . . . . . . . . . . 20
3.4.4. Caras de Chernoff . . . . . . . . . . . . . . . . . . . . 21
3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4. Resultados 24
5. Conclusiones 25
2
Especialización Maestrı́a Datamining Tempone, Pablo
Índice de cuadros
1. Sumario Variables . . . . . . . . . . . . . . . . . . . . . . . . 7
2. Medias y desvı́os por grupo . . . . . . . . . . . . . . . . . . . 18
3. Variables y Aspecto que modifican . . . . . . . . . . . . . . . 20
Índice de figuras
1. Minutos jugados por titularidad . . . . . . . . . . . . . . . . . 9
2. Rol del jugador por titularidad . . . . . . . . . . . . . . . . . 10
3. Correlograma . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4. Screeplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
5. Factor Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
6. Agrupamiento Jerárquico de jugadores . . . . . . . . . . . . . 14
7. Agrupamientos usando Componentes Principales . . . . . . . 14
8. Biplot con grupos . . . . . . . . . . . . . . . . . . . . . . . . . 15
9. Densidad de disparos al arco . . . . . . . . . . . . . . . . . . 16
10. Boxplot de disparos al arco . . . . . . . . . . . . . . . . . . . 17
11. Biplot con Agrupamientos de equipos . . . . . . . . . . . . . 19
12. Equipos y sus caras . . . . . . . . . . . . . . . . . . . . . . . . 21
13. Comparación de AUC en los dos modelos probados . . . . . . 24
3
Especialización Maestrı́a Datamining Tempone, Pablo
1. Resumen
En este trabajo intenté predecir las victorias de los equipos locales del
fútbol argentino, en base a las acciones realizadas por los deportistas. Para
ello, previamente realicé análisis exploratorios y descriptivos de los datos.
Los resultados obtenidos no fueron los esperados, pero el análisis que se re-
produce a continuación, si aporta una nueva visión a la disciplina deportiva.
4
Especialización Maestrı́a Datamining Tempone, Pablo
2. Introducción
Cada vez hay más datos deportivos sobre equipos, jugadores profesio-
nales e incluso sobre divisiones inferiores. Pero lo que se observa en las
instituciones en Latinoamérica es que sus tomas de decisiones no se apoyan
en el análisis de esa información.
En este trabajo se identificaron las caracterı́sticas de los jugadores a través
de sus datos (tiros al arco, quites, atajadas, disparos al arco, goles, asisten-
cias, etc.).
Utilicé los datos mencionados en el párrafo anterior, para predecir el resul-
tado de cada partido, en particular si el equipo local logró la victoria o no.
Usé los últimos 5 encuentros de cada equipo para generar el modelo sobre
el que ejecuté los algoritmos de minerı́a de datos.
El fútbol argentino tiene la caracterı́stica de ser impredecible, los parti-
dos entre equipos con distinto poder económico no permite establecer con
exactitud quien es el que siempre va a ganar.
Si se toman en cuenta los partidos desde el 2013 al 2016 del Torneo de
Primera División Argentina se puede ver que los equipos locales ganan un
44.5 % de las veces, empatan 30 % y pierden 25.4 %. Si se calcula la entropı́a
como medida de azar, se obtiene lo siguiente:
Entropia = −0,254 ∗ log3(0,254) − 0,30 ∗ log3(0,30) − 0,445 ∗ log3(0,445)
Entropia = 0,97
La entropı́a es cercana a 1, que corresponde a puro azar. Esto da un
primer indicio de lo difı́cil que es predecir los resultados deportivos en el
fútbol de la Primera División Argentina.
5
Especialización Maestrı́a Datamining Tempone, Pablo
3. Materiales y métodos
3.1. Descripción de la base de datos
Se cuenta con 4 bases de datos, con estadı́sticas sobre los comportamien-
tos de jugadores en cada partido disputado desde 2013 a 2016.
3.1.1. Sumario de variables
En el cuadro 1 se detallan las variables pertenecientes al conjunto de
datos.
6
Especialización Maestrı́a Datamining Tempone, Pablo
variable cant. ceros porcentaje ceros tipo únicos
fecha 0 0 Fecha 68
torneo 0 0 categórica 1
cate nombre categoria 0 0 categórica 1
even id evento 0 0 entero 242
local.1 0 0 caracter 30
fixt local goles 1972 26.45 entero 6
visitante.1 0 0 categórica 30
fixt visitante goles 2858 38.34 entero 7
perso id personas 0 0 entero 842
perso nombre.1 0 0 categórica 447
perso apellido.1 0 0 categórica 669
perso apodo 0 0 categórica 32
rol id rol 0 0 entero 7
team.1 0 0 caracter 31
titular 0 0 categórica 2
minutos jugados 0 0 entero 104
goles convertidos 6919 92.81 entero 4
goles encontra 7455 100 entero 1
asistencias 7104 95.29 entero 4
disparo afuera 5656 75.87 entero 7
disparo palo 7341 98.47 entero 3
disparo atajado 5912 79.3 entero 6
penal errado 7442 99.83 entero 2
faltas 3660 49.09 entero 10
faltas recibidas 3835 51.44 entero 9
offsides 6709 89.99 entero 7
amarillas 6257 83.93 entero 2
doble amarilla 7404 99.32 entero 2
rojas 7394 99.18 entero 2
pase correcto 939 12.6 entero 79
pase incorrecto 1893 25.39 entero 21
despejes 4400 59.02 entero 20
quites 3739 50.15 entero 15
atajadas 6580 88.26 entero 10
atajada penal 7446 99.88 entero 2
Cuadro 1: Sumario Variables
7
Especialización Maestrı́a Datamining Tempone, Pablo
Se usaron las variables “fixt local goles” y “fixt visitante goles” para de-
terminar el resultado del partido. Se promediaron las variables “goles convertidos”,
“asistencias”, “disparo afuera”, “disparo palo”, “disparo atajado”, “penal errado”,
“faltas”, “faltas recibidas”, “offsides”, “amarillas”, “doble amarilla”, “ro-
jas”, “pase correcto”, “pase incorrecto”, “despejes”, “quites”, “atajadas” y
“atajada penal” según los minutos jugados. Ası́ se igualó los jugadores que
disputaron más partidos con los que menos jugaron.
promedio variable = variable
minutos jugados
Además, se creó una variable para identificar si el futbolista jugó de vi-
sitante o local.
3.1.2. Caracterı́sticas de la base
La base cuenta con 40860 registros y 35 variables. Corresponde a los
torneos de primera división disputados de 2013 a 2016. Fue provista por la
empresa DataFactory para el desarrollo de este informe académico.
Los datos fueron entregados en cuatro archivos xlsx, uno por cada año.
8
Especialización Maestrı́a Datamining Tempone, Pablo
3.2. Herramientas utilizadas
El procesamiento y análisis se hizo con R y RStudio, al igual que la
aplicación de técnicas de minerı́a de datos.
3.3. Aplicación de técnicas con el foco en los jugadores
Para entender el conjunto de datos, apliqué técnicas de análisis explo-
ratorio, tales como Análisis de Componentes Principales, correlaciones y
visualización con gráficos.
3.3.1. Análisis exploratorio
Generé algunas visualizaciones para entender la participación de los fut-
bolistas (titulares y suplentes) en los partidos.
Figura 1: Minutos jugados por titularidad
9
Especialización Maestrı́a Datamining Tempone, Pablo
No es lo mismo ponderar a todos los jugadores suplentes, por eso se ana-
lizó la participación de ellos según su posición.
Figura 2: Rol del jugador por titularidad
Para los fines de este trabajo se reemplazaron las variables originales
por una proporción de los minutos disputados en cada partido, de esta ma-
nera se igualan los valores de participación de cada jugador sobre minutos
disputados, según la función descrita en la sección Sumario de Variables.
Acá se empiezan a ver datos interesantes: los entrenadores suplantan
delanteros en una proporción mayor que defensores. Es decir, los delan-
teros suplentes tienen más posibilidades de ingresar a un partido que los
defensores. Esto también plantea que los técnicos hacen muy pocos cambios
defensivos.
10
Especialización Maestrı́a Datamining Tempone, Pablo
3.3.2. Correlación en las variables
¿Hay correlaciones en las variables analizadas?
Figura 3: Correlograma
No se encontraron altas correlaciones, tampoco una llamativa. La corre-
lación mayor es la que ocurre entre disparos afuera del arco y la cantidad
de disparos atajados, también hay una correlación de estas variables con la
variable goles convertidos. Estas relaciones tienen sentido: a más disparos,
mayor proporción de tiros atajados, fuera del arco y goles. Por lo que se
continuará con otro tipo de análisis para reducir la dimensionalidad.
3.3.3. Análisis de componentes principales
Realicé un análisis de componentes principales sobre el set de datos. Pri-
mero revisé que cantidad de componentes son los óptimos para mantener:
11
Especialización Maestrı́a Datamining Tempone, Pablo
Figura 4: Screeplot
En la Figura 4 se observa que, utilizando el criterio del bastón roto, la
variabilidad explicada se estabiliza luego del quinto componente. Me basé en
esta en esta técnica y en el criterio de Montecarlo, ya que tiene más del 70 %
de la variabilidad explicada, con cinco componentes alcanza para explicar la
variabilidad del conjunto de datos.
Para simplificar la visualización y el análisis se usé los dos primeros compo-
nentes.
12
Especialización Maestrı́a Datamining Tempone, Pablo
Figura 5: Factor Map
En cada cuadrante se visualizan las caracterı́sticas más destacadas de
cada posición. En el cuadrante superior izquierdo, se observan las carac-
terı́sticas propias de los defensores. En el inferior izquierdo, las acciones más
comunes de los arqueros: las atajadas.
Los delanteros están en todo el eje inferior a la Dim 2, que es donde se desta-
can los tiros que les atajaron, los goles convertidos y los offsides (posiciones
fuera de juego) que sufrieron por jugar adelantados.
Por último, en el cuadrante superior derecho, se agrupan caracterı́sticas de
los medio campistas, éstas son los pases y las faltas recibidas y hechas.
3.3.4. Clustering
En esta etapa busqué encontrar una agrupación para los jugadores. Se
aplicó la técnica de agrupamiento jerárquico con promedios. La técnica fue
usada ya que el volumen de los datos no eran muchos y permitı́a visualmente
probar distintos grupos.
Se decidió cortar en tres grupos ya que al cortar en cuatro quedaba un gru-
po más reducido y no representativo de algún grupo. Al cortar en tres Los
resultados fueron interesantes.
En la figura 6 se muestra el punto de corte generado en el dendograma:
13
Especialización Maestrı́a Datamining Tempone, Pablo
Figura 6: Agrupamiento Jerárquico de jugadores
Figura 7: Agrupamientos usando Componentes Principales
En la figura 7 observo que en el “Cluster 1” los arqueros se separan de
los demás jugadores. Los “Cluster 2” y “Cluster 3” marcan una diferencia
14
Especialización Maestrı́a Datamining Tempone, Pablo
entre jugadores ofensivos y defensivos, el primero agrupa los jugadores con
tendencia defensiva y el segundo a los que tienen caracterı́sticas ofensivas.
Esta diferenciación es interesante ya que no siempre es fácil saber qué juga-
dores mediocampistas tienen más orientación defensiva que ofensiva.
En la figura 8 se combinan las variables con los clusters para reforzar el
concepto.
Figura 8: Biplot con grupos
3.3.5. ¿Los jugadores son más ofensivos cuando son locales?
En la previa a un partido, se suelen escuchar frases como “juegan de lo-
cal, seguramente vayan a buscar el partido”. Esa suposición se repite tanto
en programas deportivos como entre los hinchas de los clubes. La frase asu-
me que los jugadores se comportan de distinta manera, según sean visitantes
o locales.
Exploración de las poblaciones Para verificar la teorı́a anterior analicé
el comportamiento de los jugadores sumando las variables “disparos afue-
ra”, “disparos atajados” y “goles convertidos” (entendiendo esta variable
como un tiro). Son las variables principales que demuestran vocación ofensi-
15
Especialización Maestrı́a Datamining Tempone, Pablo
va, como se vio en el análisis de componentes principales y de agrupamientos.
Figura 9: Densidad de disparos al arco
16
Especialización Maestrı́a Datamining Tempone, Pablo
Figura 10: Boxplot de disparos al arco
Si bien en la figura 9 se notan algunas diferencias, cuando se analizan
los boxplots (figura 10) esas disimilitudes no parecen tan llamativas.
Otro rasgo que se observa es que no son poblaciones con distribuciones nor-
males.
Prueba de la hipótesis Realicé la prueba de los rangos con signo de
Wilcoxon para ver si existen diferencias en los comportamientos de los ju-
gadores de visitante y de local.
Como preparación previa, en el análisis tomé solo a los jugadores que se
desempeñaron como titulares y suplentes. Es decir, que ocuparon los dos
roles.
Planteo de la hipótesis: Los jugadores de local y de visitante hicieron la
misma cantidad de tiros al arco.
H0 : θ1 − θ2 = 0
Hipótesis alternativa: Hay evidencia de que los jugadores de visitante no
17
Especialización Maestrı́a Datamining Tempone, Pablo
se comportan igual que jugando como local.
Ha : θ1 − θ2 6= 0
Grupo media Desviación Estándar
L 0,01 0,01
V 0,01 0,01
Cuadro 2: Medias y desvı́os por grupo
Realicé el test de Wilcoxon sobre el listado de los jugadores y se ve lo
siguiente:
Test de rangos con signos de Wilcoxon con corrección de continuidad.
Datos: jugadores tiros$L and jugadores tiros$V
V = 490470, p − value ≤ 2,2e − 16
Conclusión: con un 0,05 de significación, los futbolistas argentinos no se
comportan ofensivamente de la misma manera cuando son locales o visitan-
tes. Esto da soporte a la suposición popular. Entendiendo que esta diferencia
es parte de un comportamiento grupal al ser un juego de equipo, y que hay
indicios estadı́sticos de estas diferencias, los equipos que reduzcan esta dife-
rencia van a poder mantener un funcionamiento más estable en el tiempo .
18
Especialización Maestrı́a Datamining Tempone, Pablo
3.4. Aplicación de técnicas con el foco en los equipos
En esta sección puse como centro del estudio las caracterı́sticas de los
33 equipos durante las temporadas de 2013 a 2016. Dividiré el análisis en
tres partes: un análisis de componentes principales, otro de agrupamientos,
y un tercero en el que se visualizan los distintos equipos con las caras de
Chernoff.
Para la preparación, promedié los valores totales de cada variable sobre la
cantidad de partidos jugados para igualar a todos los equipos.
En forma histórica, se dividió a los equipos en grandes y chicos. Entre
los grandes, se ubica a Boca, Independiente, Racing, River y San Lorenzo.
Con los datos de los últimos cuatro años, este estudio intentó encontrar
maneras nuevas de agruparlos.
3.4.1. Clustering
Para partir en grupos los equipos, utilicé el agrupamiento jerárquico con
componentes principales y el método de Ward. Divisé dos grandes grupos
en los equipos.
Figura 11: Biplot con Agrupamientos de equipos
Los equipos más ofensivos se encuentran en el “grupo 2” y el resto en
19
Especialización Maestrı́a Datamining Tempone, Pablo
otro. En la Figura 11, se nota que a la derecha del eje 0 de la dimensión
1 -aquella que destaca la mayor cantidad de situaciones ofensivas, goles y
asistencias realizadas- están los equipos que tuvieron torneos más exitosos.
Otro detalle es que los “5 grandes” del fútbol argentino se encuentran a
la derecha, a pesar de que varios de ellos, como Racing e Independiente,
tuvieron torneos irregulares.
3.4.2. ¿Qué equipos son parecidos entre sı́?
En este análisis hay 33 equipos. Lanús (con Almirón como DT) y San
Lorenzo (con Aguirre como DT) tienen ideas de juego similares, pero cuan-
do se comparan varias temporadas para ver si en el tiempo se sostienen los
planteos, ¿puede decirse con tanta seguridad que los equipos tienen ideas
parecidas?
Apliqué la técnica “caras de Chernoff” para ver de una manera más ami-
gable qué equipos se parecen y cómo se diferencian.
3.4.3. Variables de cada aspecto
El cuadro 3 muestra qué aspecto de la cara representa cada variable.
Item que modifica Variable
1 Altura de la cara pr goles convertidos
2 Ancho de la cara pr asistencias
3 Estructura de la cara pr disparo afuera
4 Altura de la boca pr disparo atajado
5 Ancho de la boca pr faltas
6 Sonrisa pr faltas recibidos
7 Altura de los ojos pr offsides
8 Ancho de los ojos pr amarillas
9 Altura del pelo pr expulsados
10 Ancho del pelo pr pase correcto
11 Estilo de peinado pr incorrecto
12 Altura de la nariz pr despejes
13 Ancho de la nariz pr quites
14 Ancho de las orejas pr atajadas
15 Alto de las orejas pr goles convertidos
Cuadro 3: Variables y Aspecto que modifican
20
Especialización Maestrı́a Datamining Tempone, Pablo
3.4.4. Caras de Chernoff
Ya se demostró cómo se pueden agrupar los equipos, ahora, muestro
cuáles se parecen entre sı́ desde otra perspectiva.
Figura 12: Equipos y sus caras
Atlético de Tucumán tiene la cara más particular. No es fácil encontrarle
similitudes con el resto de los planteles. Una posible consecuencia de este
comportamiento es que participó, por primera vez en la historia, en la copa
Libertadores. ¿Un equipo con pocos recursos necesita encontrar combinacio-
nes distintas para poder lograr esos hitos? Es una pregunta interesante de
plantear.
Entre los equipos que no tuvieron buenos rendimientos hay bastantes si-
militudes. Sarmiento, Temperley, All Boys, Argentinos Juniors, Olimpo y
Crucero del Norte descendieron o tuvieron muy malos torneos.
Los juegos de parecidos sirven para que los clubes vean en forma rápida si
se parecen al equipo campeón o tienen rasgos similares con los equipos de
peor desempeño.
21
Especialización Maestrı́a Datamining Tempone, Pablo
3.5. Modelado
Para modelar la base apliqué técnicas de suma, promedio y diferencias
para que las variables que estaban a nivel de jugador pasen a nivel de equi-
pos.
Luego separé en dos bases, una con los equipos locales y otro con los visitan-
tes. Usé la función lag para obtener los valores promediados de los últimos
5 partidos anteriores al que se disputa.
Finalmente junté en un mismo registro los datos de los equipos visitantes y
locales, y si el equipo local realizaba más goles que el visitante obtenı́a mi
variable objetivo, Victoria = 1, Empate o Derrota = 0.
Para probar si era predictivo el resultado con las variables originales más
variables creadas, ejecuté el algoritmo rpart, para partir de un algoritmo
más simple y ver cuanto se podrı́a mejorar. Los resultados no fueron satis-
factorios, con área bajo la curva (AUC)[8] cercanos a 0.5, con lo que no se
puede superar el azar.
Como modelos finales usé Random Forest[1] y XGboost[2], ambos métodos
de ensamble de árboles de decisión.
Random forest se puede representar de la siguiente manera:
Algorithm 1 Random Forest para Regresión o Clasificación.
1: for b = 1 to B: do
2: (a) Dibujar un muestreo bootstrap Z’ de tamaño N desde los datos
de entrenamiento.
3: (b) Crear un árbol del Random Forest Tb sobre los datos muestrea-
dos, recursivamente repetir los siguientes pasos para cada nodo terminal
del árbol, hasta que el nodo mı́nimo de tamaño nmin es alcanzado.
4: i. Seleccionar m variables al azar de p variables.
5: ii. Elegir la mejor variable/punto de separación entre las m.
6: iii. Separar el nodo en dos nodos hijos.
7: Salidad del ensamble de árboles {Tb}B
1
8: Para realizar una predicción en un nuevo punto x:
9: Regresión ˆ
fB
rf =
1
B
PB
b=1 Tb(x).
10: Clasificación Sea Ĉb(x) la clase a predecir de bth bosques de decisión.
Entonces Ĉb(x) = el voto mayoritario {Ĉb(x)}B
1 .
22
Especialización Maestrı́a Datamining Tempone, Pablo
XGboost es una implementación de gradient boosting, a continuación en
pseudo código se explica una formalización simple.
Algorithm 2 Gradient Boosting
Ajustar el modelo a los datos, F1(x) = y
2: Ajustar el modelo a los residuales, h1(x) = y − F1(x)
Crear un nuevo modelo, F2(x) = F1(x) + h1(x)
Como métrica de medición de los modelos uso el área bajo la curva
(AUC).
θ = Pr(x+ > x−)
23
Especialización Maestrı́a Datamining Tempone, Pablo
4. Resultados
Los resultados obtenidos comparando los dos modelos mencionados en
la sección anterior no fueron satisfactorios. En la figura 13 se comparan los
modelos usando el área bajo la curva (AUC), como métrica para medir la
efectividad de los modelos, sobre los set de test.
Figura 13: Comparación de AUC en los dos modelos probados
Los resultados demostraron que con las variables utilizadas y la cantidad
de casos que se tienen, no se pudo predecir con un resultado aceptable los
partidos del fútbol argentino, los dos modelos están cercanos al azar por lo
que no resultan confiables.
Posibles razones para que los resultados no hayan sido los esperados, los
encuentro en los problemas que tienen los clubes argentinos, para retener
a los jugadores buenos ante los clubes con más poder económico, la fal-
ta de continuidad en los proyectos deportivos (mucha rotación de técnicos,
ante falta de resultados deportivos satisfactorios). Esto sumado a que en
perı́odos de incorporación, los clubes llegan a incorporar hasta 10 jugado-
res, generando un recambio en los equipos, que conlleva a encontrar nuevas
micro-sociedades en el campo de juego.
Esto solamente tomando los eventos deportivos, hay efectos no medibles o
que escapan del alcance de la información que se tiene sobre los rendimientos,
como la falta de pagos en los sueldos, clubes endeudados y con problemas,
que pueden llegar a afectar en el rendimiento de algunos jugadores.
24
Especialización Maestrı́a Datamining Tempone, Pablo
5. Conclusiones
A pesar de que los resultados no fueron satisfactorios o los esperados
al comenzar el análisis. La parte que más valoro de este estudio, no es el
intento de predecir los resultados deportivos, sino el valor asociado en los
estudios de los jugadores y los equipos. Como el poder comparar jugadores,
para que futuras contrataciones se ajusten a los perfiles buscados.
En una disciplina dominada por las habilidades fı́sicas y la intuición, el
análisis de los datos para la contratación de jugadores, evolución de jóvenes
talentos y asociación de los jugadores dentro del campo, representan un valor
agregado para los clubes con situaciones económicas precarias, y dificulta-
des para competir en igualdad de condiciones con clubes que representan
potencias económicas.
25
Especialización Maestrı́a Datamining Tempone, Pablo
Referencias
[1] Leo Breiman. Random forests. Machine Learning, 45:5–32, Oct 2001.
[2] Tianqi Chen and Carlos Guestrin. Xgboost: A scalable tree boosting
system. arXiv:1603.02754 [cs], pages 785–794, 2016. arXiv: 1603.02754.
[3] Ap Dijksterhuis, Maarten W. Bos, Andries van der Leij, and Rick B.
van Baaren. Predicting soccer matches after unconscious and conscious
thought as a function of expertise. Psychological Science, 20(11):1381–
1387, 2009. PMID: 19818044.
[4] G. James, D. Witten, T. Hastie, and R. Tibshirani. An Introduction to
Statistical Learning: with Applications in R. Springer Texts in Statistics.
Springer New York, 2013.
[5] Stylianos Kampakis and William Thomas. Using machine learning to
predict the outcome of english county twenty over cricket matches. ar-
Xiv:1511.05837 [stat], Nov 2015. arXiv: 1511.05837.
[6] Sebastien Le, Julie Josse, and Francois Husson. Factominer: An r pac-
kage for multivariate analysis. Journal of Statistical Software, Articles,
25(1):1–18, 2008.
[7] D. Peña. Análisis de datos multivariantes. Editorial desconocida, 2002.
[8] Saharon Rosset. Model selection via the auc. Sep 2004.
[9] Havard Rue and Oyvind Salvesen. Prediction and retrospective analysis
of soccer matches in a league. Journal of the Royal Statistical Society:
Series D (The Statistician), 49(3):399–418, 2000.
26

Más contenido relacionado

Similar a Pediccion victorias futbol_local_argentina

La enseñanza de las matemáticas en la escuela secundaria iii
La enseñanza de las matemáticas en la escuela secundaria iiiLa enseñanza de las matemáticas en la escuela secundaria iii
La enseñanza de las matemáticas en la escuela secundaria iiiGERARDO RODRIGUEZ VEGA
 
44 entrenamientos-practicos-6
44 entrenamientos-practicos-644 entrenamientos-practicos-6
44 entrenamientos-practicos-6Raul Curl
 
67459 d combined_e_spdf
67459 d combined_e_spdf67459 d combined_e_spdf
67459 d combined_e_spdfasistecaronifc
 
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVO
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVOMESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVO
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVOYonanca.com Futbol Studio
 
Muestreo tc3 2014 2015
Muestreo tc3 2014 2015Muestreo tc3 2014 2015
Muestreo tc3 2014 2015ABDALA LEON
 
Modelo de Educación Deportiva (informes)
Modelo de Educación Deportiva (informes)Modelo de Educación Deportiva (informes)
Modelo de Educación Deportiva (informes)Maeztro Alberto
 
Manual practicas-2010-11
Manual practicas-2010-11Manual practicas-2010-11
Manual practicas-2010-11Luis Cordova
 
Proceso de enseñanza aprendizaje en el futbol
Proceso de enseñanza aprendizaje en el futbolProceso de enseñanza aprendizaje en el futbol
Proceso de enseñanza aprendizaje en el futbolmarcos-toro
 
Entrenamiento Físico del Futbolista tomando como referencia La Competición
Entrenamiento Físico del Futbolista tomando como referencia La CompeticiónEntrenamiento Físico del Futbolista tomando como referencia La Competición
Entrenamiento Físico del Futbolista tomando como referencia La CompeticiónMarinoSolares
 

Similar a Pediccion victorias futbol_local_argentina (20)

La enseñanza de las matemáticas en la escuela secundaria iii
La enseñanza de las matemáticas en la escuela secundaria iiiLa enseñanza de las matemáticas en la escuela secundaria iii
La enseñanza de las matemáticas en la escuela secundaria iii
 
44 entrenamientos-practicos-6
44 entrenamientos-practicos-644 entrenamientos-practicos-6
44 entrenamientos-practicos-6
 
Analisis planificacion
Analisis planificacionAnalisis planificacion
Analisis planificacion
 
Sistemas de Juego Resumen
Sistemas de Juego ResumenSistemas de Juego Resumen
Sistemas de Juego Resumen
 
67459 d combined_e_spdf
67459 d combined_e_spdf67459 d combined_e_spdf
67459 d combined_e_spdf
 
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVO
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVOMESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVO
MESOCICLO ATAQUE COMBINATIVO @ ANDRES RAMOS @ CADF DEPORTIVO
 
2011 minitab-15
2011 minitab-152011 minitab-15
2011 minitab-15
 
Guia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdfGuia_Analisis_Exp.pdf
Guia_Analisis_Exp.pdf
 
Enseñando a jugar
Enseñando a jugarEnseñando a jugar
Enseñando a jugar
 
Grafi3
Grafi3Grafi3
Grafi3
 
Matematicas y el deporte presentación 1
Matematicas y el deporte  presentación 1Matematicas y el deporte  presentación 1
Matematicas y el deporte presentación 1
 
Plan Trabajo Estrategia
Plan Trabajo Estrategia Plan Trabajo Estrategia
Plan Trabajo Estrategia
 
Muestreo tc3 2014 2015
Muestreo tc3 2014 2015Muestreo tc3 2014 2015
Muestreo tc3 2014 2015
 
Trabajo 4
Trabajo 4Trabajo 4
Trabajo 4
 
RasterR.pdf
RasterR.pdfRasterR.pdf
RasterR.pdf
 
Modelo de Educación Deportiva (informes)
Modelo de Educación Deportiva (informes)Modelo de Educación Deportiva (informes)
Modelo de Educación Deportiva (informes)
 
Manual practicas-2010-11
Manual practicas-2010-11Manual practicas-2010-11
Manual practicas-2010-11
 
Proceso de enseñanza aprendizaje en el futbol
Proceso de enseñanza aprendizaje en el futbolProceso de enseñanza aprendizaje en el futbol
Proceso de enseñanza aprendizaje en el futbol
 
1
11
1
 
Entrenamiento Físico del Futbolista tomando como referencia La Competición
Entrenamiento Físico del Futbolista tomando como referencia La CompeticiónEntrenamiento Físico del Futbolista tomando como referencia La Competición
Entrenamiento Físico del Futbolista tomando como referencia La Competición
 

Último

obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffJefersonBazalloCarri1
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 

Último (20)

obras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffffobras-hidraulicas.docxfffffffffffffffffff
obras-hidraulicas.docxfffffffffffffffffff
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 

Pediccion victorias futbol_local_argentina

  • 1. Predicción de victorias en los equipos locales, del fútbol argentino, según las acciones de jugadores Trabajo Final Integrador Pablo Matı́as Tempone Año 2017 1
  • 2. Especialización Maestrı́a Datamining Tempone, Pablo Índice 1. Resumen 4 2. Introducción 5 3. Materiales y métodos 6 3.1. Descripción de la base de datos . . . . . . . . . . . . . . . . . 6 3.1.1. Sumario de variables . . . . . . . . . . . . . . . . . . . 6 3.1.2. Caracterı́sticas de la base . . . . . . . . . . . . . . . . 8 3.2. Herramientas utilizadas . . . . . . . . . . . . . . . . . . . . . 9 3.3. Aplicación de técnicas con el foco en los jugadores . . . . . . 9 3.3.1. Análisis exploratorio . . . . . . . . . . . . . . . . . . . 9 3.3.2. Correlación en las variables . . . . . . . . . . . . . . . 11 3.3.3. Análisis de componentes principales . . . . . . . . . . 11 3.3.4. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.3.5. ¿Los jugadores son más ofensivos cuando son locales? 15 3.4. Aplicación de técnicas con el foco en los equipos . . . . . . . 19 3.4.1. Clustering . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.4.2. ¿Qué equipos son parecidos entre sı́? . . . . . . . . . . 20 3.4.3. Variables de cada aspecto . . . . . . . . . . . . . . . . 20 3.4.4. Caras de Chernoff . . . . . . . . . . . . . . . . . . . . 21 3.5. Modelado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4. Resultados 24 5. Conclusiones 25 2
  • 3. Especialización Maestrı́a Datamining Tempone, Pablo Índice de cuadros 1. Sumario Variables . . . . . . . . . . . . . . . . . . . . . . . . 7 2. Medias y desvı́os por grupo . . . . . . . . . . . . . . . . . . . 18 3. Variables y Aspecto que modifican . . . . . . . . . . . . . . . 20 Índice de figuras 1. Minutos jugados por titularidad . . . . . . . . . . . . . . . . . 9 2. Rol del jugador por titularidad . . . . . . . . . . . . . . . . . 10 3. Correlograma . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4. Screeplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 5. Factor Map . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 6. Agrupamiento Jerárquico de jugadores . . . . . . . . . . . . . 14 7. Agrupamientos usando Componentes Principales . . . . . . . 14 8. Biplot con grupos . . . . . . . . . . . . . . . . . . . . . . . . . 15 9. Densidad de disparos al arco . . . . . . . . . . . . . . . . . . 16 10. Boxplot de disparos al arco . . . . . . . . . . . . . . . . . . . 17 11. Biplot con Agrupamientos de equipos . . . . . . . . . . . . . 19 12. Equipos y sus caras . . . . . . . . . . . . . . . . . . . . . . . . 21 13. Comparación de AUC en los dos modelos probados . . . . . . 24 3
  • 4. Especialización Maestrı́a Datamining Tempone, Pablo 1. Resumen En este trabajo intenté predecir las victorias de los equipos locales del fútbol argentino, en base a las acciones realizadas por los deportistas. Para ello, previamente realicé análisis exploratorios y descriptivos de los datos. Los resultados obtenidos no fueron los esperados, pero el análisis que se re- produce a continuación, si aporta una nueva visión a la disciplina deportiva. 4
  • 5. Especialización Maestrı́a Datamining Tempone, Pablo 2. Introducción Cada vez hay más datos deportivos sobre equipos, jugadores profesio- nales e incluso sobre divisiones inferiores. Pero lo que se observa en las instituciones en Latinoamérica es que sus tomas de decisiones no se apoyan en el análisis de esa información. En este trabajo se identificaron las caracterı́sticas de los jugadores a través de sus datos (tiros al arco, quites, atajadas, disparos al arco, goles, asisten- cias, etc.). Utilicé los datos mencionados en el párrafo anterior, para predecir el resul- tado de cada partido, en particular si el equipo local logró la victoria o no. Usé los últimos 5 encuentros de cada equipo para generar el modelo sobre el que ejecuté los algoritmos de minerı́a de datos. El fútbol argentino tiene la caracterı́stica de ser impredecible, los parti- dos entre equipos con distinto poder económico no permite establecer con exactitud quien es el que siempre va a ganar. Si se toman en cuenta los partidos desde el 2013 al 2016 del Torneo de Primera División Argentina se puede ver que los equipos locales ganan un 44.5 % de las veces, empatan 30 % y pierden 25.4 %. Si se calcula la entropı́a como medida de azar, se obtiene lo siguiente: Entropia = −0,254 ∗ log3(0,254) − 0,30 ∗ log3(0,30) − 0,445 ∗ log3(0,445) Entropia = 0,97 La entropı́a es cercana a 1, que corresponde a puro azar. Esto da un primer indicio de lo difı́cil que es predecir los resultados deportivos en el fútbol de la Primera División Argentina. 5
  • 6. Especialización Maestrı́a Datamining Tempone, Pablo 3. Materiales y métodos 3.1. Descripción de la base de datos Se cuenta con 4 bases de datos, con estadı́sticas sobre los comportamien- tos de jugadores en cada partido disputado desde 2013 a 2016. 3.1.1. Sumario de variables En el cuadro 1 se detallan las variables pertenecientes al conjunto de datos. 6
  • 7. Especialización Maestrı́a Datamining Tempone, Pablo variable cant. ceros porcentaje ceros tipo únicos fecha 0 0 Fecha 68 torneo 0 0 categórica 1 cate nombre categoria 0 0 categórica 1 even id evento 0 0 entero 242 local.1 0 0 caracter 30 fixt local goles 1972 26.45 entero 6 visitante.1 0 0 categórica 30 fixt visitante goles 2858 38.34 entero 7 perso id personas 0 0 entero 842 perso nombre.1 0 0 categórica 447 perso apellido.1 0 0 categórica 669 perso apodo 0 0 categórica 32 rol id rol 0 0 entero 7 team.1 0 0 caracter 31 titular 0 0 categórica 2 minutos jugados 0 0 entero 104 goles convertidos 6919 92.81 entero 4 goles encontra 7455 100 entero 1 asistencias 7104 95.29 entero 4 disparo afuera 5656 75.87 entero 7 disparo palo 7341 98.47 entero 3 disparo atajado 5912 79.3 entero 6 penal errado 7442 99.83 entero 2 faltas 3660 49.09 entero 10 faltas recibidas 3835 51.44 entero 9 offsides 6709 89.99 entero 7 amarillas 6257 83.93 entero 2 doble amarilla 7404 99.32 entero 2 rojas 7394 99.18 entero 2 pase correcto 939 12.6 entero 79 pase incorrecto 1893 25.39 entero 21 despejes 4400 59.02 entero 20 quites 3739 50.15 entero 15 atajadas 6580 88.26 entero 10 atajada penal 7446 99.88 entero 2 Cuadro 1: Sumario Variables 7
  • 8. Especialización Maestrı́a Datamining Tempone, Pablo Se usaron las variables “fixt local goles” y “fixt visitante goles” para de- terminar el resultado del partido. Se promediaron las variables “goles convertidos”, “asistencias”, “disparo afuera”, “disparo palo”, “disparo atajado”, “penal errado”, “faltas”, “faltas recibidas”, “offsides”, “amarillas”, “doble amarilla”, “ro- jas”, “pase correcto”, “pase incorrecto”, “despejes”, “quites”, “atajadas” y “atajada penal” según los minutos jugados. Ası́ se igualó los jugadores que disputaron más partidos con los que menos jugaron. promedio variable = variable minutos jugados Además, se creó una variable para identificar si el futbolista jugó de vi- sitante o local. 3.1.2. Caracterı́sticas de la base La base cuenta con 40860 registros y 35 variables. Corresponde a los torneos de primera división disputados de 2013 a 2016. Fue provista por la empresa DataFactory para el desarrollo de este informe académico. Los datos fueron entregados en cuatro archivos xlsx, uno por cada año. 8
  • 9. Especialización Maestrı́a Datamining Tempone, Pablo 3.2. Herramientas utilizadas El procesamiento y análisis se hizo con R y RStudio, al igual que la aplicación de técnicas de minerı́a de datos. 3.3. Aplicación de técnicas con el foco en los jugadores Para entender el conjunto de datos, apliqué técnicas de análisis explo- ratorio, tales como Análisis de Componentes Principales, correlaciones y visualización con gráficos. 3.3.1. Análisis exploratorio Generé algunas visualizaciones para entender la participación de los fut- bolistas (titulares y suplentes) en los partidos. Figura 1: Minutos jugados por titularidad 9
  • 10. Especialización Maestrı́a Datamining Tempone, Pablo No es lo mismo ponderar a todos los jugadores suplentes, por eso se ana- lizó la participación de ellos según su posición. Figura 2: Rol del jugador por titularidad Para los fines de este trabajo se reemplazaron las variables originales por una proporción de los minutos disputados en cada partido, de esta ma- nera se igualan los valores de participación de cada jugador sobre minutos disputados, según la función descrita en la sección Sumario de Variables. Acá se empiezan a ver datos interesantes: los entrenadores suplantan delanteros en una proporción mayor que defensores. Es decir, los delan- teros suplentes tienen más posibilidades de ingresar a un partido que los defensores. Esto también plantea que los técnicos hacen muy pocos cambios defensivos. 10
  • 11. Especialización Maestrı́a Datamining Tempone, Pablo 3.3.2. Correlación en las variables ¿Hay correlaciones en las variables analizadas? Figura 3: Correlograma No se encontraron altas correlaciones, tampoco una llamativa. La corre- lación mayor es la que ocurre entre disparos afuera del arco y la cantidad de disparos atajados, también hay una correlación de estas variables con la variable goles convertidos. Estas relaciones tienen sentido: a más disparos, mayor proporción de tiros atajados, fuera del arco y goles. Por lo que se continuará con otro tipo de análisis para reducir la dimensionalidad. 3.3.3. Análisis de componentes principales Realicé un análisis de componentes principales sobre el set de datos. Pri- mero revisé que cantidad de componentes son los óptimos para mantener: 11
  • 12. Especialización Maestrı́a Datamining Tempone, Pablo Figura 4: Screeplot En la Figura 4 se observa que, utilizando el criterio del bastón roto, la variabilidad explicada se estabiliza luego del quinto componente. Me basé en esta en esta técnica y en el criterio de Montecarlo, ya que tiene más del 70 % de la variabilidad explicada, con cinco componentes alcanza para explicar la variabilidad del conjunto de datos. Para simplificar la visualización y el análisis se usé los dos primeros compo- nentes. 12
  • 13. Especialización Maestrı́a Datamining Tempone, Pablo Figura 5: Factor Map En cada cuadrante se visualizan las caracterı́sticas más destacadas de cada posición. En el cuadrante superior izquierdo, se observan las carac- terı́sticas propias de los defensores. En el inferior izquierdo, las acciones más comunes de los arqueros: las atajadas. Los delanteros están en todo el eje inferior a la Dim 2, que es donde se desta- can los tiros que les atajaron, los goles convertidos y los offsides (posiciones fuera de juego) que sufrieron por jugar adelantados. Por último, en el cuadrante superior derecho, se agrupan caracterı́sticas de los medio campistas, éstas son los pases y las faltas recibidas y hechas. 3.3.4. Clustering En esta etapa busqué encontrar una agrupación para los jugadores. Se aplicó la técnica de agrupamiento jerárquico con promedios. La técnica fue usada ya que el volumen de los datos no eran muchos y permitı́a visualmente probar distintos grupos. Se decidió cortar en tres grupos ya que al cortar en cuatro quedaba un gru- po más reducido y no representativo de algún grupo. Al cortar en tres Los resultados fueron interesantes. En la figura 6 se muestra el punto de corte generado en el dendograma: 13
  • 14. Especialización Maestrı́a Datamining Tempone, Pablo Figura 6: Agrupamiento Jerárquico de jugadores Figura 7: Agrupamientos usando Componentes Principales En la figura 7 observo que en el “Cluster 1” los arqueros se separan de los demás jugadores. Los “Cluster 2” y “Cluster 3” marcan una diferencia 14
  • 15. Especialización Maestrı́a Datamining Tempone, Pablo entre jugadores ofensivos y defensivos, el primero agrupa los jugadores con tendencia defensiva y el segundo a los que tienen caracterı́sticas ofensivas. Esta diferenciación es interesante ya que no siempre es fácil saber qué juga- dores mediocampistas tienen más orientación defensiva que ofensiva. En la figura 8 se combinan las variables con los clusters para reforzar el concepto. Figura 8: Biplot con grupos 3.3.5. ¿Los jugadores son más ofensivos cuando son locales? En la previa a un partido, se suelen escuchar frases como “juegan de lo- cal, seguramente vayan a buscar el partido”. Esa suposición se repite tanto en programas deportivos como entre los hinchas de los clubes. La frase asu- me que los jugadores se comportan de distinta manera, según sean visitantes o locales. Exploración de las poblaciones Para verificar la teorı́a anterior analicé el comportamiento de los jugadores sumando las variables “disparos afue- ra”, “disparos atajados” y “goles convertidos” (entendiendo esta variable como un tiro). Son las variables principales que demuestran vocación ofensi- 15
  • 16. Especialización Maestrı́a Datamining Tempone, Pablo va, como se vio en el análisis de componentes principales y de agrupamientos. Figura 9: Densidad de disparos al arco 16
  • 17. Especialización Maestrı́a Datamining Tempone, Pablo Figura 10: Boxplot de disparos al arco Si bien en la figura 9 se notan algunas diferencias, cuando se analizan los boxplots (figura 10) esas disimilitudes no parecen tan llamativas. Otro rasgo que se observa es que no son poblaciones con distribuciones nor- males. Prueba de la hipótesis Realicé la prueba de los rangos con signo de Wilcoxon para ver si existen diferencias en los comportamientos de los ju- gadores de visitante y de local. Como preparación previa, en el análisis tomé solo a los jugadores que se desempeñaron como titulares y suplentes. Es decir, que ocuparon los dos roles. Planteo de la hipótesis: Los jugadores de local y de visitante hicieron la misma cantidad de tiros al arco. H0 : θ1 − θ2 = 0 Hipótesis alternativa: Hay evidencia de que los jugadores de visitante no 17
  • 18. Especialización Maestrı́a Datamining Tempone, Pablo se comportan igual que jugando como local. Ha : θ1 − θ2 6= 0 Grupo media Desviación Estándar L 0,01 0,01 V 0,01 0,01 Cuadro 2: Medias y desvı́os por grupo Realicé el test de Wilcoxon sobre el listado de los jugadores y se ve lo siguiente: Test de rangos con signos de Wilcoxon con corrección de continuidad. Datos: jugadores tiros$L and jugadores tiros$V V = 490470, p − value ≤ 2,2e − 16 Conclusión: con un 0,05 de significación, los futbolistas argentinos no se comportan ofensivamente de la misma manera cuando son locales o visitan- tes. Esto da soporte a la suposición popular. Entendiendo que esta diferencia es parte de un comportamiento grupal al ser un juego de equipo, y que hay indicios estadı́sticos de estas diferencias, los equipos que reduzcan esta dife- rencia van a poder mantener un funcionamiento más estable en el tiempo . 18
  • 19. Especialización Maestrı́a Datamining Tempone, Pablo 3.4. Aplicación de técnicas con el foco en los equipos En esta sección puse como centro del estudio las caracterı́sticas de los 33 equipos durante las temporadas de 2013 a 2016. Dividiré el análisis en tres partes: un análisis de componentes principales, otro de agrupamientos, y un tercero en el que se visualizan los distintos equipos con las caras de Chernoff. Para la preparación, promedié los valores totales de cada variable sobre la cantidad de partidos jugados para igualar a todos los equipos. En forma histórica, se dividió a los equipos en grandes y chicos. Entre los grandes, se ubica a Boca, Independiente, Racing, River y San Lorenzo. Con los datos de los últimos cuatro años, este estudio intentó encontrar maneras nuevas de agruparlos. 3.4.1. Clustering Para partir en grupos los equipos, utilicé el agrupamiento jerárquico con componentes principales y el método de Ward. Divisé dos grandes grupos en los equipos. Figura 11: Biplot con Agrupamientos de equipos Los equipos más ofensivos se encuentran en el “grupo 2” y el resto en 19
  • 20. Especialización Maestrı́a Datamining Tempone, Pablo otro. En la Figura 11, se nota que a la derecha del eje 0 de la dimensión 1 -aquella que destaca la mayor cantidad de situaciones ofensivas, goles y asistencias realizadas- están los equipos que tuvieron torneos más exitosos. Otro detalle es que los “5 grandes” del fútbol argentino se encuentran a la derecha, a pesar de que varios de ellos, como Racing e Independiente, tuvieron torneos irregulares. 3.4.2. ¿Qué equipos son parecidos entre sı́? En este análisis hay 33 equipos. Lanús (con Almirón como DT) y San Lorenzo (con Aguirre como DT) tienen ideas de juego similares, pero cuan- do se comparan varias temporadas para ver si en el tiempo se sostienen los planteos, ¿puede decirse con tanta seguridad que los equipos tienen ideas parecidas? Apliqué la técnica “caras de Chernoff” para ver de una manera más ami- gable qué equipos se parecen y cómo se diferencian. 3.4.3. Variables de cada aspecto El cuadro 3 muestra qué aspecto de la cara representa cada variable. Item que modifica Variable 1 Altura de la cara pr goles convertidos 2 Ancho de la cara pr asistencias 3 Estructura de la cara pr disparo afuera 4 Altura de la boca pr disparo atajado 5 Ancho de la boca pr faltas 6 Sonrisa pr faltas recibidos 7 Altura de los ojos pr offsides 8 Ancho de los ojos pr amarillas 9 Altura del pelo pr expulsados 10 Ancho del pelo pr pase correcto 11 Estilo de peinado pr incorrecto 12 Altura de la nariz pr despejes 13 Ancho de la nariz pr quites 14 Ancho de las orejas pr atajadas 15 Alto de las orejas pr goles convertidos Cuadro 3: Variables y Aspecto que modifican 20
  • 21. Especialización Maestrı́a Datamining Tempone, Pablo 3.4.4. Caras de Chernoff Ya se demostró cómo se pueden agrupar los equipos, ahora, muestro cuáles se parecen entre sı́ desde otra perspectiva. Figura 12: Equipos y sus caras Atlético de Tucumán tiene la cara más particular. No es fácil encontrarle similitudes con el resto de los planteles. Una posible consecuencia de este comportamiento es que participó, por primera vez en la historia, en la copa Libertadores. ¿Un equipo con pocos recursos necesita encontrar combinacio- nes distintas para poder lograr esos hitos? Es una pregunta interesante de plantear. Entre los equipos que no tuvieron buenos rendimientos hay bastantes si- militudes. Sarmiento, Temperley, All Boys, Argentinos Juniors, Olimpo y Crucero del Norte descendieron o tuvieron muy malos torneos. Los juegos de parecidos sirven para que los clubes vean en forma rápida si se parecen al equipo campeón o tienen rasgos similares con los equipos de peor desempeño. 21
  • 22. Especialización Maestrı́a Datamining Tempone, Pablo 3.5. Modelado Para modelar la base apliqué técnicas de suma, promedio y diferencias para que las variables que estaban a nivel de jugador pasen a nivel de equi- pos. Luego separé en dos bases, una con los equipos locales y otro con los visitan- tes. Usé la función lag para obtener los valores promediados de los últimos 5 partidos anteriores al que se disputa. Finalmente junté en un mismo registro los datos de los equipos visitantes y locales, y si el equipo local realizaba más goles que el visitante obtenı́a mi variable objetivo, Victoria = 1, Empate o Derrota = 0. Para probar si era predictivo el resultado con las variables originales más variables creadas, ejecuté el algoritmo rpart, para partir de un algoritmo más simple y ver cuanto se podrı́a mejorar. Los resultados no fueron satis- factorios, con área bajo la curva (AUC)[8] cercanos a 0.5, con lo que no se puede superar el azar. Como modelos finales usé Random Forest[1] y XGboost[2], ambos métodos de ensamble de árboles de decisión. Random forest se puede representar de la siguiente manera: Algorithm 1 Random Forest para Regresión o Clasificación. 1: for b = 1 to B: do 2: (a) Dibujar un muestreo bootstrap Z’ de tamaño N desde los datos de entrenamiento. 3: (b) Crear un árbol del Random Forest Tb sobre los datos muestrea- dos, recursivamente repetir los siguientes pasos para cada nodo terminal del árbol, hasta que el nodo mı́nimo de tamaño nmin es alcanzado. 4: i. Seleccionar m variables al azar de p variables. 5: ii. Elegir la mejor variable/punto de separación entre las m. 6: iii. Separar el nodo en dos nodos hijos. 7: Salidad del ensamble de árboles {Tb}B 1 8: Para realizar una predicción en un nuevo punto x: 9: Regresión ˆ fB rf = 1 B PB b=1 Tb(x). 10: Clasificación Sea Ĉb(x) la clase a predecir de bth bosques de decisión. Entonces Ĉb(x) = el voto mayoritario {Ĉb(x)}B 1 . 22
  • 23. Especialización Maestrı́a Datamining Tempone, Pablo XGboost es una implementación de gradient boosting, a continuación en pseudo código se explica una formalización simple. Algorithm 2 Gradient Boosting Ajustar el modelo a los datos, F1(x) = y 2: Ajustar el modelo a los residuales, h1(x) = y − F1(x) Crear un nuevo modelo, F2(x) = F1(x) + h1(x) Como métrica de medición de los modelos uso el área bajo la curva (AUC). θ = Pr(x+ > x−) 23
  • 24. Especialización Maestrı́a Datamining Tempone, Pablo 4. Resultados Los resultados obtenidos comparando los dos modelos mencionados en la sección anterior no fueron satisfactorios. En la figura 13 se comparan los modelos usando el área bajo la curva (AUC), como métrica para medir la efectividad de los modelos, sobre los set de test. Figura 13: Comparación de AUC en los dos modelos probados Los resultados demostraron que con las variables utilizadas y la cantidad de casos que se tienen, no se pudo predecir con un resultado aceptable los partidos del fútbol argentino, los dos modelos están cercanos al azar por lo que no resultan confiables. Posibles razones para que los resultados no hayan sido los esperados, los encuentro en los problemas que tienen los clubes argentinos, para retener a los jugadores buenos ante los clubes con más poder económico, la fal- ta de continuidad en los proyectos deportivos (mucha rotación de técnicos, ante falta de resultados deportivos satisfactorios). Esto sumado a que en perı́odos de incorporación, los clubes llegan a incorporar hasta 10 jugado- res, generando un recambio en los equipos, que conlleva a encontrar nuevas micro-sociedades en el campo de juego. Esto solamente tomando los eventos deportivos, hay efectos no medibles o que escapan del alcance de la información que se tiene sobre los rendimientos, como la falta de pagos en los sueldos, clubes endeudados y con problemas, que pueden llegar a afectar en el rendimiento de algunos jugadores. 24
  • 25. Especialización Maestrı́a Datamining Tempone, Pablo 5. Conclusiones A pesar de que los resultados no fueron satisfactorios o los esperados al comenzar el análisis. La parte que más valoro de este estudio, no es el intento de predecir los resultados deportivos, sino el valor asociado en los estudios de los jugadores y los equipos. Como el poder comparar jugadores, para que futuras contrataciones se ajusten a los perfiles buscados. En una disciplina dominada por las habilidades fı́sicas y la intuición, el análisis de los datos para la contratación de jugadores, evolución de jóvenes talentos y asociación de los jugadores dentro del campo, representan un valor agregado para los clubes con situaciones económicas precarias, y dificulta- des para competir en igualdad de condiciones con clubes que representan potencias económicas. 25
  • 26. Especialización Maestrı́a Datamining Tempone, Pablo Referencias [1] Leo Breiman. Random forests. Machine Learning, 45:5–32, Oct 2001. [2] Tianqi Chen and Carlos Guestrin. Xgboost: A scalable tree boosting system. arXiv:1603.02754 [cs], pages 785–794, 2016. arXiv: 1603.02754. [3] Ap Dijksterhuis, Maarten W. Bos, Andries van der Leij, and Rick B. van Baaren. Predicting soccer matches after unconscious and conscious thought as a function of expertise. Psychological Science, 20(11):1381– 1387, 2009. PMID: 19818044. [4] G. James, D. Witten, T. Hastie, and R. Tibshirani. An Introduction to Statistical Learning: with Applications in R. Springer Texts in Statistics. Springer New York, 2013. [5] Stylianos Kampakis and William Thomas. Using machine learning to predict the outcome of english county twenty over cricket matches. ar- Xiv:1511.05837 [stat], Nov 2015. arXiv: 1511.05837. [6] Sebastien Le, Julie Josse, and Francois Husson. Factominer: An r pac- kage for multivariate analysis. Journal of Statistical Software, Articles, 25(1):1–18, 2008. [7] D. Peña. Análisis de datos multivariantes. Editorial desconocida, 2002. [8] Saharon Rosset. Model selection via the auc. Sep 2004. [9] Havard Rue and Oyvind Salvesen. Prediction and retrospective analysis of soccer matches in a league. Journal of the Royal Statistical Society: Series D (The Statistician), 49(3):399–418, 2000. 26