Predicción de acciones en tiempo real con ML

CLÀUDIA MASÓS TORRÓ
ALBERT OBIOLS VIVES
CLAUDIA MARCELA RAMÍREZ ZULUAGA
Posgrado en Big Data Management and Analytics
BrokerTrade
APLICACIÓN DE RECOMENDACIÓN PARA LA COMPRA
DE ACCIONES EN TIEMPO REAL

Índice
• Propuesta de negocio
• Data Management
• Data Analytics
• Demo
2

Propuesta de Negocio: Idea
4
Poner al alcance del pequeño inversor una
aplicación Web basada en algoritmos de
aprendizaje automático que le permita auto-
gestionar sus inversiones, y ayudarle a
determinar si un momento es propicio o no
para la compra de activos.
Ganar 10% haciendo
predicciones en 20 sesiones

Propuesta de Negocio: Fuente de datos
5

Propuesta de Negocio: Oportunidad
6
OBJETIVA
Sin intermediarios en…
compra y venta de activos
Sin intereses
humanos
Recomendación
Autogestión
Asesoramiento
Big data
Facilidad de uso
Sin experiencia
en finanzas
Pequeño inversor

Propuesta de Negocio: Modelo de negocio
7
Datos históricos
Infraestructura
Cloud
Pequeño inversor
Autogestión
Objetividad
Predicciones
Mejora modelos
Social
Commerce
B2C
Virtual
Automática
Anuncios
Publicidad
Campañas automáticas
Desarrollo
Modelos
Infraestructura
Fuente datos
Algoritmo ML
Infraestructura
Recursos
Recursos
Inversión Infraestructura
Desarrollo y Marketing
Distribución

Propuesta de Negocio: Viabilidad económica
8
Primer año
• Modelo de negocio => Freemium.
• 2.100 euros de coste hardware + publicidad
– CPC (Cost per click)
– CPM (precio que nos paga nuestro proveedor de
anuncios por cada 1000 anuncios mostrados)
– plataforma de anuncios (Google AdWords )
• 1.400 visitas al día para cubrir gastos
Segundo año en adelante…
• Predicciones de otros mercados
• Predicciones a la carta
• Predicciones parametrizables
• Notificaciones por predicción de compra

Data Management: Arquitectura del sistema
10

Data Management: Data Ingestion
11
BBVA 12:00:00 6,46
CABK 12:00:00 2,73
GRF 12:00:01 18,69
GAM 12:00:03 21,47
TEF 12:00:04 9,21
CABK 12:00:15 2,70
GRF 12:00:16 18,65
GAM 12:00:17 21,48
BBVA 12:00:30 6,48
CABK 12:00:30 2,70
GRF 12:00:31 18,67
BBVA 12:00:00 6,46
CABK 12:00:15 2,70
GRF 12:00:16 18,65
GAM 12:00:17 21,48
TEF 12:00:04 9,21
BBVA 12:00:30 6,48
CABK 12:00:30 2,70
GRF 12:00:31 18,67
GAM 12:00:17 21,48
TEF 12:00:04 9,21
{ "change" : "-0.285000","chg_percent" : "-1.319444","day_high" :
"2.525000","day_low" : "2.435000","issuer_name" : "EmpresaA","name" :
"EmpresaA","price" : "2.50000","symbol" : "EMPA.MC","ts" : "1475249703","type" :
"equity","utctime" : "2016-10-05T15:35:03+0000","volume" : "1471277","year_high"
: "2.820000","year_low" : "1.960000"}

Data Management: Análisis de Datos (Machine Learning)
12

Data Management: Publicación de las predicciones
13

Data Management: Publicación de las predicciones
14

Data Management: Data Flow y distribución de los cálculos
15
BBVA 6,46
BBVA 6,46
BBVA 6,46
BBVA6,46
CABK2,70
ELE19,05
BBVA 6,46 BUY
CABK 2,7 ---
ELE 19,05 --

Data Management: Herramientas seleccionadas
16

Data Management: Análisis Cuantitativo
Números
• 35 acciones monitorizadas
• 3 modelos para cada una de
las acciones (SVM, RF, LR)
• 105 modelos en total que se
recalculan cada día
• 8.000 predicciones al día y sus
correspondientes registros en
MongoDB
• 41.248 registros con datos de
cotizaciones desde Enero de
2012
Tiempos
• 4 segundos para predecir 35
valores
• 0,12 segundos de media para
realizar una predicción
• 10 minutos para recalcular
todos los modelos
• 6 segundos en recalcular cada
modelo
• 11 – 12 segundos de media,
desde que leemos una
cotización en Yahoo Finance
hasta que el usuario la ve
publicada en la web.
17

Data Management: Análisis Cuantitativo
Disco
• 180 MB scripts en R + jar de
getPrices + el jar de Spark
Stream.
• 72 MB ocupan los 105 modelos
en local (en HDFS el espacio
ocupado depende del block
size, en nuestro caso los
ficheros son bastante pequeños
y por tanto nos interesa un
block size pequeño).
• 200 MB BBDD mongo con las
cotizaciones históricas y las
predicciones al cierre de 3
meses.
18

Data analytics
20
1.Obtención de los datos
• Gratis
• Limpios
1.1. Datos en vivo (15-20 minutos de demora):
1.2. Datos históricos:
Problema: Los algoritmos de Machine Learning no son aplicables
a las series temporales

21
2. Creación de los dataframes
Data analytics
• Simplificación: transformación a un problema de clasificación
• Variable objetivo: Aumento del 10% en 20 sesiones
2.1. Series temporales vs observaciones independientes
2.2. Transformación de las variables
• Cálculo de indicadores:
• Simple Moving Average (SMA)
• Rate Of Change (ROC)
• Triple cruce de medias
• Doble cruce de medias
• Commodity Channel index (CCI)
• Variables derivadas:
• DíasSMA
• DiasROC
• DiasTRIP_CRUCE
• DiasDOB_CRUCE
• DiasCCI
• SUBE

22
Data analytics
3. Técnicas de Machine Learning
3.1. Logistic Regression (LR):
- No necesita optimización de parámetros
- Es el modelo más simple
3.2 Random Forest (RF):
- Método robusto
- Necesita optimizar el parámetro “mtry”.
3.3 Support Vector Machine (SVM):
- Método robusto
- Kernel Radial
- Necesita optimizar varios parámetros: el coste (C) y la gamma.
4. Protocolo de validación
3 modelos para
cada ticker
4.1 10-fold CrossValidation (10-CV):
- Más fiable que Test & Train
- Misma partición de los datos: eliminamos casos “buenos” aleatorios
- Nos devuelve la media de la performance de 10 modelos
- Tenemos un número que nos permite “puntuar” el modelo.

23
Data analytics
4.2 Area Under the Curve (AUC):
- Más fiable que la Accuracy o cualquier método que derive de la matriz de confusión.
- Independiente del porcentaje de casos positivos o negativos (datasets imbalanceados).
5. Matriz de resultados
• Para cada ticker de bolsa tenemos 3 modelos
• Todos los modelos están por encima del 0.65 de AUC.
• En la mayoría de los tickers, el mejor modelo es el de RF.
• Los modelos de LR no son mejores en ninguno de los
casos.

24
Data analytics: Resultados obtenidos
6. Resultados
Julio
Agosto
Septiembre
- 735 predicciones
- 534 aciertos
- 34 True positives
- 805 predicciones
- 608 aciertos
- 31 True positives
- 667 predicciones
- 533 aciertos
- 10 True positives

Predicción de acciones en tiempo real con ML

Recomendados

Recomendados

Más contenido relacionado

Similar a Predicción de acciones en tiempo real con ML

Similar a Predicción de acciones en tiempo real con ML (20)

Último

Último (17)

Predicción de acciones en tiempo real con ML