SlideShare una empresa de Scribd logo
1 de 31
Descargar para leer sin conexión
CLÀUDIA MASÓS TORRÓ
ALBERT OBIOLS VIVES
CLAUDIA MARCELA RAMÍREZ ZULUAGA
Posgrado en Big Data Management and Analytics
BrokerTrade
APLICACIÓN DE RECOMENDACIÓN PARA LA COMPRA
DE ACCIONES EN TIEMPO REAL
Índice
• Propuesta de negocio
• Data Management
• Data Analytics
• Demo
2
Propuesta de Negocio
3
Propuesta de Negocio: Idea
4
Poner al alcance del pequeño inversor una
aplicación Web basada en algoritmos de
aprendizaje automático que le permita auto-
gestionar sus inversiones, y ayudarle a
determinar si un momento es propicio o no
para la compra de activos.
Ganar 10% haciendo
predicciones en 20 sesiones
Propuesta de Negocio: Fuente de datos
5
Propuesta de Negocio: Oportunidad
6
OBJETIVA
Sin intermediarios en…
compra y venta de activos
Sin intereses
humanos
Recomendación
Autogestión
Asesoramiento
Big data
Facilidad de uso
Sin experiencia
en finanzas
Pequeño inversor
Propuesta de Negocio: Modelo de negocio
7
Datos históricos
Infraestructura
Cloud
Pequeño inversor
Autogestión
Objetividad
Predicciones
Mejora modelos
Social
Commerce
B2C
Virtual
Automática
Anuncios
Publicidad
Campañas automáticas
Desarrollo
Modelos
Infraestructura
Fuente datos
Algoritmo ML
Infraestructura
Recursos
Recursos
Inversión Infraestructura
Desarrollo y Marketing
Distribución
Propuesta de Negocio: Viabilidad económica
8
Primer año
• Modelo de negocio => Freemium.
• 2.100 euros de coste hardware + publicidad
– CPC (Cost per click)
– CPM (precio que nos paga nuestro proveedor de
anuncios por cada 1000 anuncios mostrados)
– plataforma de anuncios (Google AdWords )
• 1.400 visitas al día para cubrir gastos
Segundo año en adelante…
• Predicciones de otros mercados
• Predicciones a la carta
• Predicciones parametrizables
• Notificaciones por predicción de compra
Data Management
9
Data Management: Arquitectura del sistema
10
Data Management: Data Ingestion
11
BBVA 12:00:00 6,46
CABK 12:00:00 2,73
GRF 12:00:01 18,69
GAM 12:00:03 21,47
TEF 12:00:04 9,21
CABK 12:00:15 2,70
GRF 12:00:16 18,65
GAM 12:00:17 21,48
BBVA 12:00:30 6,48
CABK 12:00:30 2,70
GRF 12:00:31 18,67
BBVA 12:00:00 6,46
CABK 12:00:15 2,70
GRF 12:00:16 18,65
GAM 12:00:17 21,48
TEF 12:00:04 9,21
BBVA 12:00:30 6,48
CABK 12:00:30 2,70
GRF 12:00:31 18,67
GAM 12:00:17 21,48
TEF 12:00:04 9,21
{ "change" : "-0.285000","chg_percent" : "-1.319444","day_high" :
"2.525000","day_low" : "2.435000","issuer_name" : "EmpresaA","name" :
"EmpresaA","price" : "2.50000","symbol" : "EMPA.MC","ts" : "1475249703","type" :
"equity","utctime" : "2016-10-05T15:35:03+0000","volume" : "1471277","year_high"
: "2.820000","year_low" : "1.960000"}
Data Management: Análisis de Datos (Machine Learning)
12
Data Management: Publicación de las predicciones
13
Data Management: Publicación de las predicciones
14
Data Management: Data Flow y distribución de los cálculos
15
BBVA 6,46
BBVA 6,46
BBVA 6,46
BBVA6,46
CABK2,70
ELE19,05
BBVA 6,46 BUY
CABK 2,7 ---
ELE 19,05 --
Data Management: Herramientas seleccionadas
16
Data Management: Análisis Cuantitativo
Números
• 35 acciones monitorizadas
• 3 modelos para cada una de
las acciones (SVM, RF, LR)
• 105 modelos en total que se
recalculan cada día
• 8.000 predicciones al día y sus
correspondientes registros en
MongoDB
• 41.248 registros con datos de
cotizaciones desde Enero de
2012
Tiempos
• 4 segundos para predecir 35
valores
• 0,12 segundos de media para
realizar una predicción
• 10 minutos para recalcular
todos los modelos
• 6 segundos en recalcular cada
modelo
• 11 – 12 segundos de media,
desde que leemos una
cotización en Yahoo Finance
hasta que el usuario la ve
publicada en la web.
17
Data Management: Análisis Cuantitativo
Disco
• 180 MB scripts en R + jar de
getPrices + el jar de Spark
Stream.
• 72 MB ocupan los 105 modelos
en local (en HDFS el espacio
ocupado depende del block
size, en nuestro caso los
ficheros son bastante pequeños
y por tanto nos interesa un
block size pequeño).
• 200 MB BBDD mongo con las
cotizaciones históricas y las
predicciones al cierre de 3
meses.
18
Data Analytics
19
Data analytics
20
1.Obtención de los datos
• Gratis
• Limpios
1.1. Datos en vivo (15-20 minutos de demora):
1.2. Datos históricos:
Problema: Los algoritmos de Machine Learning no son aplicables
a las series temporales
21
2. Creación de los dataframes
Data analytics
• Simplificación: transformación a un problema de clasificación
• Variable objetivo: Aumento del 10% en 20 sesiones
2.1. Series temporales vs observaciones independientes
2.2. Transformación de las variables
• Cálculo de indicadores:
• Simple Moving Average (SMA)
• Rate Of Change (ROC)
• Triple cruce de medias
• Doble cruce de medias
• Commodity Channel index (CCI)
• Variables derivadas:
• DíasSMA
• DiasROC
• DiasTRIP_CRUCE
• DiasDOB_CRUCE
• DiasCCI
• SUBE
22
Data analytics
3. Técnicas de Machine Learning
3.1. Logistic Regression (LR):
- No necesita optimización de parámetros
- Es el modelo más simple
3.2 Random Forest (RF):
- Método robusto
- Necesita optimizar el parámetro “mtry”.
3.3 Support Vector Machine (SVM):
- Método robusto
- Kernel Radial
- Necesita optimizar varios parámetros: el coste (C) y la gamma.
4. Protocolo de validación
3 modelos para
cada ticker
4.1 10-fold CrossValidation (10-CV):
- Más fiable que Test & Train
- Misma partición de los datos: eliminamos casos “buenos” aleatorios
- Nos devuelve la media de la performance de 10 modelos
- Tenemos un número que nos permite “puntuar” el modelo.
23
Data analytics
4.2 Area Under the Curve (AUC):
- Más fiable que la Accuracy o cualquier método que derive de la matriz de confusión.
- Independiente del porcentaje de casos positivos o negativos (datasets imbalanceados).
5. Matriz de resultados
• Para cada ticker de bolsa tenemos 3 modelos
• Todos los modelos están por encima del 0.65 de AUC.
• En la mayoría de los tickers, el mejor modelo es el de RF.
• Los modelos de LR no son mejores en ninguno de los
casos.
24
Data analytics: Resultados obtenidos
6. Resultados
Julio
Agosto
Septiembre
- 735 predicciones
- 534 aciertos
- 34 True positives
- 805 predicciones
- 608 aciertos
- 31 True positives
- 667 predicciones
- 533 aciertos
- 10 True positives
Demo
25
26
Demo: Streaming
Demo: Streaming
27
Demo: Streaming
28
29
Demo: BrokerTrade
30
Demo: BrokerTrade
31
Demo: BrokerTrade

Más contenido relacionado

Similar a Predicción de acciones en tiempo real con ML

El futuro de los territorios y ciudades inteligentes
El futuro de los territorios y ciudades inteligentesEl futuro de los territorios y ciudades inteligentes
El futuro de los territorios y ciudades inteligentesAMETIC
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...COIICV
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouseEduardo Castro
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azureEduardo Castro
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...JCarlos Gonzalez Joyé
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Presentación Corporativa 2014
Presentación Corporativa 2014Presentación Corporativa 2014
Presentación Corporativa 2014DatKnoSys
 
Webinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analíticaWebinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analíticaNexolution
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataDMC Perú
 
Big Data, como monetizar el dato espacial
Big Data, como monetizar el dato espacialBig Data, como monetizar el dato espacial
Big Data, como monetizar el dato espacialEsri España
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaNexolution
 

Similar a Predicción de acciones en tiempo real con ML (20)

El futuro de los territorios y ciudades inteligentes
El futuro de los territorios y ciudades inteligentesEl futuro de los territorios y ciudades inteligentes
El futuro de los territorios y ciudades inteligentes
 
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
J. Verdura. Big Data: la nueva frontera de la revolución digital. Semanainfor...
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
28 cityanalytics slide
28 cityanalytics slide28 cityanalytics slide
28 cityanalytics slide
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 
Analisis predictivo con microsoft azure
Analisis predictivo con microsoft azureAnalisis predictivo con microsoft azure
Analisis predictivo con microsoft azure
 
Exprimiendo Google Analytics
Exprimiendo Google AnalyticsExprimiendo Google Analytics
Exprimiendo Google Analytics
 
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
Modelos predictivos para el sector asegurador usando datos masivos (Big Data ...
 
Entregable final
Entregable finalEntregable final
Entregable final
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Presentación Corporativa 2014
Presentación Corporativa 2014Presentación Corporativa 2014
Presentación Corporativa 2014
 
Webinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analíticaWebinar impulse su negocio con prediccion analítica
Webinar impulse su negocio con prediccion analítica
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Big Data, como monetizar el dato espacial
Big Data, como monetizar el dato espacialBig Data, como monetizar el dato espacial
Big Data, como monetizar el dato espacial
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Cómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresaCómo aplicar el análisis predictivo en la empresa
Cómo aplicar el análisis predictivo en la empresa
 
Proyecto de Minería de Datos
Proyecto de Minería de DatosProyecto de Minería de Datos
Proyecto de Minería de Datos
 

Último

QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdfQUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdflupismdo
 
Politicas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxPoliticas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxvladisse
 
El cheque 1 y sus tipos de cheque.pptx
El cheque  1 y sus tipos de  cheque.pptxEl cheque  1 y sus tipos de  cheque.pptx
El cheque 1 y sus tipos de cheque.pptxNathaliTAndradeS
 
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTMETODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTrodrigolozanoortiz
 
ejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosguillencuevaadrianal
 
Principios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfPrincipios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfauxcompras5
 
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICOlupismdo
 
Sistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionSistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionPedroSalasSantiago
 
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdfMANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdflupismdo
 
Análisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayAnálisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayEXANTE
 
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docPRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docmilumenko
 
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSTEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSreyjuancarlosjose
 
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.ManfredNolte
 
canasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxcanasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxarmandoantoniomartin1
 
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfmercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfGegdielJose1
 
puntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfpuntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfosoriojuanpablo114
 

Último (17)

QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdfQUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
QUE REQUISITOS DEBO CUMPLIR PARA PENSIONARME.pdf
 
Politicas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptxPoliticas publicas para el sector agropecuario en México.pptx
Politicas publicas para el sector agropecuario en México.pptx
 
El cheque 1 y sus tipos de cheque.pptx
El cheque  1 y sus tipos de  cheque.pptxEl cheque  1 y sus tipos de  cheque.pptx
El cheque 1 y sus tipos de cheque.pptx
 
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPTMETODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
METODOS ESCALA SALARIAL EN ESTRUCTURAS.PPT
 
ejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulosejemplo de tesis para contabilidad- capitulos
ejemplo de tesis para contabilidad- capitulos
 
Principios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdfPrincipios de economia Mankiw 6 edicion.pdf
Principios de economia Mankiw 6 edicion.pdf
 
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
41 RAZONES DE PORQUE SI ESTAMOS MAL EN MÉXICO
 
Sistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacionSistema de Control Interno aplicaciones en nuestra legislacion
Sistema de Control Interno aplicaciones en nuestra legislacion
 
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdfMANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
MANUAL PARA OBTENER MI PENSIÓN O RETIRAR MIS RECURSOS.pdf
 
Análisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en UruguayAnálisis de la Temporada Turística 2024 en Uruguay
Análisis de la Temporada Turística 2024 en Uruguay
 
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.docPRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
PRUEBA PRE ICFES ECONOMIA. (4) - copia.doc
 
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOSTEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
TEMA 3 DECISIONES DE INVERSION Y FINANCIACION UNIVERISDAD REY JUAN CARLOS
 
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.LOS MIMBRES HACEN EL CESTO: AGEING  REPORT.
LOS MIMBRES HACEN EL CESTO: AGEING REPORT.
 
canasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptxcanasta basica de la india original 2 .pptx
canasta basica de la india original 2 .pptx
 
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdfmercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
mercado de capitales universidad simon rodriguez - guanare (unidad I).pdf
 
Mercado Eléctrico de Ecuador y España.pdf
Mercado Eléctrico de Ecuador y España.pdfMercado Eléctrico de Ecuador y España.pdf
Mercado Eléctrico de Ecuador y España.pdf
 
puntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdfpuntos-clave-de-la-reforma-pensional-2023.pdf
puntos-clave-de-la-reforma-pensional-2023.pdf
 

Predicción de acciones en tiempo real con ML

  • 1. CLÀUDIA MASÓS TORRÓ ALBERT OBIOLS VIVES CLAUDIA MARCELA RAMÍREZ ZULUAGA Posgrado en Big Data Management and Analytics BrokerTrade APLICACIÓN DE RECOMENDACIÓN PARA LA COMPRA DE ACCIONES EN TIEMPO REAL
  • 2. Índice • Propuesta de negocio • Data Management • Data Analytics • Demo 2
  • 4. Propuesta de Negocio: Idea 4 Poner al alcance del pequeño inversor una aplicación Web basada en algoritmos de aprendizaje automático que le permita auto- gestionar sus inversiones, y ayudarle a determinar si un momento es propicio o no para la compra de activos. Ganar 10% haciendo predicciones en 20 sesiones
  • 5. Propuesta de Negocio: Fuente de datos 5
  • 6. Propuesta de Negocio: Oportunidad 6 OBJETIVA Sin intermediarios en… compra y venta de activos Sin intereses humanos Recomendación Autogestión Asesoramiento Big data Facilidad de uso Sin experiencia en finanzas Pequeño inversor
  • 7. Propuesta de Negocio: Modelo de negocio 7 Datos históricos Infraestructura Cloud Pequeño inversor Autogestión Objetividad Predicciones Mejora modelos Social Commerce B2C Virtual Automática Anuncios Publicidad Campañas automáticas Desarrollo Modelos Infraestructura Fuente datos Algoritmo ML Infraestructura Recursos Recursos Inversión Infraestructura Desarrollo y Marketing Distribución
  • 8. Propuesta de Negocio: Viabilidad económica 8 Primer año • Modelo de negocio => Freemium. • 2.100 euros de coste hardware + publicidad – CPC (Cost per click) – CPM (precio que nos paga nuestro proveedor de anuncios por cada 1000 anuncios mostrados) – plataforma de anuncios (Google AdWords ) • 1.400 visitas al día para cubrir gastos Segundo año en adelante… • Predicciones de otros mercados • Predicciones a la carta • Predicciones parametrizables • Notificaciones por predicción de compra
  • 11. Data Management: Data Ingestion 11 BBVA 12:00:00 6,46 CABK 12:00:00 2,73 GRF 12:00:01 18,69 GAM 12:00:03 21,47 TEF 12:00:04 9,21 CABK 12:00:15 2,70 GRF 12:00:16 18,65 GAM 12:00:17 21,48 BBVA 12:00:30 6,48 CABK 12:00:30 2,70 GRF 12:00:31 18,67 BBVA 12:00:00 6,46 CABK 12:00:15 2,70 GRF 12:00:16 18,65 GAM 12:00:17 21,48 TEF 12:00:04 9,21 BBVA 12:00:30 6,48 CABK 12:00:30 2,70 GRF 12:00:31 18,67 GAM 12:00:17 21,48 TEF 12:00:04 9,21 { "change" : "-0.285000","chg_percent" : "-1.319444","day_high" : "2.525000","day_low" : "2.435000","issuer_name" : "EmpresaA","name" : "EmpresaA","price" : "2.50000","symbol" : "EMPA.MC","ts" : "1475249703","type" : "equity","utctime" : "2016-10-05T15:35:03+0000","volume" : "1471277","year_high" : "2.820000","year_low" : "1.960000"}
  • 12. Data Management: Análisis de Datos (Machine Learning) 12
  • 13. Data Management: Publicación de las predicciones 13
  • 14. Data Management: Publicación de las predicciones 14
  • 15. Data Management: Data Flow y distribución de los cálculos 15 BBVA 6,46 BBVA 6,46 BBVA 6,46 BBVA6,46 CABK2,70 ELE19,05 BBVA 6,46 BUY CABK 2,7 --- ELE 19,05 --
  • 16. Data Management: Herramientas seleccionadas 16
  • 17. Data Management: Análisis Cuantitativo Números • 35 acciones monitorizadas • 3 modelos para cada una de las acciones (SVM, RF, LR) • 105 modelos en total que se recalculan cada día • 8.000 predicciones al día y sus correspondientes registros en MongoDB • 41.248 registros con datos de cotizaciones desde Enero de 2012 Tiempos • 4 segundos para predecir 35 valores • 0,12 segundos de media para realizar una predicción • 10 minutos para recalcular todos los modelos • 6 segundos en recalcular cada modelo • 11 – 12 segundos de media, desde que leemos una cotización en Yahoo Finance hasta que el usuario la ve publicada en la web. 17
  • 18. Data Management: Análisis Cuantitativo Disco • 180 MB scripts en R + jar de getPrices + el jar de Spark Stream. • 72 MB ocupan los 105 modelos en local (en HDFS el espacio ocupado depende del block size, en nuestro caso los ficheros son bastante pequeños y por tanto nos interesa un block size pequeño). • 200 MB BBDD mongo con las cotizaciones históricas y las predicciones al cierre de 3 meses. 18
  • 20. Data analytics 20 1.Obtención de los datos • Gratis • Limpios 1.1. Datos en vivo (15-20 minutos de demora): 1.2. Datos históricos: Problema: Los algoritmos de Machine Learning no son aplicables a las series temporales
  • 21. 21 2. Creación de los dataframes Data analytics • Simplificación: transformación a un problema de clasificación • Variable objetivo: Aumento del 10% en 20 sesiones 2.1. Series temporales vs observaciones independientes 2.2. Transformación de las variables • Cálculo de indicadores: • Simple Moving Average (SMA) • Rate Of Change (ROC) • Triple cruce de medias • Doble cruce de medias • Commodity Channel index (CCI) • Variables derivadas: • DíasSMA • DiasROC • DiasTRIP_CRUCE • DiasDOB_CRUCE • DiasCCI • SUBE
  • 22. 22 Data analytics 3. Técnicas de Machine Learning 3.1. Logistic Regression (LR): - No necesita optimización de parámetros - Es el modelo más simple 3.2 Random Forest (RF): - Método robusto - Necesita optimizar el parámetro “mtry”. 3.3 Support Vector Machine (SVM): - Método robusto - Kernel Radial - Necesita optimizar varios parámetros: el coste (C) y la gamma. 4. Protocolo de validación 3 modelos para cada ticker 4.1 10-fold CrossValidation (10-CV): - Más fiable que Test & Train - Misma partición de los datos: eliminamos casos “buenos” aleatorios - Nos devuelve la media de la performance de 10 modelos - Tenemos un número que nos permite “puntuar” el modelo.
  • 23. 23 Data analytics 4.2 Area Under the Curve (AUC): - Más fiable que la Accuracy o cualquier método que derive de la matriz de confusión. - Independiente del porcentaje de casos positivos o negativos (datasets imbalanceados). 5. Matriz de resultados • Para cada ticker de bolsa tenemos 3 modelos • Todos los modelos están por encima del 0.65 de AUC. • En la mayoría de los tickers, el mejor modelo es el de RF. • Los modelos de LR no son mejores en ninguno de los casos.
  • 24. 24 Data analytics: Resultados obtenidos 6. Resultados Julio Agosto Septiembre - 735 predicciones - 534 aciertos - 34 True positives - 805 predicciones - 608 aciertos - 31 True positives - 667 predicciones - 533 aciertos - 10 True positives