Machine Learning in Investment Management March 2018

Big Data y Machine Learning
Gerard Albà
Arnau Via
Fernando López
FME UPC – Març 2018

Tècniques quantitatives per als Mercats Financers
2
1. Inteligencia Artificial
1.1 Introducción al Big Data y Machine Learning
1.2 Métodos de Machine Learning
1.3 Bases de datos alternativas
1.4 Ejemplos de inversión usando Big Data

3
• En la búsqueda de estrategias descorrelacionadas y alpha, la
industria de la inversión están adoptando cada vez más estrategias
cuantitativas.
• Una nueva fuente de ventaja competitiva está emergiendo de la
disponibilidad de nuevas bases de datos alternativas así como la
aplicación de nuevas técnicas de análisis de datos englobadas dentro
del concepto de Machine Learning (“ML”).
Introducción

4
• La revolución del Big Data consiste en la explotación de fuentes de
datos alternativas y a menudo no estructuradas, como las búsquedas
por internet, las imágenes tomadas por un dron, los datos de
geolocalización de los smartphones, etc, que mediante el uso de
técnicas estadísticas complejas, permiten descubrir relaciones no
evidentes útiles para construir modelos predictivos que permiten
tener una ventaja competitiva en forma de información.
• Dicha información puede ser utilizada tanto para definir la estrategia
de una compañía, como para elegir que activos financieros son los
que tienen una mayor probabilidad de generar retornos para el
inversor. De esta forma el Big Data tiene la habilidad de cambiar
profundamente la manera de invertir hacia estrategias mucho más
cuantitativas que cualitativas.
La revolución del Big Data

5
A pesar que es un tema muy de
moda (el machine learning y big
data) se estima que solo el
0.5% de los datos existentes
son analizados, por tanto existe
mucho margen para la
explotación y innovación en
esta materia.
Los principales entidades en el
mundo de la inversión (como
por ejemplo BlackRock o JP
Morgan) estén invirtiendo
abundantes cantidades de
dinero en Machine Learning y
nuevas bases de datos
alternativas.
La industria financiera y el Big Data

6
• La capacidad de análisis de datos masivos, es el resultado de tres
tendencias vividas en la industria tecnológica.
• New Datasets: La cantidad de datos disponibles se ha multiplicado
exponencialmente en los últimos años.
• Methods of analysis: Los métodos de análisis de datos han ido
ganando complejidad a medida que los datos cada vez son menos
estructurados y más difíciles de analizar con técnicas tradicionales.
• Computing: La capacidad de computación ha aumentado
exponencialmente gracias sobretodo la posibilidad de poder trabajar
en paralelo gracias al cloud computing.
Bases del éxito del Big Data

7
1) Data volume: Se estima que el 90% de
los datos del mundo se han generado en
los últimos dos años solamente. La gran
penetración del los smartphones a nivel
mundial, ha provocado el gran boom de
los datos(geolocalización, imágenes,
track-activity)
2) Cloud Computing: Se estima que para
2020, un tercio de los datos a nivel
mundial pasarán o estarán por la nube.
3) Machine learning: Ha habido grandes
desarrollos en el campo de pattern
recognition y function approximation, las
dos claves para analizar datos
desestructurados (eg. Imágenes o redes
sociales)
Bases del éxito del Big Data

8
• Machine Learning es un campo de
la inteligencia artificial dedicado al
diseño, el análisis y el desarrollo de
algoritmos i técnicas que permiten
que les máquinas evolucionen. Se
trata de crear programas capaces de
generalizar comportamientos a partir
del reconocimiento de patrones o
clasificación.
• El objetivo del ML es dotar a las
máquinas de la capacidad de
aprender de su propia experiencia en
ciertas tareas. Esto a su vez permite
que las maquinas mejoren su
rendimiento a la hora de resolver
problemas a medida que ganan
experiencia
Introducción al machine learning

9
• Los coches autopilados aprenden de ser pilotados inicialmente por un
humano, posteriormente, a medida que el coche se pilota a si mismo
refuerzan su aprendizaje y mejoran con la experiencia.
Ejemplos Machine Learning

10
• El ML tiene muchas aplicaciones en toda la industria financiera (retail,
investment and insurance). En el caso de Investment Banking, el ML tiene el
objetivo principal de descubrir relaciones ocultas entre variables que
permitan realizar predicciones.
Machine Learning y la industria financiera

11

12
• Supervised Learning: En estos
métodos tratan de encontrar la
ecuación que puede ser usada
para poder pronosticar una
variable.
• Unsupervised Learning: Estos
algoritmos examina una la base
de datos y identifican las relación
entre las variables y sus
principales drivers.
• Deep Learning: Basado en
algoritmos de redes neuronales
se utiliza para procesar datos no
estructurados (imágenes, voz,
sentimientos, etc.) y
reconocimiento de patrones en
datos estructurados
Introducción a los Métodos de Machine Learning

13
• Debajo se encuentran los modelos estadístiscos/matemáticos más
usuales por tipología de métodos de machine learning.
Métodos de Machine Learning

14
• Los modelos de supervised learning se pueden clasificar en regresión
y clasificación.
– Regresión: Las regresiones intentan predecir las variables de
salida basándose en un número de variables de entrada. Un
ejemplo podría ser como se moverá el mercado si hay una subida
inesperada de inflación o volatilidad.
– Clasificación: intentan agrupar o clasificar las variables de salida
en categorías. Por ejemplo, es posible que queramos que la salida
de un modelo sea una acción binaria como "comprar" o "vender"
basada en un número de variables macro, fundamentales u otras
variables de entrada.
• Una simple regresión linear podría ser caer dentro de Supervised
learning, pero son demasiados simples para encontrar la verdadera
relación entre las variables
Supervised Learning

15
Regresión:
• Lasso Regression: intenta establecer la relación/ecuación
escogiendo las variables de entrada más pequeñas y relevantes.
• K-nearest neighbors: intenta pronosticar mirando varios ejemplos
históricos y estableciendo que ha pasado en situaciones similares
como una mejor predicción del futuro
Clasificación:
• Decision Trees: intenta encontrar la regla óptima para pronosticar
un resultado basada en una secuencia de simple pasos de decisión.
Por ejemplo, mirando el rendimiendo pasado de la bolsa, podemos
encontrar una simple regla que identifiquen a una acción ganadora
(valoraciones bajas, un momentum fuerte y un crecimiento de
beneficios).
• Random forest: Estos métodos promedian los simple decisions trees
(por ejemplo, calibrados sobre diferentes episodios históricos) y a
menudo producen una previsión mejor y más fiable en comparación
con los decision trees.
Supervised Learning

16
• Los algoritmos de “unsupervised learning”, examinan una la
base de datos y identifican las relación entre las variables y sus
principales drivers.
• Se pueden clasificar de dos formas distintas, Clustering and Factor
Analysis
• Clustering: se trata de dividir un conjunto de datos en pequeños
grupos basados en una alguna noción de similitud. Aplicado a
finanzas podría ser identificar regímenes históricos de alta/baja
volatilidad, tipos altos/bajos o inflación/deflación. Identificar
correctamente en que régimen nos encontramos para decidir en que
invertir.
• Por ejemplo, K-means, divide los datos en K subconjuntos de datos
para intentar minimizar la dispersión dentro de los puntos de cada
subconjunto.
Unsupervised Learning

17
• Factor analyses: estos métodos tienen el objetivo de encontrar los
principales drivers de los datos identificar la mejor representación de
los datos.
• Por ejemplo, en un cartera multiactivo, los métodos de factor
analyses identificarán los principales drivers como momentum, value,
carry or volatility (entre otros).
• El principal ejemplo, es el Análisis de componentes principales que
básicamente trata de reducir la dimensionalidad de un conjunto de
datos.
• La idea detrás, es determinar y “eliminar” aquellas variables están
fuertemente correlacionadas entre sí, simplificando así los datos sin
gran pérdida de información.

18
• Factor analyses: estos métodos tienen el objetivo de encontrar los
principales drivers de los datos identificar la mejor representación de
los datos.
• Por ejemplo, en un cartera multiactivo, los métodos de factor
analyses identificarán los principales drivers como momentum, value,
carry or volatility (entre otros).
• El principal ejemplo, es el Análisis de componentes principales que
básicamente trata de reducir la dimensionalidad de un conjunto de
datos.
• La idea detrás, es determinar y “eliminar” aquellas variables están
fuertemente correlacionadas entre sí, simplificando sin gran pérdida
de información.

19
• Las técnicas de redes neuronales se basan o están inspiradas en el
funcionamiento del cerebro humano. En una red neuronal, cada
neurona recibe “inputs” de otras neuronas y las analiza/calcula un
promedio ponderado de esos inputs. Si ese promedio ponderando
excede un objetivo, la neurona envía un output a otras neuronas
repitiendo así el proceso entre varias capas de neuronas que lleva a
un output final
• Los pesos relativos de los diferentes inputs son determinados por
distintos datos históricos. Las redes neuronales se “entrenan” o
“calibran” a través de pasarles datos históricos a modelo. Esto es lo
que se conoce como Deep learning.
• Múltiples capas de neuronas permiten a estos modelos aprender
conceptos más complejos a partir de conceptos pequeños.
• Algunos algortimos de Deep learning son más aptos para analizar
datos de series temporales y otras son mas aptos para analizar
imágenes o datos no estructurados (imágenes, texto, etc..)
Deep Learning

20
• Reinforcement learning: El objetivo es elegir un curso de acciones
“exitosas” para maximizar la recompensa final. Por ejemplo, un
conjunto de reglas de trading que maximizas el beneficio después de
100 trades. Estos algoritmos tienes dos retos que solucionar:
– Debería el algoritmo explorar nuevas acciones alternativas que
maximicen el retorno final o escoger la acción que maximiza la
recompensa inmediata.
– Dado que la recompensa final se estable al final, no es sencillo
evaluar/analizar que paso es crítico para determinar el desenlace
final
• Semi-supervised learning: combina elementos de supervised y
unsupervised learning.
• Active learning: es un enfoque que alternativamente selecciona y
analiza los conjuntos de datos que son más beneficiosos para resolver
la tarea en cuestión.
Metodologías más complejas

21
• En la búsqueda del mejor modelo podemos caer en la trampa de una
“sobreoptimización” de los datos, es decir, encontrar el mejor modelo
que explique las variables de unos datos concretos pero que con otra
base de datos su poder de predicción es muy bajo. Esto es lo que se
llama un modelo inestable.
• En cambio un modelo muy sencillo puede tener más contenido de
error sobre unos datos concretos pero su inestabilidad es menor, es
decir, cambiando los datos su poder predicción es mayor.
• El teorema del Variance-Bias Tradeoff, sostiene que la calidad de
predicción del modelo dependerá de tres factores, la propia
inestabilidad del modelo, un error aleatorio y del error de la muestra
Forecast Error = Error de la muestra+ Inestabilidad del modelo +
Error Aleatorio
Elección del modelo, principales aspectos a considerar

22
• Por tanto, el mejor modelo es el que minimiza la función anterior, es
decir, el que encuentra un equilibrio entre la inestabilidad del modelo
y del error de la muestra.
Error en los modelos

23

24
• Como se ha comentado anteriormente, la revolución del Big Data se
basa sobre todo en la capacidades de análisis de los nuevos datos
generados (mayoritariamente desestructurados). Estos nuevos datos
disponibles para analizar los llamamos “bases de datos alternativas”.
A continuación se sugiere una clasificación según donde son
generados dichos datos.
Bases de datos alternativas

25
• La siguiente tabla muestra todos los atributos de las bases de datos
alternativas y su importancia según el rol en la industria de la
inversión. Por ejemplo, un Porfolio Manager está más interesado en
saber sobre que clase de activo puede aplicar la información obtenida
de la base de datos que por ejemplo, el formato de los datos o si
tiene missing values.
Principales atributos de las bases de datos alternativas

26
• El atributo más importante de una base
de datos en el mundo de la inversión
es saber si añade valor, es decir,
aporta alpha.
• La base de datos o el modelo basada en
ella sirve como una estrategia de
inversión por si sola. Estas son las
bases de datos con un alto contenido de
alpha pero a su vez, más difíciles de
encontrar o comprar.
• La base de datos puede combinarse con
otras estrategias de inversión para
aportar valor pero por si sola no tiene .
Están generalmente se pueden obtener
pero su contenido en aplha es menor.
• Si la base de datos no cumple ninguno
de los puntos anteriores no aporta
ningún valor por tanto no debe de ser
comprada.
Buscando Alpha en las bases de datos alternativos

27

28
Management Sentiment

29
Broker Sentiment

30
Analyzing Conference Calls

31
Social Media

32
Geolocalización

33
ETF Flows

34
Business to Business

35
Order book Patterns

36
Estrategias basadas en Big Data y Blackrock
• Blackrock (la gestora más grande
del mundo) testea cada señal
durante varios meses para si tiene
“valor”, es decir, aporta Alpha. Más
adelante, una vez se han finalizado
todos back-test se incorpora a los
modelos cuantitativos para
gestionar por ejemplo la renta
variable. Su aportación, como se ve
en el primer gráfico es muy
relevante.
• El peso que se le ha ido dedicando
se ha incrementando
considerablemente en los últimos
años como se ve en el gráfico azul.

Machine Learning in Investment Management March 2018

Recomendados

Recomendados

Más contenido relacionado

Similar a Machine Learning in Investment Management March 2018

Similar a Machine Learning in Investment Management March 2018 (20)

Más de Gerard Alba

Más de Gerard Alba (20)

Último

Último (20)

Machine Learning in Investment Management March 2018