Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid

Connecting Data Josep Tarruella
josep@grapheverywhere.com
¿Por qué Graph Data Science en tus
modelos predictivos?

AGENDA
Quienes somos
¿Por qué Graph Data Science?
Framework GDS de Neo4j
Ejemplo

QUIENES SOMOS
SOLUCIONES
3
SOPORTE LOCAL
V
TRAININGS
E
ACELERAR TIME-TO-MARKET
l
# Premier Partner
> 20
Proyectos de Neo4j Enterprise
en España
> 8
años cómo partner de
referencia de Neo4j

Gartner points graphs as top trend 2022
https://www.gartner.com/en/articles/12-data-and-analytics-trends-to-keep-on-your-radar
“Context-enriched analysis builds on graph
technologies. The information on the user’s
context and needs is held in a graph that
enables deeper analysis using the relationships
between data points as much as the data
points themselves. It helps identify and create
further context based on similarities,
constraints, paths and communities. By 2025,
context-driven analytics and AI models will
replace 60% of existing models built on
traditional data.”
*Gartner, “12 Data and Analytics Trends to
Keep on Your Radar 2022” Laurence Goasduff,
05 Apr 2022

“By 2025, graph technologies will be
used in 80% of data and analytics
innovations...”
Top 10 Trends in Data and Analytics, Rita Sallam et al.

Neo4j, Inc. All rights reserved
2021
An objective study of Neo4j’s business value with our customers
Resources
Forrester TEI Study: https://neo4j.com/whitepapers/forrester-total-economic-
impact/ Forrester Wave -- Neo4j is a Leader in Graph:
https://neo4j.com/whitepapers/forrester-wave-graph-data-platforms/
417% ROI
Neo4j pays for itself more than 4x in the span of three years
$2.2M increased revenue
Improved business results of $2.2M over three years on average
60% faster time-to-value
Accelerated time-to-value (TTV) up to 60%
$1.8M in savings
Digital transformation cost savings of over $1.8M over three years
Forrester
Total Economic Impact Study
The leading Graph Data
Platform for today’s
intelligent applications

Food recommendations - Uber Eats
(*) https://www.uber.com/en-GR/blog/uber-eats-graph-learning/

Food recommendations - Uber Eats

Food
recommendations
- Uber Eats

12
Relaciones
Son el mejor predictor
del comportamiento
No puedes analizar lo
que no puedes ver
● La mayoría de las técnicas de Data
Science ignoran las relaciones
● Es difícil y muy costoso generar las
relalaciones a partir de datos
tabulares
● Los grafos se basan en las
relaciones, así que …
● … No necesitas adivinar
relaciones, con grafos las
relaciones están allí
James Fowler

Mejora de a efectividad de los modelos predictivos
Preparation
Model
Evaluation
Predicción

• Evitar un 1% de las bajas de clientes
• Detectar un 3% más de redes de blanqueo
• Ahorrar 50.000 horas/año de trabajo en el equipo de
investigación del Fraude(*)
• Aumentar un 6% las ventas online gracias a mejores
recomendaciones (> 30% clicks en recom)
• Optimizar las rutas y el picking para bajar la huella de
carbono
• Reducir las necesidades de infraestructura de
servidores
• Reducir los tiempos de procesamiento de datos
¿Qué tienen en común …?
(*) Publicación Zurich à https://bit.ly/4cHzKUL

¿Qué se está haciendo con Graph Data Science?
• PBC, Fraude, Riesgo
• Logística, Supply Chain
• Detección Churn, campañas, …
• Predicción de moléculas target
• Sistemas de recomendación
• Sistemas de búsqueda semántica
• Mejora sistemas de IA Generativa
• Optimización de procesos y gobierno IT
• …
Mejorar CUALQUIER modelo PREDICTIVO actual

Consulta (Cypher)
Tiempo real, toma de decisiones y
coincidencia de patrones
Algoritmos de Grafos
Análisis global e iteraciones
Sabes lo que estás buscando y tomas
una decisión
Aprendes sobre la estructura general de una red,
actualizas datos y haces predicciones
Patrones Cálculo Global
¿Cuándo necesitas Algoritmos de Grafos?

¿Qué es importante?
Priorización
¿Quién tiene más conexiones?
¿Quién tiene el page rank más alto?
¿Quién es una persona influyente?
¿Qué es inusual?
Anomalías y Detecctión del Fraude
¿Dónde se forma una comunidad?
¿Cual es la dinámica del grupo?
¿Qué hay de inusual en los datos?
¿Qué será lo siguiente?
Predicciones
¿Cuál es el camino más común?
¿Quién está en la misma comunidad?
¿Qué tipo de relación se va a formar?
P
la
ys
Lives_in
In_sport
Likes
F
a
n
_
o
f
Plays_for
K
n
o
w
s
Knows
Knows
K
n
o
w
s
La Estructura de Grafo mejora los resultados de la Ciencia de Datos

Con el Mayor Catálogo de Algoritmos de Grafos
Búsqueda de
Caminos
Centralidad &
Importancia
Detección de
Comunidades
Machine Learning
Supervisado
Predicción
Heurística de
Relaciones
Similitud Graph
Embeddings
…and more
Los algoritmos de grafos son un conjunto de instrucciones que visitan los
nodos de un grafo para analizar las relaciones en los datos conectados.

21
Pathfinding &
Search
• Shortest Path
• Single-Source Shortest Path
• All Pairs Shortest Path
• A* Shortest Path
• Yen’s K Shortest Path
• Minimum Weight Spanning Tree
• K-Spanning Tree (MST)
• Random Walk
• Breadth & Depth First Search
Centrality &
Importance
• Degree Centrality
• Closeness Centrality
• Harmonic Centrality
• Betweenness Centrality & Approx.
• PageRank
• Personalized PageRank
• ArticleRank
• Eigenvector Centrality
• Hyperlink Induced Topic Search (HITS)
• Influence Maximization (Greedy, CELF)
Community
Detection
• Triangle Count
• Local Clustering Coefficient
• Connected Components (Union Find)
• Strongly Connected Components
• Label Propagation
• Louvain Modularity
• K-1 Coloring
• Modularity Optimization
• Speaker Listener Label Propagation
Supervised
Machine Learning
• Node Classification
• Link Prediction
• Node Regression
Heuristic Link
Prediction
• Adamic Adar
• Common Neighbors
• Preferential Attachment
• Resource Allocations
• Same Community
• Total Neighbors
Similarity
• Node Similarity
• K-Nearest Neighbors (KNN)
• Jaccard Similarity
• Cosine Similarity
• Pearson Similarity
• Euclidean Distance
• Approximate Nearest Neighbors (ANN)
Graph
Embeddings
• Node2Vec
• FastRP
• FastRPExtended
• GraphSAGE
… and more!
• Synthetic Graph Generation
• Scale Properties
• Collapse Paths
• One Hot Encoding
• Split Relationships
• Graph Export
• Pregel API (write your own algos)
60+ Técnicas de Graph Data Science en Neo4j

Pathfinding
Los algoritmos Pathfinding y Graph
Search se utilizan para identificar
rutas óptimas, y a menudo son un
primer paso necesario para muchos
otros tipos de análisis.
Aplicaciones: Ruta más corta, rutas
óptimas, disponibilidad de rutas,
análisis What-if, rutas alternativas,
recuperación en caso de catástrofe.
https://neo4j.com/docs/graph-data-
science/current/algorithms/pathfinding/

Encuentra nodos importantes
basándose en las relaciones con otros
nodos del grafo.
Aplicaciones: Detección de valores
atípicos, preprocesamiento, detección de
influenciadores, puntos puente, puntos
de fallo, vulnerabilidades El color y el tamaño representan
la influencia basada en los scores
de centralidad
science/current/algorithms/centrality/
Centralidad

Evalúa cómo se agrupan o
particionan los grupos de nodos, así
como su tendencia a reforzarse o
separarse.
Aplicaciones: Recomendaciones,
homogeneidad, comunidades
disjuntas, detección de valores
atípicos, preprocesamiento https://neo4j.com/docs/graph-data-
science/current/algorithms/community/
Detección de Comunidades

Evalúa el grado de similitud de
los nodos a nivel individual
basándose en los atributos de los
nodos, los nodos vecinos o las
propiedades de las relaciones.
Aplicaciones: Recomendaciones,
análisis de hipótesis,
desambiguación.
science/current/algorithms/similarity/
Similitud

Estos métodos calculan una puntuación
para un par de nodos, donde la
puntuación podría considerarse una
medida de proximidad o "similitud" entre
esos nodos basada en la topología del
grafo.
Aplicaciones: Enriquecimiento del
contexto, rastreo de contactos, detección
de spam, asociación en redes sociales, etc.
science/current/algorithms/linkprediction/
Predicción de Relaciones

A graph embedding es una forma de representar cada nodo del grafo
como un vector de longitud fija.
• Conserva las características clave
• Reduce la dimensionalidad
• Puede descodificarse
Diferentes técnicas pueden representar diferentes aspectos de un
grafo, y pueden utilizar diferentes enfoques para aprender esa
representación
Embeddings

Codificar los nodos de forma que la similitud
en el espacio de los embeddings, por
ejemplo, la similitud del coseno, se aproxime
a la similitud en el grafo.
Embeddings

Clasificación de Nodos:
“¿Qué etiqueta debe tener este nodo?
Regresión de la propiedad:
“¿Cuál es el valor de esta propiedad que falta?
Predicción de relaciones:
“¿Debería existir una relación entre estos 2
nodos?
f(x)
f(x)
f(x)
Nosotros descubrimos el mejor modelo, ¡tu sólo tienes que facilitarnos los datos!
GraphML: Regresión y autotuning

Ejemplo GDS – Detección del Fraude
Algoritmos de Grafos para el análisis de vínculos entre entidades detectan
fraude de primera parte e identidades sintéticas de defraudadores a través
de canales en el sector financiero y otras industrias.
Detectar patrones de
actividad fraudulenta en
todos los canales
Aislar a los defraudadores
mediante algoritmos de
detección de
comunidades, centralidad
y embeddings.
Identificar a los
defraudadores
potenciales calculando
las similitudes entre los
defraudadores conocidos
y los clientes.
Prevenir el fraude
señalando las
transacciones y los
clientes de mayor
riesgo.

34
Ejemplo - Objetivo
Comparar la precisión de un modelo predictivo supervisado:
Sin Grafos vs Con Grafos

35
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo

36
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo
Features

Ejemplo – Datos y Modelo del Grafo
user_id Identificador del usuario
fraudRisk Etiqueta riesgo fraude
numberOfDevices Numero de dispositivos asociados a el usuario
numberOfCCs Número de CC asociados a el usuario
numberOfIps Número de Ips desde las que ha operado el usuario
totalOutgoingAmount Total de importe enviado
avgOutgoingAmount Media importe enviado
maxOutgoingAmount Maximo importe enviado
outgoingTransactions Número de operaciones enviado
totalIncomingAmount Total importe recibido
avgIncomingAmount Media del importe recibido
maxIncomingAmount Maximo importe recibido
incomingTransactions Número de operaciones recibidas
Features
Conjunto de datos
anónimos de una
plataforma de pagos
P2P.

38
WCC (componentes débilmente conectados ). Este algoritmo se utiliza para encontrar componentes desconectados o islas dentro del
grafo. En nuestro ejemplo, utilizaremos el algoritmo WCC para encontrar componentes o islas de usuarios que utilizaron la misma
tarjeta de crédito.
PageRank (componentes débilmente conectados ). Este algoritmo se utiliza encontrar los nodos más importantes o influyentes de la red,
considerando a la vez la importancia de los nodos que apuntan hacia él.
Closeness centrality ( Centralidad de proximidad). Este algoritmo evalúa lo cerca que está un nodo de todos los demás nodos de la red.
Los resultados del algoritmo nos informan de qué nodos pueden llegar más rápidamente a todos los demás nodos de la red.
Centralidad Comunidades

39
Curva Roc
Matriz de Confusión Matriz de Confusión
Curva Roc
TP: 0.5
TN: 0.87
FP: 0.13
FN: 0.5
TP: 0.79
TN: 0.9
FP: 0.1
FN: 0.21
AUC = 0.72 AUC = 0.92

Connecting Data
Josep Tarruella
josep@grapheverywhere.com

Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid

Recomendados

Recomendados

Más contenido relacionado

Similar a Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid

Similar a Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid (20)

Más de Neo4j

Más de Neo4j (20)

Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid