Descubre las aplicaciones clave del Graph Data Science y cómo usarlo para mejorar la eficiencia de tus modelos predictivos.
Las relaciones son el mejor predictor de la realidad, y en esta presentación te enseñaremos cómo las empresas están usando el Framework GDS de Neo4j en las diferentes iniciativas de Analytics.
5. Gartner points graphs as top trend 2022
https://www.gartner.com/en/articles/12-data-and-analytics-trends-to-keep-on-your-radar
“Context-enriched analysis builds on graph
technologies. The information on the user’s
context and needs is held in a graph that
enables deeper analysis using the relationships
between data points as much as the data
points themselves. It helps identify and create
further context based on similarities,
constraints, paths and communities. By 2025,
context-driven analytics and AI models will
replace 60% of existing models built on
traditional data.”
*Gartner, “12 Data and Analytics Trends to
Keep on Your Radar 2022” Laurence Goasduff,
05 Apr 2022
6. “By 2025, graph technologies will be
used in 80% of data and analytics
innovations...”
Top 10 Trends in Data and Analytics, Rita Sallam et al.
8. Neo4j, Inc. All rights reserved
2021
An objective study of Neo4j’s business value with our customers
Resources
Forrester TEI Study: https://neo4j.com/whitepapers/forrester-total-economic-
impact/ Forrester Wave -- Neo4j is a Leader in Graph:
https://neo4j.com/whitepapers/forrester-wave-graph-data-platforms/
417% ROI
Neo4j pays for itself more than 4x in the span of three years
$2.2M increased revenue
Improved business results of $2.2M over three years on average
60% faster time-to-value
Accelerated time-to-value (TTV) up to 60%
$1.8M in savings
Digital transformation cost savings of over $1.8M over three years
Forrester
Total Economic Impact Study
The leading Graph Data
Platform for today’s
intelligent applications
12. 12
Relaciones
Son el mejor predictor
del comportamiento
No puedes analizar lo
que no puedes ver
● La mayoría de las técnicas de Data
Science ignoran las relaciones
● Es difícil y muy costoso generar las
relalaciones a partir de datos
tabulares
● Los grafos se basan en las
relaciones, así que …
● … No necesitas adivinar
relaciones, con grafos las
relaciones están allí
James Fowler
13. Mejora de a efectividad de los modelos predictivos
Preparation
Model
Evaluation
Predicción
14. Mejora de a efectividad de los modelos predictivos
Preparation
Model
Evaluation
Predicción
15. • Evitar un 1% de las bajas de clientes
• Detectar un 3% más de redes de blanqueo
• Ahorrar 50.000 horas/año de trabajo en el equipo de
investigación del Fraude(*)
• Aumentar un 6% las ventas online gracias a mejores
recomendaciones (> 30% clicks en recom)
• Optimizar las rutas y el picking para bajar la huella de
carbono
• Reducir las necesidades de infraestructura de
servidores
• Reducir los tiempos de procesamiento de datos
¿Qué tienen en común …?
(*) Publicación Zurich à https://bit.ly/4cHzKUL
16. ¿Qué se está haciendo con Graph Data Science?
• PBC, Fraude, Riesgo
• Logística, Supply Chain
• Detección Churn, campañas, …
• Predicción de moléculas target
• Sistemas de recomendación
• Sistemas de búsqueda semántica
• Mejora sistemas de IA Generativa
• Optimización de procesos y gobierno IT
• …
Mejorar CUALQUIER modelo PREDICTIVO actual
18. Consulta (Cypher)
Tiempo real, toma de decisiones y
coincidencia de patrones
Algoritmos de Grafos
Análisis global e iteraciones
Sabes lo que estás buscando y tomas
una decisión
Aprendes sobre la estructura general de una red,
actualizas datos y haces predicciones
Patrones Cálculo Global
¿Cuándo necesitas Algoritmos de Grafos?
19. ¿Qué es importante?
Priorización
¿Quién tiene más conexiones?
¿Quién tiene el page rank más alto?
¿Quién es una persona influyente?
¿Qué es inusual?
Anomalías y Detecctión del Fraude
¿Dónde se forma una comunidad?
¿Cual es la dinámica del grupo?
¿Qué hay de inusual en los datos?
¿Qué será lo siguiente?
Predicciones
¿Cuál es el camino más común?
¿Quién está en la misma comunidad?
¿Qué tipo de relación se va a formar?
P
la
ys
Lives_in
In_sport
Likes
F
a
n
_
o
f
Plays_for
K
n
o
w
s
Knows
Knows
K
n
o
w
s
La Estructura de Grafo mejora los resultados de la Ciencia de Datos
20. Con el Mayor Catálogo de Algoritmos de Grafos
Búsqueda de
Caminos
Centralidad &
Importancia
Detección de
Comunidades
Machine Learning
Supervisado
Predicción
Heurística de
Relaciones
Similitud Graph
Embeddings
…and more
Los algoritmos de grafos son un conjunto de instrucciones que visitan los
nodos de un grafo para analizar las relaciones en los datos conectados.
21. 21
Pathfinding &
Search
• Shortest Path
• Single-Source Shortest Path
• All Pairs Shortest Path
• A* Shortest Path
• Yen’s K Shortest Path
• Minimum Weight Spanning Tree
• K-Spanning Tree (MST)
• Random Walk
• Breadth & Depth First Search
Centrality &
Importance
• Degree Centrality
• Closeness Centrality
• Harmonic Centrality
• Betweenness Centrality & Approx.
• PageRank
• Personalized PageRank
• ArticleRank
• Eigenvector Centrality
• Hyperlink Induced Topic Search (HITS)
• Influence Maximization (Greedy, CELF)
Community
Detection
• Triangle Count
• Local Clustering Coefficient
• Connected Components (Union Find)
• Strongly Connected Components
• Label Propagation
• Louvain Modularity
• K-1 Coloring
• Modularity Optimization
• Speaker Listener Label Propagation
Supervised
Machine Learning
• Node Classification
• Link Prediction
• Node Regression
Heuristic Link
Prediction
• Adamic Adar
• Common Neighbors
• Preferential Attachment
• Resource Allocations
• Same Community
• Total Neighbors
Similarity
• Node Similarity
• K-Nearest Neighbors (KNN)
• Jaccard Similarity
• Cosine Similarity
• Pearson Similarity
• Euclidean Distance
• Approximate Nearest Neighbors (ANN)
Graph
Embeddings
• Node2Vec
• FastRP
• FastRPExtended
• GraphSAGE
… and more!
• Synthetic Graph Generation
• Scale Properties
• Collapse Paths
• One Hot Encoding
• Split Relationships
• Graph Export
• Pregel API (write your own algos)
60+ Técnicas de Graph Data Science en Neo4j
22. Pathfinding
Los algoritmos Pathfinding y Graph
Search se utilizan para identificar
rutas óptimas, y a menudo son un
primer paso necesario para muchos
otros tipos de análisis.
Aplicaciones: Ruta más corta, rutas
óptimas, disponibilidad de rutas,
análisis What-if, rutas alternativas,
recuperación en caso de catástrofe.
https://neo4j.com/docs/graph-data-
science/current/algorithms/pathfinding/
23. Encuentra nodos importantes
basándose en las relaciones con otros
nodos del grafo.
Aplicaciones: Detección de valores
atípicos, preprocesamiento, detección de
influenciadores, puntos puente, puntos
de fallo, vulnerabilidades El color y el tamaño representan
la influencia basada en los scores
de centralidad
https://neo4j.com/docs/graph-data-
science/current/algorithms/centrality/
Centralidad
24. Evalúa cómo se agrupan o
particionan los grupos de nodos, así
como su tendencia a reforzarse o
separarse.
Aplicaciones: Recomendaciones,
homogeneidad, comunidades
disjuntas, detección de valores
atípicos, preprocesamiento https://neo4j.com/docs/graph-data-
science/current/algorithms/community/
Detección de Comunidades
25. Evalúa el grado de similitud de
los nodos a nivel individual
basándose en los atributos de los
nodos, los nodos vecinos o las
propiedades de las relaciones.
Aplicaciones: Recomendaciones,
análisis de hipótesis,
desambiguación.
https://neo4j.com/docs/graph-data-
science/current/algorithms/similarity/
Similitud
26. Estos métodos calculan una puntuación
para un par de nodos, donde la
puntuación podría considerarse una
medida de proximidad o "similitud" entre
esos nodos basada en la topología del
grafo.
Aplicaciones: Enriquecimiento del
contexto, rastreo de contactos, detección
de spam, asociación en redes sociales, etc.
https://neo4j.com/docs/graph-data-
science/current/algorithms/linkprediction/
Predicción de Relaciones
27. A graph embedding es una forma de representar cada nodo del grafo
como un vector de longitud fija.
• Conserva las características clave
• Reduce la dimensionalidad
• Puede descodificarse
Diferentes técnicas pueden representar diferentes aspectos de un
grafo, y pueden utilizar diferentes enfoques para aprender esa
representación
Embeddings
29. Codificar los nodos de forma que la similitud
en el espacio de los embeddings, por
ejemplo, la similitud del coseno, se aproxime
a la similitud en el grafo.
Embeddings
30. Clasificación de Nodos:
“¿Qué etiqueta debe tener este nodo?
Regresión de la propiedad:
“¿Cuál es el valor de esta propiedad que falta?
Predicción de relaciones:
“¿Debería existir una relación entre estos 2
nodos?
f(x)
f(x)
f(x)
Nosotros descubrimos el mejor modelo, ¡tu sólo tienes que facilitarnos los datos!
GraphML: Regresión y autotuning
32. Ejemplo GDS – Detección del Fraude
Algoritmos de Grafos para el análisis de vínculos entre entidades detectan
fraude de primera parte e identidades sintéticas de defraudadores a través
de canales en el sector financiero y otras industrias.
Detectar patrones de
actividad fraudulenta en
todos los canales
Aislar a los defraudadores
mediante algoritmos de
detección de
comunidades, centralidad
y embeddings.
Identificar a los
defraudadores
potenciales calculando
las similitudes entre los
defraudadores conocidos
y los clientes.
Prevenir el fraude
señalando las
transacciones y los
clientes de mayor
riesgo.
35. 35
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo
36. 36
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo
Features
37. Ejemplo – Datos y Modelo del Grafo
user_id Identificador del usuario
fraudRisk Etiqueta riesgo fraude
numberOfDevices Numero de dispositivos asociados a el usuario
numberOfCCs Número de CC asociados a el usuario
numberOfIps Número de Ips desde las que ha operado el usuario
totalOutgoingAmount Total de importe enviado
avgOutgoingAmount Media importe enviado
maxOutgoingAmount Maximo importe enviado
outgoingTransactions Número de operaciones enviado
totalIncomingAmount Total importe recibido
avgIncomingAmount Media del importe recibido
maxIncomingAmount Maximo importe recibido
incomingTransactions Número de operaciones recibidas
Features
Conjunto de datos
anónimos de una
plataforma de pagos
P2P.
38. 38
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
WCC (componentes débilmente conectados ). Este algoritmo se utiliza para encontrar componentes desconectados o islas dentro del
grafo. En nuestro ejemplo, utilizaremos el algoritmo WCC para encontrar componentes o islas de usuarios que utilizaron la misma
tarjeta de crédito.
PageRank (componentes débilmente conectados ). Este algoritmo se utiliza encontrar los nodos más importantes o influyentes de la red,
considerando a la vez la importancia de los nodos que apuntan hacia él.
Closeness centrality ( Centralidad de proximidad). Este algoritmo evalúa lo cerca que está un nodo de todos los demás nodos de la red.
Los resultados del algoritmo nos informan de qué nodos pueden llegar más rápidamente a todos los demás nodos de la red.
Centralidad Comunidades
39. 39
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Curva Roc
Matriz de Confusión Matriz de Confusión
Curva Roc
TP: 0.5
TN: 0.87
FP: 0.13
FN: 0.5
TP: 0.79
TN: 0.9
FP: 0.1
FN: 0.21
AUC = 0.72 AUC = 0.92