SlideShare una empresa de Scribd logo
1 de 40
Descargar para leer sin conexión
Connecting Data Josep Tarruella
josep@grapheverywhere.com
¿Por qué Graph Data Science en tus
modelos predictivos?
AGENDA
Quienes somos
¿Por qué Graph Data Science?
Framework GDS de Neo4j
Ejemplo
QUIENES SOMOS
SOLUCIONES
3
SOPORTE LOCAL
V
TRAININGS
E
ACELERAR TIME-TO-MARKET
l
# Premier Partner
> 20
Proyectos de Neo4j Enterprise
en España
> 8
años cómo partner de
referencia de Neo4j
AGENDA
Quienes somos
¿Por qué Graph Data Science?
Framework GDS de Neo4j
Ejemplo
Gartner points graphs as top trend 2022
https://www.gartner.com/en/articles/12-data-and-analytics-trends-to-keep-on-your-radar
“Context-enriched analysis builds on graph
technologies. The information on the user’s
context and needs is held in a graph that
enables deeper analysis using the relationships
between data points as much as the data
points themselves. It helps identify and create
further context based on similarities,
constraints, paths and communities. By 2025,
context-driven analytics and AI models will
replace 60% of existing models built on
traditional data.”
*Gartner, “12 Data and Analytics Trends to
Keep on Your Radar 2022” Laurence Goasduff,
05 Apr 2022
“By 2025, graph technologies will be
used in 80% of data and analytics
innovations...”
Top 10 Trends in Data and Analytics, Rita Sallam et al.
7
Neo4j, Inc. All rights reserved
2021
An objective study of Neo4j’s business value with our customers
Resources
Forrester TEI Study: https://neo4j.com/whitepapers/forrester-total-economic-
impact/ Forrester Wave -- Neo4j is a Leader in Graph:
https://neo4j.com/whitepapers/forrester-wave-graph-data-platforms/
417% ROI
Neo4j pays for itself more than 4x in the span of three years
$2.2M increased revenue
Improved business results of $2.2M over three years on average
60% faster time-to-value
Accelerated time-to-value (TTV) up to 60%
$1.8M in savings
Digital transformation cost savings of over $1.8M over three years
Forrester
Total Economic Impact Study
The leading Graph Data
Platform for today’s
intelligent applications
Food recommendations - Uber Eats
(*) https://www.uber.com/en-GR/blog/uber-eats-graph-learning/
Food recommendations - Uber Eats
Food
recommendations
- Uber Eats
12
Relaciones
Son el mejor predictor
del comportamiento
No puedes analizar lo
que no puedes ver
● La mayoría de las técnicas de Data
Science ignoran las relaciones
● Es difícil y muy costoso generar las
relalaciones a partir de datos
tabulares
● Los grafos se basan en las
relaciones, así que …
● … No necesitas adivinar
relaciones, con grafos las
relaciones están allí
James Fowler
Mejora de a efectividad de los modelos predictivos
Preparation
Model
Evaluation
Predicción
Mejora de a efectividad de los modelos predictivos
Preparation
Model
Evaluation
Predicción
• Evitar un 1% de las bajas de clientes
• Detectar un 3% más de redes de blanqueo
• Ahorrar 50.000 horas/año de trabajo en el equipo de
investigación del Fraude(*)
• Aumentar un 6% las ventas online gracias a mejores
recomendaciones (> 30% clicks en recom)
• Optimizar las rutas y el picking para bajar la huella de
carbono
• Reducir las necesidades de infraestructura de
servidores
• Reducir los tiempos de procesamiento de datos
¿Qué tienen en común …?
(*) Publicación Zurich à https://bit.ly/4cHzKUL
¿Qué se está haciendo con Graph Data Science?
• PBC, Fraude, Riesgo
• Logística, Supply Chain
• Detección Churn, campañas, …
• Predicción de moléculas target
• Sistemas de recomendación
• Sistemas de búsqueda semántica
• Mejora sistemas de IA Generativa
• Optimización de procesos y gobierno IT
• …
Mejorar CUALQUIER modelo PREDICTIVO actual
AGENDA
Quienes somos
¿Por qué Graph Data Science?
Framework GDS de Neo4j
Ejemplo
Consulta (Cypher)
Tiempo real, toma de decisiones y
coincidencia de patrones
Algoritmos de Grafos
Análisis global e iteraciones
Sabes lo que estás buscando y tomas
una decisión
Aprendes sobre la estructura general de una red,
actualizas datos y haces predicciones
Patrones Cálculo Global
¿Cuándo necesitas Algoritmos de Grafos?
¿Qué es importante?
Priorización
¿Quién tiene más conexiones?
¿Quién tiene el page rank más alto?
¿Quién es una persona influyente?
¿Qué es inusual?
Anomalías y Detecctión del Fraude
¿Dónde se forma una comunidad?
¿Cual es la dinámica del grupo?
¿Qué hay de inusual en los datos?
¿Qué será lo siguiente?
Predicciones
¿Cuál es el camino más común?
¿Quién está en la misma comunidad?
¿Qué tipo de relación se va a formar?
P
la
ys
Lives_in
In_sport
Likes
F
a
n
_
o
f
Plays_for
K
n
o
w
s
Knows
Knows
K
n
o
w
s
La Estructura de Grafo mejora los resultados de la Ciencia de Datos
Con el Mayor Catálogo de Algoritmos de Grafos
Búsqueda de
Caminos
Centralidad &
Importancia
Detección de
Comunidades
Machine Learning
Supervisado
Predicción
Heurística de
Relaciones
Similitud Graph
Embeddings
…and more
Los algoritmos de grafos son un conjunto de instrucciones que visitan los
nodos de un grafo para analizar las relaciones en los datos conectados.
21
Pathfinding &
Search
• Shortest Path
• Single-Source Shortest Path
• All Pairs Shortest Path
• A* Shortest Path
• Yen’s K Shortest Path
• Minimum Weight Spanning Tree
• K-Spanning Tree (MST)
• Random Walk
• Breadth & Depth First Search
Centrality &
Importance
• Degree Centrality
• Closeness Centrality
• Harmonic Centrality
• Betweenness Centrality & Approx.
• PageRank
• Personalized PageRank
• ArticleRank
• Eigenvector Centrality
• Hyperlink Induced Topic Search (HITS)
• Influence Maximization (Greedy, CELF)
Community
Detection
• Triangle Count
• Local Clustering Coefficient
• Connected Components (Union Find)
• Strongly Connected Components
• Label Propagation
• Louvain Modularity
• K-1 Coloring
• Modularity Optimization
• Speaker Listener Label Propagation
Supervised
Machine Learning
• Node Classification
• Link Prediction
• Node Regression
Heuristic Link
Prediction
• Adamic Adar
• Common Neighbors
• Preferential Attachment
• Resource Allocations
• Same Community
• Total Neighbors
Similarity
• Node Similarity
• K-Nearest Neighbors (KNN)
• Jaccard Similarity
• Cosine Similarity
• Pearson Similarity
• Euclidean Distance
• Approximate Nearest Neighbors (ANN)
Graph
Embeddings
• Node2Vec
• FastRP
• FastRPExtended
• GraphSAGE
… and more!
• Synthetic Graph Generation
• Scale Properties
• Collapse Paths
• One Hot Encoding
• Split Relationships
• Graph Export
• Pregel API (write your own algos)
60+ Técnicas de Graph Data Science en Neo4j
Pathfinding
Los algoritmos Pathfinding y Graph
Search se utilizan para identificar
rutas óptimas, y a menudo son un
primer paso necesario para muchos
otros tipos de análisis.
Aplicaciones: Ruta más corta, rutas
óptimas, disponibilidad de rutas,
análisis What-if, rutas alternativas,
recuperación en caso de catástrofe.
https://neo4j.com/docs/graph-data-
science/current/algorithms/pathfinding/
Encuentra nodos importantes
basándose en las relaciones con otros
nodos del grafo.
Aplicaciones: Detección de valores
atípicos, preprocesamiento, detección de
influenciadores, puntos puente, puntos
de fallo, vulnerabilidades El color y el tamaño representan
la influencia basada en los scores
de centralidad
https://neo4j.com/docs/graph-data-
science/current/algorithms/centrality/
Centralidad
Evalúa cómo se agrupan o
particionan los grupos de nodos, así
como su tendencia a reforzarse o
separarse.
Aplicaciones: Recomendaciones,
homogeneidad, comunidades
disjuntas, detección de valores
atípicos, preprocesamiento https://neo4j.com/docs/graph-data-
science/current/algorithms/community/
Detección de Comunidades
Evalúa el grado de similitud de
los nodos a nivel individual
basándose en los atributos de los
nodos, los nodos vecinos o las
propiedades de las relaciones.
Aplicaciones: Recomendaciones,
análisis de hipótesis,
desambiguación.
https://neo4j.com/docs/graph-data-
science/current/algorithms/similarity/
Similitud
Estos métodos calculan una puntuación
para un par de nodos, donde la
puntuación podría considerarse una
medida de proximidad o "similitud" entre
esos nodos basada en la topología del
grafo.
Aplicaciones: Enriquecimiento del
contexto, rastreo de contactos, detección
de spam, asociación en redes sociales, etc.
https://neo4j.com/docs/graph-data-
science/current/algorithms/linkprediction/
Predicción de Relaciones
A graph embedding es una forma de representar cada nodo del grafo
como un vector de longitud fija.
• Conserva las características clave
• Reduce la dimensionalidad
• Puede descodificarse
Diferentes técnicas pueden representar diferentes aspectos de un
grafo, y pueden utilizar diferentes enfoques para aprender esa
representación
Embeddings
Embeddings
Codificar los nodos de forma que la similitud
en el espacio de los embeddings, por
ejemplo, la similitud del coseno, se aproxime
a la similitud en el grafo.
Embeddings
Clasificación de Nodos:
“¿Qué etiqueta debe tener este nodo?
Regresión de la propiedad:
“¿Cuál es el valor de esta propiedad que falta?
Predicción de relaciones:
“¿Debería existir una relación entre estos 2
nodos?
f(x)
f(x)
f(x)
Nosotros descubrimos el mejor modelo, ¡tu sólo tienes que facilitarnos los datos!
GraphML: Regresión y autotuning
Búsqueda vectorial – Neo4j
Ejemplo GDS – Detección del Fraude
Algoritmos de Grafos para el análisis de vínculos entre entidades detectan
fraude de primera parte e identidades sintéticas de defraudadores a través
de canales en el sector financiero y otras industrias.
Detectar patrones de
actividad fraudulenta en
todos los canales
Aislar a los defraudadores
mediante algoritmos de
detección de
comunidades, centralidad
y embeddings.
Identificar a los
defraudadores
potenciales calculando
las similitudes entre los
defraudadores conocidos
y los clientes.
Prevenir el fraude
señalando las
transacciones y los
clientes de mayor
riesgo.
AGENDA
Quienes somos
¿Por qué Graph Data Science?
Framework GDS de Neo4j
Ejemplo
34
Ejemplo - Objetivo
Comparar la precisión de un modelo predictivo supervisado:
Sin Grafos vs Con Grafos
35
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo
36
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Features
Random Forest
Machine Learning Model
Curva Roc
Matriz de Confusión
Selección de un modelo Entrenamiento del modelo Evaluación del modelo
Features
Ejemplo – Datos y Modelo del Grafo
user_id Identificador del usuario
fraudRisk Etiqueta riesgo fraude
numberOfDevices Numero de dispositivos asociados a el usuario
numberOfCCs Número de CC asociados a el usuario
numberOfIps Número de Ips desde las que ha operado el usuario
totalOutgoingAmount Total de importe enviado
avgOutgoingAmount Media importe enviado
maxOutgoingAmount Maximo importe enviado
outgoingTransactions Número de operaciones enviado
totalIncomingAmount Total importe recibido
avgIncomingAmount Media del importe recibido
maxIncomingAmount Maximo importe recibido
incomingTransactions Número de operaciones recibidas
Features
Conjunto de datos
anónimos de una
plataforma de pagos
P2P.
38
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
WCC (componentes débilmente conectados ). Este algoritmo se utiliza para encontrar componentes desconectados o islas dentro del
grafo. En nuestro ejemplo, utilizaremos el algoritmo WCC para encontrar componentes o islas de usuarios que utilizaron la misma
tarjeta de crédito.
PageRank (componentes débilmente conectados ). Este algoritmo se utiliza encontrar los nodos más importantes o influyentes de la red,
considerando a la vez la importancia de los nodos que apuntan hacia él.
Closeness centrality ( Centralidad de proximidad). Este algoritmo evalúa lo cerca que está un nodo de todos los demás nodos de la red.
Los resultados del algoritmo nos informan de qué nodos pueden llegar más rápidamente a todos los demás nodos de la red.
Centralidad Comunidades
39
Ejemplo - Optimizando Modelos de ML con Neo4j GDS
Curva Roc
Matriz de Confusión Matriz de Confusión
Curva Roc
TP: 0.5
TN: 0.87
FP: 0.13
FN: 0.5
TP: 0.79
TN: 0.9
FP: 0.1
FN: 0.21
AUC = 0.72 AUC = 0.92
Connecting Data
Josep Tarruella
josep@grapheverywhere.com

Más contenido relacionado

Similar a Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid

Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...Herlency Muñoz García
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerEduardo Castro
 
8.Flujo, Comportamiento, Patrones y WebApps.pdf
8.Flujo, Comportamiento, Patrones y WebApps.pdf8.Flujo, Comportamiento, Patrones y WebApps.pdf
8.Flujo, Comportamiento, Patrones y WebApps.pdfRamiro Estigarribia Canese
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016Beatriz Martín @zigiella
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Ana Delgado
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Presentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaPresentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaNeo4j
 
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...elianatorales
 
Investigacion Cualitativa Aristides Softw
Investigacion Cualitativa   Aristides SoftwInvestigacion Cualitativa   Aristides Softw
Investigacion Cualitativa Aristides SoftwFernando Alberto
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfVernicaPaulinaChimbo
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxAnonymousEoGAaTF
 
An evening with... No SQL Meetup
An evening with... No SQL MeetupAn evening with... No SQL Meetup
An evening with... No SQL MeetupArkhotech
 

Similar a Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid (20)

Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...
Wireframes & Prototipos ¿Sólo una cuestión de organización? / Día de la Usabi...
 
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL ServerIntroducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
 
8.Flujo, Comportamiento, Patrones y WebApps.pdf
8.Flujo, Comportamiento, Patrones y WebApps.pdf8.Flujo, Comportamiento, Patrones y WebApps.pdf
8.Flujo, Comportamiento, Patrones y WebApps.pdf
 
Trab 9 enero.pptx
Trab 9 enero.pptxTrab 9 enero.pptx
Trab 9 enero.pptx
 
caddie
caddiecaddie
caddie
 
7.flujo, comportamiento, patrones y web apps
7.flujo, comportamiento, patrones y web apps7.flujo, comportamiento, patrones y web apps
7.flujo, comportamiento, patrones y web apps
 
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016Machine Learning a lo berserker  - Software Craftsmanship Barcelona 2016
Machine Learning a lo berserker - Software Craftsmanship Barcelona 2016
 
Parte1
Parte1Parte1
Parte1
 
Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez Exposicion mineria de datos - Franklin Rodríguez
Exposicion mineria de datos - Franklin Rodríguez
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Presentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaPresentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en banca
 
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
 
Investigacion Cualitativa Aristides Softw
Investigacion Cualitativa   Aristides SoftwInvestigacion Cualitativa   Aristides Softw
Investigacion Cualitativa Aristides Softw
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
planestudios
planestudiosplanestudios
planestudios
 
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptxIntroduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
Introduccin_a_la_Minera_de_Datos_M_cc_v2.pptx
 
An evening with... No SQL Meetup
An evening with... No SQL MeetupAn evening with... No SQL Meetup
An evening with... No SQL Meetup
 

Más de Neo4j

Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j
 
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and Bioinformaticians
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and BioinformaticiansQIAGEN: Biomedical Knowledge Graphs for Data Scientists and Bioinformaticians
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and BioinformaticiansNeo4j
 
EY_Graph Database Powered Sustainability
EY_Graph Database Powered SustainabilityEY_Graph Database Powered Sustainability
EY_Graph Database Powered SustainabilityNeo4j
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphNeo4j
 
Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Neo4j
 
Connecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfConnecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfNeo4j
 
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...Neo4j
 
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafos
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafosBBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafos
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafosNeo4j
 
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4j
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4jGraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4j
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4jNeo4j
 
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdf
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdfNeo4j_Exploring the Impact of Graph Technology on Financial Services.pdf
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdfNeo4j
 
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdf
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdfRabobank_Exploring the Impact of Graph Technology on Financial Services.pdf
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdfNeo4j
 
Webinar - IA generativa e grafi Neo4j: RAG time!
Webinar - IA generativa e grafi Neo4j: RAG time!Webinar - IA generativa e grafi Neo4j: RAG time!
Webinar - IA generativa e grafi Neo4j: RAG time!Neo4j
 
IA Generativa y Grafos de Neo4j: RAG time
IA Generativa y Grafos de Neo4j: RAG timeIA Generativa y Grafos de Neo4j: RAG time
IA Generativa y Grafos de Neo4j: RAG timeNeo4j
 
Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j
 
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdf
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdfNeo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdf
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdfNeo4j
 
Enabling GenAI Breakthroughs with Knowledge Graphs
Enabling GenAI Breakthroughs with Knowledge GraphsEnabling GenAI Breakthroughs with Knowledge Graphs
Enabling GenAI Breakthroughs with Knowledge GraphsNeo4j
 
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdf
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdfNeo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdf
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdfNeo4j
 
Neo4j Jesus Barrasa The Art of the Possible with Graph
Neo4j Jesus Barrasa The Art of the Possible with GraphNeo4j Jesus Barrasa The Art of the Possible with Graph
Neo4j Jesus Barrasa The Art of the Possible with GraphNeo4j
 
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...SWIFT: Maintaining Critical Standards in the Financial Services Industry with...
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...Neo4j
 
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AI
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AIDeloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AI
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AINeo4j
 

Más de Neo4j (20)

Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...
 
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and Bioinformaticians
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and BioinformaticiansQIAGEN: Biomedical Knowledge Graphs for Data Scientists and Bioinformaticians
QIAGEN: Biomedical Knowledge Graphs for Data Scientists and Bioinformaticians
 
EY_Graph Database Powered Sustainability
EY_Graph Database Powered SustainabilityEY_Graph Database Powered Sustainability
EY_Graph Database Powered Sustainability
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
 
Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024Build your next Gen AI Breakthrough - April 2024
Build your next Gen AI Breakthrough - April 2024
 
Connecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdfConnecting the Dots for Information Discovery.pdf
Connecting the Dots for Information Discovery.pdf
 
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...
ISDEFE - GraphSummit Madrid - ARETA: Aviation Real-Time Emissions Token Accre...
 
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafos
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafosBBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafos
BBVA - GraphSummit Madrid - Caso de éxito en BBVA: Optimizando con grafos
 
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4j
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4jGraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4j
GraphSummit Madrid - Product Vision and Roadmap - Luis Salvador Neo4j
 
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdf
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdfNeo4j_Exploring the Impact of Graph Technology on Financial Services.pdf
Neo4j_Exploring the Impact of Graph Technology on Financial Services.pdf
 
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdf
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdfRabobank_Exploring the Impact of Graph Technology on Financial Services.pdf
Rabobank_Exploring the Impact of Graph Technology on Financial Services.pdf
 
Webinar - IA generativa e grafi Neo4j: RAG time!
Webinar - IA generativa e grafi Neo4j: RAG time!Webinar - IA generativa e grafi Neo4j: RAG time!
Webinar - IA generativa e grafi Neo4j: RAG time!
 
IA Generativa y Grafos de Neo4j: RAG time
IA Generativa y Grafos de Neo4j: RAG timeIA Generativa y Grafos de Neo4j: RAG time
IA Generativa y Grafos de Neo4j: RAG time
 
Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)Neo4j: Data Engineering for RAG (retrieval augmented generation)
Neo4j: Data Engineering for RAG (retrieval augmented generation)
 
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdf
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdfNeo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdf
Neo4j Graph Summit 2024 Workshop - EMEA - Breda_and_Munchen.pdf
 
Enabling GenAI Breakthroughs with Knowledge Graphs
Enabling GenAI Breakthroughs with Knowledge GraphsEnabling GenAI Breakthroughs with Knowledge Graphs
Enabling GenAI Breakthroughs with Knowledge Graphs
 
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdf
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdfNeo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdf
Neo4j_Anurag Tandon_Product Vision and Roadmap.Benelux.pptx.pdf
 
Neo4j Jesus Barrasa The Art of the Possible with Graph
Neo4j Jesus Barrasa The Art of the Possible with GraphNeo4j Jesus Barrasa The Art of the Possible with Graph
Neo4j Jesus Barrasa The Art of the Possible with Graph
 
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...SWIFT: Maintaining Critical Standards in the Financial Services Industry with...
SWIFT: Maintaining Critical Standards in the Financial Services Industry with...
 
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AI
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AIDeloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AI
Deloitte & Red Cross: Talk to your data with Knowledge-enriched Generative AI
 

Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos predictivos - GraphSummit Madrid

  • 1. Connecting Data Josep Tarruella josep@grapheverywhere.com ¿Por qué Graph Data Science en tus modelos predictivos?
  • 2. AGENDA Quienes somos ¿Por qué Graph Data Science? Framework GDS de Neo4j Ejemplo
  • 3. QUIENES SOMOS SOLUCIONES 3 SOPORTE LOCAL V TRAININGS E ACELERAR TIME-TO-MARKET l # Premier Partner > 20 Proyectos de Neo4j Enterprise en España > 8 años cómo partner de referencia de Neo4j
  • 4. AGENDA Quienes somos ¿Por qué Graph Data Science? Framework GDS de Neo4j Ejemplo
  • 5. Gartner points graphs as top trend 2022 https://www.gartner.com/en/articles/12-data-and-analytics-trends-to-keep-on-your-radar “Context-enriched analysis builds on graph technologies. The information on the user’s context and needs is held in a graph that enables deeper analysis using the relationships between data points as much as the data points themselves. It helps identify and create further context based on similarities, constraints, paths and communities. By 2025, context-driven analytics and AI models will replace 60% of existing models built on traditional data.” *Gartner, “12 Data and Analytics Trends to Keep on Your Radar 2022” Laurence Goasduff, 05 Apr 2022
  • 6. “By 2025, graph technologies will be used in 80% of data and analytics innovations...” Top 10 Trends in Data and Analytics, Rita Sallam et al.
  • 7. 7
  • 8. Neo4j, Inc. All rights reserved 2021 An objective study of Neo4j’s business value with our customers Resources Forrester TEI Study: https://neo4j.com/whitepapers/forrester-total-economic- impact/ Forrester Wave -- Neo4j is a Leader in Graph: https://neo4j.com/whitepapers/forrester-wave-graph-data-platforms/ 417% ROI Neo4j pays for itself more than 4x in the span of three years $2.2M increased revenue Improved business results of $2.2M over three years on average 60% faster time-to-value Accelerated time-to-value (TTV) up to 60% $1.8M in savings Digital transformation cost savings of over $1.8M over three years Forrester Total Economic Impact Study The leading Graph Data Platform for today’s intelligent applications
  • 9. Food recommendations - Uber Eats (*) https://www.uber.com/en-GR/blog/uber-eats-graph-learning/
  • 12. 12 Relaciones Son el mejor predictor del comportamiento No puedes analizar lo que no puedes ver ● La mayoría de las técnicas de Data Science ignoran las relaciones ● Es difícil y muy costoso generar las relalaciones a partir de datos tabulares ● Los grafos se basan en las relaciones, así que … ● … No necesitas adivinar relaciones, con grafos las relaciones están allí James Fowler
  • 13. Mejora de a efectividad de los modelos predictivos Preparation Model Evaluation Predicción
  • 14. Mejora de a efectividad de los modelos predictivos Preparation Model Evaluation Predicción
  • 15. • Evitar un 1% de las bajas de clientes • Detectar un 3% más de redes de blanqueo • Ahorrar 50.000 horas/año de trabajo en el equipo de investigación del Fraude(*) • Aumentar un 6% las ventas online gracias a mejores recomendaciones (> 30% clicks en recom) • Optimizar las rutas y el picking para bajar la huella de carbono • Reducir las necesidades de infraestructura de servidores • Reducir los tiempos de procesamiento de datos ¿Qué tienen en común …? (*) Publicación Zurich à https://bit.ly/4cHzKUL
  • 16. ¿Qué se está haciendo con Graph Data Science? • PBC, Fraude, Riesgo • Logística, Supply Chain • Detección Churn, campañas, … • Predicción de moléculas target • Sistemas de recomendación • Sistemas de búsqueda semántica • Mejora sistemas de IA Generativa • Optimización de procesos y gobierno IT • … Mejorar CUALQUIER modelo PREDICTIVO actual
  • 17. AGENDA Quienes somos ¿Por qué Graph Data Science? Framework GDS de Neo4j Ejemplo
  • 18. Consulta (Cypher) Tiempo real, toma de decisiones y coincidencia de patrones Algoritmos de Grafos Análisis global e iteraciones Sabes lo que estás buscando y tomas una decisión Aprendes sobre la estructura general de una red, actualizas datos y haces predicciones Patrones Cálculo Global ¿Cuándo necesitas Algoritmos de Grafos?
  • 19. ¿Qué es importante? Priorización ¿Quién tiene más conexiones? ¿Quién tiene el page rank más alto? ¿Quién es una persona influyente? ¿Qué es inusual? Anomalías y Detecctión del Fraude ¿Dónde se forma una comunidad? ¿Cual es la dinámica del grupo? ¿Qué hay de inusual en los datos? ¿Qué será lo siguiente? Predicciones ¿Cuál es el camino más común? ¿Quién está en la misma comunidad? ¿Qué tipo de relación se va a formar? P la ys Lives_in In_sport Likes F a n _ o f Plays_for K n o w s Knows Knows K n o w s La Estructura de Grafo mejora los resultados de la Ciencia de Datos
  • 20. Con el Mayor Catálogo de Algoritmos de Grafos Búsqueda de Caminos Centralidad & Importancia Detección de Comunidades Machine Learning Supervisado Predicción Heurística de Relaciones Similitud Graph Embeddings …and more Los algoritmos de grafos son un conjunto de instrucciones que visitan los nodos de un grafo para analizar las relaciones en los datos conectados.
  • 21. 21 Pathfinding & Search • Shortest Path • Single-Source Shortest Path • All Pairs Shortest Path • A* Shortest Path • Yen’s K Shortest Path • Minimum Weight Spanning Tree • K-Spanning Tree (MST) • Random Walk • Breadth & Depth First Search Centrality & Importance • Degree Centrality • Closeness Centrality • Harmonic Centrality • Betweenness Centrality & Approx. • PageRank • Personalized PageRank • ArticleRank • Eigenvector Centrality • Hyperlink Induced Topic Search (HITS) • Influence Maximization (Greedy, CELF) Community Detection • Triangle Count • Local Clustering Coefficient • Connected Components (Union Find) • Strongly Connected Components • Label Propagation • Louvain Modularity • K-1 Coloring • Modularity Optimization • Speaker Listener Label Propagation Supervised Machine Learning • Node Classification • Link Prediction • Node Regression Heuristic Link Prediction • Adamic Adar • Common Neighbors • Preferential Attachment • Resource Allocations • Same Community • Total Neighbors Similarity • Node Similarity • K-Nearest Neighbors (KNN) • Jaccard Similarity • Cosine Similarity • Pearson Similarity • Euclidean Distance • Approximate Nearest Neighbors (ANN) Graph Embeddings • Node2Vec • FastRP • FastRPExtended • GraphSAGE … and more! • Synthetic Graph Generation • Scale Properties • Collapse Paths • One Hot Encoding • Split Relationships • Graph Export • Pregel API (write your own algos) 60+ Técnicas de Graph Data Science en Neo4j
  • 22. Pathfinding Los algoritmos Pathfinding y Graph Search se utilizan para identificar rutas óptimas, y a menudo son un primer paso necesario para muchos otros tipos de análisis. Aplicaciones: Ruta más corta, rutas óptimas, disponibilidad de rutas, análisis What-if, rutas alternativas, recuperación en caso de catástrofe. https://neo4j.com/docs/graph-data- science/current/algorithms/pathfinding/
  • 23. Encuentra nodos importantes basándose en las relaciones con otros nodos del grafo. Aplicaciones: Detección de valores atípicos, preprocesamiento, detección de influenciadores, puntos puente, puntos de fallo, vulnerabilidades El color y el tamaño representan la influencia basada en los scores de centralidad https://neo4j.com/docs/graph-data- science/current/algorithms/centrality/ Centralidad
  • 24. Evalúa cómo se agrupan o particionan los grupos de nodos, así como su tendencia a reforzarse o separarse. Aplicaciones: Recomendaciones, homogeneidad, comunidades disjuntas, detección de valores atípicos, preprocesamiento https://neo4j.com/docs/graph-data- science/current/algorithms/community/ Detección de Comunidades
  • 25. Evalúa el grado de similitud de los nodos a nivel individual basándose en los atributos de los nodos, los nodos vecinos o las propiedades de las relaciones. Aplicaciones: Recomendaciones, análisis de hipótesis, desambiguación. https://neo4j.com/docs/graph-data- science/current/algorithms/similarity/ Similitud
  • 26. Estos métodos calculan una puntuación para un par de nodos, donde la puntuación podría considerarse una medida de proximidad o "similitud" entre esos nodos basada en la topología del grafo. Aplicaciones: Enriquecimiento del contexto, rastreo de contactos, detección de spam, asociación en redes sociales, etc. https://neo4j.com/docs/graph-data- science/current/algorithms/linkprediction/ Predicción de Relaciones
  • 27. A graph embedding es una forma de representar cada nodo del grafo como un vector de longitud fija. • Conserva las características clave • Reduce la dimensionalidad • Puede descodificarse Diferentes técnicas pueden representar diferentes aspectos de un grafo, y pueden utilizar diferentes enfoques para aprender esa representación Embeddings
  • 29. Codificar los nodos de forma que la similitud en el espacio de los embeddings, por ejemplo, la similitud del coseno, se aproxime a la similitud en el grafo. Embeddings
  • 30. Clasificación de Nodos: “¿Qué etiqueta debe tener este nodo? Regresión de la propiedad: “¿Cuál es el valor de esta propiedad que falta? Predicción de relaciones: “¿Debería existir una relación entre estos 2 nodos? f(x) f(x) f(x) Nosotros descubrimos el mejor modelo, ¡tu sólo tienes que facilitarnos los datos! GraphML: Regresión y autotuning
  • 32. Ejemplo GDS – Detección del Fraude Algoritmos de Grafos para el análisis de vínculos entre entidades detectan fraude de primera parte e identidades sintéticas de defraudadores a través de canales en el sector financiero y otras industrias. Detectar patrones de actividad fraudulenta en todos los canales Aislar a los defraudadores mediante algoritmos de detección de comunidades, centralidad y embeddings. Identificar a los defraudadores potenciales calculando las similitudes entre los defraudadores conocidos y los clientes. Prevenir el fraude señalando las transacciones y los clientes de mayor riesgo.
  • 33. AGENDA Quienes somos ¿Por qué Graph Data Science? Framework GDS de Neo4j Ejemplo
  • 34. 34 Ejemplo - Objetivo Comparar la precisión de un modelo predictivo supervisado: Sin Grafos vs Con Grafos
  • 35. 35 Ejemplo - Optimizando Modelos de ML con Neo4j GDS Features Random Forest Machine Learning Model Curva Roc Matriz de Confusión Selección de un modelo Entrenamiento del modelo Evaluación del modelo
  • 36. 36 Ejemplo - Optimizando Modelos de ML con Neo4j GDS Features Random Forest Machine Learning Model Curva Roc Matriz de Confusión Selección de un modelo Entrenamiento del modelo Evaluación del modelo Features
  • 37. Ejemplo – Datos y Modelo del Grafo user_id Identificador del usuario fraudRisk Etiqueta riesgo fraude numberOfDevices Numero de dispositivos asociados a el usuario numberOfCCs Número de CC asociados a el usuario numberOfIps Número de Ips desde las que ha operado el usuario totalOutgoingAmount Total de importe enviado avgOutgoingAmount Media importe enviado maxOutgoingAmount Maximo importe enviado outgoingTransactions Número de operaciones enviado totalIncomingAmount Total importe recibido avgIncomingAmount Media del importe recibido maxIncomingAmount Maximo importe recibido incomingTransactions Número de operaciones recibidas Features Conjunto de datos anónimos de una plataforma de pagos P2P.
  • 38. 38 Ejemplo - Optimizando Modelos de ML con Neo4j GDS WCC (componentes débilmente conectados ). Este algoritmo se utiliza para encontrar componentes desconectados o islas dentro del grafo. En nuestro ejemplo, utilizaremos el algoritmo WCC para encontrar componentes o islas de usuarios que utilizaron la misma tarjeta de crédito. PageRank (componentes débilmente conectados ). Este algoritmo se utiliza encontrar los nodos más importantes o influyentes de la red, considerando a la vez la importancia de los nodos que apuntan hacia él. Closeness centrality ( Centralidad de proximidad). Este algoritmo evalúa lo cerca que está un nodo de todos los demás nodos de la red. Los resultados del algoritmo nos informan de qué nodos pueden llegar más rápidamente a todos los demás nodos de la red. Centralidad Comunidades
  • 39. 39 Ejemplo - Optimizando Modelos de ML con Neo4j GDS Curva Roc Matriz de Confusión Matriz de Confusión Curva Roc TP: 0.5 TN: 0.87 FP: 0.13 FN: 0.5 TP: 0.79 TN: 0.9 FP: 0.1 FN: 0.21 AUC = 0.72 AUC = 0.92