Neo4j Jesus Barrasa The Art of the Possible with Graph
Cerved - The Italian Business Graph: a Story of Tech & data-driven Innovation
1. The Italian business graph
A tech & data driven innovation story
aprile ’18
Stefano Gatti – Head of Innovation & Data Sources
Antonello Mantuano – Chief Tecnology Officer
2. Overview
Cerved & il suo ecosistema
Cerved e la sua evoluzione a Grafo
L’evoluzione dei casi d’uso
Il Grafo nell’infrastruttura Cerved
Un infrastruttura “poliglotta” a supporto dell’innovazione
Contenuti
4. 4
Aree Business & Numeri
Credit
Information
Credit
Management
Marketing
Solutions
Cerved: il leader italiano nei servizi a supporto
della gestione del credito, dall’origination fino al
recupero dei crediti problematici
RICHIESTE DI
INFORMAZIONI AL MINUTO
> 1.000
DIPENDENTI
> 1.900
FATTURATO
2016
377 M€
SPESA ANNUA
IN DATI &
TECNOLOGIA
40 M€
ESPERIENZE DI
PAGAMENTO
> 65 M
CLIENTI
> 34.000
NODI GRAFO
> 60 M
LINEE DI CODICE
SW IN PROD
> 40 M
5. 5
L’infrastruttura tecnologica
Sourcing
Business Rules
Prodotti
Erogazione
Operations
1,1 PB Byte dati
> 3000 business-rules
600 milioni
di eventi dati di
monitoraggio
all’anno
350 operatori
su sw interno
50 siti web
di erogazione
> 200 progetti B2B
> 500 prodotti
80% evasioni
time-critical
1000
server
18 dei primi 30
database più diffusi
in produzione
Piattaforma
1000 Server
ApiPlatform
6. I nostri Big Data
6
Web Data
Open Data
Dati proprietari
Dato ufficiale non
camerale
Dato ufficiale
camerale
Attività economichePersone Fisiche
Immobili
Il territorio
8. 1- Titolare effettivo:
❖ Prestazioni tecniche
❖ Total cost of ownership
2012
4- Graph Platform:
❖ APOC
❖ APIs
2014
2016
8
2018
Cerved e la sua evoluzione a grafo: le tappe
2- Gruppi italiani:
❖ Data Modeling
3- Graph4You:
❖ * Data driven product
❖ Graph UX & UI
9. 1 - Titolare effettivo
Fino al livello n° 3, nessuno penserebbe che Willy esercita un controllo effettivo
di maggioranza sulla ACME. Willy sembra un socio minoritario di ACME
Livello 1: 10% Livello 3: 24.4% Livello 4: 34.2%
ACME spa
Soc. A (40%)
Soc. B (50%)
Willy
(10%)
Soc. A1 (40%)
Soc. A2 (60%)
Soc. B1 (40%)
Soc. B2 (60%)
Willy
(40%)
Duffy
(60%)
Willy
(40%)
Soc. B1.1 (60%)
Soc. B2.1 (50%)
Speedy
(50%)
Willy
(90%)
Bunny
(10%)
Livello 2: 10%
Cosa è?
10. 1 - Titolare effettivo
La tecnologia al servizio dei dati
Database relazionale Neo4J
Tempi medi totali 369 ms (fino al 5° livello)
> 12 sec (dal 5° livello)
39 ms (fino al 15° livello)
Neo4J su un server con caratteristiche
«standard» (8 core con 12GB di RAM) con
uso di alcune funzionalità avanzate come il
Traversal Framework e l’In-Memory Caching
Calcolato real time su 2.325.000
aziende per 3.730.00 titolari
effettivi calcolati
Ricalcolo di 150.000 titolari
effettivi all’ora
Negli ultimi 6 mesi abbiamo
inviato ai nostri clienti 350.000
notifiche real-time di variazione
11. 2 - Gruppi Italiani
La Network Analysis al servizio dei dati
Più di 230.000 gruppi
Più di 850.000 aziende nel
perimetro (controllo e semplice
possesso)
Ricalcolo near-real time
12. 3 – Graph4You
La Network Analysis al servizio dei dati
Più di 40 milioni di nodi e 100
milioni di relazioni
Shortest path real time tra n nodi
fino all’8° livello di connessione
UX & UI powered by Linkurious
13. 3 – Graph4You
La Network Analysis al servizio dei dati
Più di 40 milioni di nodi e 100
milioni di relazioni
Shortest path real time tra n nodi
fino all’8° livello di connessione
UX & UI powered by Linkurious
14. 14
3 – Graph4You. Ambiti di applicazione & target
Procurement
Enti pubblici e grandi aziende che indicono gare
d’appalto per individuare relazioni sospette tra i
partecipanti.
Le aziende dotate di un ufficio acquisti per acquisire
informazioni sui legami di potenziali fornitori così da
valutarne meglio l’affidabilità.
Investigation
Aziende medio/grandi in fase di fusione e/o
acquisizione per analizzare le connessioni societarie
di futuri partner.
Studi di consulenza tributaria/legale e commercialisti
per recuperare maggiori informazioni sulle aziende.
Società di auditing e revisione per conoscere meglio le
aziende in esame e le loro connessioni.
Tutte le aziende che desiderano fare business
intelligence e conoscere le acquisizioni dei
concorrenti, quote societarie e/o partecipazioni.
Antifrode
Utilities per intercettare possibili frodi, frequenti nel
caso di volture, tramite l’analisi della relazione tra
vecchio e nuovo intestatario del contratto.
Le compagnie assicurative per sapere se un
potenziale cliente presenta connessioni con altri
soggetti che hanno sinistri a loro carico.
Scouting
Aziende medio/grandi per approfondire la conoscenza
dei competitor e/o accrescere la base clienti tramite
l’analisi delle loro relazioni.
15. Score di distanza tra coppie di soggetti;
Score di distanza tra un soggetto e gruppi di
nodi (ad esempio liste clienti o soggetti
appartenenti allo stesso gruppo societario);
La distanza tra soggetti viene calcolata con
un algoritmo di shortest path pesato che
utilizza configurazioni di pesi definite ad hoc.
4 – La piattaforma a grafo
16. 4 – La piattaforma a grafo
Graph4You può essere erogato in diverse modalità per aderire alle esigenze più specifiche
API
Graph 4 you è disponibile in
modalità real-time sulla
piattaforma API di Cerved,
per consentire una facile
integrazione nei sistemi dei
clienti.
BATCH
Il cliente può richiedere
informazioni su grandi volumi
di dati fornendo un file di input
da arricchire
PERSONALIZZATO
In base alle esigenze del
cliente è possibile effettuare
personalizzazione sia nella
logica con cui le relazioni
vengono interpretate, sia nelle
modalità di fruizione
/interrogazione
WEB
Un accesso diretto via web alla
piattaforma permette di fruire in
modo immediato delle informazioni
utili al processo decisionale
Piattaforma standard Ad-hoc
18. Una Architettura in evoluzione
18
2012
Introduzione di Neo4J
nell’architettura di erogazione di
Cerved
2014
Integrazione di Neo4J con il resto
dell’architettura di erogazione di
Cerved
2018
Visione unica tra cloud e on
premises
2016
Soluzioni Cloud-native basate su
Neo4J.
Dai primi esperimenti e soluzioni basate su
Neo4J è stato fatto un lungo percorso per
atterrare su una architettura unica, enterprise e
integrata
Neo4J in Cerved
19. Fase 1: Neo4J in architettura SOA
DB Rel
(Oracle)
Service Layer
Web Server
Browser
Reporting, BI,
Batch Algorithm,
ecc…
B2B
Processi OLTP Neo4J
GraphDB
DB Rel
(Oracle)
Processi OLTP
Service Layer
Web Server
Browser
Reporting, BI,
Batch Algorithm,
ecc…
B2B
Network Analysis
Periodical processes
20. Fase 1: Limiti
Neo4J
GraphDB
DB Rel
(Oracle)
Processi OLTP
Service Layer
Web Server
Browser
Reporting, BI,
Batch Algorithm,
ecc…
B2B
Network Analysis
Periodical processes
Asincronia tra i database
Distonie sui Dati
Modelli Dati Separati
Rigenerazioni full continue
21. Fase 2: Integrazione Neo4J / Oracle
Neo4J
GraphDB
DB Rel
(Oracle)
Processi OLTP
Service Layer
Web Server
Browser
Reporting, BI,
Batch Algorithm,
ecc…
B2B
Network Analysis
Distonie sui Dati
Rigenerazioni full continue
Poca scalabilità
Limiti
Manutenibilità più complessa
22. Fase 3: Neo4J in Cloud
Neo4J
GraphDB
DB Rel
(Oracle)
Processi OLTP
API
Web ServerBrowser
Distonie sui Dati
Rigenerazioni full continue
Replica basata su ETL
Limiti
ETL
Neo4J
GraphDB
25. Fase 4:
Cerved Enterprise
Data Platform
Onlice Data
Processi OLTP
Batch
NoSql
Graph DB
Other
NOSQL
Graph DB
in Cloud
Network Analisys
Back-End API
Stream Processing
Front End
DB Rel
DWH
Classic
CDC
DB Operational Hadoop DataLake
26. Enterprise Data Platform – Una View Funzionale Graph based
1
DATI
Un patrimonio esclusivo basato sull’unione tra
dati ufficiali e informazioni proprietarie Cerved
2
ALGORITMI
Analytics per valutare la
rischiosità, effettuare profilazione e
analisi di marketing, esaminare la
customer base 3
PIATTAFORMA = DATI + ALGORITMI
Una ricca base dati che nasce dalla selezione
accurata di informazioni provenienti da fonti
differenti, insieme ad algoritmi personalizzabili e
integrabili
GRAPH4You
CERVED CREDIT SUITE
GRAPH API
GRUPPI
TIT. EFF.
GRAPH4You Personalizzato
27. Situazione Attuale
Progetto del 2018 su cui i POC sono più che rassicuranti
Vantaggi
• Sistemi continuamente allineati
• Distonie dati assenti
• Replica dei dati gestita in Streaming
• Possibilità di scalare su più sistemi
Sfide
• Interpretazione efficiente dei change Oracle
• Uso Kafka su Neo4J
• Streaming Processing
La EDP funziona?
Ma…
… le potenzialità del modello sono troppo allettanti….
... e ci piacciono le sfide difficili!!!!