Complexe modellen worden steeds meer gebruikt voor het ondersteunen en maken van beslissingen, zoals welke behandeling het meest effectief is voor een patient, wie er wordt uitgenodigd voor een sollicitatiegesprek, of waar we extra moeten controleren op fraude. Dergelijke modellen zijn vaak gebaseerd op machine learning: door de gegevens van veel cases te analyseren worden automatisch modellen gegenereerd. Vervolgens worden die modellen gebruikt om voor nieuwe cases advies te geven of zelfs automatisch beslissingen te nemen. Dit kan verrassend effectief zijn, maar is niet zonder risico. Door historische gegevens te gebruiken, is er bijvoorbeeld een groot risico dat het model alle vooroordelen van het verleden reproduceert. Deze ontwikkeling leidt dan ook tot steeds meer vragen: zijn de uitkomsten correct, wat is de gevolgde redenering, en hoe kunnen we dat controleren? Transparantie is het streven, en tegenwoordig wordt door de GDPR ook afgedwongen dat bij ingrijpende beslissingen altijd een mens betrokken is. Het geven van inzicht in complexe modellen is een grote uitdaging en krijgt veel aandacht. In de presentatie wordt een overzicht van het probleem gegeven en worden voorbeelden getoond hoe visualisatie kan helpen om modellen te begrijpen. Deze voorbeelden zijn het resultaat van onderzoek van TU/e en gaan onder andere over het beoordelen van riskant scheepsgedrag, analyseren van slaapstoornissen en het inschatten van fraude.
Visualisatie voor transparante beslissingen - Big Data Expo 2019
1. Jack vanWijk
BIG DATA EXPO
Utrecht, 18 & 19 september, 2019
Visualization for
Transparent Decisions
2.
3.
4. More decisions…
• You qualify for our special offer
• You are not admitted to our education program
• Your job application is put aside
• Your mortgage request cannot be honored
• Your research proposal is rejected
• You should get vitrectomie
• Your probation request is declined
• You are fired
• You are arrested
5. More decisions…
• You qualify for our special offer
• You are not admitted to our education program
• Your job application is put aside
• Your mortgage request cannot be honored
• Your research proposal is rejected
• You should get vitrectomie
• Your probation request is declined
• You are fired
• You are arrested
Should we let
the computer
decide?
6.
7. The challenge
• How to obtain transparency in
predictive analytics?
• How to present the evidence and
reasoning used, such that humans can
understand, validate, and judge the
results?
9. Complex models
Increasing complexity:
• rules
• logistic regression
• decision trees
• support vector machines
• random forests
• neural networks
• deep learning networks
Size matters:
• 1000 rules?
• 100 variables?
• 50 layers?
• 10 dimensions?
• 100 trees?
• 1000’s of nodes?
• millions of nodes?
10. Approaches to explanation
• Model:
– White box: show how the model works
– Black box: use simplified model
• Scope:
– Global: explain for all possible cases
– Local: explain for selected cases
11. Case 1: Decision tree visualization
Problem:
• Support construction of decision trees
• Enable domain expert to bring in domain
knowledge
White box approach:
• Model explicitly shown
• Global
13. Decision tree for
tumor location
head & neck
prostate
pancreas
stomach
lung
ovary
BaobabView
Stef van den Elzen, IEEEVAST 2011
14. Case 2: Polysomnography
• Measure brain signals during sleep
• Classify 30s intervals according to five stages
Humberto Garçia Caballero et al., EuroVis 2019
Classifying one night sleep
takes one hour of an expert
Classification with deep
learning: accuracy ± 85%
How to improve?
17. Case 3: RationaleVisualization for Safety and
Security
Approach:
• show strongly simplified model
• for one case
Roeland Scheepens, Steffen Michels et al., EuroVis 2015
19. But why!?
AIS-data,
radar data,
web data,
reports… on
vessels
Probabilistic first order
logic inference engine
Coast guard
Roeland Scheepens, Steffen Michels et al., EuroVis 2015
Problem
22. Case 4: Insurance Fraud detection
MSc project Dennis Collaris
Support fraud detection team in
prioritization of cases
Approach:
• show strongly simplified model
• for one case
23. Start point
Data set:
– 38,138 insurance policies
– 49 attributes per policy
– 129 confirmed fraud
Model:
Bagging ensemble of
– 100 Random Forest models, each with
– 500 CART decision trees
Dennis Collaris, 2018
27. Observations Achmea case
• Deriving explanations is hard work
• Different techniques yield different explanations
• But, domain experts did not seem to care???
Dennis Collaris, 2018