SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
Predictive analytics: hoe
kunt u patronen herkennen
in ongestructureerde
medische data?
2
Wat als u op basis van opgeslagen patiëntengegevens nauwkeurig kunt bepalen welke patiënten een verhoogd risico lopen op bijvoorbeeld
Hepatitis C (een virale leverontsteking waarvan mensen niet altijd weten dat ze ermee besmet zijn)? Glazen-bol-toekomstmuziek?
Dat gelukkig niet; risicogroepen zijn nu al wel te identificeren, maar nog niet nauwkeurig genoeg. Een lijst met risicofactoren (drugsgebruiker of
verhoogde lever-enzymen bijvoorbeeld) is een goede start, maar u mist de groep mensen die niet op deze punten scoren, maar wel een risico
lopen doordat ze bijvoorbeeld vanwege een tatoeage of piercing besmet kunnen zijn geraakt.
Een grote bron aan informatie die vaak nu niet gebruikt wordt, kan hiervoor het verschil maken: de artsenaantekeningen.
Artsenaantekeningen: een rijkdom aan ongestructureerde data
Tussen de 10 en 15 % van de medische gegevens bestaat uit gestructureerde data. Labresultaten bijvoorbeeld en demografische gegevens van
de patiënten, maar ook ICD-10-codes: allemaal gestructureerde gegevens. Het grootste deel (80 tot 95%) van de medische gegevens is echter
ongestructureerd. Radiologierapporten, ontslagbrieven, aantekeningen van artsen, enzovoorts. En hier zit de echte rijkdom aan data, in de
ongestructureerde gegevens. Met een nieuwe technologie (iKnow) kunnen deze grote hoeveelheden ongestructureerde gegevens geanalyseerd
worden. Waardoor bijvoorbeeld een beter inzicht in de behandeling van patiënten ontstaat. Maar er kunnen ook voorspellingen mee gedaan
worden.
Wie valt buiten de boot?
Drugsgebruikers, Hiv-patiënten, mensen die net in een land geweest zijn waar Hepatitis C veel voorkomt, mannen die seks hebben met andere
mannen: allemaal factoren die het risico op Hepatitis C vergroten. Dit zijn gegevens die vastgelegd kunnen zijn van patiënten die onder
behandeling zijn. Maar hiermee bent u er nog niet. Stel dat een patiënt een tatoeage en/of piercing heeft. Een acupunctuur-behandeling heeft
ondergaan, of een tijdje in de gevangenis heeft gezeten, of andere bijzondere levensomstandigheden heeft die de kans op Hepatitis C vergroten?
Gegevens die niet op de standaard vragenformulieren staan, of een ICD-10 hebben. Maar wel in de aantekeningen van de arts kunnen staan. Ook
die teksten kunnen nu meegenomen worden in de analyse van een patiëntendossier.
Top-down of bottom-up?
Met de traditionele tools voor tekstanalyse worden databases gescand op bepaalde woorden en woordgroepen die in een ontologie zijn
opgenomen, zoals “Hiv”, “Hepatitis “C, “seks”, “drugs”. Maar het kost veel tijd om goede woordenlijsten samen te stellen en de resultaten die uit
de analyses komen, zijn vaak ellenlange overzichten van patiënten waarvoor één of meer van die factoren geldt. Handig, maar u mist ook
resultaten omdat u heel gericht met behulp van vastgestelde zoekwoorden gezocht hebt naar patiëntendossiers waarin die elementen
voorkomen: Top-down dus.
3
Op zoek naar relaties
De iKnow-technologie werkt precies andersom. Het vertrekt vanuit de data, zonder te weten wat er in een bepaald domein aanwezig is. Het
detecteert alle zinvolle woordgroepen en de relaties tussen die woordgroepen en legt die vast, zonder doel van te voren. Dit proces heet smart-
indexing waarbij de technologie zich richt op de linguïstische representatie van relaties. Meestal zijn dat werkwoordsvormen, soms is het een
zelfstandig naamwoord, afhankelijk van de context waarin het zich bevindt. Zodra de linguïstische representaties van relaties gevonden zijn, zijn
alle andere woorden of woordgroepen zinvolle woordgroepen die verwijzen naar specifieke concepten. Op die manier bouwt de technologie aan
een smart-index.
Bijvoorbeeld in de volgende zin: “Twee patiënten hebben last van maagpijn”. De technologie haalt hier de volgende elementen uit en slaat die op
in de smart-index:
 Het concept “twee patiënten”
 De relatie “hebben last van”
 Het concept “maagpijn”
Zodra u die smart-index op een grote dataset loslaat, kunt u hier handige analyses mee maken en die voor verschillende doeleinden gebruiken.
Elementen ontdekken in het elektronisch dossier van een patiënt
Bijvoorbeeld voor het doorzoeken van een elektronisch patiëntendossier: Uit een toplijst met veel voorkomende woorden in de artsverslagen van
een patiënt gemaakt door de smart-index, blijkt bijvoorbeeld dat het woord pijn door de patiënt veel genoemd wordt, waarbij maagpijn vaker in
zijn dossier voorkomt dan pijn op de borst. Dit geeft een goed startpunt voor een verder onderzoek van het patiëntendossier. Deze resultaten
komen uit de data, en niet door zelf specifiek naar het woord “pijn” te zoeken.
Patiënten identificeren
Een andere bruikbare toepassing van de technologie is het selecteren van patiënten en
patiëntengroepen uit grote datasets met gestructureerde en ongestructureerde gegevens.
Een bestralingsinstituut in Nederland wilde graag meer weten over de werking van een bepaald
diabetesmedicijn tijdens de behandeling van nek- en halskanker. De specifieke vraag was: toon alle
patiënten die metformin gebruiken, getest zijn op diabetes en de diagnose nek-halskanker hebben.
Als er alleen op de medicijnnaam gezocht zou worden, zouden in de zoekresultaten ook de patiënten
voorkomen die gestopt zijn met het medicijn.
4
Door de smart-index op de dataset los te laten, kon de zoekvraag verfijnd worden, is er ook informatie uit de artsaantekeningen gehaald en
ontstond er zo een overzicht van de patiënten die aan alle drie de voorwaarden voldoen. Vervolgens kunnen de patiëntencodes aangeklikt
worden die linken naar de zinsneden van de artsaantekeningen waarin die elementen voorkomen.
Patronen herkennen
Maar de techniek kan ook gebruikt worden om predictive models op te bouwen, zoals door een huisartsenpraktijk in België gedaan is, die wilde
onderzoeken welke patiënten een verhoogd risico lopen op het besmet raken met Hepatitis C. De praktijk wilde daarvoor de complete
patiëntendossiers gebruiken. Het grootste deel van de lijst risicofactoren voor deze virale leverontsteking bestaat uit gestructureerde data, zoals
gestegen lever-enzymen. Maar juist andere belangrijke factoren als wel of geen piercing, tatoeage, of gevangenisverblijf staan niet in de
gestructureerde dataset met codes, maar kunnen wel in het ongestructureerde deel van het patiëntendossier voorkomen, in de
artsaantekeningen.
Door de smart-index los te laten op die gegevens en te combineren met de gestructureerde gegevens uit de dossiers, konden meerdere patiënten
als risicovol geïdentificeerd worden. Deze patiënten konden vervolgens getest worden op Hepatitis C. Op deze manier zijn patiënten te
identificeren die voorheen, zonder de analyse van de ongestructureerde gegevens, waarschijnlijk niet als risicovol aangemerkt zouden worden.
Aan de slag met die gegevens!
Wilt u ook aan de slag met de enorme hoeveelheden ongestructureerde medische gegevens die aanwezig zijn binnen uw zorginstelling, uw
zorgregio of uw onderzoeksinstituut? Om patronen te herkennen in ziektebeelden en behandelingen? Of om risicogroepen nauwkeurig vast te
kunnen stellen? En patiënten op tijd te kunnen behandelen? Neem gerust contact met ons op, we kijken graag samen verder naar wat er mogelijk
is.
Ook kunt u onze presentatie van de Zorg & ICT beurs bekijken: 'Het ontsluiten van ongestructureerde medische data'.
5
Dit artikel is geschreven door de redactie van InterSystems.
Fotocredits
Glazen bol: Wateropleidingen
Computer: InterSystems presentatie Dirk van Hyfte, Zorg & ICT beurs
Wil je meer informatie? Klik hier om naar ons blog te gaan.

Más contenido relacionado

Más de InterSystems Benelux

Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015InterSystems Benelux
 
Big data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careBig data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careInterSystems Benelux
 
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...InterSystems Benelux
 
Generating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaGenerating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaInterSystems Benelux
 
Blog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenBlog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenInterSystems Benelux
 
InterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems Benelux
 
InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems Benelux
 
InterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Benelux
 
InterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems Benelux
 

Más de InterSystems Benelux (10)

Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
 
Big data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careBig data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active care
 
Vakbeurs Zorg en ICT: Komt u ook?
Vakbeurs Zorg en ICT: Komt u ook?Vakbeurs Zorg en ICT: Komt u ook?
Vakbeurs Zorg en ICT: Komt u ook?
 
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
 
Generating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaGenerating Actionable Insight from Social Media
Generating Actionable Insight from Social Media
 
Blog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyserenBlog 12: Ongestructureerde big data analyseren
Blog 12: Ongestructureerde big data analyseren
 
InterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured Data
 
InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...
 
InterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the data
 
InterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big data
 

Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

  • 1. Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?
  • 2. 2 Wat als u op basis van opgeslagen patiëntengegevens nauwkeurig kunt bepalen welke patiënten een verhoogd risico lopen op bijvoorbeeld Hepatitis C (een virale leverontsteking waarvan mensen niet altijd weten dat ze ermee besmet zijn)? Glazen-bol-toekomstmuziek? Dat gelukkig niet; risicogroepen zijn nu al wel te identificeren, maar nog niet nauwkeurig genoeg. Een lijst met risicofactoren (drugsgebruiker of verhoogde lever-enzymen bijvoorbeeld) is een goede start, maar u mist de groep mensen die niet op deze punten scoren, maar wel een risico lopen doordat ze bijvoorbeeld vanwege een tatoeage of piercing besmet kunnen zijn geraakt. Een grote bron aan informatie die vaak nu niet gebruikt wordt, kan hiervoor het verschil maken: de artsenaantekeningen. Artsenaantekeningen: een rijkdom aan ongestructureerde data Tussen de 10 en 15 % van de medische gegevens bestaat uit gestructureerde data. Labresultaten bijvoorbeeld en demografische gegevens van de patiënten, maar ook ICD-10-codes: allemaal gestructureerde gegevens. Het grootste deel (80 tot 95%) van de medische gegevens is echter ongestructureerd. Radiologierapporten, ontslagbrieven, aantekeningen van artsen, enzovoorts. En hier zit de echte rijkdom aan data, in de ongestructureerde gegevens. Met een nieuwe technologie (iKnow) kunnen deze grote hoeveelheden ongestructureerde gegevens geanalyseerd worden. Waardoor bijvoorbeeld een beter inzicht in de behandeling van patiënten ontstaat. Maar er kunnen ook voorspellingen mee gedaan worden. Wie valt buiten de boot? Drugsgebruikers, Hiv-patiënten, mensen die net in een land geweest zijn waar Hepatitis C veel voorkomt, mannen die seks hebben met andere mannen: allemaal factoren die het risico op Hepatitis C vergroten. Dit zijn gegevens die vastgelegd kunnen zijn van patiënten die onder behandeling zijn. Maar hiermee bent u er nog niet. Stel dat een patiënt een tatoeage en/of piercing heeft. Een acupunctuur-behandeling heeft ondergaan, of een tijdje in de gevangenis heeft gezeten, of andere bijzondere levensomstandigheden heeft die de kans op Hepatitis C vergroten? Gegevens die niet op de standaard vragenformulieren staan, of een ICD-10 hebben. Maar wel in de aantekeningen van de arts kunnen staan. Ook die teksten kunnen nu meegenomen worden in de analyse van een patiëntendossier. Top-down of bottom-up? Met de traditionele tools voor tekstanalyse worden databases gescand op bepaalde woorden en woordgroepen die in een ontologie zijn opgenomen, zoals “Hiv”, “Hepatitis “C, “seks”, “drugs”. Maar het kost veel tijd om goede woordenlijsten samen te stellen en de resultaten die uit de analyses komen, zijn vaak ellenlange overzichten van patiënten waarvoor één of meer van die factoren geldt. Handig, maar u mist ook resultaten omdat u heel gericht met behulp van vastgestelde zoekwoorden gezocht hebt naar patiëntendossiers waarin die elementen voorkomen: Top-down dus.
  • 3. 3 Op zoek naar relaties De iKnow-technologie werkt precies andersom. Het vertrekt vanuit de data, zonder te weten wat er in een bepaald domein aanwezig is. Het detecteert alle zinvolle woordgroepen en de relaties tussen die woordgroepen en legt die vast, zonder doel van te voren. Dit proces heet smart- indexing waarbij de technologie zich richt op de linguïstische representatie van relaties. Meestal zijn dat werkwoordsvormen, soms is het een zelfstandig naamwoord, afhankelijk van de context waarin het zich bevindt. Zodra de linguïstische representaties van relaties gevonden zijn, zijn alle andere woorden of woordgroepen zinvolle woordgroepen die verwijzen naar specifieke concepten. Op die manier bouwt de technologie aan een smart-index. Bijvoorbeeld in de volgende zin: “Twee patiënten hebben last van maagpijn”. De technologie haalt hier de volgende elementen uit en slaat die op in de smart-index:  Het concept “twee patiënten”  De relatie “hebben last van”  Het concept “maagpijn” Zodra u die smart-index op een grote dataset loslaat, kunt u hier handige analyses mee maken en die voor verschillende doeleinden gebruiken. Elementen ontdekken in het elektronisch dossier van een patiënt Bijvoorbeeld voor het doorzoeken van een elektronisch patiëntendossier: Uit een toplijst met veel voorkomende woorden in de artsverslagen van een patiënt gemaakt door de smart-index, blijkt bijvoorbeeld dat het woord pijn door de patiënt veel genoemd wordt, waarbij maagpijn vaker in zijn dossier voorkomt dan pijn op de borst. Dit geeft een goed startpunt voor een verder onderzoek van het patiëntendossier. Deze resultaten komen uit de data, en niet door zelf specifiek naar het woord “pijn” te zoeken. Patiënten identificeren Een andere bruikbare toepassing van de technologie is het selecteren van patiënten en patiëntengroepen uit grote datasets met gestructureerde en ongestructureerde gegevens. Een bestralingsinstituut in Nederland wilde graag meer weten over de werking van een bepaald diabetesmedicijn tijdens de behandeling van nek- en halskanker. De specifieke vraag was: toon alle patiënten die metformin gebruiken, getest zijn op diabetes en de diagnose nek-halskanker hebben. Als er alleen op de medicijnnaam gezocht zou worden, zouden in de zoekresultaten ook de patiënten voorkomen die gestopt zijn met het medicijn.
  • 4. 4 Door de smart-index op de dataset los te laten, kon de zoekvraag verfijnd worden, is er ook informatie uit de artsaantekeningen gehaald en ontstond er zo een overzicht van de patiënten die aan alle drie de voorwaarden voldoen. Vervolgens kunnen de patiëntencodes aangeklikt worden die linken naar de zinsneden van de artsaantekeningen waarin die elementen voorkomen. Patronen herkennen Maar de techniek kan ook gebruikt worden om predictive models op te bouwen, zoals door een huisartsenpraktijk in België gedaan is, die wilde onderzoeken welke patiënten een verhoogd risico lopen op het besmet raken met Hepatitis C. De praktijk wilde daarvoor de complete patiëntendossiers gebruiken. Het grootste deel van de lijst risicofactoren voor deze virale leverontsteking bestaat uit gestructureerde data, zoals gestegen lever-enzymen. Maar juist andere belangrijke factoren als wel of geen piercing, tatoeage, of gevangenisverblijf staan niet in de gestructureerde dataset met codes, maar kunnen wel in het ongestructureerde deel van het patiëntendossier voorkomen, in de artsaantekeningen. Door de smart-index los te laten op die gegevens en te combineren met de gestructureerde gegevens uit de dossiers, konden meerdere patiënten als risicovol geïdentificeerd worden. Deze patiënten konden vervolgens getest worden op Hepatitis C. Op deze manier zijn patiënten te identificeren die voorheen, zonder de analyse van de ongestructureerde gegevens, waarschijnlijk niet als risicovol aangemerkt zouden worden. Aan de slag met die gegevens! Wilt u ook aan de slag met de enorme hoeveelheden ongestructureerde medische gegevens die aanwezig zijn binnen uw zorginstelling, uw zorgregio of uw onderzoeksinstituut? Om patronen te herkennen in ziektebeelden en behandelingen? Of om risicogroepen nauwkeurig vast te kunnen stellen? En patiënten op tijd te kunnen behandelen? Neem gerust contact met ons op, we kijken graag samen verder naar wat er mogelijk is. Ook kunt u onze presentatie van de Zorg & ICT beurs bekijken: 'Het ontsluiten van ongestructureerde medische data'.
  • 5. 5 Dit artikel is geschreven door de redactie van InterSystems. Fotocredits Glazen bol: Wateropleidingen Computer: InterSystems presentatie Dirk van Hyfte, Zorg & ICT beurs Wil je meer informatie? Klik hier om naar ons blog te gaan.