Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

Predictive analytics: hoe
kunt u patronen herkennen
in ongestructureerde
medische data?

2
Wat als u op basis van opgeslagen patiëntengegevens nauwkeurig kunt bepalen welke patiënten een verhoogd risico lopen op bijvoorbeeld
Hepatitis C (een virale leverontsteking waarvan mensen niet altijd weten dat ze ermee besmet zijn)? Glazen-bol-toekomstmuziek?
Dat gelukkig niet; risicogroepen zijn nu al wel te identificeren, maar nog niet nauwkeurig genoeg. Een lijst met risicofactoren (drugsgebruiker of
verhoogde lever-enzymen bijvoorbeeld) is een goede start, maar u mist de groep mensen die niet op deze punten scoren, maar wel een risico
lopen doordat ze bijvoorbeeld vanwege een tatoeage of piercing besmet kunnen zijn geraakt.
Een grote bron aan informatie die vaak nu niet gebruikt wordt, kan hiervoor het verschil maken: de artsenaantekeningen.
Artsenaantekeningen: een rijkdom aan ongestructureerde data
Tussen de 10 en 15 % van de medische gegevens bestaat uit gestructureerde data. Labresultaten bijvoorbeeld en demografische gegevens van
de patiënten, maar ook ICD-10-codes: allemaal gestructureerde gegevens. Het grootste deel (80 tot 95%) van de medische gegevens is echter
ongestructureerd. Radiologierapporten, ontslagbrieven, aantekeningen van artsen, enzovoorts. En hier zit de echte rijkdom aan data, in de
ongestructureerde gegevens. Met een nieuwe technologie (iKnow) kunnen deze grote hoeveelheden ongestructureerde gegevens geanalyseerd
worden. Waardoor bijvoorbeeld een beter inzicht in de behandeling van patiënten ontstaat. Maar er kunnen ook voorspellingen mee gedaan
worden.
Wie valt buiten de boot?
Drugsgebruikers, Hiv-patiënten, mensen die net in een land geweest zijn waar Hepatitis C veel voorkomt, mannen die seks hebben met andere
mannen: allemaal factoren die het risico op Hepatitis C vergroten. Dit zijn gegevens die vastgelegd kunnen zijn van patiënten die onder
behandeling zijn. Maar hiermee bent u er nog niet. Stel dat een patiënt een tatoeage en/of piercing heeft. Een acupunctuur-behandeling heeft
ondergaan, of een tijdje in de gevangenis heeft gezeten, of andere bijzondere levensomstandigheden heeft die de kans op Hepatitis C vergroten?
Gegevens die niet op de standaard vragenformulieren staan, of een ICD-10 hebben. Maar wel in de aantekeningen van de arts kunnen staan. Ook
die teksten kunnen nu meegenomen worden in de analyse van een patiëntendossier.
Top-down of bottom-up?
Met de traditionele tools voor tekstanalyse worden databases gescand op bepaalde woorden en woordgroepen die in een ontologie zijn
opgenomen, zoals “Hiv”, “Hepatitis “C, “seks”, “drugs”. Maar het kost veel tijd om goede woordenlijsten samen te stellen en de resultaten die uit
de analyses komen, zijn vaak ellenlange overzichten van patiënten waarvoor één of meer van die factoren geldt. Handig, maar u mist ook
resultaten omdat u heel gericht met behulp van vastgestelde zoekwoorden gezocht hebt naar patiëntendossiers waarin die elementen
voorkomen: Top-down dus.

3
Op zoek naar relaties
De iKnow-technologie werkt precies andersom. Het vertrekt vanuit de data, zonder te weten wat er in een bepaald domein aanwezig is. Het
detecteert alle zinvolle woordgroepen en de relaties tussen die woordgroepen en legt die vast, zonder doel van te voren. Dit proces heet smart-
indexing waarbij de technologie zich richt op de linguïstische representatie van relaties. Meestal zijn dat werkwoordsvormen, soms is het een
zelfstandig naamwoord, afhankelijk van de context waarin het zich bevindt. Zodra de linguïstische representaties van relaties gevonden zijn, zijn
alle andere woorden of woordgroepen zinvolle woordgroepen die verwijzen naar specifieke concepten. Op die manier bouwt de technologie aan
een smart-index.
Bijvoorbeeld in de volgende zin: “Twee patiënten hebben last van maagpijn”. De technologie haalt hier de volgende elementen uit en slaat die op
in de smart-index:
 Het concept “twee patiënten”
 De relatie “hebben last van”
 Het concept “maagpijn”
Zodra u die smart-index op een grote dataset loslaat, kunt u hier handige analyses mee maken en die voor verschillende doeleinden gebruiken.
Elementen ontdekken in het elektronisch dossier van een patiënt
Bijvoorbeeld voor het doorzoeken van een elektronisch patiëntendossier: Uit een toplijst met veel voorkomende woorden in de artsverslagen van
een patiënt gemaakt door de smart-index, blijkt bijvoorbeeld dat het woord pijn door de patiënt veel genoemd wordt, waarbij maagpijn vaker in
zijn dossier voorkomt dan pijn op de borst. Dit geeft een goed startpunt voor een verder onderzoek van het patiëntendossier. Deze resultaten
komen uit de data, en niet door zelf specifiek naar het woord “pijn” te zoeken.
Patiënten identificeren
Een andere bruikbare toepassing van de technologie is het selecteren van patiënten en
patiëntengroepen uit grote datasets met gestructureerde en ongestructureerde gegevens.
Een bestralingsinstituut in Nederland wilde graag meer weten over de werking van een bepaald
diabetesmedicijn tijdens de behandeling van nek- en halskanker. De specifieke vraag was: toon alle
patiënten die metformin gebruiken, getest zijn op diabetes en de diagnose nek-halskanker hebben.
Als er alleen op de medicijnnaam gezocht zou worden, zouden in de zoekresultaten ook de patiënten
voorkomen die gestopt zijn met het medicijn.

4
Door de smart-index op de dataset los te laten, kon de zoekvraag verfijnd worden, is er ook informatie uit de artsaantekeningen gehaald en
ontstond er zo een overzicht van de patiënten die aan alle drie de voorwaarden voldoen. Vervolgens kunnen de patiëntencodes aangeklikt
worden die linken naar de zinsneden van de artsaantekeningen waarin die elementen voorkomen.
Patronen herkennen
Maar de techniek kan ook gebruikt worden om predictive models op te bouwen, zoals door een huisartsenpraktijk in België gedaan is, die wilde
onderzoeken welke patiënten een verhoogd risico lopen op het besmet raken met Hepatitis C. De praktijk wilde daarvoor de complete
patiëntendossiers gebruiken. Het grootste deel van de lijst risicofactoren voor deze virale leverontsteking bestaat uit gestructureerde data, zoals
gestegen lever-enzymen. Maar juist andere belangrijke factoren als wel of geen piercing, tatoeage, of gevangenisverblijf staan niet in de
gestructureerde dataset met codes, maar kunnen wel in het ongestructureerde deel van het patiëntendossier voorkomen, in de
artsaantekeningen.
Door de smart-index los te laten op die gegevens en te combineren met de gestructureerde gegevens uit de dossiers, konden meerdere patiënten
als risicovol geïdentificeerd worden. Deze patiënten konden vervolgens getest worden op Hepatitis C. Op deze manier zijn patiënten te
identificeren die voorheen, zonder de analyse van de ongestructureerde gegevens, waarschijnlijk niet als risicovol aangemerkt zouden worden.
Aan de slag met die gegevens!
Wilt u ook aan de slag met de enorme hoeveelheden ongestructureerde medische gegevens die aanwezig zijn binnen uw zorginstelling, uw
zorgregio of uw onderzoeksinstituut? Om patronen te herkennen in ziektebeelden en behandelingen? Of om risicogroepen nauwkeurig vast te
kunnen stellen? En patiënten op tijd te kunnen behandelen? Neem gerust contact met ons op, we kijken graag samen verder naar wat er mogelijk
is.
Ook kunt u onze presentatie van de Zorg & ICT beurs bekijken: 'Het ontsluiten van ongestructureerde medische data'.

5
Dit artikel is geschreven door de redactie van InterSystems.
Fotocredits
Glazen bol: Wateropleidingen
Computer: InterSystems presentatie Dirk van Hyfte, Zorg & ICT beurs
Wil je meer informatie? Klik hier om naar ons blog te gaan.

Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?

Recomendados

Recomendados

Más contenido relacionado

Más de InterSystems Benelux

Más de InterSystems Benelux (10)

Blog 15: Predictive analytics: hoe kunt u patronen herkennen in ongestructureerde medische data?