Veel mis met voorspellen

Beslismodellen worden steeds belangrijker in de geneeskunde. De kwaliteit laat echter te wensen over.

De arts die moet bepalen of een patiënt met cholesterol- of bloeddrukpillen moet beginnen, gebruikt daarvoor vaak een hulpmiddel zoals het Framingham-risicoscore. Aan de hand van geslacht, leeftijd, rookgedrag, bloeddruk en cholesterol wordt de kans berekend dat iemand binnen tien jaar een hart- en vaatziekte krijgt. Boven een bepaalde grens is behandeling nuttig. Dit is een voorbeeld van een voorspel- of beslismodel.

De kans op het krijgen van een hart- en vaatziekte kan met nog veel meer modellen worden berekend. ‘Meer dan 200!’, zegt Karel Moons, hoogleraar klinische epidemiologie (Julius Centrum, UMC Utrecht). ‘Je hoeft niet academisch geschoold te zijn om te begrijpen dat die bij lange na niet allemaal even goed en toepasbaar zijn.’ Hetzelfde gaat op voor de meeste andere beslismodellen: er zijn er veel, en de kwaliteit laat vaak te wensen over. Reden voor een groep wetenschappers – onder wie Moons – om te bedenken hoe dit beter kan. Daar is een publicatierichtlijn uit voortgekomen, die in een flink aantal vakbladen tegelijkertijd wordt afgedrukt: de Transparent Reporting of a multivariable prediction model for Individual Prognosis Or Diagnosis (TRIPOD statement).

‘De tijd was er rijp voor’, zegt Moons: ‘Geneesmiddelonderzoek is al jaren goed gereguleerd, en het is bij iedereen doorgedrongen wat daar het belang van is. Voor voorspelmodellen is dat veel minder duidelijk. Die modellen hebben geen directe bijwerkingen. Maar ze kunnen wel grote gevolgen hebben: ze worden bijvoorbeeld in veel richtlijnen gepropageerd. Dan moeten ze wel kloppen. En via internet en apps zijn veel modellen toegankelijk voor het grote publiek. Iedereen kan zijn kans op osteoporose, diabetes en noem maar op in een paar minuten berekenen.’

‘De wildgroei aan modellen is niet zo vreemd’, zegt Moons: ‘De modellen zijn vrij makkelijk te maken, denkt men: je hebt een dataset, je kijkt naar wat variabelen en uitkomsten, en hé, daar komt wat uit: je kunt iets voorspellen. Maar dat dergelijke voorspelmodellen ook ontwikkeld en gevalideerd moeten worden conform de juiste wetenschappelijke methoden is nog maar weinig doorgedrongen. Ik zou liever zien dat onderzoekers met een dataset op de plank hun reflex om een nieuw model te ontwikkelen zouden onderdrukken. Ze moeten eerst nagaan of er al vergelijkbare modellen gepubliceerd zijn – en die zijn er bijna altijd – om deze vervolgens in hun data te testen alvorens een eigen model te ontwikkelen.’ Waarom gebruiken onderzoekers hun gegevens niet om bestaande modellen mee te testen? Moons: ‘Ten eerste, omdat waarschijnlijk weinig onderzoekers op de hoogte zijn van deze validatiemethoden. Dit is een relatief jonge discipline binnen de medische wetenschap. Ten tweede, en cru gezegd, wellicht door de publicatiedrift die de huidige medische wetenschap kenmerkt: iemand die andermans model valideert, verhoogt daarmee vooral de impactfactor van die ander. Vele onderzoekers dromen van hun eigen predictiemodel, zoals de Apgar-score.’

Moons zegt dat voorspelmodelmakers op verschillende punten de fout ingaan: ‘Een veel te kleine dataset gebruiken. Of naar te veel variabelen kijken. Het is niet uitzonderlijk dat er naar honderden verschillende voorspellers-items wordt gekeken. Gegarandeerd zit er dan één tussen waarvan je een verband met een uitkomst vindt, een verband dat niet in andere data wordt gevonden. Een andere fout is dat er mensen uit de analyse worden weggelaten, vanwege ontbrekende gegevens. Gebruik van de verkeerde statistische analyses gebeurt ook vaak.’

Nu is er dus een document opgesteld waaraan publicaties over voorspel- en beslismodellen moeten voldoen: zoals goed rapporteren over eventuele ontbrekende gegevens. Dat lijkt een omslachtige aanpak van het probleem. Waarom niet een richtlijn waarin staat hoe je een model moet máken? Moons: ‘Beter onderzoek is natuurlijk wat we willen, maar dat veranderen is erg moeilijk. Daarom beginnen we met beter rapporteren. In het kielzog daarvan zal hopelijk het onderzoek zelf ook verbeteren.’

Voor de dokter die nu al twijfelt over een model heeft Moons alvast een tip: ‘Gebruik nooit een model dat nog niet op een andere dataset is gevalideerd. Zeker als het in een andere setting wordt gebruikt. Neem de Wells-regel (om de kans op longembolie te voorspellen, red.): die is voor de tweede lijn ontwikkeld, maar werd steeds vaker in de eerste lijn gebruikt. Dat is een andere populatie. Wij hebben eerst netjes getest of deze Wells-regel ook in de eerste lijn goed voorspelde. Dit bleek zo te zijn, met slechts een kleine aanpassing.’

Sophie Broersen

Ann Intern Med, 2015. Doi: 10.7236/M14-0697

De TRIPOD Statement wordt in 11 vakbladen gepubliceerd. U kunt het onder meer inzien via www.annals.org.

Veel mis met voorspellen

Jeukende huidafwijking

‘Je gaat toch niet de politie bellen?’

Omstreden tuchtklacht tegen straatdokter in beroep ongegrond verklaard

Actueel

Opinie

Kennis

Tijdschrift

Service

Nieuwsbrief