Laatste nieuws
Nieuws

Medische wetenschap: zelflerende algoritmes zijn meestal onnodig

Plaats een reactie

Bij medisch-wetenschappelijk onderzoek wordt machinelearning meestal onnodig of zelfs onjuist toegepast. Dat betogen neurochirurg in opleiding Victor Volovici (Erasmus MC) en enkele collega’s in Nature Medicine. Ook schrijven ze hoe het beter kan.

Tijdens de coronapandemie claimden onderzoekers dat hun machinelearningalgoritme covid-19 kon voorspellen met behulp van een thoraxfoto. Later bleek dit niet te kloppen. Het algoritme had een patroon gezien in de positie van de letter R – rechterlong – op de thoraxfoto. Die positie verschilde namelijk iets tussen scans van verschillende ziekenhuizen. Aan dat verschil had het algoritme blijkbaar een voorspellende waarde voor covid-19 toegekend.

Deeplearning

Dat deze fout ontdekt is, is volgens Volovici bijzonder. Het betrof namelijk een zogenoemd ongesuperviseerd deeplearning-algoritme. Dat algoritme zoekt zelf patronen in een grote dataset zonder dat het expliciete instructies krijgt ten aanzien van de uitkomst.

Hoe het algoritme tot een conclusie komt, is momenteel alleen met experimentele technieken te achterhalen. ‘Andere onderzoekers kwamen erachter toen ze een eigen innovatieve techniek wilden testen om dit covidalgoritme te dwingen om aan te tonen hoe het conclusies had getrokken op basis van de data die erin waren gestopt.’

Black box

Voor de dokter is machinelearning – waar deeplearning een onderdeel van is – een black box. ‘Gesuperviseerd of ongesuperviseerd, machinelearning is voor de clinicus tot op zekere hoogte altijd een black box’ en dat gaat vaak niet samen met klinisch redeneren, stelt Volovici. ‘Als de computer iets ziet wat jij als dokter niet ziet en je geen idee hebt hoe de computer eraan komt, hoe leg je dat uit aan de patiënt?’

Dat is zonde, vindt Volovici, want een wetenschapper wil met onderzoek juist iets doen waar de patiënt wat aan heeft. ‘De kans is groot dat je uit zo’n algoritme resultaten krijgt waar je klinisch niets aan hebt, en die zelfs ronduit gevaarlijk kunnen zijn.’

Toename machinelearning

Ondanks het black box-gehalte van machinelearningalgortimes, neemt het aantal medisch-wetenschappelijke artikelen dat deze techniek gebruikt sterk toe, constateren Volovici en zijn medeauteurs, die net als hij allemaal als statistisch redacteur en/of reviewer bij een of meerdere medisch-wetenschappelijke tijdschriften werken.

Hij komt als redacteur vooral machinelearningartikelen tegen bij tijdschriften met een lagere impactfactor, al glippen er volgens hem bij een tijdschrift met een hoge impactfactor ook wel een paar doorheen. ‘Vaak verschijnen bij “lagere” journals artikelen waarvan iedereen weet dat machinelearning de enige “innovatie” is. Met gewone statistische methoden was het artikel nooit geaccepteerd. Daar moeten we echt vanaf.’

Voorspellen van ziekte

In de medische wetenschap wordt machinelearning volgens Volovici vaak ingezet om een ziekte of behandeluitkomst te voorspellen aan de hand van een set klinische variabelen. Terwijl machinelearning dan vaak weinig toevoegt aan gewone statistische methoden. Zoals ook blijkt uit een eerder onderzoek. Dat liet geen voordeel zien van machinelearning over een regressieanalyse, een veelgebruikte statistische methode om een predictiemodel te ontwikkelen.

Bovendien is een gewone statistische methode voor een dokter te begrijpen. ‘Zelfs zonder al te veel statistische achtergrond kan de clinicus bij een regressieanalyse toch begrijpen hoe het model tot stand is gekomen; en in het bijzonder welke, bias confounders en beperkingen een rol spelen.’

Aanbevelingen

Daarom raden Volovici en collega’s wetenschappers aan om naast het machinelearningalgoritme de dataset te analyseren met gewone statistische methoden. Voor beide zijn er markers die aangeven hoe goed het model is. ‘Als daar helemaal niet uitkomt dat machinelearning beter is, waarom zou je die methode dan kiezen? Die is moelijker te begrijpen voor de lezer en reviewers, en niet noodzakelijk.’

Nog liever ziet Volovici dat wetenschappers de keuze tussen machinelearning en een gewone statistische methode al maken voordat de data worden verzameld en geanalyseerd. ‘Bij prospectief onderzoek is er vooraf nagedacht over de analyse en welke variabelen nodig zijn. Dan zijn die tenminste toegespitst op de ziekte die je wilt voorspellen. En het belangrijkste van allemaal: externe validatie; kan het algoritme een ziekte even goed voorspellen als het geconfronteerd wordt met een nieuwe, externe dataset?’

Behalve goedgekozen variabelen, is ook een grote dataset een voorwaarde – maar geen garantie – om machinelearning zinvol in te zetten. De drempel ligt echter wel hoog. Eerder onderzoek in Nature liet zien dat data van ten minste vier- tot vijfduizend patiënten nodig zijn omdat de gemeten effecten vaak klein zijn.

Toegevoegde waarde

De toegevoegde waarde van machinelearning ziet Volovici eigenlijk vooral bij grote radiologie- of pathologiedatasets. ‘Bij een radiologische dataset bijvoorbeeld, kun je met hulp van een machinelearningalgoritme tot op de allerlaatste voxel kijken [3D-pixel, red.], die voor het blote oog niet te zien is. Dan heeft machinelearning sowieso een toegevoegde waarde.’

Doi: 10.1038/s41591-022-01961-6

Lees ook

Nieuws Wetenschap
  • Eva Kneepkens

    Eva Kneepkens is arts en promoveerde binnen de reumatologie. Na een postacademische cursus wetenschapsjournalistiek en een stage bij de Volkskrant koos ze voor het journalistieke pad.  

Op dit artikel reageren inloggen
Reacties
  • Er zijn nog geen reacties
 

Cookies op Medisch Contact

Medisch Contact vraagt u om cookies te accepteren voor optimale werking van de site, kwaliteitsverbetering door geanonimiseerde analyse van het gebruik van de site en het tonen van relevante advertenties, video’s en andere multimediale inhoud. Meer informatie vindt u in onze privacy- en cookieverklaring.