Joris Broeren

6 minuten leestijd

artificial intelligence

AI in de zorg is voorlopig toch vooral een hype

Kunstmatige intelligentie zet heus geen banen op de tocht

Angst voor artificial intelligence als dief van veel (artsen)banen is overbodig. Sowieso kent de onderliggende techniek dusdanig veel structurele tekortkomingen, dat het zo’n vaart niet loopt met AI, zegt anesthesioloog Joris Broeren.

Kunstmatige intelligentie (AI) is momenteel een veelbesproken onderwerp. De lancering van ChatGPT-4 bijvoorbeeld, maakt grote indruk. Maar ook deepfakes en potentiële bedreigingen trekken veel aandacht. Er zijn zorgen over de toenemende invloed van AI, en de gevolgen ervan voor de samenleving.

Die zorgen zijn deels economisch van aard – veel mensen zullen hun baan verliezen – maar gaan ook over de invloed van AI op het nemen van belangrijke beslissingen. Dit zou dan kunnen leiden tot meer oneerlijkheid of discriminatie, tot zelfs een existentiële bedreiging van de mensheid. Anderzijds doen ook jubelverhalen de ronde. AI zou zoveel werk uit handen nemen dat de arbeidsproductiviteit enorm kan toenemen, en de mens alle saaie taken aan de computer kan overlaten: een nieuwe economische groei staat voor de deur.

Wilde voorspellingen, die eerder op een hype lijken dan de realiteit weerspiegelen.

Problemen

Bijna alle recentelijk opgestelde ziekenhuisstrategieën bevatten ‘inzet van AI’ in de komende periode, hoewel het daadwerkelijke doel, of het te verwachten effect daarbij ongedefinieerd blijft. De meest bekende voorbeelden zijn het inzetten van AI als ‘tweede paar ogen’ bij het beoordelen van radiologische beelden. Dergelijke systemen bestaan ook voor het (mee)beoordelen van pathologische coupes. Daarna wordt de spoeling al snel dunner. Er zijn publicaties van modellen die voorspellingen doen over een verhoogd risico op opnames op de ic, of modellen die live meekijken met scopieën. Maar in de praktijk zijn deze tot op heden niet breed uitgerold. Ook Watson, het door IBM enige jaren geleden gelanceerde systeem dat op oncologisch gebied AI-gedreven beslisondersteuning beloofde, is bezig een langzame dood te sterven.

Voorlopig lijkt het dus nog niet zo’n vaart te lopen. Dat komt door een aantal grote issues, die door de AI-adepten en futurologen vaak niet worden genoemd, of hooguit als tijdelijke hobbels worden gezien. De vraag is echter hoe terecht dit is. De drie belangrijkste problemen zijn:

AI snapt niets
AI trainen is de uitdaging, niet de techniek
Valideren en generaliseren zijn zeer moeilijk

AI snapt niets

De meestgebruikte vormen van AI zijn gebaseerd op deep learning. Deze ‘neurale netwerken’ zijn de drijvende motor achter large language models (LLM’s) zoals ChatGPT, maar ook deepfakes en beeldherkenning. Deze modellen zijn tot welhaast magische dingen in staat, maar ze hebben één groot manco: ze hebben geen enkel begrip van de uitvoer die ze genereren. Veel foto’s die de computer genereert blijken bij nadere beschouwing foutjes te bevatten. De teksten van ChatGPT bevatten regelmatig complete verzinsels en onwaarheden. Mensen maken ook fouten, dus op zich hoeft dat een AI niet te diskwalificeren. Problematischer is echter dat AI, door afwezigheid van inzicht, niet zomaar kan worden uitgelegd waarom een bepaalde redenering of opmerking niet klopt. De enige manier om fouten eruit te halen, is door hertrainen van het model: een moeilijk te sturen en duur proces.

De AI-modellen hebben geen enkel begrip van de uitvoer die ze genereren

Volgens de AI-enthousiastelingen zijn de huidige versies pas het begin en is het een kwestie van tijd voordat AI wel degelijk ‘snapt’ wat het doet, en mogelijk zelfs zelfbewust wordt. Een belangrijk argument in deze denklijn is dat sommige LLM-modellen een ‘theory of mind’ lijken te hebben. Dat houdt in dat de computer in staat is om mensen te begrijpen door hun gemoedstoestand te doorzien. Hoewel dit niet uit te sluiten is, is waarschijnlijker dat AI deze theory of mind nabootst. Wat LLM’s namelijk doen, is uitrekenen wat het meest waarschijnlijke volgende woord zal zijn. De computer schat geen gevoelstoestand in, aangezien er geen gevoelstoestanden in geprogrammeerd zijn. Bij deep learning hoeft dat ook niet, omdat ‘kennis’ min of meer vanzelf ontstaat. Maar LLM’s leren menselijke taal, en geen gevoel. Zoals een beeldherkenningsmodel geen taal leert, is het onwaarschijnlijk dat een LLM gevoel leert. Dit zou in de toekomst kunnen veranderen, maar is toch niet heel voor de hand liggend. Deep learning líjkt namelijk een nieuwe techniek, maar ís het niet. Het concept is bedacht in de jaren veertig, en eind jaren zestig zijn de belangrijkste uitgangspunten geformuleerd. Het duurde echter tot de jaren tien van de 21ste eeuw, voordat computers sterk genoeg waren om deze techniek zinvol te gebruiken. De onderliggende wiskunde van een deep learning-model is niet erg ingewikkeld, maar wel rekenintensief. De grootte van deze modellen bepaalt vervolgens de mogelijkheden. Maar zolang er geen fundamenteel nieuwe technieken aan worden toegevoegd, is transcendentie, waarbij AI totaal nieuwe concepten kan bedenken die op geen enkele manier uit de trainingsset kunnen worden afgeleid, onwaarschijnlijk.

AI trainen is de uitdaging, niet de techniek

Als gezegd, is de onderliggende techniek niet zeer ingewikkeld. Er bestaan vele (gratis) programmeerbibliotheken om verschillende basismodellen te maken. De infrastructuur is in de cloud te huren. Maar dan wordt het ingewikkelder. Het trainen van een goed model vereist zeer grote datasets. De LLM’s zijn getraind op miljarden woorden aan tekst. In het geval van ChatGPT-4 gaat het om een equivalent van 180 bijbels. Hierbij gaat het ‘slechts’ om het snappen van taal. In het geval van tekst of geluid of inhoud, moet deze informatie geclassificeerd zijn. Een beeldherkenningsmodel moet vele plaatjes van vele voorwerpen hebben verwerkt, waarop het betreffende voorwerp gemarkeerd is. Dit markeren gebeurt door mensen die deze markeringen aanbrengen. De kosten hiervoor lopen uiteindelijk in de miljoenen. Vervolgens is het van groot belang dat de informatie waarop getraind wordt correct is. Het model kan de inhoud van een document namelijk niet beoordelen op betrouwbaarheid. Dat moet een mens doen. Voor medische informatie is dat dus behoorlijk lastig.

De teksten van ChatGPT bevatten regelmatig complete verzinsels en onwaarheden

Valideren en generaliseren zijn zeer moeilijk

AI-modellen zoeken naar patronen in een dataset. Door het model maar lang genoeg te laten doorleren, zullen deze patronen gevonden worden, zelfs als deze niet zinvol zijn. Het model kan dan heel nauwkeurig bij de reeds bekeken data de juiste uitkomst geven, maar dat geldt dan veel minder voor nieuwe data. Zo’n situatie wordt ‘overfitting’ genoemd. Om overfitting te voorkomen laat men het model, na het trainen, voorspellingen doen op een in reserve gehouden deel van de originele dataset. Zo wordt de betrouwbaarheid van het model voor nieuwe data bepaald. Desondanks blijken modellen bij algemeen gebruik vaak minder betrouwbaar. Dat komt, onder andere, doordat data in de dagelijkse praktijk meer ruis bevatten. Röntgenbeelden kunnen van suboptimale kwaliteit zijn, datapunten kunnen ontbreken, formuleringen zijn net anders, enzovoort. In trainingsomstandigheden wordt een dataset voor gebruik daarentegen eerst geschoond. Dat schonen is veel werk, en daarom bij algemeen gebruik niet goed mogelijk. Een AI-model betrouwbaar valideren voor data uit de echte wereld is daarom pas mogelijk na langdurig gebruik, waarbij de voorspelde uitkomsten worden gecontroleerd. Dit is een arbeidsintensief en, mede daardoor, bijzonder kostbaar proces.

Voor een breed inzetbaar geneeskundig model is echter nog veel meer nodig. Een computer rekent alleen met getallen. Ook tekst of spraak zet een computer eerst om in getallen. Bij subjectieve klachten is het voor een AI-model veel ingewikkelder om een patroon te herkennen. Dit wordt nog moeilijker als omstandigheden zoals culturele achtergrond, specifieke voorgeschiedenis of angst hierbij een rol spelen. Deze omstandigheden kunnen alleen in het systeem worden meegenomen als hier vanaf het begin rekening mee is gehouden. Om te garanderen dat de computer deze context als potentiële variabele meeneemt, moet alle invoer op de een of andere manier gelabeld zijn. In de praktijk zijn deze ‘variabelen’ juist die omstandigheden, waarin de behandelaar al zijn kunde en zijn onderbuik moet inzetten om relevante informatie te filteren en op waarde te schatten. Voor een computer is dit extreem ingewikkeld. Dit probleem wordt tot op heden vaak genegeerd, maar vormt een groot obstakel voor de nabije toekomst.

Overhyping

Al met al moet er nog heel wat gebeuren voordat AI dermate betrouwbaar en ‘volwassen’ is, dat deze dokters en andere medische zorgverleners zal kunnen vervangen. Daarmee is niet gezegd dat dit nooit zal gebeuren. Maar met de huidige techniek lijkt dat niet voor de hand liggend. Zeker als het gaat om een breed inzetbaar model. Een zelfstandig werkende operatierobot is nog minder waarschijnlijk in de nabije toekomst. AI lijkt wat dat betreft op dit moment onderhevig aan overhyping. Een massale carrièreswitch lijkt vooralsnog niet nodig. Het gigantische potentieel van AI komt waarschijnlijk het beste tot zijn recht in expertsystemen, om moeilijke of zeldzame diagnoses te helpen stellen. Daarnaast zullen systemen die aanbevelingen bij ingewikkelde behandelschema’s kunnen doen veel waarde toevoegen, en systemen die administratieve handelingen kunnen overnemen nog meer. Dan houdt de zorgverlener meer tijd over voor datgene wat geen enkele computer ooit kan vervangen: een luisterend oor, empathie, en een hand op de schouder op het juiste moment.

auteur

Joris Broeren, anesthesioloog, chief data officer, Hagaziekenhuis

contact

jbroeren@digitaledokter.nl

cc: redactie@medischcontact.nl

AI in de zorg is voorlopig toch vooral een hype

Kunstmatige intelligentie zet heus geen banen op de tocht

Problemen

AI snapt niets

AI trainen is de uitdaging, niet de techniek

Valideren en generaliseren zijn zeer moeilijk

Overhyping

auteur

contact

Kun je behandeluitkomsten voorspellen met machinelearning?

Taalmodel achter ChatGPT dringt langzaam het epd binnen

AI voorspelt cognitieve ontwikkeling premature baby’s

AI bepaalt type hersentumor tijdens operatie

Onbegrijpelijk: waarom komt prehabilitatie niet in het basispakket?

Knagend gevoel

4 mei valt vroeg dit jaar

Actueel

Opinie

Kennis

Tijdschrift

Service

Nieuwsbrief

Problemen

AI snapt niets

AI trainen is de uitdaging, niet de techniek

Valideren en generaliseren zijn zeer moeilijk

Overhyping

auteur

contact

Onbegrijpelijk: waarom komt prehabilitatie niet in het basispakket?

Knagend gevoel

4 mei valt vroeg dit jaar

Actueel

Opinie

Kennis

Tijdschrift

Service

Nieuwsbrief

Cookies op Medisch Contact