Inloggen
Laatste nieuws
Michel Abdel Malek Kolja Verhage
8 minuten leestijd
technologie

Houd een oogje in het zeil bij AI

Kunstmatige intelligentie biedt eindeloze perspectieven, maar is het veilig?

1 reactie
Getty Images
Getty Images

Stormenderhand neemt de invloed van kunstmatige intelligentie (AI), zoals ChatGPT, op ons leven toe. Ook in de dokterspraktijk is dat merkbaar. Maar er kleven ook risico’s aan. Daarom is een vorm van toezicht nodig om de veiligheid ervan te waarborgen.

Kunstmatige intelligentie, bekend als AI, is niet meer weg te denken uit ons dagelijkse leven, al zijn de toepassingen niet altijd even zichtbaar. Van de spraakherkenning van Siri tot het berekenen van de beste route in Google Maps, gezichtsherkenning in je smartphone, gepersonaliseerde content op social media, suggesties op Netflix, persoonlijke Spotify-playlists of de auto­pilot van een Tesla, het zijn allemaal vormen van AI.

Een speciale vorm daarvan is generative AI, waarbij gebruikers door tekstuele opdrachten geheel nieuw en origineel werk kunnen creëren zoals afbeeldingen, teksten, muziek en zelfs video’s. Het afgelopen jaar overtrof de kwaliteit van de modellen alle verwachtingen, maar de lancering van GPT-3.5, beter bekend als ChatGPT, wordt door velen als het keerpunt gezien. ChatGPT is zo’n generatief Large Language Model (LLM) die gebruikmaakt van GPT-3, en op dit moment een van de krachtigste taalmodellen ter wereld.

Het resultaat is verbluffend. Je kunt ChatGPT ‘prompten’ om ­programmeercode of een aanbevelingsbrief te schrijven – een prompt is datgene wat je als input in een programma als ChatGPT invoert. Dat zijn op zich al indrukwekkende prestaties, maar het creatieve werk kan veel verder gaan. Wat dacht je van een scène van Seinfeld waarin Marcel Levi George diagnosticeert met ‘Pecunianitis’? Queen’s ‘Bohemian Rhapsody’ over het leven van een arts-onder­zoeker? Een sonnet in de stijl van Van den Vondel over het leven van een consultant op de Zuidas? Geen prompt is te zot.1

Wilt u een demonstratie van ChatGPT? Dan treft u het, want meer dan 70 procent van bovenstaande introductie is gegenereerd met een prompt. Inmiddels is de nieuwste versie, GPT4, in staat om naast tekst ook afbeeldingen als prompts te gebruiken.

Papegaai

De afgelopen maanden domineerde ChatGPT het nieuws. Is de hype terecht? Ja. Het is de eerste applicatie ter wereld die binnen twee maanden 100 miljoen actieve gebruikers heeft behaald. Ter illustratie: Facebook had vier jaar nodig gehad om dit aantal te halen en Google één jaar. Microsoft zegt 10 miljard dollar te gaan investeren in OpenAI en de technologie te zullen integreren in hun producten. En ook andere techgiganten mengen zich in de strijd, met een technologische wedloop en innovatie als gevolg.

Er is inmiddels ook enige weerstand tegen deze ontwikkeling. Zo heeft de Italiaanse privacyautoriteit ChatGPT verboden en is er een online­petitie, onder andere onder­tekend door Elon Musk, die oproept om een pauze in te lassen om de ethische consequenties van deze nieuwe vormen van AI te bestuderen. Hoewel de oproep voor een moratorium specifiek gaat over de meest geavanceerde researchmodellen, modellen die al verder zijn dan GPT, heeft de oproep een veel bredere tegenstroom blootgelegd van mensen die zich zorgen maken over AI.

Het model kan ook zeer overtuigend wetenschappelijke en medische onwaar­heden genereren

Maar ondanks de hype wijzen critici ook op enkele tekortkomingen. Zo hebben LLM’s geen enkel begrip van de tekst, maar leveren ze slechts een statistisch onderbouwde voorspelling van woordvolgorde. Het model is dus feitelijk niets anders dan een stochastische papegaai, omdat het heel goed is in het veinzen van menselijke taal zonder dat het snapt wat het zegt.2

Naast andere problemen, waaronder het onvermogen tot gebruik van basale rekenkunde, hebben deze modellen last van hallucinaties. Dat zijn feitelijke onjuist­heden die overtuigend als waarheid worden gepresenteerd aan de gebruiker. Wie bijvoorbeeld vraagt waarom vossen in bomen leven, krijgt niet alleen een zeer overtuigend en compleet gefabriceerd antwoord, maar ook een uiteenzetting over subsoorten en in welke geografie ze voorkomen.

Hallucinaties leveren geestig leesmateriaal op, totdat je je realiseert dat het model ook zeer overtuigend wetenschappelijke en medische onwaarheden kan genereren, inclusief schijnreferenties naar nep­­artikelen met plausibel klinkende titels en auteurs.

Geen panacee

De AI-technologie gaat dus nog gepaard met kinderziektes. Deze tekort­komingen zijn inherent aan LLM’s en modellen zoals ChatGPT zijn daarom in de huidige vorm nog geen panacee voor digitale toepassingen.3

Deze ontwikkelingen tonen aan dat we het weer moeten hebben over AI in de zorg. Momenteel wordt er zeer veel geld geïnvesteerd in digital health-start-ups waarin (vernieuwende) AI een rol speelt. De kans is dus groot dat artsen de komende jaren dergelijke tools zullen aantreffen in de praktijk.

Ondanks optimistische berichten zijn er nog weinig AI-toepassingen die succesvol op grote schaal worden ingezet bij patiënten. Bekende missers zijn er wel, zoals bij IBM’s ‘Watson for Oncology’. Watson was een medisch algoritme dat aanbevelingen deed voor oncologische behandelingen op basis van richtlijnen, literatuur en klinische data. Het systeem gaf niet alleen incorrecte aanbevelingen bij complexere dossiers, maar er werd vooral geklaagd over het feit dat het niet paste in de workflow en dat het de besluitvorming vertroebelde. Uiteindelijk werd het project stopgezet.

Een recenter voorbeeld is het sepsis-predictiemodel van Epic, de bouwer van het gelijknamige elektronisch patiëntendossier (epd). De externe validatie, die pas achteraf plaatsvond, wees uit dat het model 67 procent van de sepsisgevallen had gemist en in 88 procent van de gevallen onterecht had gealarmeerd wat alarmmoeheid tot gevolg had.4

Deze voorbeelden laten zien dat klinische validatie een absolute voorwaarde is voor implementatie. Maar ook dat toezicht op AI in de zorg nodig is om risico’s van het gebruik in kaart te brengen en te beheersen, teneinde deze toepassingen veilig te kunnen toepassen bij patiënten.

Bias

Deze risico’s zijn onder te verdelen in twee categorieën. Er zijn ten eerste risico’s die samenhangen met hoe de output van het model tot stand komt en ten tweede risico’s die samenhangen met de besluitvorming door de uitkomsten van het model.

De eerste categorie betreft risico’s rondom onder andere bias & fairness. Bias in een AI-systeem komt doordat de data geen evenwichtige weergave zijn van de groepen waarvoor het model wordt ingezet. Een algoritme voor gezichtsherkenning zal beter in staat zijn om mensen met een lichte huidskleur te herkennen als het model getraind is met foto’s van voor­namelijk die groep. Deze onevenwichtigheid kan aan de kwaliteit van de dataset liggen, maar dat hoeft niet altijd het geval te zijn. Zelfs bij kwalitatief goede data zullen er altijd minderheidsgroepen zijn die niet door het model worden herkend omdat ze in de trainingsset ontbreken (bijvoorbeeld mensen met vitiligo in het gelaat). En wat te doen als de populatie verandert (bijvoorbeeld vergrijzing), of een nieuwe werkwijze op de afdeling die de variabelen kan veranderen? Dit laatste heet model drift en kan een succesvol model geleidelijk onbruikbaar maken.

De tweede groep risico’s betreft met name vraagstukken rondom de invloed van de uitkomsten van het model op de individuele arts en het collectief. Predictiemodellen geven bijvoorbeeld lang niet altijd onzekerheidsmarges bij hun voorspellingen, hoe dient de arts daarmee om te gaan? Hoe beïnvloedt een voorspelling de beoordeling van de arts bij de patiënten die we als uitbijter zouden aanmerken? En wat als de voorspelling lijnrecht tegenover de conclusie van de arts staat?

Op organisatorisch niveau is de vraag of artsen, door steeds meer vertrouwen te hebben in de voorspellingen van modellen, minder bedreven raken in hun eigen expertise of, omgekeerd, door wat de modellen níét voorspellen daarom dan ook minder alert zijn?

Deze kwesties zijn geenszins eenduidig te beantwoorden voor alle modellen en/of toepassingen, en dienen daarom beheerst te worden door ze systematisch te beoordelen.

Ethische risico’s

Beheersing van de risico’s uit de eerste categorie, dus van onder andere bias & fairness, wordt over het algemeen door grote consultancybureaus aangeboden onder de noemer ‘model risicomanagement.’ Het doel is om technieken en praktijken toe te passen om model­risico’s, dat wil zeggen modelfouten of verkeerd modelgebruik, te identificeren, meten en beperken.

Risico’s uit de tweede categorie moeten met een vorm van toezicht systematisch worden onderzocht en beoordeeld. Een essentieel onderdeel van dat ‘AI-toezicht’ is het uitvoeren van een assessment van de potentiële risico’s, waaronder ook ethische risico’s, die het gebruik van een model met zich meebrengt. Bekende voorbeelden van zulke assessments zijn de Impact Assessment Mensenrechten en Algoritmes (IAMA) van de Utrecht Data School of het Toetsingskader algoritmes van de Algemene Rekenkamer.5 Belangrijk van dit soort assessments is dat zij ethische waarden die op gespannen voet staan blootleggen en daarmee de organisatie in staat stellen een overwogen keuze te maken tussen risico’s die lastig zijn af te wegen. Neem als voorbeeld de corona-app waar privacy en volksgezondheid op gespannen voet stonden. Zonder een systematische beoordeling van de risico’s die bestaan aan beide kanten, kan er onmogelijk een verantwoorde afweging worden gemaakt.

Modellen zijn zo goed als de data waarmee wij ze trainen

Toezicht

Het is daarom ten eerste erg belangrijk dat er – naast wetenschappelijke toetsing – toezicht komt op AI-algoritmes in de zorg met name om risico’s te identificeren en te classificeren. Tegelijkertijd moeten we waken voor dubbele inspanningen en dus onnodige kosten, en ongelijke assessments met ongelijke uitkomsten, die in theorie per ziekenhuis zouden kunnen verschillen. De zorg en de industrie zijn gebaat bij sector­brede assessments van algoritmes.

Ten tweede is het belangrijk om een gedegen en systematische tracering in te voeren van de data die worden gebruikt voor het trainen van de modellen en de benodigde aanpassingen om model drift voor te zijn. Modellen zijn zo goed als de data waarmee wij ze trainen. Dat vergt enerzijds uitstekende registratie aan de bron en anderzijds eenvoudige toegang tot deze gegevens. Dat laatste wordt beperkt door de geslotenheid van de huidige epd’s. Maar medische-­dataplatforms, zoals lokaal ontwikkelde deeloplossingen of totaaloplossingen à la Delphyr, kunnen een belangrijke rol spelen om deze data te ontsluiten en te monitoren.

Ten derde is het belangrijk dat inhoudelijke expertise ook in de beroepsgroep aanwezig is. De volgende generaties artsen moeten net zo vertrouwd zijn met basale AI-begrippen als bias & fairness en model drift als met p-waardes, oddsratio’s en betrouwbaarheidsintervallen en bij voorkeur leren ze dit al in de geneeskunde­opleiding.

De ontwikkelingen op het gebied van AI in digital health zijn veelbelovend maar deze technologie kan alleen slagen met de juiste kennis en kunde, toezicht, ethiek. Als we naast de beloftes ook de risico’s op de radar houden, kunnen we de baanbrekende uitvindingen op het gebied van AI met vertrouwen verwelkomen in de sector en veilig van bèta naar bedside gaan. 

auteurs

Michel Abdel Malek, aios anesthesiologie en researcher Medical AI, LUMC, lid subcommissie Innovatie bij de Nederlandse Vereniging voor Anesthesiologie (NVA), co-founder medisch dataplatform Delphyr

Kolja Verhage, manager Digital Ethics, Deloitte, commissielid Artificial Intelligence Governance (AIGO), OESO

contact

m.abdel_malek@lumc.nl

cc: redactie@medischcontact.nl

Wilt u ook weten wat AI voor u gaat betekenen? Kom dan naar ons taalcongres op 27 juni, waar u kunt leren communiceren met AI.

Voetnoten

1. Prompts:

- Write a scene of Seinfeld in which Marcel Levi, the Dutch doctor, meets George and diagnoses him with a condition called ‘Pecunianitis’.

- Rewrite the lyrics of ‘Bohemian Rhapsody’ and make the subject about the life of a PhD student.

- Write a sonnet in Dutch in the style of Joost van den Vondel about life as a consultant on the Zuidas

2. Bender EM, Gebru T, McMillan-Major A, Shmitchell S. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency [Internet] New York, NY, USA: Association for Computing Machinery; 2021 [cited 2023 Feb 20]. p. 610–23 Available from: https://doi.org/10.1145/3442188.3445922

3. Tamkin A, Brundage M, Clark J, Ganguli D. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Internet]. arXiv; 2021 [cited 2023 Feb 20]. Available from: http://arxiv.org/abs/2102.02503

4. Wong A, Otles E, Donnelly JP, Krumm A, McCullough J, DeTroyer-Cooley O, Pestrue J, Phillips M, Konye J, Penoza C, Ghous M, Singh K. External Validation of a Widely Implemented Proprietary Sepsis Prediction Model in Hospitalized Patients. JAMA Intern Med. 2021 Aug 1;181(8):1065-1070. doi: 10.1001/jamainternmed.2021.2626. Erratum in: JAMA Intern Med. 2021 Aug 1;181(8):1144. PMID: 34152373; PMCID: PMC8218233.

5. https://dataschool.nl/iama/

Lees ook:

toezicht technologie
Op dit artikel reageren inloggen
Reacties
  • J.M. Keppel Hesselink

    arts-farmacoloog, Bosch en Duin

    Ik vind het een erg complex artikel, vol jargon, maar dat zal aan mij liggen. Waarschuwen voor de gevaren en willen controleren zijn reflexen die we altijd vertonen bij nieuwe technologie. Maar als een technologie mogelijk is, dan komt die er ook (zi...e Oppenheimer en de atoombom). Controleren en ethiek komen altijd na de innovatie en hebben nog nooit een innovatie onmogelijk gemaakt.

    Volgens mij moeten we ophouden met politieagent te spelen in dit veld. Oproepen om de ethische consequenties van deze nieuwe vormen van AI te bestuderen zal leiden tot veel rapporten die in bureau laden verdwijnen.

    Verder gebruik ik bij due diligence van nieuwe innovatieve middelen inmiddels graag de AI-robot https://chat.openai.com/ en op elke gerichte vraag krijg ik een fantastisch antwoord dat me verder helpt. Bijvoorbeeld: welke diermodellen zijn het meest geschikt om de effecten van nieuwe farmaca bij leverfibrose te evalueren. Het is een te gek instrument.

    Dat de auteurs eindigen met de slogan "deze technologie kan alleen slagen met de juiste kennis en kunde, toezicht, ethiek" is voorspelbaar en volgens mij niet haalbaar. Wie heeft die juiste kennis en kunde en wie gaat dat toezicht houden en de ethiek inbrengen.....


 

Cookies op Medisch Contact

Medisch Contact vraagt u om cookies te accepteren voor optimale werking van de site, kwaliteitsverbetering door geanonimiseerde analyse van het gebruik van de site en het tonen van relevante advertenties, video’s en andere multimediale inhoud. Meer informatie vindt u in onze privacy- en cookieverklaring.