AI-taalmodellen maken examenvragen beter dan de gemiddelde student
5 reactiesHet artificialintelligencetaalmodel Gemini Pro van Google is beter in het beantwoorden van examenvragen over biomedische en gezondheidsinformatica dan driekwart van de studenten die hetzelfde examen doen. Ook vijf andere AI-taalmodellen scoren bovengemiddeld.
Dat concluderen William Herch e.a. van de Oregon Health & Science University in npj Digital Medicine, nadat zij een examen met dertig meerkeuzevragen en drie open vragen voorlegden aan 139 (bio)medisch studenten, onder wie 24 geneeskundestudenten en zes AI-taalmodellen (ChatGPT Plus (GPT-4), Claude 3 Opus, CoPilot met Bing-Precise, Gemini Pro, Llama 3.1 405B en Mistral-Large). De studenten legden het examen af voor het keuzevak biomedische en gezondheidsinformatica. Dat gaat over het ontwikkelen en inzetten van ict-oplossingen om gezondheid, gezondheidszorg, publieke gezondheid en biomedisch onderzoek te verbeteren. Het ging om een openboekexamen, waarbij studenten studiemateriaal mogen raadplegen.
Alle zes AI-taalmodellen maakten de toets beter dan de gemiddelde student en ver boven de minimale vereisten. Vooral Gemini Pro blonk uit, gevolgd door Llama 3.1 405B, Claude 3 Opus en CoPilot Bing-Precise. Slechts twee vragen werden door alle zes AI-taalmodellen fout beantwoord; bij een van die vragen moest een zogeheten booleaanse expressie worden berekend.
Wat verder opviel, was dat AI-taalmodellen veel minder lang deden over de toets dan de studenten. Ze hielden zich beter dan de studenten aan de opdracht om antwoorden van maximaal twee zinnen te geven en gaven in tegenstelling tot de studenten zelden antwoorden van slechts één woord. In tegenstelling tot die van de studenten, waren de antwoorden AI-taalmodellen altijd grammaticaal correct en zaten er geen spelfouten in.
De onderzoekers denken dat het voor het eerst is dat de prestaties van AI-taalmodellen bij een examen in het biomedisch domein zijn vergeleken met de werkelijke resultaten van studenten. Ze stellen dat AI-taalmodellen grote invloed zullen hebben op het onderwijs en de beoordeling van studenten. Om studenten in de toekomst beter te kunnen beoordelen zullen bijvoorbeeld ‘Google-proof’ examens moeten worden gemaakt of er kunnen technieken worden toegepast die het gebruik van AI-taalmodellen kunnen herkennen. De onderzoekers plaatsen wel wat kanttekeningen bij hun onderzoek: Ze hebben slechts bij één examen de prestaties van AI-taalmodellen vergeleken met die van studenten. De resultaten hiervan zijn waarschijnlijk niet toepasbaar op andere examens.
Results and implications for generative AI in a large introductory biomedical and health informatics course
Lees ook-
Simone Paauw
Simone Paauw interviewt het liefst de ‘gewone arts’ met een bijzonder verhaal. Ze heeft aandacht voor diversiteit en inclusie in de breedte, discriminatie en grensoverschrijdend gedrag (op de werkvloer) en de positie van vluchtelingen en vluchteling-artsen. (Gezondheids)recht en medisch tuchtrecht hebben haar bijzondere interesse.
W.J. Duits
Bedrijfsarts, Houten
Het voordeel voor AI is dat doorlopend aan het spieken is, dat mag een student niet.
P.J. Mitra
arts en jurist gezondheidsrecht, onafhankelijk medisch adviseur ArtsTotaal, Schaijk
Ook een chimpansees kan een banaan aanwijzen, maar dat maakt deze nog niet een goede fruitteler in het Westland.
psychiater, Heerenveen
Een examen 'dat gaat over het ontwikkelen en inzetten van ict-oplossingen om gezondheid, gezondheidszorg, publieke gezondheid en biomedisch onderzoek te verbeteren' mag van mij met vlag en wimpel door AI worden afgelegd. Ikzelf zou voor zo'n vak met ...een zesje meer dan tevreden zijn geweest om het daarna voor altijd te vergeten en weer met echt belangrijke zaken aan de gang te kunnen gaan...
H. v.d. Pol
A. G?bel
Huisarts
Geneeskunde is geen quiz.
A. Pfaff
Anesthesioloog n.p., BEMELEN
Lijkt mij geen kunst als je elk antwoord razendsnel kan opzoeken.