De macht van het getal
Plaats een reactieHet dagelijkse werk van dokters is de essentie van wetenschap
Artsen verlaten zich steeds meer op de macht van het getal. Onderzoeksuitkomsten hebben een enorme status. Toch zijn enige nuanceringen bij het interpreteren van de cijfers van effectstudies op zijn plaats, weet epidemioloog Lex Bouter.
Lex Bouter: 'De marges van onzekerheid zullen nooit gelijk zijn aan nul', Foto: Capital Photo's
Getallen zijn in de geneeskunde de afgelopen anderhalve eeuw een stuk machtiger geworden, waarbij de versnelling dankzij de opkomst van de evidence-based medicine vooral in de laatste decennia zit. Dit zegt Lex Bouter, hoogleraar epidemiologie aan het VU medisch centrum in Amsterdam. Hij ziet dat in medische discussies meer dan voorheen kwantitatieve argumenten een cruciale rol spelen en dat er veel minder wordt geleund op de autoriteit van experts. Dat is goed, vindt hij: Evidence-based medicine betekent ook de erkenning dat kennis van pathofysiologie niet voldoende is. Het is immers op die kennis dat experts zich vaak beroepen. Iedereen heeft tegenwoordig toch liever tien goede trials die een betrouwbare schatting van het effect opleveren, dan het oordeel van een bejaarde deskundige die als orakel wordt geraadpleegd.
Samen met de Leidse hoogleraar Frits Rosendaal redigeerde Bouter voor het Nederlands Tijdschrift voor Geneeskunde een serie artikelen over de valkuilen in het klinisch epidemiologisch onderzoek. Artikelen die kortgeleden werden gebundeld1, en die ten minste voor een deel ook zijn te lezen als een reeks positieve en negatieve kanttekeningen bij het gezag van getallen.
Impactfactor
De macht van het getal is misschien wel in de eerste plaats de macht van de vakbladen met een hoge impactfactor, zoals The Lancet, JAMA en The New England Journal of Medicine. Daar past, vindt Bouter, gelijk zon kanttekening: Veel onderzoek is er niet naar gedaan, maar het is maar zeer de vraag in hoeverre het onderzoek dat in die bladen wordt gepresenteerd in methodologisch opzicht beter is dan het onderzoek in andere bladen. Het is waarschijnlijk wel iets, maar niet spectaculair veel beter. Ik zou de impactfactor in ieder geval niet onmiddellijk als kwaliteitskenmerk willen zien. Die bladen hebben vooral een goed gevoel voor wat in het centrum van de belangstelling staat. Ze hebben bovendien in het verleden, terecht, veel prestige opgebouwd.
Methodologisch vlekkeloze studies zijn sowieso met een lantaarntje te zoeken. Dat is ook helemaal niet erg, want een vlekje wil nog helemaal niet zeggen dat de uitkomsten vertekend zijn. Eigenlijk weten we daar heel weinig van. We weten bijvoorbeeld niet goed wanneer het in trials absoluut nodig is om effecten geblindeerd te bestuderen en wanneer we kunnen volstaan met ongeblindeerd onderzoek.
Niettemin is de randomized controlled trial (RCT) nog altijd de koningin van de medisch-wetenschappelijke onderzoeksmethoden. Bouter: Maar het is ook waar dat randomiseren een verlegenheidsoplossing is. Als je immers alle belangrijke invloeden op de uitkomst die je bestudeert kent, dan is randomiseren een heel inefficiënte manier om je studie in te richten. Daarnaast zijn er altijd patiënten die in een trial uiteindelijk niet in aanmerking komen voor randomisatie, maar die een arts in de praktijk wel blijft zien. De remedie is dat je binnen een groot cohort van patiënten een of meerdere trials uitvoert. Dan beschik je over gegevens om je observaties te extrapoleren en kun je nagaan of je dezelfde effecten wellicht ook ziet bij de niet-gerandomiseerde patiënten.
Waar elke klinisch-wetenschappelijke onderzoeker op uit is, aldus Bouter, is uitspraken doen die gelden voor een zo homogeen mogelijke subgroep. Wat je bijvoorbeeld wilt weten, is wat een arts moet voorschrijven aan oudere vrouwen met een bepaalde comorbiditeit als ze hartfalen hebben. In het algemeen willen we de marges van onzekerheid zo ver mogelijk terugdringen. Maar ik denk niet dat we ze ooit tot nul kunnen reduceren, ook niet als iedereen een genenpaspoort op zak heeft. Dan heb je deterministische geneeskunde. Er zal altijd een bandbreedte van ruis zijn.
Publication bias
Misschien nog belangrijker dan de RCT is de meta-analyse of systematische review van onderzoeksliteratuur. Behalve dé beproefde manier om te bepalen hoe sterk een bepaalde interventie of geneesmiddel is, kan het ook een machtige methode zijn om publication bias aan te tonen. En dat kan het gezag van een getal danig ondergraven. Bouter legt uit hoe (zie ook figuur 1) dat in zijn werk gaat: De truc is betrekkelijk simpel. Stel dat elke studie uit je review een random steekproef is uit de werkelijkheid. Neem nu eens aan dat behandeling A gemiddeld twee keer zo goed is als behandeling B, dan krijg je rondom dat gemiddelde een zekere, natuurlijke ruis. Die ruis is groter, naarmate een studie kleiner is: kleine steekproeven resulteren immers in een minder precieze waarneming. Als je nu op de x-as het effect van een interventie (in termen van het relatieve risico bijvoorbeeld) afzet tegen op de y-as een maat voor de studieomvang, dan behoort het resultaat daarvan een omgekeerde, symmetrische trechter te zijn: een funnel plot. Dat kan uiteraard alleen als je veel studies hebt van verschillende omvang.
Soms, als je zon plot aan het maken bent, zie je dat met name in de lagere regionen de trechter niet symmetrisch is. Dat kan duiden op publication bias: daar hadden studies moeten zitten, maar je hebt ze in de literatuur niet aangetroffen. Het gaat dan veelal om studies waarin geen effect werd gevonden van het onderzochte middel. Onderzoek dat ongetwijfeld is gedaan, maar nooit in druk is verschenen. We weten niet zeker hoe vaak dit voorkomt. Sombere collegas denken dat het om een ernstig probleem gaat, vooral als het onderzoek van de farmaceutische industrie betreft, anderen denken dat het geen issue is. Preventie is de enige remedie: het best is om een register aan te leggen, waarin elke geïnitieerde studie wordt vastgelegd. Zodat latere literatuuronderzoekers kunnen nagaan uit welke populatie van aangevangen studies de uiteindelijk gepubliceerde studies afkomstig zijn.
Significantie
Bouter plaatst ook kanttekeningen bij het begrip statistische significantie, ooit een erg machtig getal. De laatste tien jaar is het inzicht gegroeid dat deze p-waarde niet alleenzaligmakend is en, erger nog, vaak verkeerd wordt begrepen. De meeste medisch-wetenschappelijke tijdschriften geven tegenwoordig de voorkeur aan betrouwbaarheidsintervallen boven p-waarden.
Een test op significantie is eigenlijk te beschouwen als een diagnostische test van de werkelijkheid, legt Bouter uit, en die is zoals alle diagnostische tests niet volmaakt. Het probleem is dat een p-waarde alleen iets zegt over de precisie waarmee je iets hebt gemeten, maar niets over de validiteit ervan. Nu gaan betrouwbaarheidsintervallen ook alleen maar over precisie, maar het mooie daarvan is dat je kijkend naar die intervallen in één oogopslag ziet hoe groot de bandbreedte van ruis is rondom de onderzoeksuitkomst.
Aan een p-waarde zie je dat niet. Vind je in een kleine studie dat behandeling A twee keer zo goed is als behandeling B, maar is het effect statistisch niet-significant, dan is de conclusie dat A en B dus even goed zijn niet correct. Wat je moet zeggen is: A is beter dan B, maar ik kan niet uitsluiten dat ik dat bij toeval heb gevonden. En stel nu eens dat je een grote studie doet waarin je vindt dat behandeling C het 20 procent beter doet dan D, een effect dat ook nog eens statistisch zeer significant blijkt. Dan is het nog zaak om te kijken naar de klinische relevantie van dat effect: misschien is het middel wel zo duur of geeft het zoveel bijwerkingen dat een effect van die grootte klinisch absoluut niets voorstelt. (zie ook figuur 2)
Bayesiaans denken
Dat sommige statistici vasthouden aan de p-waarde, komt - meent Bouter - omdat ze eigenlijk niet zo houden van de weerbarstige, empirische werkelijkheid. Ze redeneren niet zelden vanuit een geïdealiseerd wereldbeeld. Ze zeggen: stel dat er geen effect is, hoe groot is dan de kans dat ik toch de verkregen uitkomst vind? Maar dat vraagt een onderzoeker helemaal niet. Zijn vraag luidt: is het gevonden getal juist? Daar, zegt Bouter, moet je op Bayesiaanse wijze - volgens de inzichten van de dominee en amateur-statisticus Thomas Bayes (1702-1761) - naar kijken. Dat is voor dokters niets bijzonders; ze doen de hele dag niets anders.
Bouter: Alleen schrikken ze als je met formules op de proppen komt. Het Bayesiaanse van hun handelen is dat ze een diagnostische test op indicatie gebruiken en dat ze niet als dwazen alle diagnostische tests uit hun koffertje loslaten op alle patiënten. Want als je diagnostiek toepast op patiënten voor wie het niet is geïndiceerd en over wie je dus geen gerede twijfel hebt, dan is de informatiewinst van zon test nihil. Anders gezegd, er is een voorafkans op een bepaalde aandoening; een test is geïndiceerd als die voorafkans geen nul of honderd procent is, maar rond de vijftig.
Bouter vergelijkt het met het doen van wetenschappelijk onderzoek. Ook wetenschap wordt op indicatie bedreven. Wetenschappers onderzoeken niet alles wat ze kunnen bedenken. Ook voor hen is twijfel cruciaal.
Met Bayes is ook te begrijpen waarom mensen rationeel van mening kunnen verschillen over de interpretatie van studie-uitkomsten. Dat hangt namelijk niet alleen af van de bevindingen, maar ook van de a priori gemaakte inschatting over de waarschijnlijkheid van de onderzochte hypothese. Sommige statistici worden daar heel ongelukkig van, weet Bouter.
Misschien omdat er zo een subjectief element in de objectieve wetenschap sluipt?
Je kan erover twisten of het zo subjectief is, antwoordt Bouter. Je kunt ook zeggen die a priori kans is de gestolde en samengevatte kennis van al het voorafgaande onderzoek. Ooit, aan het prille begin van een reeks studies was er misschien een subjectief element. Ik hoop dan maar dat de rationaliteit daar overheerst, omdat die subjectiviteit toch vooral op pathofysiologische overwegingen is gebaseerd. Voorbeeld: Ik acht de a priori kans op de werking van homeopathie bijzonder klein en laat me dus niet overtuigen door onderzoek dat een positieve gemiddelde uitkomst laat zien. Veel en deels goed uitgevoerd onderzoek overigens, maar wel met een klein gemiddeld effect. Terwijl iemand die homeo-pathie mogelijk werkzaam acht, waarschijnlijk om is nadat hij de uitkomsten van dergelijk onderzoek heeft gezien. De vraag is nu: is mijn a priori kans beter dan de zijne? Ik denk het wel, maar dat is principieel niet te bewijzen. Ik kan alleen zeggen mijn a priori kans is gebaseerd op gangbare pathofysiologische en natuurwetenschappelijke overwegingen, en die van mijn opponent niet.
Objectieve waarheid
Sommige collegas vinden dit een teleurstellende conclusie, zegt Bouter. Wetenschap ging toch over waarheid en was objectief? Vooral als je naar toepasbare kennis op zoek bent, die altijd geldig is, heeft Bayes echter een vervelende boodschap voor dokters: hun dagelijkse werk is eigenlijk ook de essentie van de wetenschappelijke benadering. Tja, dat hadden velen van hen toch niet gedacht.
De onderzoekers onder de artsen huisvesten bovendien ook nog eens twee zielen in hun borst. Aan de ene kant zijn ze scepticcus, die de werkelijkheid wil blijven bevragen; aan de andere kant willen ze patiënten juist overtuigen van de juistheid van hun oordeel of hun beslissingen. Arts-wetenschappers hebben volgens hem niet voor niets vaak een voorkeur voor intellectualistisch ingestelde patiënten die de evidence al hebben opgezocht via internet. Lex Bouter: Mensen met wie ze onzekerheden en kansen kunnen bespreken alsof het collega-onderzoekers zijn.
Referentie
1. Bouter L, Rosendaal F (red.). Dwalingen in de methodologie, een bundeling van artikelen uit het NTvG, 2002.
- Er zijn nog geen reacties