De uitkomsten van randomized controlled trials (RCT's) gelden als het meest harde bewijs voor causale verbanden in de biowetenschappen. In een wetenschapstheoretisch artikel dat woensdag verschijnt in Advances in Nutrition, ‘Fundamental Limitations of the Randomized Controlled Trial Method in Nutritional Research: The Example of Probiotics’, beargumenteren een Zweedse en drie Nederlandse onderzoekers, onder wie de van Foodlog bekende Dennis Zeilstra, dat die methode geen robuuste kennis oplevert bij onderzoek aan het microbioom.
Het gaat dan in het bijzonder om RCT’s naar de werking van probiotica. Probiotica zijn supplementen met grote hoeveelheden (levende) bacteriën, waarvan verondersteld wordt dat ze de samenstelling van de darmflora kunnen veranderen en een heilzaam effect hebben. De onderzoekers trekken echter in twijfel of de vooronderstellingen waarvan RCT’s uitgaan (zoals het uitgangspunt dat de onderzoeksgroep in hoge mate uniform is), wel opgaan bij dit soort onderzoek. Binnen de onderzoeksgroep, per individu, kunnen de verschillen in de samenstelling van de damflora zo groot zijn, dat er vaak geen betrouwbare, homogene uitkomsten kunnen zijn.
De onderzoekers doen een aantal voorstellen om de vooronderstellingen van de RCT aan te passen en goed te beschrijven. Ze doen tevens de suggestie dat de tekortkomingen van RCT's op meer onderzoekgebieden van de voedingswetenschappen gelden. Daarmee zoeken ze duidelijk de discussie over de waarde van onderzoeksmethoden op.
Oxford Journals - Perspective: Fundamental Limitations of the Randomized Controlled Trial Method in Nutritional Research: The Example of Probiotics | Advances in Nutrition | Oxford Academic
Het gaat dan in het bijzonder om RCT’s naar de werking van probiotica. Probiotica zijn supplementen met grote hoeveelheden (levende) bacteriën, waarvan verondersteld wordt dat ze de samenstelling van de darmflora kunnen veranderen en een heilzaam effect hebben. De onderzoekers trekken echter in twijfel of de vooronderstellingen waarvan RCT’s uitgaan (zoals het uitgangspunt dat de onderzoeksgroep in hoge mate uniform is), wel opgaan bij dit soort onderzoek. Binnen de onderzoeksgroep, per individu, kunnen de verschillen in de samenstelling van de damflora zo groot zijn, dat er vaak geen betrouwbare, homogene uitkomsten kunnen zijn.
De onderzoekers doen een aantal voorstellen om de vooronderstellingen van de RCT aan te passen en goed te beschrijven. Ze doen tevens de suggestie dat de tekortkomingen van RCT's op meer onderzoekgebieden van de voedingswetenschappen gelden. Daarmee zoeken ze duidelijk de discussie over de waarde van onderzoeksmethoden op.
Trots, deze Foodloglezer: Dennis Zeilstra publiceert mee. Maar meteen een vraag, waar gaat het over?
Voorbeeld. Danone mag beweren dat zijn yoghurt met probiotica helpt. De strenge Europese regelgever zegt dat Danone de goede werking heeft bewezen. Als ik het stukje hierboven begrijp kan dat helemaal niet bewezen geweest zijn.
Ik begrijp uit het stukje dat Danone yoghurt met probiotica KAN helpen, MITS jij de 'juiste' darmflora hebt.
Wouter,
In het artikel beweren we niet dat randomized controlled trials (RCT's) nooit een geldige conclusie kunnen opleveren. Het gaat ons er om dat RCT's worden gezien als dé manier (soms zelfs als de enige manier) om de effectiviteit van een interventie te 'bewijzen'. Dit wordt gedacht bij voedingssupplementen, maar steeds vaker ook bij 'gewoon' voedingsonderzoek, omdat observationeel onderzoek zoveel problemen kent. RCT's worden gezien als de ultieme methode om zulk causaal bewijs te leveren, omdat deze onderzoeksmethode bepaalde vormen van bias uit kan sluiten.
Deze status van RCT methode zorgt ervoor dat er vaak gedacht wordt dat als er geen RCT gebruikt is, er dan dus geen oorzakelijk bewijs geleverd is. Omgekeerd wordt ook veel gedacht dat als een RCT geen effect laat zien, dat de interventie dan dus niet werkt. RCT's leveren echter alleen maar een sterke aanwijzing voor een oorzakelijk verband tussen interventie en effect als enkele onderliggende vooronderstellingen waar zijn.
In het stuk geven we een voorbeeld van een RCT waarin een probiotica interventie bij moeders en hun baby's leidde tot 50% minder atopisch eczeem bij de baby's in de interventiegroep dan bij de baby's in de placebogroep, zelfs na vier jaar nog. Je zou kunnen concluderen: het is een goed uitgevoerde RCT, met een sterke en overtuigend effectiviteit, dus de conclusie is gerechtvaardigd dat de betreffende probiotica effectief was. Maar een herhaling van deze RCT, met exact dezelfde opzet en exact dezelfde interventie, gaf vrijwel geen verschil tussen placebogroep en interventiegroep. Toch was dat eveneens een goed opgezette en uitgevoerde RCT, dus welke conclusie is nou waar?
Zoals ik hierboven al schreef, zijn dergelijke conclusies alleen geldig als de vooronderstellingen achter de RCT methode waar zijn. Bijvoorbeeld dat de placebo en interventiegroep zeer vergelijkbaar zijn (uitwisselbaar). Of dat de interventie het enige is dat anders is tussen de twee groepen, zodat je mag concluderen dat een verschil in eindresultaat veroorzaakt is door de interventie. Ook kloppen de conclusies enkel als er geen interactie is tussen de interventie en andere niet-gecontroleerde andere factoren.
Als je vervolgens nagaat of het redelijk is om aan te nemen dat deze vooronderstellingen waar zijn, dan valt te concluderen dat dit bij probiotica, maar ook bij voeding, in veel gevallen niet zo is. Er is bijvoorbeeld enorm veel interactie tussen ons microbioom en probiotica en voeding. Het microbioom is bovendien zeer verschillend tussen individuen. Enzovoort. Kortom, de vooronderstellingen achter de RCT methode zijn vaak niet waar bij probiotica en andere voedingsinterventies, en dan zijn de conclusies niet geldig. Je kan in dat geval niet zeggen dat de interventie effectief was, noch dat ie niet effectief was.
Er zijn echter ook voorbeelden waarin keer op keer hetzelfde resultaat wordt behaald met een interventie. In die gevallen is het redelijk om aan te nemen dat de vooronderstellingen wél waar waren. Een voorbeeld is een bepaalde probiotische stam (Saccharomyces boulardii) bij diarree veroorzaakt door antibiotica. Dat de vooronderstellingen dan kennelijk wel waar zijn, kan bijvoorbeeld komen doordat de werking van dat specifieke probioticum bij die specifieke aandoening veel minder afhangt van of verstoord wordt door interacties met de rest van ons microbioom.
Kortom, in sommige gevallen is het best redelijk om te concluderen dat iets werkt. Of dat bij jouw voorbeeld van Danone het geval is weet ik niet.
Toen in de vorige eeuw in rijkere landen het uitbundig reizen naar warme arme buitenlanden opkwam, ontstond ook de mode van de zomerbuikloop. Werd ook reizigersdiarree genoemd. Pilletjes mee.
Vaak gehoorde oorzaak in margarineland Nederland: de olijfolie ginder. Moeten we nu natuurlijk om lachen. De olijfolie kwam naar het noorden maar de diarree kwam niet mee.
En toch was de veronderstelling zo gek nog niet. Plotselinge verandering van gebruik van spijsvet kan maar zo onrust geven. Nooit onderzocht. Maar wel werden en worden middelen meegegeven aan vakantiegangers en zakenlui naar buitenlanden, die reizigersdiarree zouden kunnen stelpen.
Verhaal. Gehoord van Ralf Hartemink, Wageningse onderzoeker van ondermeer probiotica.
Fins onderzoek. Ook Finnen op buitenlandse reizen krijgen reizigersdiarree. Probiotica zouden kunnen helpen. Groepen reizigers kregen een preparaat mee met bacterien die buikloop zouden kunnen voorkomen. En ja hoor. Een groep Finnen ging naar Turkije en had daar geen centje last.
Maar dan toch jammer. Andere groep Finnen naar Spanje, zelfde middeltje mee, maar allemaal aan de diarree. Foute conclusie ligt voor de hand: het ligt aan het land.
Zo Ralf Hartemink dit leest en zich het verhaal beter herinnert, corrigeer me gerust.
Dennis, complimenten voor dit artikel. Ben erg onder de indruk. Dit is iets wat wij in het onderwijs zeker kunnen gebruiken (zelf geef ik les aan eerstejaars maar helaas is dit voor hen te zware kost, vrees ik). Ik zou een aantal aanvullende opmerkingen willen maken:
1) Als voorbeeld worden probiotica gebruikt waarbij er bij probiotica sprake zou zijn van bijzondere omstandigheden omdat er veel variatie is in het microbioom. Maar ook bij andere interventies speelt het probleem dat het uitgangspunt verschillend is tussen de proefpersonen omdat mensen van nature van elkaar verschillen. En bij alle studies zie je verschillen in de respons bij mensen. Soms vallen mensen 8 kilo af zonder enig effect op glucosetolerantie te laten zien. Sommige mensen reageren ook niet op een inspanningsinterventie met 3 keer in de week sporten. De cruciale vraag is: zijn de verschillen in respons die worden waargenomen reproduceerbaar. Met andere woorden: stel, je herhaalt de RCT een half jaar laten met precies dezelfde proefpersonen en dezelfde behandeling. Laten de proefpersonen dan een sterk vergelijkbare respons zien of laten die personen die voorheen een afname in een parameter lieten zien nu een toename zien (en andersom). In het laatste geval is er sprake van random variatie en is er dus eigenlijk geen effect. In het eerste geval is er wezenlijk iets aan de hand en verschillen mensen blijkbaar in hoe men op de behandeling reageert. In het eerste geval is er ook een sterke basis voor personalized nutrition. Maar dat betekent dus dat je een RCT zou moeten herhalen in dezelfde groep mensen. Dat gebeurt momenteel natuurlijk helemaal niet. Maar het zou wel heel waardevol zijn als het wel gebeurt omdat we dan pas kunnen beoordelen of de variantie in respons random is of niet.
2) Bijna alle dingen die genoemd worden nemen we altijd mee in de discussies hoe een RCT vorm te geven. Kiezen we voor een meer homogene groep of een veel bredere groep (dwarsdoorsnede bevolking). In het laatste geval is de externe validiteit veel beter (beter te extrapoleren naar de bevolking) maar zijn de uitgangspunten erg verschillend tussen de mensen. Om onderzoekstechnische redenen wil je graag die homogene groep maar om praktische redenen (en vanwege de extrapoleerhaarheid) wordt de groep vaak breder genomen. Maar het is extreem belangrijk om van tevoren te bepalen wat de juiste onderzoeksgroep is. Als we een positief effect willen zien van een bepaalde behandeling op metabole gezondheid (glucose tolerantie, post-prandiale lipiden) dan heeft het geen zin om de studie te doen in studenten. Die zijn namelijk zo metabool gezond dat je nooit een effect ziet. Met betrekking tot mogelijke interacties sluiten we vaak mensen uit die bijvoorbeeld bepaalde medicijnen slikken die mogelijk het effect van de behandeling zouden kunnen beinvloeden. Maar als we onderzoek doen in ouderen is het onmogelijk om alle medicijnen uit te sluiten want dan houden we geen proefpersonen over.
3) Er wordt momenteel misbruik gemaakt van het onderscheid maken tussen responders en non-responders. Het concept is in principe heel valide. Probleem is dat diverse papers NA AFLOOP van de studie mensen gaan indelen in responders en non-responders en vervolgens gaan concluderen dat de behandeling werkt, maar alleen in een deel van de proefpersonen. Dit is erg gevaarlijk. Wat je wel mag doen is op grond van de resultaten van een eerste studie een algoritme maken op basis waarvan je proefpersonen gaat indelen in 2 of meerdere groepen. Vervolgens ga je onderzoeken of dat verschil in respons tussen die groepen ook bevestigd wordt. Binnen top Instituut Food and Nutrition wordt momenteel zo’n studie opgezet (werving en screening loopt nu) waarbij mensen op basis van een glucosetolerantietest worden ingedeeld in lever insuline resistent en spier insuline resistent. Vervolgens wordt bekeken of mensen in die twee groepen anders reageren op een bepaald dieetinterventie.
4) Als mogelijke oplossing worden talloze n-1 experimenten aangedragen, die vervolgens via computational approaches worden geanalyseerd. Op individueel niveau zijn die n=1 experimenten natuurlijk ook de manier zoals veel artsen hun patienten behandelen. Kijken wat werkt en op grond van de respons wordt de behandeling al dan niet aangepast. Het idee om al die n=1 experimenten te gaan verzamelen en gezamenlijk te analyseren verdient mijns inziens verdere uitwerking want ook hier zitten talloze halen en ogen aan, zoals o.a. de consistentie van dataverzameling en de interventie zelf, en het traject voor de interventie. Bij een RCT probeer je dat constant te krijgen bij alle proefpersonen (bv. advies geen sex de avond voor een voedingsproef) (Haha, grapje) maar bij n=1 zal je dat extreem goed in kaart willen brengen. En ook hier speelt het probleem dat de respons herhaaldelijk moet worden gemeten. Ik kan bij mezelf een proefje doen en vinden dat mijn bloedsuiker de pan uitrijst na het eten van een banaan. Maar misschien is dat de volgende keer wel helemaal niet het geval. Dat hangt natuurlijk ook af van wat ik wellicht de avond ervoor gedaan heb, of van de samenstelling van de maaltijd ervoor etc.
5) Wat ik een heel klein beetje jammer vond is dat het artikel de boodschap uitdraagt dat probiotica een effect moeten hebben, maar dat het probleem bij de RCT ligt. Er zitten allerlei haken en ogen aan een RCT en die worden heel mooi op een rijtje gezet in het artikel maar daarmee is niet aangetoond dat probiotica wel werken.
Nogmaals mijn complimenten voor dit artikel en aan Foodlog voor het stimuleren van dit soort discussies.