Algemene stelling
Iedere dag verschijnen er meer dan honderd publicaties over klinische studies. Hierin krijgt bijvoorbeeld de ene helft van de groep een behandeling en geldt de andere helft als controlegroep. De resultaten van een RCT worden gebaseerd op de gemiddelde reactie van de mensen in de groep. Binnen die studie is er sprake van één populatie in één setting. In ’t Hout: “Uitspraken naar aanleiding van die studie, gelden dan dus alleen voor die setting.” Om een meer algemene stelling in te kunnen nemen moet de heterogeniteit groter zijn. Hiervoor zijn meerdere studies nodig die in verschillende settings hebben plaatsgevonden.
Uitspraken naar aanleiding van die studie, gelden dan dus alleen voor die settingMeta-analyse
Een meta-analyse combineert de resultaten uit verschillende RCT’s. Dit levert volgens In ’t Hout betrouwbaarder informatie op dan het uitvoeren van een nieuwe studie: “Je dekt hiermee meer nuanceverchillen tussen mensen af.” Voor het kunnen doen van een meta-analyse zijn meerdere studies nodig een daar ontbreekt het vaak juist aan. In ’t Hout raadt onderzoekers dan ook aan liever wat kleinere studies uit te voeren, ook vanuit financieel oogpunt. “In een meta-analyse hebben grote homogene onderzoeken niet zoveel voordelen ten opzichte van kleinere, zeker niet ten aanzien van de extra kosten die het opzetten en uitvoeren van een groot onderzoek met zich meebrengt.”
De bevindingen van In ’t Hout zijn mede van belang in het licht van de methodologische beschouwingen van Dennis Zeilstra op Foodlog. Hij betoogde dat meer reflectie op de methoden van kennisvergaring in de biomedische wetenschappen betere kennis zal opleveren.
Fotocredits: Large fish school, Wikipedia
Op 5 mei krijg je nieuwe kado-artikelen.
Als betalend lid lees je zoveel artikelen als je wilt, én je steunt Foodlog
Beste Joanna, dank voor de toelichting. Helemaal helder. Natuurlijk zijn meerdere studies beter dan één maar gelukkig zet je dat wel in de context van voldoende onderscheidingsvermogen (power) van die inviduele studies. Dat laatste ontbrak in het stuk hierboven. Je berekening van het mogelijk effect van publicatiebias is ook nuttig (met de kanttekening dat een meta-analyse van meerdere studies wellicht zuiverder schattingen oplevert dan bij maar één onderzoek maar het aannemelijk is dat beide er dan volledig naast kunnen zitten).
(PS ik moest even in mijn geheugen graven maar herinner me je nu weer van het RIVM (luchtverontreiniging en CARA?). Leuk om te lezen dat je zulk interessant werk doet). Gefeliciteerd met je promotie.
Graag wil ik hier een paar zaken toelichten m.b.t. mijn promotieonderzoek. Ik zie dat het een nogal lang verhaal is geworden, maar dat maakt e.e.a. hopelijk wat duidelijker. Jaap, ik heb overigens ooit bij jou op de afdeling gewerkt bij het RIVM (1994). Is dat niet toevallig?
Bij deze wat achtergrond bij het artikel dat tot deze discussie leidde. Een en ander staat uitgebreid beschreven in een publicatie in Statistical Methods in Medical Research 2012; ik heb dit artikel o.a. met (de) John Ioannidis geschreven. Ik publiceer overigens als Joanna IntHout.
Op basis van meta-analyses in de Cochrane database (over interventie-studies) heb ik gezien dat in ongeveer 50% van de meta-analyses er sprake is van heterogeniteit in de studie-resultaten. Dit betekent dat er meer spreiding tussen de resultaten van de verschillende studies zit dan je zou verwachten op basis van de studiegrootte. Deze heterogeniteit kan veroorzaakt worden door verschillende zaken. Bijv. als het gaat om een behandeling die niet in alle patienten even goed werkt: als patientenpopulaties dan van elkaar verschillen dan zie je dat terug in de werking van de behandeling. Een andere mogelijke oorzaak is de omgeving, dit zal ook bij voedingsonderzoek wel een rol spelen: als je hetzelfde voedingsmiddel onderzoekt in twee landen met een heel verschillend eet- of leefpatroon, is het goed mogelijk dat het voedingsmiddel in beide landen een verschillend effect heeft. Het effect kan dus afhankelijk zijn van patient- of context afhankelijke factoren. Andere redenen voor heterogeniteit kunnen liggen in kwaliteit van de studies of in publicatie-bias, die ervoor zorgt dat er in het algemeen meer studies gepubliceerd worden met interessante of positieve resultaten.
Vervolgens heb ik gekeken naar de fout-positieve resultaten, dus het percentage onterecht statistisch significante resultaten. Ik heb met behulp van simulaties vergeleken hoe een individuele studie met 80% power (een "grote" studie) het doet in vergelijking tot een meta-analyse met studies van 30, 50, 80 of 90% power. Let wel dat dit geen hele kleine studies zijn, en zeker geen studies van 15 personen en zonder controlegroep. Een studie met 30% power is ongeveer een kwart van de grootte van een studie met 80% power, een studie met 50% power is ongeveer de helft.
Ik heb hierbij rekening gehouden met het al dan niet aanwezig zijn van heterogeniteit.
Als er geen heterogeniteit is en geen publicatiebias doet de individuele studie met 80% power het het allerbest.
Maar als er wel sprake is van heterogeniteit, zelfs in beperkte mate, dan concludeert een individuele studie tot in 30% van de gevallen dat er een statistisch significante bevinding is, terwijl die er in werkelijkheid niet is. De studie doet dan wellicht wel een goede uitspraak over de behandeling in die bepaalde setting, maar niet over de behandeling in het algemeen.
Een meta-analyse die is opgebouwd uit verschillende studies reflecteert beter de verschillende settings waarin de behandeling is uitgetest, en geeft daarom een beter antwoord op de algemene werking van de behandeling. Dit is zeker het geval als er sprake is van slechts beperkte heterogeniteit en publicatiebias. Het percentage fout-positieve conclusies is dan bijna net zo goed as dat van de individuele studie op z'n best.
Maar zelfs in het allerslechtste geval, met hoge heterogeniteit en fikse publicatiebias (waarbij positieve resultaten maar in 50% vd gevallen, en negatieve bevindingen maar in 20% van de gevallen worden gepubliceerd), blijkt dat de percentages fout-positieve resultaten van zo'n meta-analyse beter zijn dan die van de individuele studie, nl met maximaal ongeveer 15% fout-positieve resultaten.
Ik ben er hierbij wel vanuit gegaan dat de meta-analyse alleen wordt uitgevoerd als er tenminste 2 studies gepubliceerd zijn.
Mijn proefschrift is inmiddels wel online te vinden, zie de PDF .
Misschien wijkt de weergave hier iets af van de bevindingen in het proefschrift zelf. De hele tekst is niet online te vinden, maar uit de toelichting in Medisch Contact blijkt dat zij gekeken heeft hoe heterogeniteit en publicatie bias de betrouwbaarheid van meta-analyses beïnvloed. Ze stelt:"Zelfs als er slechts twee of drie studies beschikbaar zijn voor een meta-analyse en als die onderhevig zijn aan publicatiebias en heterogeniteit, resulteert dat in lagere percentages fout-positieve bevindingen dan in een nieuwe grote trial."
Overigens is Joanna in 'T Hout niet alleen promovendus, maar ook universitair docent en biostatisticus. Ik vermoed dat zij de kanttekeningen van Jaap heel goed kent. Het zou inderdaad interessant zijn als zij hier zelf kan toelichten wat nou precies haar bevindingen zijn.
Dick, een n=1 observatie kan absoluut belangrijk zijn (voor het aantonen van een algemeen fysiologisch principe kan een steekproef van 1 voldoende groot zijn) maar bij effecten van voeding toch echt pas nuttig als die wordt gereproduceerd in ten minste andere n=1 studies. Als iemand geneest van zijn kanker wanneer hij een tijdje minder spruitjes eet wil je toch graag weten of dat bij anderen ook werkt voordat je de bevolking aanbeveelt om voorgoed spruiten te mijden.
Het n=1 design wordt wel gebruikt bij sequentiele analyse. Hoeveel n=1 successes en failures moet je achtereenvolgens geobserveerd hebben voordat je er een algemenere uitspraak over kunt doen. Ook dan is niet hoe meer hoe beter maar volstaat een voldoende groot aantal.
Ik hoop dat Joanna in 't Hout hier zelf wil reageren, Jaap. Het is een spannende discussie die de moeite waard is, want natuurlijk heeft ook onderzoek een kritisch volume aan waarnemingen nodig om zeggingskracht te hebben. Dat gezegd zijnde: veel waardevolle kennis is op basis van n=1 waarnemingen tot wasdom gekomen. Maar - en ook dat is weer waar - toen speelde statistiek nog amper een rol in de wetenschap.