In januari dit jaar kwam de KNAW, het geweten van de Nederlandse wetenschappers, met de oproep om meer replicatiestudies te doen. Replicatiestudies zijn wetenschappelijke experimenten die al eens eerder zijn gedaan en opnieuw worden geprobeerd. NWO, de organisatie die deze avond organiseert en ook het onderzoeksgeld in Nederland verdeelt, heeft hier inmiddels 3 miljoen euro voor vrijgemaakt. Maar replicatiestudies zijn niet overal nieuw, want in het medisch onderzoek wordt een proef met een nieuwe behandeling al vele malen opnieuw gedaan in andere ziekenhuizen voordat het iedereen kan overtuigen om de behandelrichtlijn aan te passen. Maar wanneer is het precies overtuigend genoeg? Wanneer hebben we een experiment vaak genoeg herhaald om te weten dat iets werkt, of om te weten dat het niet meer de moeite waard is om het nog een keer te doen? Om te beginnen moeten we voor ieder nieuw behandelidee, na iedere herhaling van een proef, kunnen updaten wat we tot dan toe weten. Daarnaast moeten we kunnen ontwerpen hoe een nieuwe proef eruit ziet die ervoor zorgt dat we, met die nieuwe proef erbij, weten of de behandeling een succes is of dat we moeten stoppen met herhalen. Voor beiden, updaten en ontwerpen, heb je statistiek nodig. Maar de statistiek die we nu hebben kan ons voor de gek houden als we dezelfde methode gebruiken om te updaten na de eerste, de tweede, en tot aan de laatste herhaling. Dit is vergelijkbaar met het testen of je gemiddeld sneller op je werk bent met de auto dan met de trein*. Jij en een collega uit dezelfde buurt kunnen iedere dag je reistijd bijhouden, de één met de auto en de ander met de trein. Je kunt na een experiment van een week met uitzonderlijk veel file eerst nog een keer herhalen, na een update met een extra week nog eens een herhaling doen voor de zekerheid, maar daarna stoppen met updaten als de automobilist een week lang iedere dag sneller was dan de treinreiziger. Omdat je niet van te voren hebt vastgelegd dat je de balans ging opmaken na drie weken, kan het dan toch nog nadelig uitpakken om in het vervolg te gaan carpoolen. Je bent namelijk gestopt met updaten zodra er overtuigend bewijs voor de auto leek te zijn! Dit probleem wordt sequentieel toetsen genoemd, en voor series van replicatiestudies zijn nog geen optimale statistische methoden bedacht. Dus doe ik onderzoek naar nieuwe statistiek voor zogenaamde meta-analyses, zodat we er bij het verdelen van het onderzoeksgeld in Nederland niet zo vaak naast zitten als in onze angst voor files en vertraagde treinen.
* Dank aan Richard Harris en zijn indrukwekkende boek Rigor Mortis voor deze analogie (p. 43 in de pocket editie te koop bij Libris)
Fri, 05 October