De één zegt ‘cijfers liegen niet’. De ander zegt ‘met statistiek kun je alles beweren’. Waar ligt de waarheid? Bij bijvoorbeeld de stikstofuitstoot hebben we gezien dat zelfs met dezelfde data, verschillende analisten op verschillende conclusies uitkomen. Is dat een bewijs dat statistici maar wat doen of naar het gewenste antwoord toewerken? Laten we eens wat voorbeelden bekijken.
Groei van varkens
Stel je even een eenvoudig experiment voor aan de landbouwuniversiteit. Je wilt onderzoeken of de groei van biggen verschilt tussen drie verschillende diëten. Je neemt zestig biggen, voert twintig van hen dieet A, twintig dieet B en twintig dieet C. Na twaalf weken bepaal je het gewicht van elke big. En dan doe je een statistische analyse om het gemiddelde gewicht van de verschillende groepen te vergelijken. Dat doe je met een test die ANOVA heet.
Maar, je wilde iets weten over groei, en is dat nu wel wat je hebt bekeken? Misschien is het beter om per big het gewicht aan het begin van je experiment af te trekken van het gewicht aan het eind en dat te analyseren. En misschien waren niet al je biggen precies even oud aan het begin en moet je hun leeftijd meenemen in je analyse, bijvoorbeeld als een zogeheten covariaat. En groeien mannelijke biggen wel met dezelfde snelheid als vrouwelijke? Moet je daar misschien ook nog rekening mee houden?
Je doet nu een nieuwe analyse op de gewichtstoename, rekening houdend met leeftijd en met geslacht. Misschien vond je in de eenvoudige analyse die je eerst deed geen verschil tussen de diëten, maar in je uitgebreide analyse wel.
In dit voorbeeld zou je kunnen zeggen dat de uitgebreidere analyse toch beter kijkt naar wat je eigenlijk wilde weten over groei dan de eenvoudige analyse en dat dus de eerste analyse gewoon minder goed was. Maar dat is soms minder duidelijk.
Academische status
Laten we het wat verder voeren. Hier is een ander voorbeeld waar je meerdere keuzen kunt maken in wat je precies vergelijkt, en waar je precies voor corrigeert.
In een recente studie kregen verschillende onderzoeksgroepen dezelfde dataset. Ze moesten (vereenvoudigd geformuleerd) op grond van de opmerkingen van wetenschappers op een (Engelstalig) discussieplatform de vraag beantwoorden of de status van een onderzoeker beïnvloedt hoe groot hun bijdrage was aan de wetenschappelijke discussie. Ja, en hoe bepaal je nu ‘status’? Is dat wat voor baan de wetenschapper heeft, zoals professor of post-doc? Of misschien hoe vaak hun werk wordt aangehaald door anderen? Of het aantal artikelen dat ze hebben geschreven? Of een of andere combinatie van die dingen?
En wat is bijdrage aan de discussie? Het aantal opmerkingen dat iemand heeft gemaakt? Of hoeveel woorden? Of het aantal verschillende onderwerpen waar iemand opmerkingen bij heeft gemaakt? En moeten we wel of niet meenemen of de wetenschapper een man of een vrouw is? En zouden wetenschappers die Engels als moedertaal hebben zich anders gedragen dan de rest?
Met zoveel opties en meer, kwamen analisten die volgens mij naar eer en geweten hun best deden, soms uit op zelfs tegengestelde conclusies: status verhoogde volgens sommigen de bijdrage aan de discussie, maar volgens anderen was de bijdrage van wetenschappers met weinig status juist groter.
Liegt statistiek?
De voorbeelden hierboven laten in het kort zien hoe een vraagstelling wordt geïnterpreteerd en vervolgens omgezet naar metingen en een statistische analyse. In elke stap zitten keuzes.
Het is van belang, dat je genoeg van je studieobject weet om bijvoorbeeld te bedenken of de leeftijd of het geslacht van je varkens uit kan maken voor de groeisnelheid. Waar je wel of niet voor ‘corrigeert’ kan aanzienlijk uitmaken voor het resultaat.
Maar vooral: als de vraag vaag is, zoals in het tweede voorbeeld, dan wordt het antwoord ook niet duidelijk. En ja, dat geeft wel meer ruimte, voor wie dat wil, om naar een gewenst of verwacht antwoord toe te werken. Het probleem ligt meestal niet in de statistiek, maar in de vraagstelling. Als je mensen vraagt een molen te tekenen, kan de één een traditionele windmolen tekenen, de ander een watermolen en een derde een moderne elektriciteitsmolen. Allemaal goed, gezien de vraag: een duidelijker vraag had een eenduidiger resultaat opgeleverd.
Zulke vage studies in kranten of rapporten zijn niet zo gemakkelijk te herkennen. Je moet je namelijk afvragen: “wat hebben ze nu precies gemeten en hoe” en vervolgens bedenken of dat ook op heel andere manieren had gekund. Geen gemakkelijke opgaaf, zeker als je weinig van het onderwerp weet.
Bronnen
Schweinsberg, M. et al. (2021) Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis, Organizational Behavior and Human Decision Processes 165 : 228–249 (https://doi.org/10.1016/j.obhdp.2021.02.003)
(Voor de helderheid van het blog, is de analyse in dit artikel niet precies weergegeven)
Hoofdfoto: Kunekune Piglets, Pete op Flickr
Add comment