De nieuwe vuurwerkcampagne van de overheid is van start gegaan: de loterij die je niet wilt winnen. Kansen spelen een prominente rol in deze campagne, zoals je ziet in de campagneposters. Ik vroeg me af hoe ze die kansen hebben berekend. Voor loterijen is de winkans goed te berekenen met wat simpele kansrekening. Maar de kans op ‘een klapper in je oog’ is al een stuk lastiger te berekenen. Als je genoeg gegevens van de ziekenhuizen hebt, moet dat wel lukken, zeker als je ervan uitgaat dat de omstandigheden niet teveel veranderen over de jaren. Deze post gaat over kansvragen. Want als het woord ‘kans’ in een zin voorkomt, dan ben je vaak de klos als statisticus. Je familie of vrienden kijken gelijk naar je: geef daar maar een antwoord op. Waarom lukt dat soms wel, maar vaak ook niet? Laat ik beginnen met drie lastige kansvragen uit eigen praktijk.
Drie kansvragen
- Ik kocht een cadeautje voor het Sinterklaas dobbelspel, en iemand anders had hetzelfde gekocht. Hoe toevallig is dat?
- Ik was op vakantie in Lapland, en ik kwam daar een bekende tegen. Hoe dan, hoe klein is die kans?
- Het is nu al de vijfde dag achter elkaar dat ik door de regen naar het station moet fietsen. Ze zeggen toch altijd dat de kans op regen helemaal niet zo groot is in Nederland. Hoe kan dit dan?
Waarom zijn deze kansen nou zo lastig te berekenen?
Een ruimte vol met uitkomsten
Als je een dobbelsteen werpt, weet je wat er uit kan komen: 1, 2, 3, 4, 5, 6. Op de roulettetafel is het aantal uitkomsten groter, maar ook daar kan ik de kans dat je geld verliest voor je uitrekenen. Wat bepaalt nu eigenlijk of een kans te berekenen is of niet?
Een kans berekenen vanuit theorie betekent dat je heel goed in kaart moet kunnen brengen wat de mogelijke uitkomsten zijn. Duidelijk bij de dobbelsteen en de roulette, maar al veel lastiger bij vraag 1 hierboven: er zijn heel veel mogelijke cadeautjes! En onmogelijk bij vraag 2: er is een oneindig aantal mogelijke vakantiebestemmingen. Maar ho even: bij vraag 3 is dit geen probleem: in 5 dagen regent het 0, 1, …, 5 keer. Wat is daar het probleem? Je hebt nog iets nodig: je moet van elke uitkomst weten wat de kans daarop is. En vaak is de informatie daarvoor niet specifiek genoeg. Ga maar na: regenval hangt zeker af van het seizoen, waar je woont in Nederland, misschien zelfs het tijdstip waarop jij fiets, enz. Plus – en dit is misschien de moeilijkste – of het regent op 28 december is zeker niet onafhankelijk van regenval op 27 december. En de sterkte van die afhankelijkheid bepaalt gedeeltelijk de kans op vijf keer regen op een rij. Dus soms kennen we de uitkomstruimte wel, maar de onderliggende kansen niet.
Dimensie en Tijd
In de eerste twee vragen hierboven ontbreekt nog iets. Om de eerste vraag te beantwoorden moet je ook weten hoeveel mensen er meededen met het dobbelspel. Intuïtief: waren het er drie, dan snap je dat die kans veel kleiner is dan wanneer je met twintig bent. Bij vraag 1 kunnen we de dimensie wel achterhalen, maar soms is deze volledig ongrijpbaar. Denk aan de beruchte Lucia de B. zaak, waar ook door statistici behoorlijk wat over geschreven is. Wat is de kans dat er een verpleegkundige is bij wie toevallig meerdere sterfgevallen optreden tijdens zijn/haar dienst? Dat hangt nogal af van het aantal verpleegkundigen dat je beschouwt: zij die werken in Den Haag, Nederland, de wereld? En bij deze vraag en vraag 2 speelt nog een factor: tijd. Als ik drie weken op vakantie ga, is de kans groter dat ik een bekende tegen kom dan wanneer ik vijf dagen ga. Zonder dimensie en tijd kunnen we eigenlijk helemaal niets met de kansvraag.
Maar er is een uitweg. Soms.
Experiment
Een kans berekenen vanuit de theorie is wellicht het mooiste dat er is, maar als dat niet kan, is er soms een uitweg: de kans schatten met behulp van data. Dit is waar statistiek zich onderscheidt van kansrekening. Essentieel is om van tevoren goed na te denken over welke vraag je wilt beantwoorden en hoe je daartoe data verzamelt. Daarbij geldt vaak: hoe minder specifiek de vraag, hoe makkelijker het is het experiment op te zetten. Het is immers makkelijker om 1,000 mensen te vinden die op vakantie gaan, dan 1,000 mensen te vinden die op vakantie gaan naar Lapland. En soms helpt een beetje kansrekening je toch weer: we weten vanuit de theorie dat bij benadering kleine kansen opgeteld mogen worden.
Dat betekent dat als ik twee weken op vakantie ga, de kans dat ik een bekende tegen kom ongeveer twee keer de kans is dat ik een bekende tegenkom in één week vakantie. Dat is handig voor het experiment, want dan hoef ik mensen niet te verplichten allemaal precies twee weken op vakantie te gaan. Soms heb je geluk, en is het experiment al gedaan. Voor vraag 3 hoef ik alleen maar KNMI-data op te vragen. Dan kan ik deze kans schatten, voor welke maand, stad en tijdstip dan ook. Hoef ik alleen nog maar rekening te houden met klimaatverandering.
In de medische wetenschappen zie je de trend om te proberen gebruik te maken van bestaande data, of sexier: Real World Evidence. Klinkt goed, maar kan ook een synoniem zijn voor een bak met ruizige data waar je uiteindelijk de vraag niet mee kunt beantwoorden. Of erger nog dan ruis: bias, misschien het best te vertalen met ‘systematische fout’. Je gebruikt bijvoorbeeld een database met vooral gegevens over volwassenen terwijl je eigenlijk iets wilt zeggen over kinderen. Als je weet wat de bronnen voor die fout zouden kunnen zijn, dan bestaan er methoden om ervoor te corrigeren. Maar makkelijker wordt het er niet op, en je moet altijd rekening houden met onbekende factoren.
Moraal van het verhaal
De kansvraag stellen is makkelijker dan deze beantwoorden. Echter, de vraag goed stellen is niet makkelijk. En als de vraag goed is gesteld, en we hebben goede data, dan is de kans dat statistici de vraag kunnen beantwoorden toch zeker wel 70 procent*. In alle andere gevallen: chatGPT vragen (want geeft altijd een antwoord) of beter: gewoon zeggen: “Sorry, ik weet het echt niet.”
*Pure speculatie
Leuk stukje, Mark, bedankt.
Maar ten aanzien van je suggestie om het ChatGPT te vragen als je er niet uitkomt, heb ik sterke bedenkingen.
Vraag maar eens aan ChatGPT: “hoe bereken ik de volgende kans: er zijn 4 ballen. Elke bal krijg ik met kans 1/4. Wat is de conditionele kans P(ik krijg totaal tenminste 2 ballen | ik krijg totaal tenminste 1 bal)?”
Ik heb het ChatGPT tweemaal gevraagd, en tweemaal kreeg ik totaal verschillende (en beide foutieve) oplossingen/uitkomsten: 137% (!) resp. 1/175.
De redeneringen begonnen steeds aardig, met de definitie van conditionele kans en zo, maar ontspoorden daarna al snel. Probeer het maar eens…