Cijfers liegen niet. Of toch wel?

Verslag VWN-workshop statistiek, 26 maart 2013

 

‘Rood vlees verhoogt kans op vroege dood’. Het is zomaar een voorbeeld van een wetenschapsnieuwtje dat weleens de krant haalt. Maar als je in de achterliggende statistiek van dit onderzoek duikt, dan kom je er achter dat we echt niet massaal vegetariër hoeven te worden. Hans van Maanen - wetenschapsjournalist, Volkskrant-columnist en ‘ontmaskeraar van gecijferde onzin’ – gaf ons een inkijkje in de wondere wereld van standaarddeviaties en betrouwbaarheidsintervallen.

 

 

‘‘X verhoogt Y met Z procent.’ Aan dat soort berichtgeving moeten journalisten nou eens een eind maken’, bepleit Hans van Maanen. Dat benadrukt hij met een groot stopbord op zijn presentatiesheet. Als voorbeeld toont hij de kop ‘Kind met ADHD mist vaak stukken DNA’. Wat hebben we aan die informatie? Als we naar de onderliggende data kijken, dan zien we dat ook bij sommige gezonde kinderen dezelfde stukken DNA ontbreken. Los het op met een graphic, is het voorstel van Hans van Maanen. Daarin kun je laten zien dat op elke veertien gezonde kinderen er één over het ‘kapotte’ CNV-gen beschikt, terwijl twee van de veertien ADHD-kinderen dat gen bezitten. Dan zie je in één oogopslag dat het wel meevalt met de impact van die kapotgeslagen genen.

 

Een ander voorbeeld: ‘Rood vlees verhoogt kans op vroege dood’. Amerikaanse onderzoekers toonden aan dat het frequent eten van rood vlees leidt tot 85 extra doden per 1000 mensen, over een periode van 22 jaar. Het klinkt als een fors aantal. Maar, berekende Hans, als 1000 mensen vegetariër worden van schrik, dan scheelt dat vier doden per jaar. ‘Het maakt voor het individu weinig uit, alleen voor de volksgezondheid. Het wordt op zo’n manier gepresenteerd dat de lezer er niks aan heeft.’

 

Mathematische missers

Gedurende de drie uur durende workshop laat Van Maanen ons veel van deze mathematische missers zien. En moeten we ook zelf aan de slag met het uitrekenen van het gemiddelde, spreiding, standaarddeviatie, steekproefgroottes, significantie en betrouwbaarheidsinterval. Voor sommigen van ons gesneden koek, voor anderen een zenuwslopende exercitie. Zeker door de secondenteller die Van Maanen bij elke oefening laat lopen.

 

Het begint nog redelijk eenvoudig met het gemiddelde. ‘Een gemiddelde zegt niet zoveel’, vindt Van Maanen. Darrell Huff toont dat mooi aan in zijn klassieker How to lie with statistics uit 1957. Als je het gemiddelde loon in een bedrijf uitrekent, dan kom je een op een mooi hoog bedrag. Maar dat komt doordat de directeur met zijn riante salaris het gemiddelde flink omhoog trekt. De modus (de meest voorkomende waarde) of de mediaan (de middelste waarde) zijn betere maten. Zo is het gemiddelde besteedbare inkomen in Nederland 32.900 euro, maar de modus ligt rond de 17.500 euro.

 

Een veel gebruikte maat in de statistiek is de standaarddeviatie. (Voor de liefhebber: de wortel uit de som van de afwijkingen van het gemiddelde in het kwadraat, gedeeld door het aantal.) En nog een stapje verder: de standaardfout. Hierin kijk je niet naar de afwijking van het gemiddelde van de gehele populatie, maar alleen naar de steekproef die je hebt getrokken voor je onderzoek. Wat je er in feite mee wilt uitrekenen is in hoeverre de uitkomsten van het onderzoek afwijken van het gemiddelde in de gehele populatie. Weet je de standaardfout, dan kun je ook de significantie uitrekenen. Een uitkomst is significant als het meer dan twee standaardfouten afwijkt van de verwachte waarde. Het resultaat uit de steekproef wijkt dan zoveel af, dat dat bijna niet meer op toeval kan berusten: er is iets aan de hand.

 

In Groningen dachten ze ook dat er wat aan de hand was. Er gebeurden daar meer ongelukken bij mooi weer. Onderzoekers hadden de gegevens van ruim 350.000 mensen die in 36 jaar tijd de Groningse eerste hulp bezochten, gekoppeld aan weerdata van het KNMI. Er kwamen per dag drie extra slachtoffers binnen, op een gemiddelde van 27 mensen per dag. Drie op de 27 is niet veel, maar toch waren de resultaten significant. Dit had te maken met de steekproefgrootte: veel mensen verspreid over een lange periode. Hoe groter de steekproef, hoe kleiner de standaardfout, hoe eerder significant. Van Maanen is geen groot voorstander van de significantiemaat. ‘Het is slechts een afspraak onder geleerden. Het is erin geslopen. Iedereen is er tegen en je moet er als journalist maar mee werken. De betrouwbaarheidsinterval is al beter.’ Hierbij bereken je, met behulp van de standaardfout, de marge waarbinnen je meting moet vallen. Vaak wordt hiervoor een 95% interval gebruikt; als je je onderzoek honderd keer zou herhalen, zou het resultaat 95 keer binnen deze marge vallen. Dit levert een meer veelzeggende maat op dan de significantietoets.

 

Precisiejournalistiek

Hans van Maanen pleit voor precisiejournalistiek. Dus als je als journalist weer eens een persbericht of een wetenschappelijke publicatie onder ogen krijgt, stel (jezelf of de onderzoekers) dan de volgende vragen:

  • ·                    Waar zijn de cijfers?
  • ·                    Waarom deze cijfers, en alleen deze cijfers? Soms zijn de belangrijkste cijfers in een persbericht weggelaten. Want daarmee zouden de onderzoekers wel eens door de mand kunnen vallen.
  • ·                    Kan ik mij er een voorstelling van maken?
  • ·                    Gemiddelden waarvan, en waarom daarvan?
  • ·                    Waarom gemiddelden en geen andere maten?
  • ·                    Waarom gemiddelden en geen betrouwbaarheidsintervallen? Die laatste zegt veel meer over hoe exact een meting is.
  • ·                    Procenten waarvan, en waarom daarvan?
  • ·                    Waarom percentages en geen absolute aantallen?
  • ·                    Waarom absolute aantallen en geen percentages?
  • ·                    Hoeveel scheelt het echt? De Z-score kan hier uitspraken over doen.
  • ·                    Hoeveel scheelt het in de andere groep? Is er een controlegroep? Die zou er altijd moeten zijn!
  • ·                    Grote verschillen zeggen weinig bij grote spreiding.
  • ·                    Gaat het niet van heel zeldzaam naar iets minder zeldzaam?
  • ·                    Kan het kloppen?
  • ·                    Hoe hebben ze het gemeten?
  • ·                    Als het significant is, is het ook relevant?
  • ·                    Als het niet significant is, is het daarmee irrelevant?

Voor wie zich meer wil verdiepen in de materie schreef Van Maanen het boek Goochelen met Getallen. Volgens de Volkskrant ‘…verplichte kost voor degenen die beroepshalve met tabellen en grafieken worden doodgegooid — politici, beleidsmakers, journalisten dus…’

Mijn ogen zijn in ieder geval geopend. Als ik de volgende dag in de nrc.next de kop ‘Koortslip kan tijdelijk dommer maken’ lees, dan voelen mijn Van Maanen-voelsprieten nattigheid. Ik wens iedereen zulke voelsprieten toe.