Thema 11 · Chi-kwadraat & Simpson

Deel 6 — Categorieën · aantallen tellen

Van getallen naar categorieën

Tot nu toe verdiende elke meting een getal op een schaal: pienterheid, lengte, leeftijd. Maar veel waarnemingen zijn categorisch: bruin / grijs / zwart, jongen / meisje, geslaagd / gezakt. Daar werkt geen gemiddelde voor, daar werkt tellen. En daar past één toetsfamilie: de chi-kwadraat.

Twee smaken:

  1. Goodness-of-fit — past mijn ene categorische variabele bij een verwachte verdeling? (Eén rij.)
  2. Onafhankelijkheid — hangen twee categorische variabelen samen? (Een kruistabel.)

Beide draaien om hetzelfde recept: vergelijk geobserveerd met verwacht onder \(H_0\), en tel de gestandaardiseerde afwijkingen op.

Chi-kwadraat goodness-of-fit

OpmerkingDe egels — drie pelskleuren

Onder egels zien we drie pelskleuren: bruin, grijs en zwart. De biologen vermoeden dat ze in de natuur gelijk verdeeld zijn (1/3 elk). Wij vangen er 90 en zien: 40 bruin, 30 grijs, 20 zwart. Klopt de gelijke verdeling, of niet?

Onder \(H_0\) (gelijke verdeling) verwachten we \(90/3 = 30\) egels per kleur. Bereken voor elke categorie \((O - E)^2 / E\) en tel op:

kleur geobserveerd \(O\) verwacht \(E\) \(O - E\) \((O-E)^2 / E\)
bruin 40 30 +10 100/30 = 3,33
grijs 30 30 0 0
zwart 20 30 −10 100/30 = 3,33
χ² = 6,67

Vrijheidsgraden: \(df = k - 1 = 3 - 1 = 2\). Kritieke waarde \(\chi^2_{.05, df=2} = 5{,}99\) (uit de tabel). Onze 6,67 is groter → verwerp de nulhypothese. De pelskleuren zijn níét gelijk verdeeld; bruin is oververtegenwoordigd, zwart ondervertegenwoordigd.

Figuur 1: Geobserveerd (blauw) vs verwacht onder gelijke verdeling (grijze stippellijn op 30). Bruin zit boven het verwachte, zwart eronder; samen levert dat een chi-kwadraat van 6,67.

Chi-kwadraat onafhankelijkheid (kruistabel)

OpmerkingStudenten — geslacht × tentamen

We hebben 200 eerstejaars Pedagogiek. We turven geslacht (jongen / meisje) en tentamen-uitslag (gehaald / niet). Vraag: hangen die twee samen?

gehaald niet gehaald rij-totaal
jongen 85 15 100
meisje 65 35 100
kolom-totaal 150 50 200

Onder \(H_0\) (onafhankelijkheid) berekenen we de verwachte waarde per cel als \(E = \dfrac{\text{rij-totaal} \cdot \text{kolom-totaal}}{N}\):

  • E(jongen, gehaald) = \(100 \cdot 150 / 200 = 75\)
  • E(jongen, niet) = \(100 \cdot 50 / 200 = 25\)
  • E(meisje, gehaald) = \(75\), E(meisje, niet) = \(25\)

Vervolgens \(\sum (O-E)^2/E\) over alle vier de cellen:

\[\chi^2 = \frac{(85-75)^2}{75} + \frac{(15-25)^2}{25} + \frac{(65-75)^2}{75} + \frac{(35-25)^2}{25}\] \[= 1{,}33 + 4{,}00 + 1{,}33 + 4{,}00 = 10{,}67\]

Vrijheidsgraden voor een kruistabel: \(df = (r-1)(k-1) = 1 \cdot 1 = 1\). Kritieke waarde \(\chi^2_{.05, df=1} = 3{,}84\). Onze 10,67 is fors groter → verwerp de nulhypothese: tentamen-uitslag hangt samen met geslacht (in dit fictieve voorbeeld halen jongens vaker).

Figuur 2: Kruistabel als gegroepeerde staven: per geslacht het aandeel gehaald (blauw) en niet gehaald (oranje). De ratio’s lopen duidelijk uit elkaar — vandaar een hoge chi-kwadraat.
TipHet stappenplan voor een chi-kwadraat
  1. OV: hangen twee categorieën samen? (Of: past de verdeling bij wat verwacht?)
  2. \(H_0\): onafhankelijkheid (of: past bij verwachte verdeling). \(H_1\): hangt samen (of: wijkt af).
  3. Toetskeuze: chi-kwadraat (onafhankelijkheid of goodness-of-fit).
  4. Onder \(H_0\): bereken de verwachte aantallen per cel.
  5. Toetsingsgrootheid: \(\chi^2 = \sum (O-E)^2/E\).
  6. df = \((r-1)(k-1)\) voor kruistabel; \(k-1\) voor goodness-of-fit.
  7. Vergelijk met \(\chi^2_{\alpha, df}\) in de tabel.
  8. Conclusie: effect van X op Y — zeg wélk verband (richting beoordeel je uit de cellen, niet uit \(\chi^2\) zelf).

De val van Simpson — een verband dat omkeert

Een kruistabel laat het globale plaatje zien. Maar soms verbergt dat plaatje een omgekeerd verband dat binnen subgroepen leeft. Dat is Simpson’s paradox, en je moet ’m kennen — anders trek je serieus de verkeerde conclusie.

OpmerkingTwee opleidingen, één raar plaatje

Een universiteit kijkt naar de slaagpercentages van jongens en meisjes bij twee opleidingen.

Opleiding A (makkelijk): jongens 480/800 = 60% geslaagd; meisjes 140/200 = 70% geslaagd. → meisjes scoren beter.

Opleiding B (moeilijk): jongens 40/200 = 20% geslaagd; meisjes 200/800 = 25% geslaagd. → meisjes scoren beter.

Totaal: jongens 520/1000 = 52%; meisjes 340/1000 = 34%. → jongens scoren beter ?!

Binnen elke opleiding doen meisjes het beter; maar in het totaal lijken jongens beter. Hoe kan dat? Doordat de groepen zich anders verdelen over de opleidingen. Veel meisjes deden de moeilijke opleiding (waar iederéén slechter scoort), en veel jongens de makkelijke. Dat trekt het meisjes-gemiddelde naar beneden en het jongens-gemiddelde omhoog.

Figuur 3: Simpson-paradox visueel. Per opleiding (A makkelijk, B moeilijk) scoren meisjes hoger dan jongens. Maar in het totaal scoren jongens hoger — omdat ze relatief veel in de makkelijke opleiding zaten en meisjes in de moeilijke. De aggregatie verbergt de échte richting.
BelangrijkLes uit Simpson

Een derde variabele (hier: opleiding) die met beide andere samenhangt, kan een verband doen kantelen. Aggregeer dus nooit zonder na te denken: kijk altijd binnen relevante subgroepen. Dit is ook precies wat een covariaat doet in latere analyses — controleren voor zo’n meelopende variabele.

Oefenen

OpmerkingT11.1 — Chi-kwadraat met de hand

Honderd egels worden in drie hokken gezet (links / midden / rechts). Onder \(H_0\) verwachten we gelijke voorkeur. Telling: links 25, midden 50, rechts 25. (a) Bereken \(\chi^2\). (b) Met \(df = 2\) en \(\chi^2_{.05} = 5{,}99\) — verwerpen?

(a) \(E = 100/3 \approx 33{,}33\) per hok. \((O-E)^2/E\): links \((25-33{,}33)^2/33{,}33 = 2{,}08\); midden \((50-33{,}33)^2/33{,}33 = 8{,}33\); rechts idem als links = 2,08. \(\chi^2 = 2{,}08 + 8{,}33 + 2{,}08 = 12{,}5\).

(b) \(12{,}5 > 5{,}99\) → verwerpen. De egels hebben een sterke voorkeur voor het middelste hok.

OpmerkingT11.2 — Simpson herkennen

Een schoolinspecteur bekijkt twee scholen op één-jaars-doorstroom. School X: 80%. School Y: 65%. School X lijkt beter. Maar binnen elke leerlingcategorie (laag / hoog vooropleidingsniveau) doet School Y het juist iets beter. Hoe kan dat?

School X heeft waarschijnlijk veel meer leerlingen met een hoog vooropleidingsniveau (die sowieso vaker doorstromen, op elke school). Het aggregaatcijfer reflecteert dus vooral de samenstelling van de leerlingen, niet de kwaliteit van de school. Net als bij Simpson: een meelopende derde variabele (vooropleiding) verklaart het schijnverschil. Wie scholen eerlijk wil vergelijken, vergelijkt binnen vooropleidingsniveau — niet over de hoofden heen.

Tot slot

Chi-kwadraat brengt de toets naar categorieën, met steeds dezelfde gedachte: vergelijk wat je ziet met wat je verwacht onder \(H_0\), en tel de gestandaardiseerde afwijkingen op. En Simpson herinnert je dat aggregeren een vorm van vergeten is — de subgroepen zwijgen niet, je hoort ze alleen niet meer.


Werkboek OZP 1 · Thema 11, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels (+ studenten).

Terug naar boven