Thema 8 · Toetsgevoel & z-toets

Deel 5 — Toetsen · de bakker

Twee soorten vragen

In thema 7 vroeg je: wat is \(\mu_x\)? Een getal, met een marge eromheen (je betrouwbaarheidsinterval). Nu draai je de vraag om: ís \(\mu_x\) eigenlijk wél die ene waarde die ze beweren? En daar krijg je geen kant-en-klaar ja of nee op. Je krijgt een beslissing terwijl je het niet zeker weet (een beslissing onder onzekerheid) — hou je die waarde nog vol, of wordt je data zó raar dat je ’m niet langer gelooft? Dat tweede, dát is toetsen.

Dus kijk altijd eerst even wát ze nou eigenlijk vragen. Willen ze een getal? Dan bouw je een interval. Een ja-of-nee? Dan toets je. Gooi die twee door elkaar en je bent al halverwege de mist in voordat je één som hebt gedaan.

De egels — toetsen we slimheid

Pienterheid \(\sim N(\mu_x, \sigma_x)\) met \(\sigma_x = 15\). We vermoeden dat egels pienterder zijn dan de norm van 100. We nemen een steekproef van \(n = 25\) en vinden \(\bar{x} = 106\). Vraag: is dat genoeg om te zeggen dat egels écht boven de 100 zitten, of is het toeval?

\(H_0\), \(H_1\) en de bakker

We zetten twee hypothesen op:

\(H_0\) (de nulhypothese): er is niets aan de hand — egels zijn gewoon 100. \(\mu_x = 100\).
\(H_1\) (de alternatieve): er is wél iets — egels zijn pienterder. \(\mu_x > 100\) (rechtszijdig).

We toetsen altijd de nulhypothese (\(H_0\)), nooit de alternatieve — we kijken hoe verbaasd onze data ons maakt onder de aanname dat er niks aan de hand is. Waarom dat zo gaat? Het bakker-verhaal:

De bakker

Aan het einde van de straat zat een bakker — al twintig jaar dezelfde, je liep er als kind al naar binnen. Maar die kant kom je eigenlijk nooit, je bent er dus een tijd niet meer geweest; misschien is er nu een fietsenwinkel, misschien een coffeeshop, misschien hangt er nog steeds een rij van zaterdagochtend voor de croissantjes. Je weet het niet. Je móét gaan kijken — maar je mag niet kiezen wat je krijgt.

Ik stuur je geblinddoekt, met een knijper op je neus, de winkel in. Je mag niks pakken en niks bevoelen — je roept alleen: “doet u maar wat!” (= een steekproef nemen — jíj kiest niet, je krijgt wat de bakker je aanreikt; de populatie zelf, wat er écht in die winkel staat, zie je nooit). En er wordt iets in je handen gedrukt.

Onder \(H_0\) — het is nog steeds de bakker — wat verwacht je dan in je handen? Brood. Hard, vers, knapperig. Of een croissantje, een koekje, een puddingbroodje — passen ook prima binnen ‘bakker’. Daar schrik je niet van; dat is wat een bakker doet.

Maar nu houd je een fiets vast. Een echte fiets, stuur en al. Kan dat? In theorie wel: misschien zit er een actie en krijgt de miljoenste klant een fiets. Maar de kans dat jij net die ene bent — zó klein dat je schrikt. En in die schrik zit de hele toets: de kans op “dit of nog gekker”, gegeven dat de nulhypothese waar is, was zo piepklein dat je het idee “het is nog steeds de bakker” niet meer kunt vasthouden. Je verwerpt de nulhypothese — de bakker is weg.

When p is low, \(H_0\) must go. (Niet omdat \(H_0\) onmogelijk is — maar omdat de data, áls \(H_0\) waar zou zijn, té uitzonderlijk werden om dat idee nog vast te houden.)

Dat is conditioneel denken, de kern van het hele vak: stel dat \(H_0\) waar is — hoe verbaasd ben ik dan over wat ik vond?

De z-toets als één beweging: \(\bar{x} \to z \to p\). Je hebt je steekproef (\(\bar{x}\)), standaardiseert met het lineaaltje (SE) naar \(z\), en zoekt de kans \(p\) in de tabel. Schets ’m desnoods zelf even.

\(\alpha\) = hoeveel vals alarm je accepteert

Hoe klein moet die kans zijn voor je schrikt? Die grens spreken we van tevoren af: \(\alpha\), meestal 5%. Wat betekent dat eigenlijk?

De rechter — streng versus los

\(H_0\) = onschuldig, \(H_1\) = schuldig. Veroordeel je een onschuldige — je verwerpt \(H_0\) terwijl er niks aan de hand was — dan heet dat een type-I-fout (een vals alarm). En hoe vaak je dat laat gebeuren, bepaal je zélf. Stel, stel, stel… je hebt twee rechters, even om het lekker duidelijk te maken. De eerste laat nog liever tien schuldigen lopen dan dat hij één onschuldige de bak in draait — streng, hij wil bergen bewijs, bijna nooit vals alarm. De tweede haalt z’n schouders op en tikt al bij een halve aanwijzing de hamer neer — los, en ja, daar gaan af en toe onschuldigen aan.

\(\alpha\) is precies hoe streng jíj bent: hoeveel onschuldigen je op de koop toe neemt (het significantieniveau). Bij \(\alpha = .05\) zeg je: als \(H_0\) echt waar is, vind ik het oké dat ik ’m in 5 van de 100 keer tóch verwerp. Geen meetfout, geen pech — een risico dat je van tevoren zélf afspreekt (een afgesproken kans op vals alarm). Vijf procent onschuld, bewust geofferd.

De snelle weg (3 regels, overzicht)

Voor wie het patroon al kent — zo zit het toetsje in elkaar:

Standaardiseer: \(z = \dfrac{\bar{x} - \mu_0}{\sigma_{\bar{x}}} = \dfrac{106 - 100}{3} = 2{,}00\).
Zoek de kans: \(p = .0228\) (rechterstaart bij \(z = 2{,}00\)). \(p < .05\).
Beslis: verwerp de nulhypothese.

Conclusie: egels scoren significant boven 100 — de pienterheid van egels ligt hoger dan de norm. Klaar.

De lange weg — het toets-stappenplan

Drie regels klinkt simpel, maar onder de motorkap zitten acht stapjes die je elke toets opnieuw doorloopt. Schrijf ze altijd uit; het ritueel bewaakt je tegen onzin.

De engine, stap voor stap

Alles draait om één beweging — \(\bar{x} \to z \to p\). Rechts zie je ’m per stap oplossen: bij het gegeven een getal, bij het onbekende een ? dat je invult zodra je ’m hebt.

Gegeven — je steekproef levert \(\bar{x} = 106\).

Standaardiseer (stap 5) — \(z = \dfrac{106-100}{3} = 2{,}00\).

Zoek \(p\) op (stap 6) — de rechterstaart bij \(z = 2{,}00\).

Gevonden — \(p = .0228 < \alpha\) → verwerp \(H_0\).

Stap 1 · Onderzoeksvraag. Zijn egels pienterder dan de norm van 100?

Stap 2 · Hypothesen. \(H_0: \mu_x = 100\) (geen verschil). \(H_1: \mu_x > 100\) (rechtszijdig — we vermoeden hoger, niet anders).

Stap 3 · Toetskeuze. Eén gemiddelde, \(\sigma_x\) bekend → z-toets.

Stap 4 · Laat \(H_0\) waar zijn en teken de steekproevenverdeling. Onder \(H_0\) ligt het centrum op \(\mu_0 = 100\) met standaardfout \(\sigma_{\bar{x}} = 15/\sqrt{25} = 3\). De rechterstaart van 5% (= \(\alpha\)) is het verwerpingsgebied:

Figuur 1: De steekproevenverdeling onder H0 (mu0 = 100, standaardfout 3). De oranje staart rechts is het verwerpingsgebied (alpha = 5%); de grens ligt op de kritieke waarde x̄c = 104,94. De gevonden steekproef x̄ = 106 (blauwe lijn) valt in het verwerpingsgebied → verwerpen.

Stap 5 · Toetsingsgrootheid. Standaardiseer onze steekproef: \(z = \dfrac{\bar{x} - \mu_0}{\sigma_{\bar{x}}} = \dfrac{106 - 100}{3} = 2{,}00\). Twee lineaaltjes boven de verwachting.

Stap 6 · p-waarde óf kritieke waarde — twee paden, zelfde antwoord. Zie hieronder.

Stap 7 · Statistische beslissing. Beide paden zeggen hetzelfde: verwerp \(H_0\).

Stap 8 · Inhoudelijke conclusie. Wat verschilt er, en op welke Y? — hier is Y de pienterheid en de groep de egels: bij egels ligt de gemiddelde pienterheid significant boven de norm van 100 (\(z = 2{,}00\), \(p = .023\), eenzijdig, \(\alpha = .05\)). (Een verschil met de norm — geen causaal effect; we hebben niks gemanipuleerd.)

Stap 6a — Methode 1: de p-waarde (\(x \to z \to p\))

De gewone manier (ook wat SPSS doet): standaardiseer en zoek de kans op. Bij \(z = 2{,}00\) is de rechterstaart \(p = .0228\). Dat is kleiner dan \(\alpha = .05\) → verwerp de nulhypothese. De kans om 106 of hoger te vinden als egels gewoon 100 zijn, is maar 2,3% — dat is de fiets in de bakker.

Stap 6b — Methode 2: de kritieke waarde (\(p \to z \to x\))

Nu andersom: bepaal vóór je de steekproef ziet vanaf welke grens je verwerpt. Die grens — de kritieke waarde \(\bar{x}_c\) — bouwen we op in drie stapjes, elk eentje moeilijker:

Opklimmen — van wat je weet naar de kritieke waarde

(a) 50/50 — geen tabel nodig. Als \(H_0\) waar is, hoe vaak vind je een steekproefgemiddelde boven \(\mu_0 = 100\)? 50% (en 50% eronder). Pure symmetrie — die zoek je niet op, die wéét je.

(b) 75/25 — nu wél de tabel. Boven welke grens liggen de 25% hóógste steekproefgemiddelden? Bij 25% boven hoort \(z = 0{,}674\), dus grens \(= 100 + 0{,}674 \cdot 3 = 102{,}02\). Pure \(p \to z \to x\) — nog geen alpha, geen verwerpen.

(c) 95/5 — pas hier komt \(\alpha\). Maak die bovenkant nu 5% (= \(\alpha\)). Bij 5% boven hoort \(z = 1{,}645\), dus \(\bar{x}_c = 100 + 1{,}645 \cdot 3 = 104{,}94\). Zelfde som, nieuwe naam: déze grens is de kritieke waarde, en die 5% heet \(\alpha\).

De kritieke-waarde-route: \(\alpha \to z_c \to \bar{x}_c\). Andersom door de tabel — bij \(\alpha\) (5% in één staart) zoek je de kritieke \(z\) (1,645), en die plak je terug op de x-schaal (\(\bar{x}_c\)). De koorts-cutoff: tikkie, je bent ’m.

Onze steekproef: \(\bar{x} = 106\) ligt boven \(\bar{x}_c = 104{,}94\), dus in het verwerpingsgebied → verwerp de nulhypothese. Beide methoden geven dezelfde conclusie — natuurlijk, het is dezelfde wandeling, andere kant op.

De val: 1,645 of 1,96?

Studenten grijpen reflexmatig naar 1,96 — want “we kijken altijd naar 95%”. Maar dat is 95% in het midden (tweezijdig) → dan zit er 2,5% in één staart → 1,96. Bij een eenzijdige toets willen we 5% in één staart → 1,645. Teken het eerst (zoals de figuur hierboven), dan zie je het verschil meteen.

Twee routes, zelfde antwoord: het college leest de bijbehorende \(z^*\) af in de procenten-rij van de t-tabel; wij vragen “welke \(z\) hoort bij 5% in één staart?”. Allebei kom je op 1,645 uit — zo doet het college het, zo doe ik het.

Eén- of tweezijdig?

Onze \(H_1\) was \(\mu_x > 100\) (rechtszijdig) — we keken alleen naar de rechterstaart. Bij een tweezijdige \(H_1\) (\(\mu_x \neq 100\)) weet je de kant niet, dus kijk je naar beide staarten. Het teken in \(H_1\) bepaalt welke staart(en) je arceert — schets dus altijd even de goeie:

**Rechtszijdig** (\(H_1: \mu_x > \mu_0\)): één staart rechts, grens bij \(z^* = 1{,}645\).

**Linkszijdig** (\(H_1: \mu_x < \mu_0\)): één staart links, grens bij \(z^* = -1{,}645\).

**Tweezijdig** (\(H_1: \mu_x \neq \mu_0\)): beide staarten samen 5%, grenzen op \(\pm 1{,}96\) — dát is Pippi.

Pippi Langkous — maar alléén bij de p-waarde-methode

Tweezijdig = twee staarten. Bij het opzoeken kom je áltijd eerst één staart tegen (dat geeft de tabel) — die keer 2: dat is Pippi (twee staarten). Bij ons: \(p = 2 \times .0228 = .0456\), nog steeds \(< .05\), dus ook tweezijdig verwerpen. Waarom ×2 en niet \(\alpha\) delen? Zo matcht het SPSS, dat altijd een tweezijdige p-waarde teruggeeft.

Pas op — dit is alléén voor de p-waarde-methode. Bij de kritieke-waarde-methode doe je het andersom: dáár deel je \(\alpha\) door 2 → ½α = .025 per kant → \(z^* = 1{,}96\). Dus géén Pippi bij de kritieke waarde; daar is het al per kant gesplitst. Kort: Pippi (×2) ⇒ p-waarde; ½α (.025 per kant) ⇒ kritieke waarde.

Beslissing is niet hetzelfde als werkelijkheid

Of je nu verwerpt of niet — je kunt het mis hebben, want de werkelijkheid (kent alleen God) is onbekend:

Type-I-fout: de nulhypothese verwerpen terwijl \(H_0\) waar is (vals alarm). De kans hierop is \(\alpha\).
Type-II-fout: de nulhypothese níét verwerpen terwijl \(H_1\) waar is (gemiste vondst).

Trek beslissing en werkelijkheid altijd los van elkaar. (De kans om een echt effect óók echt te vangen — het tegenovergestelde van een type-II-fout — heet de power; daar gaat thema 10 over.)

Vooruitblik — de tweede berg (thema 10)

Een type-II-fout kun je pas écht zien als je een tweede wereld durft te tekenen. Tot nu toe tekenden we één berg: de wereld die \(H_0\) beweert, met het centrum op \(\mu_0 = 100\). Noem ’m de God-wereld — God weet hoe het zit en zegt: egels zijn gewoon 100. Maar stel dat egels in werkelijkheid pienterder zijn, zeg \(\mu = 110\). Dan is er een twééde wereld, met z’n eigen berg, een eindje naar rechts. Noem ’m de Allah-wereld — een andere waarheid op dezelfde getallenlijn. Twee waarheden die niet allebei waar kunnen zijn.

In die tweede berg leven de type-II-fout (\(\beta\)) en de power. We tekenen ’m hier nog niet — onthoud ’m. In thema 10 zetten we beide bergen naast elkaar, met onze ene grens \(\bar{x}_c\) ertussen, en dan zie je \(\alpha\), \(\beta\) en power in één plaatje staan.

Toets en interval zijn elkaars spiegelbeeld

Herinner je T7: bij \(n = 9\), \(\bar{x} = 108\) vonden we het 95%-interval \([98{,}2\,;\,117{,}8]\), en 100 lag erin. Dat is precies hetzelfde als een tweezijdige toets met hetzelfde \(\alpha = .05\) (let op: alléén dan): ligt \(\mu_0\) binnen het interval → niet verwerpen; erbuiten → verwerpen. CI en toets zijn in elkaar vertaalbaar — het verschil is alleen wat je in het midden zet: bij een interval het steekproefgemiddelde, bij een toets de waarde uit \(H_0\).

Welke kant op? (de richtings-engine, lineaaltje = σ_x̄)

Toets (p-waarde): je hebt \(\bar{x}\), je zoekt een kans → \(\bar{x} \to z \to p\).
Kritieke waarde: je hebt \(\alpha\) (een kans), je zoekt de grens → \(\alpha \to z \to \bar{x}_c\).

Steeds hetzelfde fietsje, met de standaardfout \(\sigma_{\bar{x}}\) als lineaaltje.

Oefenen

T8.1 — Een z-toets, beide methoden

Egels, \(\sigma_x = 15\), \(H_0: \mu_x = 100\), \(H_1: \mu_x > 100\), \(\alpha = .05\). Een steekproef van \(n = 9\) geeft \(\bar{x} = 109\).

Doe de p-waarde-methode.
Doe de kritieke-waarde-methode.
Conclusie?

Antwoord T8.1

\(\sigma_{\bar{x}} = 15/\sqrt{9} = 5\).

(a) \(z = \dfrac{109 - 100}{5} = 1{,}80\). Rechterstaart bij \(z = 1{,}80\): \(p = .0359\). Dat is \(< .05\) → verwerp de nulhypothese.

(b) \(\bar{x}_c = 100 + 1{,}645 \cdot 5 = 108{,}23\). De gevonden \(109 > 108{,}23\) → in het verwerpingsgebied → verwerp de nulhypothese.

(c) Beide: verwerp \(H_0\) — de gemiddelde pienterheid van egels ligt significant boven 100 (\(z = 1{,}80\), \(p = .036\), eenzijdig, \(\alpha = .05\)). Dit verschil is generaliseerbaar naar de populatie.

T8.2 — Eén- vs tweezijdig

Stel de toets uit T8.1 was tweezijdig (\(H_1: \mu_x \neq 100\)) geweest.

Welke \(z^*\) hoort daar bij \(\alpha = .05\)?
Wat wordt de p-waarde, en verandert de conclusie?

Antwoord T8.2

(a) Tweezijdig, 95% in het midden → 2,5% per staart → \(z^* = 1{,}96\).

(b) Pippi: \(p = 2 \times .0359 = .0718\). Dat is niet meer \(< .05\) → nu niet verwerpen. Een mooi grensgeval: eenzijdig wél, tweezijdig net niet. Wie de richting van \(H_1\) van tevoren goed onderbouwt, mag eenzijdig — maar besef dat het verschil maakt.

T8.3 — Linkszijdig (en welke kant van de tabel?)

In een vervuild gebied vermoeden we dat egels júist minder pienter zijn dan de norm van 100. Een steekproef van \(n = 25\) geeft \(\bar{x} = 95{,}5\) (we kennen \(\sigma_x = 15\), dus \(\sigma_{\bar{x}} = 3\)).

Wat zijn \(H_0\) en \(H_1\), en aan welke kant ligt de staart?
Bereken \(z\) en zoek de p-waarde op. Let op: welke kant van de z-tabel gebruik je hier?
Verwerp je \(H_0\) bij \(\alpha = .05\)? En speelt Pippi hier mee?

Antwoord T8.3

(a) \(H_0: \mu_x = 100\), \(H_1: \mu_x < 100\) (linkszijdig — we vermoeden lager). De staart zit links.

(b) \(z = \dfrac{95{,}5 - 100}{3} = -1{,}50\). Téken het eerst: een staartje links. De z-tabel geeft áltijd de linkerkant (de kans op “of lager”) — en hier wíllen we juist die linkerstaart, dus je leest de tabelwaarde rechtstreeks af: bij \(z = -1{,}50\) is \(p = .0668\). (Hier zit de verwarring: bij een rechtszijdige toets doe je 1 − tabelwaarde; bij een linkszijdige niet — daar geeft de tabel meteen wat je zoekt.)

(c) \(p = .0668 > .05\) → niet verwerpen. En nee: dit is eenzijdig, dus geen Pippi — je houdt die ene staart. (Pippi ×2 is alléén voor de tweezijdige p-waarde-methode.)

T8.4 — Hangt de conclusie van \(\alpha\) af?

Een z-toets levert \(p = .04\). Een medestudent zegt: “\(p\) is klein, dus je verwerpt sowieso \(H_0\).” Klopt dat? Beslis bij \(\alpha = .05\), bij \(\alpha = .10\) én bij \(\alpha = .01\).

Antwoord T8.4

De medestudent heeft maar half gelijk: of je verwerpt hangt af van de \(\alpha\) die je vooraf koos.

De drie beslissingen:

\(\alpha = .05\): \(.04 \le .05\) → \(p \le \alpha\) → verwerp \(H_0\).
\(\alpha = .10\): \(.04 \le .10\) → verwerp \(H_0\).
\(\alpha = .01\): \(.04 > .01\) → niet verwerpen.

Waarom dat zo is:

“Klein” is geen absolute eigenschap van \(p\) — klein is altijd t.o.v. de vooraf gekozen grens \(\alpha\). Dezelfde \(p = .04\) verwerpt bij \(\alpha = .05\) en \(.10\), maar níét bij \(\alpha = .01\).
Ezelsbrug: when p is low, \(H_0\) must go — maar “low” betekent: lager dan jóuw \(\alpha\), niet lager dan een of ander universeel getalletje.
Dáárom spreek je \(\alpha\) áltijd vooraf af: anders schuif je achteraf je grens net zolang tot je \(p\) er onder valt — en dan bewijst de toets niks meer.

Wat blijft liggen

Hier deden we alsof we \(\sigma_x\) kennen. In de echte wereld nooit — dan schat je ’m met \(s_x\) en gebruik je de \(t\)-verdeling (thema 9). En in thema 10 maken we het toetsgevoel compleet met de power: niet alleen “verwerp ik?”, maar “hoe goed vang ik een echt effect?”.

Tot slot

Toetsen is één truc, eindeloos herhaald: stel dat er niks aan de hand is (de nulhypothese, \(H_0\)) — hoe gek is mijn data dán? Die gekheid, netjes als kans uitgedrukt, is de p-waarde. Is het te gek — kleiner dan je vooraf gekozen grens \(\alpha\) — dan gooi je ‘het is niks’ overboord (je verwerpt \(H_0\)). Meer is het niet. En onthoud vooral wat het niet is: significant betekent niet waar, niet belangrijk, niet groot. Het betekent alleen dit: te raar om nog vol te houden dat het toeval was. De fiets in de bakker. Daar schrik je van — en die schrik, gevangen in één getal, is de hele toets.

Werkboek OZP 1 · Thema 8, versie 0.2 (handrekenen & theorie). Doorlopend voorbeeld: de egels.

Terug naar boven