Thema 8 · Toetsgevoel & z-toets

Deel 5 — Toetsen · de bakker

Twee soorten vragen

In thema 7 vroegen we: wat is \(\mu_x\)? — antwoord een getal, met een betrouwbaarheidsinterval eromheen. Nu draaien we de vraag om: ís \(\mu_x\) gelijk aan een bepaalde waarde? — antwoord ja of nee. Dat tweede is toetsen.

Lees dus altijd eerst: vragen ze om een getal (→ interval) of om een ja/nee (→ toets)?

OpmerkingDe egels — toetsen we slimheid

Pienterheid \(\sim N(\mu_x, \sigma_x)\) met \(\sigma_x = 15\). We vermoeden dat egels pienterder zijn dan de norm van 100. We nemen een steekproef van \(n = 25\) en vinden \(\bar{x} = 106\). Vraag: is dat genoeg om te zeggen dat egels écht boven de 100 zitten, of is het toeval?

\(H_0\), \(H_1\) en de bakker

We zetten twee hypothesen op:

  • \(H_0\) (de nulhypothese): er is niets aan de hand — egels zijn gewoon 100. \(\mu_x = 100\).
  • \(H_1\) (de alternatieve): er is wél iets — egels zijn pienterder. \(\mu_x > 100\) (rechtszijdig).

We toetsen altijd de nulhypothese (\(H_0\)), nooit de alternatieve — we kijken hoe verbaasd onze data ons maakt onder de aanname dat er niks aan de hand is. Waarom dat zo gaat? Het bakker-verhaal:

TipDe bakker

Aan de overkant zat een bakker — al twintig jaar dezelfde, je liep er als kind al naar binnen. Maar je bent er een tijd niet meer geweest; misschien is er nu een fietsenwinkel, misschien een coffeeshop, misschien hangt er nog steeds een rij van zaterdagochtend voor de croissantjes. Je weet het niet. Je móét gaan kijken — maar je mag niet kiezen wat je pakt.

Ik stuur je geblinddoekt, met een knijper op je neus, de winkel in en zeg: “doe maar wat” (= een steekproef nemen — de populatie zelf, wat er écht zit, zie je nooit). Pak iets, voel eraan, neem het mee naar buiten.

Onder \(H_0\)het is nog steeds de bakker — wat verwacht je in je handen? Brood. Hard, vers, knapperig. Of een croissantje, een koekje, een puddingbroodje — passen ook prima binnen ‘bakker’. Daar schrik je niet van; dat is wat een bakker doet.

Maar nu voel je een fiets. Een echte fiets, stuur en al. Kan dat? In theorie wel: misschien zit er een actie en krijgt de miljoenste klant een fiets. Maar de kans dat jij net die ene bent — zó klein dat je schrikt. En in die schrik zit de hele toets: de kans op “dit of nog gekker”, gegeven dat de nulhypothese waar is, was zo piepklein dat je het idee “het is nog steeds de bakker” niet meer kunt vasthouden. Je verwerpt de nulhypothese — de bakker is weg.

When p is low, \(H_0\) must go.

Dat is conditioneel denken, de kern van het hele vak: stel dat \(H_0\) waar is — hoe verbaasd ben ik dan over wat ik vond?

\(\alpha\) = hoeveel vals alarm je accepteert

Hoe klein moet die kans zijn voor je schrikt? Die grens spreken we van tevoren af: \(\alpha\), meestal 5%. Wat betekent dat eigenlijk?

TipDe rechter — Amerika versus Nederland

\(H_0\) = onschuldig, \(H_1\) = schuldig. Een type-I-fout is iemand veroordelen die onschuldig is. Stel: in Amerika zitten verhoudingsgewijs meer onschuldigen vast dan in Nederland. Dan heeft de Amerikaanse rechter blijkbaar minder bewijs nodig om te veroordelen — losser, meer vals alarm. De Nederlandse rechter wil méér bewijs → minder onschuldigen vast.

\(\alpha\) is precies dat percentage: hoeveel onschuldigen je accepteert toch te veroordelen. Bij \(\alpha = .05\) zeggen we: we vinden het oké dat, als \(H_0\) écht waar is, we de nulhypothese tóch in 5% van de steekproeven verwerpen. Het is een afgesproken risico op vals alarm — geen meetfout.

De snelle weg (3 regels, overzicht)

Voor wie het patroon al kent — zo zit het toetsje in elkaar:

  1. Standaardiseer: \(z = \dfrac{\bar{x} - \mu_0}{\sigma_{\bar{x}}} = \dfrac{106 - 100}{3} = 2{,}00\).
  2. Zoek de kans: \(p = .0228\) (rechterstaart bij \(z = 2{,}00\)). \(p < .05\).
  3. Beslis: verwerp de nulhypothese.

Conclusie: egels scoren significant boven 100 — de pienterheid van egels ligt hoger dan de norm. Klaar.

De lange weg — het toets-stappenplan

Drie regels klinkt simpel, maar onder de motorkap zitten acht stapjes die je elke toets opnieuw doorloopt. Schrijf ze altijd uit; het ritueel bewaakt je tegen onzin.

Stap 1 · Onderzoeksvraag. Zijn egels pienterder dan de norm van 100?

Stap 2 · Hypothesen. \(H_0: \mu_x = 100\) (geen verschil). \(H_1: \mu_x > 100\) (rechtszijdig — we vermoeden hoger, niet anders).

Stap 3 · Toetskeuze. Eén gemiddelde, \(\sigma_x\) bekend → z-toets.

Stap 4 · Laat \(H_0\) waar zijn en teken de steekproevenverdeling. Onder \(H_0\) ligt het centrum op \(\mu_0 = 100\) met standaardfout \(\sigma_{\bar{x}} = 15/\sqrt{25} = 3\). De rechterstaart van 5% (= \(\alpha\)) is het verwerpingsgebied:

Figuur 1: De steekproevenverdeling onder H0 (mu0 = 100, standaardfout 3). De oranje staart rechts is het verwerpingsgebied (alpha = 5%); de grens ligt op de kritieke waarde x̄c = 104,94. De gevonden steekproef x̄ = 106 (blauwe lijn) valt in het verwerpingsgebied → verwerpen.

Stap 5 · Toetsingsgrootheid. Standaardiseer onze steekproef: \(z = \dfrac{\bar{x} - \mu_0}{\sigma_{\bar{x}}} = \dfrac{106 - 100}{3} = 2{,}00\). Twee lineaaltjes boven de verwachting.

Stap 6 · p-waarde óf kritieke waarde — twee paden, zelfde antwoord. Zie hieronder.

Stap 7 · Statistische beslissing. Beide paden zeggen hetzelfde: verwerp \(H_0\).

Stap 8 · Inhoudelijke conclusie. Effect van X op Y — en hier is X de groep (egels) en Y de pienterheid: bij egels ligt de gemiddelde pienterheid significant boven de norm van 100 (\(z = 2{,}00\), \(p = .023\), eenzijdig, \(\alpha = .05\)).

Stap 6a — Methode 1: de p-waarde (\(x \to z \to p\))

De gewone manier (ook wat SPSS doet): standaardiseer en zoek de kans op. Bij \(z = 2{,}00\) is de rechterstaart \(p = .0228\). Dat is kleiner dan \(\alpha = .05\)verwerp de nulhypothese. De kans om 106 of hoger te vinden als egels gewoon 100 zijn, is maar 2,3% — dat is de fiets.

Stap 6b — Methode 2: de kritieke waarde (\(p \to z \to x\))

Nu andersom: bepaal vóór je de steekproef ziet vanaf welke grens je verwerpt. Die grens — de kritieke waarde \(\bar{x}_c\) — bouwen we op in drie stapjes, elk eentje moeilijker:

TipOpklimmen — van wat je weet naar de kritieke waarde

(a) 50/50 — geen tabel nodig. Als \(H_0\) waar is, hoe vaak vind je een steekproefgemiddelde boven \(\mu_0 = 100\)? 50% (en 50% eronder). Pure symmetrie — die zoek je niet op, die wéét je.

(b) 75/25 — nu wél de tabel. Boven welke grens liggen de 25% hóógste steekproefgemiddelden? Bij 25% boven hoort \(z = 0{,}674\), dus grens \(= 100 + 0{,}674 \cdot 3 = 102{,}02\). Pure \(p \to z \to x\) — nog geen alpha, geen verwerpen.

(c) 95/5 — pas hier komt \(\alpha\). Maak die bovenkant nu 5% (= \(\alpha\)). Bij 5% boven hoort \(z = 1{,}645\), dus \(\bar{x}_c = 100 + 1{,}645 \cdot 3 = 104{,}94\). Zelfde som, nieuwe naam: déze grens is de kritieke waarde, en die 5% heet \(\alpha\).

Onze steekproef: \(\bar{x} = 106\) ligt boven \(\bar{x}_c = 104{,}94\), dus in het verwerpingsgebiedverwerp de nulhypothese. Beide methoden geven dezelfde conclusie — natuurlijk, het is dezelfde wandeling, andere kant op.

BelangrijkDe val: 1,645 of 1,96?

Studenten grijpen reflexmatig naar 1,96 — want “we kijken altijd naar 95%”. Maar dat is 95% in het midden (tweezijdig) → dan zit er 2,5% in één staart → 1,96. Bij een eenzijdige toets willen we 5% in één staart → 1,645. Teken het eerst (zoals de figuur hierboven), dan zie je het verschil meteen.

Twee routes, zelfde antwoord: het college leest de bijbehorende \(z^*\) af in de procenten-rij van de t-tabel; wij vragen “welke \(z\) hoort bij 5% in één staart?”. Allebei kom je op 1,645 uit — zo doet het college het, zo doe ik het.

Eén- of tweezijdig?

Onze \(H_1\) was \(\mu_x > 100\) (rechtszijdig) — we keken alleen naar de rechterstaart. Bij een tweezijdige \(H_1\) (\(\mu_x \neq 100\)) weet je de kant niet, dus kijk je naar beide staarten:

TipPippi Langkous

Tweezijdig = twee staarten. De p-waarde keer 2 (Pippi: twee staarten), en de kritieke \(z^*\) wordt 1,96 (2,5% per kant). Bij ons tweezijdig: \(p = 2 \times .0228 = .0456\) — nog steeds \(< .05\), dus ook dan verwerpen.

Beslissing is niet hetzelfde als werkelijkheid

Of je nu verwerpt of niet — je kunt het mis hebben, want de werkelijkheid (kent alleen God) is onbekend:

  • Type-I-fout: de nulhypothese verwerpen terwijl \(H_0\) waar is (vals alarm). De kans hierop is \(\alpha\).
  • Type-II-fout: de nulhypothese níét verwerpen terwijl \(H_1\) waar is (gemiste vondst).

Trek beslissing en werkelijkheid altijd los van elkaar. (De kans om een echt effect óók echt te vangen — het tegenovergestelde van een type-II-fout — heet de power; daar gaat thema 10 over.)

Toets en interval zijn elkaars spiegelbeeld

Herinner je T7: bij \(n = 9\), \(\bar{x} = 108\) vonden we het 95%-interval \([98{,}2\,;\,117{,}8]\), en 100 lag erin. Dat is precies hetzelfde als een tweezijdige toets met \(\alpha = .05\): ligt \(\mu_0\) binnen het interval → niet verwerpen; erbuiten → verwerpen. CI en toets zijn in elkaar vertaalbaar — het verschil is alleen wat je in het midden zet: bij een interval het steekproefgemiddelde, bij een toets de waarde uit \(H_0\).

TipWelke kant op? (de richtings-engine, lineaaltje = σ_x̄)
  • Toets (p-waarde): je hebt \(\bar{x}\), je zoekt een kans → \(\bar{x} \to z \to p\).
  • Kritieke waarde: je hebt \(\alpha\) (een kans), je zoekt de grens → \(\alpha \to z \to \bar{x}_c\).

Steeds hetzelfde fietsje, met de standaardfout \(\sigma_{\bar{x}}\) als lineaaltje.

Oefenen

OpmerkingT8.1 — Een z-toets, beide methoden

Egels, \(\sigma_x = 15\), \(H_0: \mu_x = 100\), \(H_1: \mu_x > 100\), \(\alpha = .05\). Een steekproef van \(n = 9\) geeft \(\bar{x} = 109\). (a) Doe de p-waarde-methode. (b) Doe de kritieke-waarde-methode. (c) Conclusie?

\(\sigma_{\bar{x}} = 15/\sqrt{9} = 5\).

(a) \(z = \dfrac{109 - 100}{5} = 1{,}80\). Rechterstaart bij \(z = 1{,}80\): \(p = .0359\). Dat is \(< .05\) → verwerp de nulhypothese.

(b) \(\bar{x}_c = 100 + 1{,}645 \cdot 5 = 108{,}23\). De gevonden \(109 > 108{,}23\) → in het verwerpingsgebied → verwerp de nulhypothese.

(c) Beide: verwerp \(H_0\) — de gemiddelde pienterheid van egels ligt significant boven 100 (\(z = 1{,}80\), \(p = .036\), eenzijdig, \(\alpha = .05\)). Dit verschil is generaliseerbaar naar de populatie.

OpmerkingT8.2 — Eén- vs tweezijdig

Stel de toets uit T8.1 was tweezijdig (\(H_1: \mu_x \neq 100\)) geweest. (a) Welke \(z^*\) hoort daar bij \(\alpha = .05\)? (b) Wat wordt de p-waarde, en verandert de conclusie?

(a) Tweezijdig, 95% in het midden → 2,5% per staart → \(z^* = 1{,}96\).

(b) Pippi: \(p = 2 \times .0359 = .0718\). Dat is niet meer \(< .05\) → nu niet verwerpen. Een mooi grensgeval: eenzijdig wél, tweezijdig net niet. Wie de richting van \(H_1\) van tevoren goed onderbouwt, mag eenzijdig — maar besef dat het verschil maakt.

Wat blijft liggen

Hier deden we alsof we \(\sigma_x\) kennen. In de echte wereld nooit — dan schat je ’m met \(s_x\) en gebruik je de \(t\)-verdeling (thema 9). En in thema 10 maken we het toetsgevoel compleet met de power: niet alleen “verwerp ik?”, maar “hoe goed vang ik een echt effect?”.

Tot slot

Toetsen is conditioneel denken in maat en getal: stel de nulhypothese waar, en kijk hoe verbaasd je bent. De bakker geeft het gevoel, de p-waarde en de kritieke waarde geven het getal, en \(\alpha\) is de grens die je zelf afspreekt. Drie regels voor de snelle weg, acht stappen voor de lange weg met figuur — beide leiden naar dezelfde beslissing.


Werkboek OZP 1 · Thema 8, versie 0.2 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven