Thema 3 · Normaalverdeling & z-scores

Deel 2 — Standaardiseren · ruw is ruk, het lineaaltje

Ruw is ruk

Een egel scoort 130 op pienterheid. Is dat veel? Je hebt geen idee. Honderddertig wát? Een ruwe score op zichzelf zegt niks — je weet niet waar het midden ligt, niet hoe uitgesmeerd de groep is, niet of 130 zeldzaam is of doodgewoon.

Daarom: ruw is ruk. We willen een score die zichzelf uitlegt. Dat is een z-score.

OpmerkingDe egels — pienterheid

De pienterheid van de egels is normaal verdeeld met gemiddelde \(\mu_x = 100\) en standaardafwijking \(\sigma_x = 15\). (Een schaal zoals IQ.) Dat houden we dit thema aan.

Het marsmannetje

Stel je praat met een marsmannetje. Het kent de aarde niet, maar rekenen kan het wel. Je zegt: “mijn pienterheid is 130.” Daar heeft het niks aan — 130 betekent niks op Mars.

Wat heeft het marsmannetje wél nodig? Precies twee dingen:

  1. “Het is normaal verdeeld” — dan ziet het de bekende belcurve voor zich.
  2. “Ik zit 2 standaardafwijkingen rechts van het midden.”

Meer niet. Niet de 130, niet de 100, niet de 15 — die zijn allemaal ruk. Het enige dat telt is hoeveel standaardafwijkingen je van het midden zit. En dát getal is de z-score.

z = het aantal lineaaltjes

Denk aan de standaardafwijking als een lineaaltje van 15 punten. De z-score is simpelweg: hoe vaak past dat lineaaltje tussen het midden en jouw score?

\[z = \frac{x - \mu_x}{\sigma_x} = \frac{\text{specifiek} - \text{algemeen}}{\text{lineaaltje}}\]

Voor onze egel van 130: \(z = \dfrac{130 - 100}{15} = 2\). Twee lineaaltjes naar rechts. Twee wát? Twee koeien, twee moeders? Nee — twee standaardafwijkingen. Zet er altijd de tel-eenheid bij.

Tipz heeft altijd dezelfde eigenschappen

Stel je standaardiseert een hele groep, dan geldt altijd: \(\mu_z = 0\) (het midden wordt 0) en \(\sigma_z = 1\) (het lineaaltje wordt precies 1 lang). Wat níét altijd geldt: dat z normaal verdeeld is — z heeft dezelfde vorm als \(x\). Is \(x\) scheef, dan is z ook scheef. Standaardiseren verschuift en schaalt; het maakt niks recht.

De normaalverdeling

Waar komt die belcurve vandaan? Denk aan een houten plank vol spijkers, rechtop gezet. Je laat boven in het midden een knikker vallen: tik-tik-tik stuitert hij tussen de spijkers naar beneden. Meestal landt hij rond het midden, soms wat extremer. Doe dat met duizend knikkers en je krijgt vanzelf die gladde bel.

Notatie: \(x \sim N(\mu, \sigma)\) — het krulletje betekent “gedraagt zich als”, de \(N\) staat voor normaal. Onze egels: pienterheid \(\sim N(100, 15)\).

Figuur 1: Egel-pienterheid ~ N(100, 15). Onze egel met score 130 (z = 2) staat als blauwe streep getekend; de oranje staart rechts daarvan is het gebied ‘minstens zo extreem’ — bij z = 2 is dat p = .0228 (zo’n 2,3%). Dit is precies de wandeling x → z → p van de richtings-engine.
TipDe 68–95–99,7-regel

Bij een normaalverdeling ligt 68% binnen één lineaaltje van het midden (\(\mu_x \pm \sigma_x\)), 95% binnen twee, en 99,7% binnen drie. Voor de egels: tussen 85 en 115 zit zo’n 68% van de pienterheid.

De z-tabel

De z-tabel (Tabel A, de standaardnormaal) vertaalt een z-score naar een kans. Twee regels die je leven redden:

  • Regel 1: téken eerst. Schets de bel, zet je z erin, arceer het stuk dat je zoekt. Kijk: heb je een twee- of een driedeling nodig? Welke staart?
  • De tabel geeft altijd de linkerkant (de kans op “of lager”). Wil je de rechterstaart, doe dan 1 min de tabelwaarde — of zoek de negatieve z op, want door de symmetrie is dat hetzelfde.
TipHeilige z-waarden (uit je hoofd)
Eén staart z* Midden (tweezijdig)
5% 1,645 90%
2,5% 1,96 95%
0,5% 2,576 99%

De 1,96 is de heiligste — maar let op: die hoort bij 2,5% in één staart (95% in het midden), níét bij 5% in één staart. Voor 5% in één staart is het 1,645. Teken het, dan zie je het verschil.

Figuur 2: Links de tweedeling — 5% in één (rechter)staart hoort bij \(z^*\) = 1,645. Rechts de driedeling — 95% in het midden (dus 2,5% per staart) hoort bij \(z^*\) = 1,96. Zelfde 95%-gevoel, andere knip: dáár zit het verschil.

De richtings-engine: xzp

Bijna alles wat hierna komt — z-scores, betrouwbaarheidsintervallen, toetsen, power — is dezelfde wandeling, twee kanten op. Eén ketting:

\[\text{gebeurtenis } x \;\rightleftarrows\; \text{aantal lineaaltjes } z \;\rightleftarrows\; \text{kans } p\]

  • \(x \to z\): “hoe ver van het midden, in lineaaltjes?” → \(z = \dfrac{x - \mu_x}{\sigma_x}\).
  • \(z \to x\): “loop \(z\) lineaaltjes vanaf het midden” → \(x = \mu_x + z \cdot \sigma_x\).
  • \(z \rightleftarrows p\): de z-tabel, heen of terug.

De gegeven bepaalt de richting. Krijg je een score en zoek je een kans? Dan ga je \(x \to z \to p\). Krijg je een kans (of percentage) en zoek je een score? Dan \(p \to z \to x\). Lees dus eerst: wat is gegeven, en wat moet ik hebben?

TipHet fietsje

Zie het als fietsen. Je huis (het midden) staat op \(\mu_x\). Je snelheid is het lineaaltje, \(\sigma_x\) per “uur”. Twee uur fietsen naar rechts? Dan ben je op \(\mu_x + 2\cdot\sigma_x\). Of andersom: “hoe lang moet ik fietsen om bij score 130 te komen?” → \((130-100)/15 = 2\) uur. Wie dit ziet, heeft straks geen losse formules meer nodig — het is steeds ditzelfde fietsje, alleen met een ander lineaaltje.

Twee soorten vragen

Gewoon: \(x \to z \to p\) (score gegeven, kans gezocht)

Welk deel van de egels is pienterder dan 130?

  1. \(z = \dfrac{130 - 100}{15} = 2{,}00\) (twee lineaaltjes rechts).
  2. Tabel A bij \(z = 2{,}00\): linkerkant \(= .9772\).
  3. We willen de rechterstaart: \(1 - .9772 = .0228\).

Dus 2,28% van de egels is pienterder dan 130. (Teken het: een klein staartje rechts — klein staartje = extreem.)

\(i\) egel \(x_i\) \(z_i = \dfrac{x_i-100}{15}\) rechterstaart
1 A 130 +2,00 .023
2 B 92,5 −0,50 .691
3 C 115 +1,00 .159

Invers: \(p \to z \to x\) (kans gegeven, score gezocht)

Boven welke pienterheid zitten de 10% slimste egels?

  1. 10% boven → 90% eronder → in de tabel hoort daar \(z \approx 1{,}28\) bij.
  2. Loop terug: \(x = \mu_x + z\cdot\sigma_x = 100 + 1{,}28 \cdot 15 = 119{,}2\).

Dus vanaf zo’n 119 behoor je tot de slimste 10%. Zelfde fietsje, andere kant op.

OpmerkingHier komt straks SPSS

SPSS rekent z-scores en kansen zo voor je uit (en tekent de verdeling). We weven het later in; eerst zie je met de hand hoe de wandeling werkt.

Oefenen

OpmerkingT3.1 — Het marsmannetje

Een uil heeft een nachtelijke-alertheidsscore van 70, op een schaal die normaal verdeeld is met \(\mu_x = 50\) en \(\sigma_x = 10\). (a) Wat is de z-score? (b) Welk deel van de uilen is alerter? (c) Wat zou je het marsmannetje vertellen — in twee zinnen, zonder de ruwe score?

(a) \(z = \dfrac{70 - 50}{10} = 2{,}00\) — twee lineaaltjes rechts.

(b) Tabel A bij \(z=2{,}00\): links \(.9772\) → rechterstaart \(1 - .9772 = .0228\)2,28% is alerter.

(c) “Mijn score is normaal verdeeld, en ik zit twee standaardafwijkingen boven het gemiddelde” — oftewel: maar zo’n 2% is alerter dan ik.

OpmerkingT3.2 — Invers

Bij diezelfde uilen (\(\mu_x = 50\), \(\sigma_x = 10\)): onder welke alertheidsscore zitten de 25% minst alerte uilen?

25% in de linkerstaart → in de tabel hoort daar \(z \approx -0{,}674\) bij (negatief, want links van het midden). Terugfietsen: \(x = 50 + (-0{,}674)\cdot 10 = 43{,}3\). Onder ongeveer 43 zitten de 25% minst alerte uilen. (Herken je dit? Het is precies de p→z→x-vraag waarmee we straks de kritieke waarde van een toets gaan vinden.)

Wat blijft liggen

Tot nu toe standaardiseren we de score van één individu — het lineaaltje is dan \(\sigma_x\). Straks (Deel 4) kijken we niet naar één egel maar naar een heel steekproefgemiddelde; dan wordt het lineaaltje de standaardfout \(\sigma_{\bar{x}} = \sigma_x/\sqrt{n}\). De wandeling x ⇄ z ⇄ p blijft exact hetzelfde — alleen het lineaaltje verandert.

Tot slot

Een ruwe score is ruk; een z-score legt zichzelf uit. Onthoud het lineaaltje en het fietsje — want vanaf hier is élke toets, élk interval en straks de power niets anders dan deze ene wandeling, twee kanten op.


Werkboek OZP 1 · Thema 3, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven