Ruw is ruk

Een egel scoort 130 op pienterheid. Is dat veel? Je hebt geen idee. Honderddertig wát? Een ruwe score op zichzelf zegt niks — je weet niet waar het midden ligt, niet hoe uitgesmeerd de groep is, niet of 130 zeldzaam is of doodgewoon.

Daarom: ruw is ruk. We willen een score die zichzelf uitlegt. Dat is een z-score.

De egels — pienterheid

De pienterheid van de egels is normaal verdeeld met gemiddelde \(\mu_x = 100\) en standaardafwijking \(\sigma_x = 15\). (Een schaal zoals IQ.) Dat houden we dit thema aan.

Het marsmannetje

Stel je praat met een marsmannetje. Het kent de aarde niet, maar rekenen kan het wel. Je zegt: “mijn pienterheid is 130.” Daar heeft het niks aan — 130 betekent niks op Mars.

Wat heeft het marsmannetje wél nodig? Precies twee dingen:

“Het is normaal verdeeld” — dan ziet het de bekende belcurve voor zich.
“Ik zit 2 standaardafwijkingen rechts van het midden.”

Meer niet. Niet de 130, niet de 100, niet de 15 — die zijn allemaal ruk. Het enige dat telt is hoeveel standaardafwijkingen je van het midden zit. En dát getal is de z-score.

z = het aantal lineaaltjes

Denk aan de standaardafwijking als een lineaaltje van 15 punten. De z-score is simpelweg: hoe vaak past dat lineaaltje tussen het midden en jouw score?

\[z = \frac{x - \mu_x}{\sigma_x} = \frac{\text{specifiek} - \text{algemeen}}{\text{lineaaltje}}\]

Voor onze egel van 130: \(z = \dfrac{130 - 100}{15} = 2\). Twee lineaaltjes naar rechts. Twee wát? Twee koeien, twee moeders? Nee — twee standaardafwijkingen. Zet er altijd de tel-eenheid bij.

z heeft altijd dezelfde eigenschappen

Stel je standaardiseert een hele groep, dan geldt altijd: \(\mu_z = 0\) (het midden wordt 0) en \(\sigma_z = 1\) (het lineaaltje wordt precies 1 lang). Wat níét altijd geldt: dat z normaal verdeeld is — z heeft dezelfde vorm als \(x\). Is \(x\) scheef, dan is z ook scheef. Standaardiseren verschuift en schaalt; het maakt niks recht.

De normaalverdeling

Waar komt die belcurve vandaan? Denk aan een houten plank vol spijkers, rechtop gezet. Je laat boven in het midden een knikker vallen: tik-tik-tik stuitert hij tussen de spijkers naar beneden. Meestal landt hij rond het midden, soms wat extremer. Doe dat met duizend knikkers en je krijgt vanzelf die gladde bel.

Notatie: \(x \sim N(\mu, \sigma)\) — het krulletje betekent “gedraagt zich als”, de \(N\) staat voor normaal. Onze egels: pienterheid \(\sim N(100, 15)\) — lees dit als: normaal verdeeld met gemiddelde 100 en standaardafwijking 15.

Figuur 1: Egel-pienterheid ~ N(100, 15). Onze egel met score 130 (z = 2) staat als blauwe streep getekend; de oranje staart rechts daarvan is het gebied ‘minstens zo extreem’ — bij z = 2 is dat p = .0228 (zo’n 2,3%). Dit is precies de wandeling x → z → p van de richtings-engine.

De 68–95–99,7-regel

Bij een normaalverdeling ligt 68% binnen één lineaaltje van het midden (\(\mu_x \pm \sigma_x\)), 95% binnen twee, en 99,7% binnen drie. Voor de egels: tussen 85 en 115 zit zo’n 68% van de pienterheid.

De z-tabel

De z-tabel (Tabel A, de standaardnormaal) vertaalt een z-score naar een kans. Twee regels die je leven redden:

Regel 1: téken eerst. Schets de bel, zet je z erin, arceer het stuk dat je zoekt. Kijk: heb je een twee- of een driedeling nodig? Welke staart?
De tabel geeft altijd de linkerkant (de kans op “of lager”). Wil je de rechterstaart, doe dan 1 min de tabelwaarde — of zoek de negatieve z op, want door de symmetrie is dat hetzelfde.

De tabel verkeerd aflezen is zelden het probleem; het verkeerde gebied arceren wél. Daarom: eerst tekenen, dán pas opzoeken.

Heilige z-waarden (uit je hoofd)

Eén staart	z*	Midden (tweezijdig)
5%	1,645	90%
2,5%	1,96	95%
0,5%	2,576	99%

De 1,96 is de heiligste — maar let op: die hoort bij 2,5% in één staart (95% in het midden), níét bij 5% in één staart. Voor 5% in één staart is het 1,645. Teken het, dan zie je het verschil.

Figuur 2: Links de **tweedeling** — 5% in één (rechter)staart hoort bij \(z^*\) = 1,645. Rechts de **driedeling** — 95% in het midden (dus 2,5% per staart) hoort bij \(z^*\) = 1,96. Zelfde 95%-gevoel, andere knip: dáár zit het verschil.

De richtings-engine: x ⇄ z ⇄ p

Bijna alles wat hierna komt — z-scores, betrouwbaarheidsintervallen, toetsen, power — is dezelfde wandeling, twee kanten op. Eén ketting:

\[\text{gebeurtenis } x \;\rightleftarrows\; \text{aantal lineaaltjes } z \;\rightleftarrows\; \text{kans } p\]

\(x \to z\): “hoe ver van het midden, in lineaaltjes?” → \(z = \dfrac{x - \mu_x}{\sigma_x}\).
\(z \to x\): “loop \(z\) lineaaltjes vanaf het midden” → \(x = \mu_x + z \cdot \sigma_x\).
\(z \rightleftarrows p\): de z-tabel, heen of terug.

De gegeven bepaalt de richting. Krijg je een score en zoek je een kans? Dan ga je \(x \to z \to p\). Krijg je een kans (of percentage) en zoek je een score? Dan \(p \to z \to x\). Lees dus eerst: wat is gegeven, en wat moet ik hebben?

**Gewoon** — score gegeven, kans gezocht: \(x \to z \to p\). Ruw is ruk → deel door het lineaaltje (\(\sigma_x = 15\)) → \(z\) → zoek de kans op. De egel van 130 ligt twee lineaaltjes rechts (de gridlijnen zijn de lineaaltjes); klein staartje = extreem, \(p = .0228\).

**Invers** — kans gegeven, score gezocht: \(p \to z \to x\). Andersom de tabel in (zoals straks bij het interval): 10% → \(z = 1{,}28\) → fiets terug vanaf het midden, \(100 + 1{,}28 \cdot 15 = 119\). Zelfde fietsje, andere kant op.

Het fietsje

Zie het als fietsen. Je huis (het midden) staat op \(\mu_x\). Je snelheid is het lineaaltje, \(\sigma_x\) per “uur”. Twee uur fietsen naar rechts? Dan ben je op \(\mu_x + 2\cdot\sigma_x\). Of andersom: “hoe lang moet ik fietsen om bij score 130 te komen?” → \((130-100)/15 = 2\) uur. Wie dit ziet, heeft straks geen losse formules meer nodig — het is steeds ditzelfde fietsje, alleen met een ander lineaaltje.

Twee soorten vragen

Gewoon: \(x \to z \to p\) (score gegeven, kans gezocht)

Welk deel van de egels is pienterder dan 130?

\(z = \dfrac{130 - 100}{15} = 2{,}00\) (twee lineaaltjes rechts).
Tabel A bij \(z = 2{,}00\): linkerkant \(= .9772\).
We willen de rechterstaart: \(1 - .9772 = .0228\).

Dus 2,28% van de egels is pienterder dan 130. (Teken het: een klein staartje rechts — klein staartje = extreem.)

\(i\)	egel	\(x_i\)	\(z_i = \dfrac{x_i-100}{15}\)	rechterstaart
1	A	130	+2,00	.023
2	B	92,5	−0,50	.691
3	C	115	+1,00	.159

Invers: \(p \to z \to x\) (kans gegeven, score gezocht)

Boven welke pienterheid zitten de 10% slimste egels?

10% boven → 90% eronder → in de tabel hoort daar \(z \approx 1{,}28\) bij.
Loop terug: \(x = \mu_x + z\cdot\sigma_x = 100 + 1{,}28 \cdot 15 = 119{,}2\).

Dus vanaf zo’n 119 behoor je tot de slimste 10%. Zelfde fietsje, andere kant op.

In SPSS — klikpad

Data om mee te spelen: egels_pienterheid.sav — of de hele zip. Het lineaaltjes-rekenwerk hoeft niet met de hand: SPSS standaardiseert een hele kolom in één klik.

Analyze → Descriptive Statistics → Descriptives → variabele naar rechts → vink Save standardized values as variables aan → OK.

Je krijgt een nieuwe kolom Zvariabele in de dataset: dat zijn precies de z-scores. De stap z → p (de kans) doe je daarna nog steeds zelf met de tabel — tekenen blijft.

Oefenen

T3.1 — Het marsmannetje

Een uil heeft een nachtelijke-alertheidsscore van 70, op een schaal die normaal verdeeld is met \(\mu_x = 50\) en \(\sigma_x = 10\).

Wat is de z-score?
Welk deel van de uilen is alerter?
Wat zou je het marsmannetje vertellen — in twee zinnen, zonder de ruwe score?

Antwoord T3.1

(a) \(z = \dfrac{70 - 50}{10} = 2{,}00\) — twee lineaaltjes rechts.

(b) Tabel A bij \(z=2{,}00\): links \(.9772\) → rechterstaart \(1 - .9772 = .0228\) → 2,28% is alerter.

(c) “Mijn score is normaal verdeeld, en ik zit twee standaardafwijkingen boven het gemiddelde” — oftewel: maar zo’n 2% is alerter dan ik.

T3.2 — Invers

Bij diezelfde uilen (\(\mu_x = 50\), \(\sigma_x = 10\)): onder welke alertheidsscore zitten de 25% minst alerte uilen?

Antwoord T3.2

25% in de linkerstaart → in de tabel hoort daar \(z \approx -0{,}674\) bij (negatief, want links van het midden). Terugfietsen: \(x = 50 + (-0{,}674)\cdot 10 = 43{,}3\). Onder ongeveer 43 zitten de 25% minst alerte uilen. (Herken je dit? Het is precies de p→z→x-vraag waarmee we straks de kritieke waarde van een toets gaan vinden.)

T3.3 — Tussen twee lineaaltjes

Bij diezelfde uilen (\(\mu_x = 50\), \(\sigma_x = 10\)): welk deel van de uilen heeft een alertheidsscore tussen 40 en 65?

Kort antwoord T3.3

\(z_{40} = \dfrac{40-50}{10} = -1{,}00\)
\(z_{65} = \dfrac{65-50}{10} = +1{,}50\)
“Tussen” = groot − klein: \(p(z \le 1{,}50) - p(z \le -1{,}00) = .9332 - .1587 = .7745\)
Antwoord: zo’n 77% van de uilen zit tussen 40 en 65. (Pas hier stap je naar %; in de berekening blijf je bij de kans \(.7745\).)

Volledige uitwerking T3.3 — stap voor stap

Bij een tussen-vraag pak je nooit de twee staarten los; je pakt de grote oppervlakte min de kleine. Drie stapjes:

Alles tot 65 (de grote): \(z_{65} = +1{,}50\) → Tabel A geeft \(p(z \le 1{,}50) = .9332\). Dat is alles links van 65.
Alles tot 40 (de kleine): \(z_{40} = -1{,}00\) → let op: negatief, want 40 ligt links van het gemiddelde. \(p(z \le -1{,}00) = .1587\). Dat is alles links van 40.
Het verschil = de band ertussen: \(.9332 - .1587 = .7745\).

Dus zo’n 77% van de uilen zit qua alertheid tussen 40 en 65. Val op: bij “tussen” trek je af (niet optellen), en één van je twee z’s is bijna altijd negatief.

Zo ziet dat eruit — de grote oppervlakte, de kleine eraf, en wat overblijft. Onder elkaar, zodat je het aftrekken ziet:

Stap 1 — alles tot 65: de **grote** oppervlakte (.9332)

Stap 2 — alles tot 40: de **kleine** oppervlakte die eraf gaat (.1587)

Stap 3 — wat overblijft: de **band** ertussen (kans .7745)

(Steiger-schetsen; eindversie met de hand in het boek. Bron: _schetsen/schetsen_h3.R.)

Wat blijft liggen

Tot nu toe standaardiseren we de score van één individu — het lineaaltje is dan \(\sigma_x\). Straks (Deel 4) kijken we niet naar één egel maar naar een heel steekproefgemiddelde; dan wordt het lineaaltje de standaardfout \(\sigma_{\bar{x}} = \sigma_x/\sqrt{n}\). De wandeling x ⇄ z ⇄ p blijft exact hetzelfde — alleen het lineaaltje verandert.

Tot slot

130 zegt het marsmannetje niks; “twee lineaaltjes rechts” zegt het alles. Dáár zit de hele truc: niet de ruwe score, maar hoe vaak je lineaaltje ertussen past. Onthoud dat lineaaltje en het fietsje, want vanaf hier verandert er bijna niks meer — élke toets, élk interval, straks de power, het is telkens ditzelfde fietsje. Alleen het lineaaltje wisselt af en toe van lengte.

Werkboek OZP 1 · Thema 3, versie 0.1 (handrekenen & theorie). Doorlopend voorbeeld: de egels.