Thema 1 · Gemiddelde & spreiding
Deel 1 — Beschrijven · het spelletje
Het spelletje
Negen egels staan buiten voor je deur. Ik stuur er eentje naar binnen — je weet niet welke. Hoe lang is hij?
Je weet het niet. Maar ik vraag niet of je het zeker weet, ik vraag je beste gok. En je beste gok, statistisch gezien, is het gemiddelde. Daar komen we zo op uit. Onthoud dit spelletje, want het loopt het hele werkboek mee: er komt iets binnen, en wij gokken. Een gemiddelde is niets anders dan een gok. Een model. Een voorspelling.
Eerst: van wie is dit gemiddelde?
Voor we rekenen, één onderscheid dat het hele jaar meeloopt.
Die negen egels zijn een steekproef — een handjevol uit een veel grotere groep (alle egels in het bos, de populatie). Het gemiddelde dat we straks uitrekenen beschrijft de steekproef. Het is een steekproef-statistiek.
Wat we eigenlijk willen weten is het gemiddelde van alle egels: de populatie-parameter. Maar die zien we nooit — alleen God weet de echte waarde. Dus we doen iets bescheideners: we schatten hem met onze steekproef.
| Grootheid | Steekproef (schatter) | Populatie (geschat) |
|---|---|---|
| Gemiddelde | \(\bar{y}\) | \(\mu_y\) |
| Variantie | \(s_y^2\) | \(\sigma_y^2\) |
| Standaardafwijking | \(s_y\) | \(\sigma_y\) |
Het gemiddelde
Het gemiddelde is de som van alle waarden, gedeeld door hun aantal:
\[\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i\]
Dat tekentje \(\sum\) noemen we het sommatieteken — “tel alles bij elkaar op”. Niet “sigma”: die naam houden we voor de standaardafwijking, anders raken we straks in de war. De \(i\) eronder is een index: hij loopt van de eerste waarneming (\(i=1\)) tot de laatste (\(i=n\)).
Voor de egels:
\[\bar{y} = \frac{14+16+18+20+20+20+22+24+26}{9} = \frac{180}{9} = 20 \ \text{cm}\]
Dus: komt er een egel binnen, dan is je beste gok 20 cm. Niet omdat hij precies 20 zal zijn — bijna geen enkele egel is dat — maar omdat je gemiddeld de kleinste misser maakt.
De gokfout: blauwe streepjes
Stuur egel nummer 9 naar binnen: 26 cm. Je gokte 20. Je zat er 6 cm naast. Die misser noemen we de afwijking — en je mag ’m zien als een blauw streepje van de waarneming naar het gemiddelde: de gokfout.
De richting tellen we altijd op dezelfde manier: waarneming min gemiddelde, oftewel specifiek min algemeen. Altijd, altijd, altijd — dan klopt het plus- of minteken vanzelf.
\[\text{afwijking} = y_i - \bar{y}\]
Boven het gemiddelde wordt het plus, eronder min. Egel 9: \(26 - 20 = +6\). De kleinste egel: \(14 - 20 = -6\).
Van streepjes naar vierkantjes
Je zou de minnetjes kunnen wegpoetsen met absolute waarden, maar wiskundig handiger is kwadrateren: een minus keer een minus wordt plus. En let op de eenheid — dáár zit een mooi beeld:
Een streepje van 6 cm, gekwadrateerd, wordt een vierkantje van 36 cm². Van een lijnstukje naar een oppervlakte. Denk dus niet aan “kwadraat” maar aan een vierkant: een zijde van 6, een oppervlakte van 36.
Reken het kolom voor kolom uit in een tabel — met de gebeurtenis-index \(i\) ervoor. Die index kom je straks overal tegen, dus we wennen er nu vast aan:
| \(i\) | \(y_i\) | \(y_i - \bar{y}\) | \((y_i - \bar{y})^2\) |
|---|---|---|---|
| 1 | 14 | −6 | 36 |
| 2 | 16 | −4 | 16 |
| 3 | 18 | −2 | 4 |
| 4 | 20 | 0 | 0 |
| 5 | 20 | 0 | 0 |
| 6 | 20 | 0 | 0 |
| 7 | 22 | +2 | 4 |
| 8 | 24 | +4 | 16 |
| 9 | 26 | +6 | 36 |
| som \(= 0\) | KS \(= 112\) |
De laatste kolom opgeteld is de kwadratensom (Engels: sum of squares, SS): \(\sum (y_i - \bar{y})^2 = 112\ \text{cm}^2\). En de afwijkingen-kolom telt op tot \(0\) — je ingebouwde controle.
Variantie en standaardafwijking
De kwadratensom hangt af van hoeveel egels je hebt — meer egels, meer vierkantjes. We willen het gemiddelde vierkantje. Dat is de variantie:
\[s_y^2 = \frac{\sum (y_i - \bar{y})^2}{n-1} = \frac{112}{8} = 14 \ \text{cm}^2\]
De wortel daarvan brengt ons terug van oppervlakte naar lengte — de zijde van het gemiddelde vierkantje. Dat is de standaardafwijking: de typische lengte van een blauw streepje, oftewel de gemiddelde gokfout.
\[s_y = \sqrt{s_y^2} = \sqrt{14} \approx 3{,}74 \ \text{cm}\]
Variantie en standaardafwijking zijn dus twee kanten van hetzelfde vierkant: de oppervlakte (\(s_y^2\)) en de zijde (\(s_y\)). Ze zitten aan elkaar vast.
Waarom delen door \(n-1\) en niet door \(n\)?
Eerlijke vraag. Het heet vrijheidsgraden, en het is makkelijker dan het klinkt.
Stel: drie egels, en je weet dat hun gemiddelde 10 is. De eerste mag van alles zijn — zeg 8. De tweede ook — zeg 15. Maar de derde? Die ligt nu vast: hij móét 7 zijn, anders klopt het gemiddelde van 10 niet meer. Twee egels hadden de vrijheid, de derde niet.
Zo ook bij onze negen: als het gemiddelde bekend is, hoef je er maar acht te “gokken” — de negende volgt vanzelf. Daarom delen we door \(n-1 = 8\): het aantal vrije gokfouten.
Schaaltransformatie: wat als we de eenheid veranderen?
Stel we meten de egels niet in cm maar tellen vanaf een ander nulpunt, of in een andere eenheid: elke waarde wordt \(y_{\text{nieuw}} = a + b\cdot y\). Wat gebeurt er met gemiddelde en spreiding?
- Het gemiddelde schuift én schaalt mee: \(\bar{y}_{\text{nieuw}} = a + b\,\bar{y}\).
- De standaardafwijking schaalt wél, maar schuift niet mee: \(s_{y,\text{nieuw}} = |b|\cdot s_y\). Een vaste \(a\) erbij optellen verplaatst de hele groep, maar verandert niets aan hoe ver ze uit elkaar liggen.
Reken maar: tel bij elke egel 5 cm op (\(a=5, b=1\)). Het gemiddelde wordt \(25\), maar de spreiding (\(s_y \approx 3{,}74\)) blijft exact gelijk. De egels staan even ver uit elkaar als eerst.
Oefenen
Tot slot
Eén beeld draagt dit hele thema: een binnenwandelende egel, jouw beste gok, en de streepjes en vierkantjes waarmee we onze gokfout in maat en getal vangen. Dus loopt er morgen een nieuwe egel naar binnen, dan gokken we 20 cm — en gemiddeld zitten we zo’n 3,74 cm mis. Daar begon dit thema, en daar eindigt het. Het gemiddelde is een voorspelling; de standaardafwijking zegt hoe goed die voorspelling gemiddeld is. Houd dat vast — in het volgende thema gaan we de hele verdeling bekijken, en daarna leren we onze ruwe scores standaardiseren. Want ruwe scores op zichzelf zeggen nog niet zoveel.
Werkboek OZP 1 · Thema 1, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.