Thema 1 · Gemiddelde & spreiding

Deel 1 — Beschrijven · het spelletje

Het spelletje

Negen egels staan buiten voor je deur. Ik stuur er eentje naar binnen — je weet niet welke. Hoe lang is hij?

Je weet het niet. Maar ik vraag niet of je het zeker weet, ik vraag je beste gok. En je beste gok, statistisch gezien, is het gemiddelde. Daar komen we zo op uit. Onthoud dit spelletje, want het loopt het hele werkboek mee: er komt iets binnen, en wij gokken. Een gemiddelde is niets anders dan een gok. Een model. Een voorspelling.

OpmerkingDe egels — ons doorlopende voorbeeld

We meten van negen egels de lengte (in cm). Dit groepje komt steeds terug: straks meten we ook hun leeftijd (om samenhang te bekijken), en nog later trekken we er steekproeven uit. Voor nu alleen de lengte:

\[14,\quad 16,\quad 18,\quad 20,\quad 20,\quad 20,\quad 22,\quad 24,\quad 26 \qquad (\text{cm})\]

Negen waarnemingen. Bewust makkelijke getallen, zodat je ze uit je hoofd kent en je aandacht naar de gedachte gaat, niet naar het rekenen.

Eerst: van wie is dit gemiddelde?

Voor we rekenen, één onderscheid dat het hele jaar meeloopt.

Die negen egels zijn een steekproef — een handjevol uit een veel grotere groep (alle egels in het bos, de populatie). Het gemiddelde dat we straks uitrekenen beschrijft de steekproef. Het is een steekproef-statistiek.

Wat we eigenlijk willen weten is het gemiddelde van alle egels: de populatie-parameter. Maar die zien we nooit — alleen God weet de echte waarde. Dus we doen iets bescheideners: we schatten hem met onze steekproef.

TipSchatten ≠ berekenen

Een steekproef-statistiek berekenen we precies uit de data die voor onze neus ligt. De populatie-parameter schatten we ermee — en schatten is per definitie een beetje vaag. Vandaar dat we voor populatie-grootheden vage, Griekse letters gebruiken.

Grootheid Steekproef (schatter) Populatie (geschat)
Gemiddelde \(\bar{y}\) \(\mu_y\)
Variantie \(s_y^2\) \(\sigma_y^2\)
Standaardafwijking \(s_y\) \(\sigma_y\)
OpmerkingWaarom soms \(y\) en soms \(x\)?

Veel boeken en docenten gooien werkelijk alles in één letter: \(x\). Wij niet. Deels praktisch: straks (bij samenhang en regressie) voorspellen we de éne variabele uit de andere, en dan is het handig om ze uit elkaar te houden — \(y\) voor wat je verklaart (de uitkomst), \(x\) voor waarmee je verklaart (de voorspeller). De egel-lengte gaan we later voorspellen, dus die noemen we nu alvast \(y\).

Maar er zit ook iets diepers in. Een variabele is maar een letter — een plaatshouder voor “iets dat varieert”. \(x\) is niet de wereld. Door bewust te wisselen weken we je los van het idee dat statistiek over “\(x\)” gaat: het gaat over verschil, en welke letter je daarvoor pakt is bijzaak.

Het gemiddelde

Het gemiddelde is de som van alle waarden, gedeeld door hun aantal:

\[\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i\]

Dat tekentje \(\sum\) noemen we het sommatieteken — “tel alles bij elkaar op”. Niet “sigma”: die naam houden we voor de standaardafwijking, anders raken we straks in de war. De \(i\) eronder is een index: hij loopt van de eerste waarneming (\(i=1\)) tot de laatste (\(i=n\)).

Voor de egels:

\[\bar{y} = \frac{14+16+18+20+20+20+22+24+26}{9} = \frac{180}{9} = 20 \ \text{cm}\]

Dus: komt er een egel binnen, dan is je beste gok 20 cm. Niet omdat hij precies 20 zal zijn — bijna geen enkele egel is dat — maar omdat je gemiddeld de kleinste misser maakt.

De gokfout: blauwe streepjes

Stuur egel nummer 9 naar binnen: 26 cm. Je gokte 20. Je zat er 6 cm naast. Die misser noemen we de afwijking — en je mag ’m zien als een blauw streepje van de waarneming naar het gemiddelde: de gokfout.

De richting tellen we altijd op dezelfde manier: waarneming min gemiddelde, oftewel specifiek min algemeen. Altijd, altijd, altijd — dan klopt het plus- of minteken vanzelf.

\[\text{afwijking} = y_i - \bar{y}\]

Boven het gemiddelde wordt het plus, eronder min. Egel 9: \(26 - 20 = +6\). De kleinste egel: \(14 - 20 = -6\).

WaarschuwingTel ze eens allemaal op

Wat krijg je als je álle afwijkingen optelt?

\[(-6) + (-4) + (-2) + 0 + 0 + 0 + 2 + 4 + 6 = 0\]

Nul. Altijd nul. Het gemiddelde ligt precies in het midden — het werkt als een spiegel. Mooi als controle (zit je goed?), maar waardeloos als spreidingsmaat: “gemiddelde gokfout = 0” zou betekenen dat we nooit missen. Onzin. We moeten van die minnetjes af.

Van streepjes naar vierkantjes

Je zou de minnetjes kunnen wegpoetsen met absolute waarden, maar wiskundig handiger is kwadrateren: een minus keer een minus wordt plus. En let op de eenheid — dáár zit een mooi beeld:

Een streepje van 6 cm, gekwadrateerd, wordt een vierkantje van 36 cm². Van een lijnstukje naar een oppervlakte. Denk dus niet aan “kwadraat” maar aan een vierkant: een zijde van 6, een oppervlakte van 36.

Reken het kolom voor kolom uit in een tabel — met de gebeurtenis-index \(i\) ervoor. Die index kom je straks overal tegen, dus we wennen er nu vast aan:

\(i\) \(y_i\) \(y_i - \bar{y}\) \((y_i - \bar{y})^2\)
1 14 −6 36
2 16 −4 16
3 18 −2 4
4 20 0 0
5 20 0 0
6 20 0 0
7 22 +2 4
8 24 +4 16
9 26 +6 36
som \(= 0\) KS \(= 112\)

De laatste kolom opgeteld is de kwadratensom (Engels: sum of squares, SS): \(\sum (y_i - \bar{y})^2 = 112\ \text{cm}^2\). En de afwijkingen-kolom telt op tot \(0\) — je ingebouwde controle.

WaarschuwingVolgorde, en de intik-val

Werk van binnen naar buiten: eerst het gemiddelde, dan de afwijkingen, dan kwadrateren, en pas als laatste optellen. Som-van-kwadraten is iets heel anders dan som-eerst-dan-kwadrateren.

En op je rekenmachine: \(-6^2\) geeft \(-36\) (hij kwadrateert eerst, dan het minteken). Je bedoelt \((-6)^2 = +36\). Zet er haakjes om.

Variantie en standaardafwijking

De kwadratensom hangt af van hoeveel egels je hebt — meer egels, meer vierkantjes. We willen het gemiddelde vierkantje. Dat is de variantie:

\[s_y^2 = \frac{\sum (y_i - \bar{y})^2}{n-1} = \frac{112}{8} = 14 \ \text{cm}^2\]

De wortel daarvan brengt ons terug van oppervlakte naar lengte — de zijde van het gemiddelde vierkantje. Dat is de standaardafwijking: de typische lengte van een blauw streepje, oftewel de gemiddelde gokfout.

\[s_y = \sqrt{s_y^2} = \sqrt{14} \approx 3{,}74 \ \text{cm}\]

Variantie en standaardafwijking zijn dus twee kanten van hetzelfde vierkant: de oppervlakte (\(s_y^2\)) en de zijde (\(s_y\)). Ze zitten aan elkaar vast.

Waarom delen door \(n-1\) en niet door \(n\)?

Eerlijke vraag. Het heet vrijheidsgraden, en het is makkelijker dan het klinkt.

Stel: drie egels, en je weet dat hun gemiddelde 10 is. De eerste mag van alles zijn — zeg 8. De tweede ook — zeg 15. Maar de derde? Die ligt nu vast: hij móét 7 zijn, anders klopt het gemiddelde van 10 niet meer. Twee egels hadden de vrijheid, de derde niet.

Zo ook bij onze negen: als het gemiddelde bekend is, hoef je er maar acht te “gokken” — de negende volgt vanzelf. Daarom delen we door \(n-1 = 8\): het aantal vrije gokfouten.

TipSchat even, vóór je rekent

Voor je een berekening doet: gok de uitkomst. De streepjes lopen hier van 0 tot 6 cm — een gemiddeld streepje van pakweg 3 à 4 cm voelt logisch. We vonden \(s_y \approx 3{,}74\). Klopt met je gevoel. Dat soort gokken-vooraf maakt fouten in je berekening meteen zichtbaar.

Schaaltransformatie: wat als we de eenheid veranderen?

Stel we meten de egels niet in cm maar tellen vanaf een ander nulpunt, of in een andere eenheid: elke waarde wordt \(y_{\text{nieuw}} = a + b\cdot y\). Wat gebeurt er met gemiddelde en spreiding?

  • Het gemiddelde schuift én schaalt mee: \(\bar{y}_{\text{nieuw}} = a + b\,\bar{y}\).
  • De standaardafwijking schaalt wél, maar schuift niet mee: \(s_{y,\text{nieuw}} = |b|\cdot s_y\). Een vaste \(a\) erbij optellen verplaatst de hele groep, maar verandert niets aan hoe ver ze uit elkaar liggen.

Reken maar: tel bij elke egel 5 cm op (\(a=5, b=1\)). Het gemiddelde wordt \(25\), maar de spreiding (\(s_y \approx 3{,}74\)) blijft exact gelijk. De egels staan even ver uit elkaar als eerst.

OpmerkingHier komt straks SPSS

In dit werkboek reken je eerst met de hand — zo zie je wát er gebeurt. Later vlechten we SPSS erin: je laat dezelfde gemiddelden, varianties en standaardafwijkingen door de software berekenen en controleert of het klopt met je handwerk. Voor nu: hand erop.

Oefenen

OpmerkingT1.1 — Begrip

Je berekent de standaardafwijking van een groep en vindt \(s = 0\). Wat weet je dan zeker over de waarnemingen? En kan \(s\) ooit negatief zijn?

\(s = 0\) betekent dat er geen enkele afwijking is: élke waarneming is gelijk aan het gemiddelde, dus ze zijn állemaal aan elkaar gelijk (geen spreiding). Negatief kan \(s\) nooit zijn — het is een wortel uit een som van kwadraten (vierkantjes hebben geen negatieve oppervlakte).

OpmerkingT1.2 — Met de hand

Een kraai houdt van glimmende spullen. Van vijf kraaien meten we de verzameldrang (op een schaal van 0 tot 20):

\[3,\quad 7,\quad 7,\quad 8,\quad 10\]

Bereken met de hand, stap voor stap: (a) het gemiddelde, (b) de kwadratensom, (c) de variantie, (d) de standaardafwijking. Controleer tussendoor of je afwijkingen optellen tot nul.

(a) \(\bar{x} = \dfrac{3+7+7+8+10}{5} = \dfrac{35}{5} = 7\)

Afwijkingen (specifiek − algemeen): \(-4,\ 0,\ 0,\ 1,\ 3\) — som \(= 0\). (controle klopt)

(b) Kwadratensom: \((-4)^2 + 0^2 + 0^2 + 1^2 + 3^2 = 16+0+0+1+9 = 26\)

(c) Variantie: \(s_x^2 = \dfrac{26}{5-1} = \dfrac{26}{4} = 6{,}5\)

(d) Standaardafwijking: \(s_x = \sqrt{6{,}5} \approx 2{,}55\)

De gemiddelde verzameldrang is \(7\), met een gemiddelde gokfout van zo’n \(2{,}55\) punten.

OpmerkingT1.3 — Schaaltransformatie

De verzameldrang van de kraaien (\(\bar{x} = 7\), \(s_x \approx 2{,}55\)) wordt omgerekend naar een percentage: \(x_{\text{nieuw}} = 5\cdot x\). Wat worden het nieuwe gemiddelde en de nieuwe standaardafwijking?

Hier is \(a = 0\) en \(b = 5\).

  • Nieuw gemiddelde: \(0 + 5\cdot 7 = 35\).
  • Nieuwe standaardafwijking: \(|5|\cdot 2{,}55 = 12{,}77\).

De hele groep wordt vijf keer zo ver uitgesmeerd; de spreiding groeit mee met factor 5.

Tot slot

Eén beeld draagt dit hele thema: een binnenwandelende egel, jouw beste gok, en de streepjes en vierkantjes waarmee we onze gokfout in maat en getal vangen. Dus loopt er morgen een nieuwe egel naar binnen, dan gokken we 20 cm — en gemiddeld zitten we zo’n 3,74 cm mis. Daar begon dit thema, en daar eindigt het. Het gemiddelde is een voorspelling; de standaardafwijking zegt hoe goed die voorspelling gemiddeld is. Houd dat vast — in het volgende thema gaan we de hele verdeling bekijken, en daarna leren we onze ruwe scores standaardiseren. Want ruwe scores op zichzelf zeggen nog niet zoveel.


Werkboek OZP 1 · Thema 1, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven