Thema 1 · Gemiddelde & spreiding

Deel 1 — Beschrijven · het spelletje

Het spelletje

Negen egels staan buiten voor je deur. Ik stuur er eentje naar binnen — je weet niet welke. Hoe lang is hij?

Je weet het niet. Maar ik vraag niet of je het zeker weet, ik vraag je beste gok. En je beste gok, statistisch gezien, is het gemiddelde. Daar komen we zo op uit. Onthoud dit spelletje, want het loopt het hele werkboek mee: er komt iets binnen, en wij gokken. Een gemiddelde is niets anders dan een gok. Een model. Een voorspelling.

De egels — ons doorlopende voorbeeld

We meten van negen egels de lengte (in cm). Dit groepje komt steeds terug: straks meten we ook hun leeftijd (om samenhang te bekijken), en nog later trekken we er steekproeven uit. Voor nu alleen de lengte:

\[11,\;14,\;17,\;20,\;20,\;20,\;23,\;26,\;29\;\;(\text{cm})\]

Negen waarnemingen. Bewust makkelijke getallen, zodat je ze uit je hoofd kent en je aandacht naar de gedachte gaat, niet naar het rekenen.

Eerst: van wie is dit gemiddelde?

Voor we rekenen, één onderscheid dat het hele jaar meeloopt.

Die negen egels zijn een steekproef — een handjevol uit een veel grotere groep (alle egels in het bos, de populatie). Het gemiddelde dat we straks uitrekenen beschrijft de steekproef. Het is een steekproef-statistiek.

Wat we eigenlijk willen weten is het gemiddelde van alle egels: de populatie-parameter. Maar die zien we nooit — alleen God weet de echte waarde. Dus we doen iets bescheideners: we schatten hem met onze steekproef.

Streng genomen is “steekproef-statistiek” een tikje dubbelop: een statistiek gáát al over de steekproef — de bijbehorende grootheid over de populatie heet een parameter. We zeggen het toch even voluit voor de duidelijkheid, en verderop porren we je er af en toe aan: weet je nog — dit is alleen voor de steekproef.

Schatten ≠ berekenen

Een steekproef-statistiek berekenen we precies uit de data die voor onze neus ligt. De populatie-parameter schatten we ermee — en schatten is per definitie een beetje vaag. Vandaar dat we voor populatie-grootheden vage, Griekse letters gebruiken.

Grootheid	Steekproef (schatter)	Populatie (geschat)
Gemiddelde	\(\bar{y}\)	\(\mu_y\)
Variantie	\(s_y^2\)	\(\sigma_y^2\)
Standaardafwijking	\(s_y\)	\(\sigma_y\)

Wat bij wat hoort onthou je met een klank-ezelsbruggetje: st–st (steekproef → statistiek) en p–p (populatie → parameter).

Waarom soms \(y\) en soms \(x\)?

Veel boeken en docenten gooien werkelijk alles in één letter: \(x\). Wij niet. Deels praktisch: straks (bij samenhang en regressie) voorspellen we de éne variabele uit de andere, en dan is het handig om ze uit elkaar te houden — \(y\) voor wat je verklaart (de uitkomst), \(x\) voor waarmee je verklaart (de voorspeller). De egel-lengte gaan we later voorspellen, dus die noemen we nu alvast \(y\).

Maar er zit ook iets diepers in. Een variabele is maar een letter — een plaatshouder voor “iets dat varieert”. \(x\) is niet de wereld. Door bewust te wisselen weken we je los van het idee dat statistiek over “\(x\)” gaat: het gaat over verschil, en welke letter je daarvoor pakt is bijzaak.

Het gemiddelde

Het gemiddelde is de som van alle waarden, gedeeld door hun aantal:

\[\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i\]

Dat tekentje \(\sum\) noemen we het sommatieteken — “tel alles bij elkaar op”. Niet “sigma”: die naam houden we voor de standaardafwijking, anders raken we straks in de war. De \(i\) eronder is een index: hij loopt van de eerste waarneming (\(i=1\)) tot de laatste (\(i=n\)).

En die \(\tfrac{1}{n}\) vooraan: we delen door \(n\), maar schrijven het bewust als keer \(\tfrac{1}{n}\). Wiskundig precies hetzelfde — alleen denken we liever multiplicatief (keer een factor) dan in delingen. Dat betaalt zich straks uit: bij kansen, gewichten en standaardiseren is bijna alles “keer iets”.

Het sommatieteken even loswrikken

\(\sum\) ziet er deftig uit, maar het zegt alleen: schrijf elke term op en tel ze op. Twee keer helemaal uitgeschreven.

Een gewone som over vijf getallen — gewoon allemaal optellen: \[\sum_{i=1}^{5} X_i = X_1 + X_2 + X_3 + X_4 + X_5\]

En eentje waar per term iets gebeurt — laat je niet afschrikken, je werkt ’m term voor term af: \[\sum_{i=1}^{4} \frac{1 - a_i^2}{5} = \frac{1-a_1^2}{5} + \frac{1-a_2^2}{5} + \frac{1-a_3^2}{5} + \frac{1-a_4^2}{5}\]

De index \(i\) telt netjes op (\(1, 2, 3, \dots\)); wat eromheen staat bepaalt wat je per stap dóet. Meer is het niet.

Voor de egels:

\[\bar{y} = \frac{11+14+17+20+20+20+23+26+29}{9} = \frac{180}{9} = 20 \ \text{cm}\]

Dus: komt er een egel binnen, dan is je beste gok 20 cm. Niet omdat hij precies 20 zal zijn — bijna geen enkele egel is dat — maar omdat je gemiddeld de kleinste misser maakt.

De gokfout: blauwe streepjes

Stuur egel nummer 9 naar binnen: 29 cm. Je gokte 20. Je zat er 9 cm naast. Die misser noemen we de afwijking — en je mag ’m zien als een blauw streepje van de waarneming naar het gemiddelde: de gokfout.

De richting tellen we altijd op dezelfde manier: waarneming min gemiddelde, oftewel specifiek min algemeen. Altijd, altijd, altijd — dan klopt het plus- of minteken vanzelf.

\[\text{afwijking} = y_i - \bar{y}\]

Boven het gemiddelde wordt het plus, eronder min. Egel 9: \(29 - 20 = +9\). De kleinste egel: \(11 - 20 = -9\).

Tel ze eens allemaal op

Wat krijg je als je álle afwijkingen optelt?

\[(-9) + (-6) + (-3) + 0 + 0 + 0 + 3 + 6 + 9 = 0\]

Nul. Altijd nul. Het gemiddelde ligt precies in het midden — het werkt als een spiegel. Mooi als controle (zit je goed?), maar waardeloos als spreidingsmaat: “gemiddelde gokfout = 0” zou betekenen dat we nooit missen. Onzin. We moeten van die minnetjes af.

Van streepjes naar vierkantjes

Je zou de minnetjes kunnen wegpoetsen met absolute waarden, maar wiskundig handiger is kwadrateren: een minus keer een minus wordt plus. En let op de eenheid — dáár zit een mooi beeld:

Een streepje van 9 cm, gekwadrateerd, wordt een vierkantje van 81 cm². Van een lijnstukje naar een oppervlakte. Denk dus niet aan “kwadraat” als trucje, maar aan een écht vierkant — zo’n ding met vier rechte hoeken van 90° en vier even lange zijden: een zijde van 9, een oppervlakte van 81.

Reken het kolom voor kolom uit in een tabel — met de gebeurtenis-index \(i\) ervoor. Die index kom je straks overal tegen, dus we wennen er nu vast aan:

\(i\)	\(y_i\)	\(y_i - \bar{y}\)	\((y_i - \bar{y})^2\)
1	11	−9	81
2	14	−6	36
3	17	−3	9
4	20	0	0
5	20	0	0
6	20	0	0
7	23	+3	9
8	26	+6	36
9	29	+9	81
		som \(= 0\)	KS \(= 252\)

De laatste kolom opgeteld is de kwadratensom (Engels: sum of squares, SS): \(\sum (y_i - \bar{y})^2 = 252\ \text{cm}^2\). En de afwijkingen-kolom telt op tot \(0\) — je ingebouwde controle.

Volgorde, en de intik-val

Werk van binnen naar buiten: eerst het gemiddelde, dan de afwijkingen, dan kwadrateren, en pas als laatste optellen. Som-van-kwadraten is iets heel anders dan som-eerst-dan-kwadrateren.

En op je rekenmachine: \(-9^2\) geeft \(-81\) (hij kwadrateert eerst, dan het minteken). Je bedoelt \((-9)^2 = +81\). Zet er haakjes om.

Variantie en standaardafwijking

De kwadratensom hangt af van hoeveel egels je hebt — meer egels, meer vierkantjes. We willen het gemiddelde vierkantje. Dat is de variantie:

\[s_y^2 = \frac{\sum (y_i - \bar{y})^2}{n-1} = \frac{252}{8} = 31{,}5 \ \text{cm}^2\]

De wortel daarvan brengt ons terug van oppervlakte naar lengte — de zijde van het gemiddelde vierkantje. Dat is de standaardafwijking: de typische lengte van een blauw streepje, oftewel de gemiddelde gokfout.

\[s_y = \sqrt{s_y^2} = \sqrt{31{,}5} \approx 5{,}61 \ \text{cm}\]

Variantie en standaardafwijking zijn dus twee kanten van hetzelfde vierkant: de oppervlakte (\(s_y^2\)) en de zijde (\(s_y\)). Ze zitten aan elkaar vast.

Waarom delen door \(n-1\) en niet door \(n\)?

Eerlijke vraag. Het heet vrijheidsgraden, en het is makkelijker dan het klinkt.

Stel: drie egels, en je weet dat hun gemiddelde 10 is. De eerste mag van alles zijn — zeg 8. De tweede ook — zeg 15. Maar de derde? Die ligt nu vast: hij móét 7 zijn, anders klopt het gemiddelde van 10 niet meer. Twee egels hadden de vrijheid, de derde niet.

Zo ook bij onze negen: als het gemiddelde bekend is, hoef je er maar acht te “gokken” — de negende volgt vanzelf. Daarom delen we door \(n-1 = 8\): het aantal vrije gokfouten.

Schat even, vóór je rekent

Voor je een berekening doet: gok de uitkomst. De streepjes lopen hier van 0 tot 9 cm — een gemiddeld streepje van pakweg 5 à 6 cm voelt logisch. We vonden \(s_y \approx 5{,}61\). Klopt met je gevoel. Dat soort gokken-vooraf maakt fouten in je berekening meteen zichtbaar.

Schaaltransformatie: wat als we de eenheid veranderen?

Stel we meten de egels niet in cm maar tellen vanaf een ander nulpunt, of in een andere eenheid: elke waarde wordt \(y_{\text{nieuw}} = a + b\cdot y\). Wat gebeurt er met gemiddelde en spreiding?

Het gemiddelde schuift én schaalt mee: \(\bar{y}_{\text{nieuw}} = a + b\,\bar{y}\).
De standaardafwijking schaalt wél, maar schuift niet mee: \(s_{y,\text{nieuw}} = |b|\cdot s_y\). Een vaste \(a\) erbij optellen verplaatst de hele groep, maar verandert niets aan hoe ver ze uit elkaar liggen.

Reken maar: tel bij elke egel 5 cm op (\(a=5, b=1\)). Het gemiddelde wordt \(25\), maar de spreiding (\(s_y \approx 5{,}61\)) blijft exact gelijk. De egels staan even ver uit elkaar als eerst.

In SPSS — klikpad

Data om mee te spelen: egels.sav — of de hele zip. Met de hand zie je wát er gebeurt; SPSS doet hetzelfde rekenwerk in twee klikken. Voor gemiddelde en standaardafwijking:

Analyze → Descriptive Statistics → Descriptives → je variabele naar rechts → Options… → vink Mean en Std. deviation aan (en Variance als je die ook wilt) → Continue → OK.

Je leest het gemiddelde en de standaardafwijking gewoon af in de outputtabel — en die horen te kloppen met je handwerk.

Oefenen

T1.1 — Begrip

Je berekent de standaardafwijking van een groep en vindt \(s = 0\). Wat weet je dan zeker over de waarnemingen? En kan \(s\) ooit negatief zijn?

Antwoord T1.1

\(s = 0\) betekent dat er geen enkele afwijking is: élke waarneming is gelijk aan het gemiddelde, dus ze zijn állemaal aan elkaar gelijk (geen spreiding). Negatief kan \(s\) nooit zijn — het is een wortel uit een som van kwadraten (vierkantjes hebben geen negatieve oppervlakte).

T1.2 — Met de hand

Een kraai houdt van glimmende spullen. Van vijf kraaien meten we de verzameldrang (op een schaal van 0 tot 20):

\[3,\;7,\;7,\;8,\;10\]

Bereken met de hand, stap voor stap:

het gemiddelde,
de kwadratensom,
de variantie,
de standaardafwijking.

Controleer tussendoor of je afwijkingen optellen tot nul.

Antwoord T1.2

(a) \(\bar{x} = \dfrac{3+7+7+8+10}{5} = \dfrac{35}{5} = 7\)

Afwijkingen (specifiek − algemeen): \(-4,\ 0,\ 0,\ 1,\ 3\) — som \(= 0\). (controle klopt)

(b) Kwadratensom: \((-4)^2 + 0^2 + 0^2 + 1^2 + 3^2 = 16+0+0+1+9 = 26\)

(c) Variantie: \(s_x^2 = \dfrac{26}{5-1} = \dfrac{26}{4} = 6{,}5\)

(d) Standaardafwijking: \(s_x = \sqrt{6{,}5} \approx 2{,}55\)

De gemiddelde verzameldrang is \(7\), met een gemiddelde gokfout van zo’n \(2{,}55\) punten.

T1.2 in SPSS — controleer je gemiddelde en SD

Data: kraaien.sav — 5 kraaien, één kolom verzameldrang (3, 7, 7, 8, 10).

Analyze → Descriptive Statistics → Descriptives → zet verzameldrang naar rechts → Options… → vink Mean, Std. deviation en Variance aan → Continue → OK.

Aflezen: Mean = 7,00, Variance = 6,50, Std. Deviation = 2,55 — je vindt exact je handwerk terug (de kwadratensom 26, gedeeld door \(n-1 = 4\)).

T1.3 — Schaaltransformatie

De verzameldrang van de kraaien (\(\bar{x} = 7\), \(s_x \approx 2{,}55\)) wordt omgerekend naar een percentage: \(x_{\text{nieuw}} = 5\cdot x\). Wat worden het nieuwe gemiddelde en de nieuwe standaardafwijking?

Antwoord T1.3

Hier is \(a = 0\) en \(b = 5\).

Nieuw gemiddelde: \(0 + 5\cdot 7 = 35\).
Nieuwe standaardafwijking: \(|5|\cdot 2{,}55 = 12{,}75\).

De hele groep wordt vijf keer zo ver uitgesmeerd; de spreiding groeit mee met factor 5.

T1.3 in SPSS — de transformatie zelf doen

Data: kraaien.sav — dezelfde 5 kraaien als bij T1.2.

Transform → Compute Variable → bij Target Variable een nieuwe naam (bijv. verzameldrang_pct) → bij Numeric Expression tik je 5 * verzameldrang → OK. Draai daarna nog eens Analyze → Descriptive Statistics → Descriptives op die nieuwe kolom.

Aflezen: Mean = 35,00 en Std. Deviation = 12,75 — precies \(5 \times\) het oude gemiddelde en \(|5| \times\) de oude SD. Het optellen van een vaste \(a\) zou de SD juist níét veranderen; hier is \(a = 0\), \(b = 5\).

Tot slot

Loopt er morgen weer zo’n egel naar binnen, dan gokken we 20 cm — en gemiddeld zitten we er zo’n 5,61 cm naast. Dat is alles wat dit thema doet: het gemiddelde is je gok, de standaardafwijking is hoe beroerd die gok gemiddeld is. Een streepje, gekwadrateerd tot een vierkantje, weer terug naar een streepje. Klaar.

Maar pas op met dat ene getal van 5,61. Op zichzelf zegt het je niks — 5,61 cm, is dat veel of weinig? Ruw is ruk. Pas in thema 3, als we onze scores gaan standaardiseren, krijgt die spreiding tanden. Tot dan blijft het een streepje zonder maat eromheen.

Werkboek OZP 1 · Thema 1, versie 0.1 (handrekenen & theorie). Doorlopend voorbeeld: de egels.

Terug naar boven