Thema 2 · Verdelingen bekijken

Deel 1 — Beschrijven · het spelletje

Van één gok naar de hele groep

In thema 1 deden we één gok: er kwam een egel binnen, en onze beste schatting was het gemiddelde. Maar één getal — het gemiddelde — verbergt veel. Liggen de egels netjes rond de 20 cm, of zit er een groep kleintjes en een groep groten? Is er eentje die er compleet uitspringt?

Daarvoor moet je naar de hele verdeling kijken: hoe de waarnemingen verspreid liggen. Dat is dit thema. Geen nieuwe gok, wel een beter beeld.

De egels, nog steeds

We houden ons doorlopende groepje (lengtes in cm):

\[11,\;14,\;17,\;20,\;20,\;20,\;23,\;26,\;29\]

Negen egels, gemiddelde \(20\) cm. Nu bekijken we niet hun gemiddelde, maar hun verdeling.

Wat is hier eigenlijk ‘verdeeld’?

Een eerlijke vraag waar bijna niemand bij stilstaat. We zeggen “de verdeling van de egels” — maar wat verdelen we nou over wat? De egels over de lengtes, of de lengtes over de egels? Verdeel je pizza’s over mensen, of mensen over pizza’s — en maakt het uit?

Het antwoord: we verdelen wél degelijk — letterlijk. We leggen de negen egels neer langs een lengte-as: de één bij 11, de ander bij 29. Wat verdeeld wordt is gewoon aanwijsbaar — wijs het ook áán: de egels, niet “de data” of “het”. Het punt is alleen dat ze er niet eerlijk liggen: niet allemaal op één hoopje bij 20. En juist die oneerlijkheid — dat ze uit elkaar liggen — ís de verdeling. Lagen ze allemaal op precies 20, dan viel er niks te bekijken. Geen verschil, geen verdeling, geen verhaal.

De frequentietabel

Als waarden zich herhalen, is een lijst onhandig. Een frequentietabel telt hoe vaak elke waarde voorkomt. Een uil vangt ’s nachts muizen; over 20 nachten turven we de vangst:

\(i\)	aantal muizen \(x_i\)	\(f_i\)	%	\(\sum f_i\)	cum. %
1	0	2	10 %	2	10 %
2	1	5	25 %	7	35 %
3	2	7	35 %	14	70 %
4	3	4	20 %	18	90 %
5	4	2	10 %	20	100 %
		20	100 %

Lees de kolommen:

Frequentie \(f\) — hoe vaak een waarde voorkomt (7 nachten ving de uil precies 2 muizen).
Percentage — \(f\) gedeeld door het totaal, maal 100 (denk liever in proporties: \(7/20 = {,}35\); een proportie loopt van 0 tot 1, een percentage van 0 tot 100).
Cumulatief — alles tot en met die rij opgeteld. Op 70 % van de nachten ving de uil twee muizen of minder. Anders gezegd: pak je willekeurig één van de twintig nachten, dan is de kans dat de uil hooguit twee muizen ving \({,}70\). Zo wordt “cumulatief” meteen een kans — precies het sommetje dat we vanaf het volgende thema steeds maken.

Diezelfde tabel zie je in één oogopslag als je de frequenties als staafjes tekent — de hoogte is hoe vaak een waarde voorkomt:

Figuur 1: Frequentieverdeling van de uilenvangst over 20 nachten: aantal muizen per nacht (horizontaal) tegen het aantal nachten dat dit voorkwam (verticaal). Dit is de frequentietabel als plaatje — de hoogste staaf (2 muizen, 7 nachten) is meteen de modus.

Centrum: modus, mediaan, gemiddelde

Drie manieren om “het midden” te vangen.

Modus — de waarde die het vaakst voorkomt. Bij de uil: 2 muizen (\(f=7\)). Snel, maar zwak als “midden” — al is hij bij categorische data (kleur, soort) juist de énige zinnige centrummaat.
Mediaan — de middelste waarde. Robuust: hij trekt zich niets aan van uitschieters.
Gemiddelde — de balanspunt-gok uit thema 1. Gevoelig: één extreme waarde sleurt hem mee.

De mediaan in twee stappen

Bepaal de mediaan altijd in twee vragen: waar zit hij, en wat is hij.

Waar? Het rangnummer van de mediaan is \(\dfrac{n+1}{2}\). Voor de egels: \(\dfrac{9+1}{2} = 5\) — de vijfde egel op volgorde.
Wat? De vijfde egel (gesorteerd) meet 20 cm. Mediaan \(= 20\).

Bij een even aantal valt het rangnummer tussen twee egels in; dan neem je hun gemiddelde. Bijvoorbeeld bij zes egels (\(11,\ 14,\ 17,\ 20,\ 23,\ 26\)) is er geen middelste — de mediaan wordt \((17 + 20)/2 = 18{,}5\).

Positie en waarde zijn twee dingen

Een kwantiel vind je altijd in twee stappen: eerst het rangnummer (de positie in de geordende rij), dán de waarde op die positie. Het rangnummer zegt waar je moet kijken — niet wat eruit komt.

Maat	Positie (rangnummer)
\(Q_1\)	\(\dfrac{n+1}{4}\)
Mediaan (\(Q_2\))	\(\dfrac{n+1}{2}\)
\(Q_3\)	\(\dfrac{3(n+1)}{4}\)

Valt een rangnummer tussen twee waarnemingen in (bijvoorbeeld \(2{,}5\)), dan neem je het gemiddelde van de twee buren. Merk op: de positie hangt alleen van \(n\) af — niet van hóé groot of klein de waarden zijn.

Waarom de mediaan robuust is

Stel je meet de huizenprijzen in een straat waar toevallig de koning woont. Dat ene paleis trekt het gemiddelde omhoog tot iets wat niemand herkent. De mediaan — het middelste huis — verandert er nauwelijks van. Bij scheve verdelingen of uitschieters is de mediaan vaak het eerlijker midden.

Spreiding: kwartielen, IQR en de boxplot

De mediaan deelt de groep in twee helften. Deel elke helft nóg eens, en je hebt kwartielen.

\(Q_1\) (eerste kwartiel) = de mediaan van de onderste helft. Rangnummer \(\dfrac{n+1}{4} = 2{,}5\) → tussen de 2e (14) en 3e (17) egel → \(Q_1 = 15{,}5\).
\(Q_2\) = de gewone mediaan \(= 20\).
\(Q_3\) (derde kwartiel) = de mediaan van de bovenste helft. Rangnummer \(\dfrac{3(n+1)}{4} = 7{,}5\) → tussen de 7e (23) en 8e (26) → \(Q_3 = 24{,}5\).

De interkwartielafstand vangt de spreiding van de middelste 50 %:

\[\text{IQR} = Q_3 - Q_1 = 24{,}5 - 15{,}5 = 9 \ \text{cm}\]

Samen met het kleinste en grootste getal heb je de five-number summary, en die teken je als boxplot:

\[\underbrace{11}_{\text{min}\,(Q_0)} \;\; \underbrace{15{,}5}_{Q_1} \;\; \underbrace{20}_{\text{mediaan}\,(Q_2)} \;\; \underbrace{24{,}5}_{Q_3} \;\; \underbrace{29}_{\text{max}\,(Q_4)}\]

De box loopt van \(Q_1\) tot \(Q_3\) (de middelste 50 %), met een streep op de mediaan; de “snorharen” lopen naar het kleinste en grootste getal binnen bereik.

Soms is het handig om het zo te zien: het minimum is eigenlijk \(Q_0\) en het maximum \(Q_4\) — de “nulde” en “vierde” kwartielgrens. Dan staat de five-number summary er als één nette reeks \(Q_0, Q_1, Q_2, Q_3, Q_4\): van helemaal onderaan, in stappen van 25 %, naar helemaal bovenaan.

Figuur 2: Boxplot van de negen egels, opgebouwd uit de five-number summary die we met de hand vonden. De box (lichtblauw) loopt van \(Q_1 = 15{,}5\) tot \(Q_3 = 24{,}5\); de streep erin is de mediaan (20); de snorharen reiken naar het kleinste (11) en grootste (29) getal. De verdeling is symmetrisch: de mediaan ligt midden in de box en beide snorharen zijn even lang.

Uitbijters: de 1,5·IQR-regel

Wanneer is een waarneming een echte uitschieter? De vuistregel: alles méér dan \(1{,}5 \times \text{IQR}\) voorbij een kwartiel.

Neem elf eksters en hun verzameling glimmertjes:

\[12,\ 13,\ 14,\ 14,\ 15,\ 16,\ 17,\ 18,\ 19,\ 20,\ 40\]

Hier is \(Q_1 = 14\), \(Q_3 = 19\), dus \(\text{IQR} = 5\) en \(1{,}5 \times \text{IQR} = 7{,}5\).

Bovengrens: \(Q_3 + 7{,}5 = 26{,}5\).
De hoarder-ekster met 40 ligt daar ver boven → uitbijter (in de boxplot een los sterretje). De snorhaar stopt bij 20, de laatste waarde binnen de grens.

Let op: een uitbijter is dus niet “een grote waarde”, maar een waarde buiten de grenzen — onder \(Q_1 - 1{,}5\cdot\text{IQR}\) óf boven \(Q_3 + 1{,}5\cdot\text{IQR}\). De ondergrens ligt hier op \(14 - 7{,}5 = 6{,}5\); geen enkele ekster zit daaronder, dus aan de onderkant is er niets aan de hand.

Figuur 3: Boxplot van de elf eksters. De stippellijn markeert de grens \(Q_3 + 1{,}5 \times \text{IQR} = 26{,}5\). De snorhaar stopt op 20 — de laatste waarde binnen de grens — en de hoarder met 40 verschijnt als los sterretje erbuiten: een uitbijter. Vergelijk met de egels: hier zit de mediaan níét in het midden van de box, een teken van scheefheid.

Scheefheid

Vergelijk mediaan en gemiddelde, dan weet je meteen de vorm:

Symmetrisch — gemiddelde ≈ mediaan (zoals de egels: beide 20).
Rechts-scheef — een staart naar rechts (de eksters met die ene hoarder); het gemiddelde wordt naar rechts getrokken, dus gemiddelde > mediaan.
Links-scheef — spiegelbeeld: gemiddelde < mediaan.

Het beeld eronder is steeds hetzelfde: het gemiddelde laat zich naar de staart toe trekken, de mediaan blijft zitten. Eén uitschieter sleept het gemiddelde mee — denk aan de koning in de straat — terwijl de mediaan alleen naar posities kijkt en nauwelijks verschuift. Hoe verder gemiddelde en mediaan uit elkaar liggen, hoe schever de verdeling, en de kant waar het gemiddelde naartoe is getrokken wíjst de staart aan.

Verder kijken (niet verplicht): QQ-plot, stem-leaf, normaliteitstoets

Stam-en-blad-diagram — de tientallen vormen de stam, het laatste cijfer een blad. Kantel je het, dan zie je een histogram: handig voor scheefheid.
QQ-plot — zet je waargenomen z-scores af tegen wat je onder een normaalverdeling zou verwachten. Liggen de punten op de lijn, dan oogt het normaal; buigen de uiteinden weg, dan is het scheef.
Normaliteitstoets (Kolmogorov-Smirnov) — let op de titel: “test of normality” toetst de \(H_0\) dat de data normaal verdeeld is in de populatie. \(p > .05\) → \(H_0\) niet verwerpen → je mág normaliteit aannemen. (Toetsen komt in deel 5; hier alleen het idee.)

Spreiding terugrekenen uit een frequentietabel

Variantie en standaardafwijking (thema 1) werken ook met frequenties — je weegt elke afwijking met hoe vaak hij voorkomt:

\[\bar{y} = \frac{\sum f_i\, y_i}{n} \qquad\qquad s_y^2 = \frac{\sum f_i\,(y_i - \bar{y})^2}{n-1}\]

Dezelfde gedachte als de blauwe vierkantjes; je telt ze alleen met hun frequentie mee in plaats van één voor één.

In SPSS — klikpad

Data om mee te spelen: egels.sav — of de hele zip. De five-number summary, de kwartielen én de boxplot mét uitbijters komen in één klap uit Explore:

Analyze → Descriptive Statistics → Explore → variabele naar Dependent List → bij Plots… zet je Boxplots aan → Continue → OK.

In de output lees je \(Q_1\), mediaan en \(Q_3\) af bij Percentiles; de boxplot tekent de snorharen en zet uitbijters als los puntje erbuiten — precies zoals we ze hier met de hand vonden.

Oefenen

T2.1 — Modus-val

Stel: je hebt een frequentietabel voor je, en de laagste waarde komt er verreweg het vaakst in voor — 37,5 % van de gevallen — terwijl de rest verspreid zit. Een student ziet de tabel, begint meteen te rekenen, en mist de modus. Wat ís de modus hier, en waarom is dit een instinker?

Antwoord T2.1

De modus is simpelweg de laagste waarde — die met de hoogste frequentie. De instinker: je hoeft niets te berekenen, alleen te kijken welke waarde het vaakst voorkomt. Wie meteen begint te rekenen, zoekt te moeilijk.

T2.2 — Met de hand: kwartielen & uitbijters

Zeven dassen, nachtelijke graaftijd (minuten), op volgorde:

\[8,\ 11,\ 12,\ 15,\ 18,\ 22,\ 40\]

Bepaal:

de mediaan,
\(Q_1\) en \(Q_3\),
de IQR,
of de das van 40 minuten een uitbijter is.

Antwoord T2.2

(a) Mediaan: rangnummer \((7+1)/2 = 4\) → 4e waarde \(= 15\).

(b) \(Q_1\) = mediaan onderste helft (\(8,11,12\)) \(= 11\); \(Q_3\) = mediaan bovenste helft (\(18,22,40\)) \(= 22\).

(c) \(\text{IQR} = 22 - 11 = 11\).

(d) \(1{,}5 \times 11 = 16{,}5\); bovengrens \(= 22 + 16{,}5 = 38{,}5\). De das van 40 ligt erboven → uitbijter. (De verdeling is rechts-scheef: gemiddelde \(\approx 18{,}0\) > mediaan \(15\).)

T2.2 in SPSS — kwartielen en boxplot

Data: dassen.sav — 7 dassen, één kolom graaftijd (8, 11, 12, 15, 18, 22, 40).

Analyze → Descriptive Statistics → Explore → zet graaftijd bij Dependent List → bij Plots… zet je Boxplots aan → Continue → OK.

Aflezen: in de tabel Percentiles lees je op de rij Weighted Average de 25e en 75e percentiel af (\(Q_1 = 11\), \(Q_3 = 22\)) en de mediaan (15) — exact je handwerk. (De rij Tukey’s Hinges gebruikt een net iets andere positie-formule en geeft hier 11,5 en 20; voor deze opgave is de Weighted Average-rij de juiste.) De boxplot zet de das van 40 als los puntje boven de snorhaar — precies de uitbijter die je met de \(1{,}5 \times \text{IQR}\)-regel vond.

T2.3 — Eén uil erbij: positie, waarde, en de brug naar ‘gevoelig’

Vijf uilen, nachtelijke waakzaamheid: \(4,\ 6,\ 7,\ 8,\ 10\). (Mediaan én gemiddelde zijn hier allebei \(7\).)

Er komt een zesde uil bij met waakzaamheid \(9\). Wat wordt de positie (rangnummer) van de mediaan, wat wordt de waarde, en wat wordt het gemiddelde?
Vervang die zesde uil door een extreme waakzaamheid van \(100\). Wat doet dit met de positie en de waarde van de mediaan? En met het gemiddelde?
Wat leer je hieruit over mediaan versus gemiddelde?

Antwoord T2.3

(a) \(n = 6\). Mediaan-positie \(= \dfrac{6+1}{2} = 3{,}5\) → tussen de 3e en 4e waarde van \(4,6,7,8,9,10\), dus tussen \(7\) en \(8\) → waarde \(7{,}5\). Gemiddelde \(= \dfrac{44}{6} \approx 7{,}33\).

(b) Geordend: \(4,6,7,8,10,100\). De mediaan-positie is nóg steeds \(3{,}5\) → tussen \(7\) en \(8\) → waarde \(7{,}5\) — precies hetzelfde als bij (a)! Het gemiddelde springt naar \(\dfrac{135}{6} = 22{,}5\).

(c) De positie van de mediaan hangt alleen van \(n\) af, niet van hoe extreem een waarde is — en de mediaan-waarde verschuift nauwelijks (\(7 \to 7{,}5\), of er nu een \(9\) of een \(100\) bijkomt). Het gemiddelde wordt wél meegesleurd door die ene uitschieter (\(7 \to 22{,}5\)). De mediaan is robuust, het gemiddelde gevoelig.

Bruggetje naar later: de meeste toetsen die je straks leert — de \(t\)-toets en zijn familie — zijn gebouwd op het gemiddelde. Dat noemen we parametrische methoden, en ze erven die gevoeligheid voor uitschieters. Daarom checken we eerst op uitbijters en scheefheid (thema 2!) vóórdat we zo’n toets vertrouwen.

T2.3 in SPSS — mediaan vs gemiddelde

Data: uilen.sav — de 5 basis-uilen, één kolom waakzaamheid (4, 6, 7, 8, 10).

Analyze → Descriptive Statistics → Explore → zet waakzaamheid bij Dependent List → OK (een boxplot mag, hoeft niet).

Aflezen: in Descriptives staan Mean = 7,00 én Median = 7,00 — bij deze nette symmetrische basis vallen ze samen, precies zoals in de opgave. De zesde uil (en de sprong naar 100) reken je met de hand erbij: je ziet dan dat het gemiddelde meebeweegt en de mediaan nauwelijks. SPSS levert hier het ankerpunt.

T2.4 — Modus uit cumulatieve relatieve frequenties

In het dierenbos-schooltje kregen de leerlingen een rapportcijfer voor hun graaf-toets. Iemand geeft je niet de losse frequenties, maar alleen de cumulatieve relatieve frequenties — de proportie leerlingen met dit cijfer of lager:

cijfer	cum. rel. freq.
2	,20
3	,29
4	,46
5	,63
6	,80
7	,88
8	1,00

Wat is de modus van de cijfers?

Kort antwoord T2.4

Je hebt alleen cumulatieve frequenties → eerst ont-cumuleren: losse rel. freq. = verschil met de vorige cum.-waarde.
Cijfer 2: \({,}20 - 0 = {,}20\) ← grootste sprong.
Cijfer 3: \({,}29 - {,}20 = {,}09\); 4: \({,}17\); 5: \({,}17\); 6: \({,}17\); 7: \({,}08\); 8: \({,}12\).
Grootste losse frequentie = grootste sprong = cijfer 2.
Antwoord: de modus is 2 — de cijferwaarde, níét de frequentie \({,}20\) en níét de hoogste cum.-waarde \(1{,}00\).

Volledige uitwerking T2.4 — stap voor stap

De modus is gewoon de váákst voorkomende waarde. Het addertje: je hebt de losse frequenties niet, alleen de opgetelde. Drie stapjes.

Wat vraagt de modus? De waarde met de hoogste (losse) frequentie. Maar de tabel geeft cumulatieve frequenties — “alles tot en met dit cijfer opgeteld”. Zo kun je de modus niet direct aflezen; je moet eerst terug naar de losse frequenties.

Ont-cumuleren = het verschil nemen. Wat er bij een cijfer bij kwam, is het verschil tussen zijn cum.-waarde en die van het cijfer eronder. (Voor het laagste cijfer 2 is er geen vorige, dus \({,}20 - 0 = {,}20\).)

De cumulatieve rel. freq. als trap: de **grootste sprong** (naar cijfer 2, +,20) is de hoogste losse frequentie — dus de modus

cijfer	cum. rel. freq.	losse rel. freq. (de sprong)
2	,20	\({,}20 - 0 = \mathbf{{,}20}\)
3	,29	\({,}29 - {,}20 = {,}09\)
4	,46	\({,}46 - {,}29 = {,}17\)
5	,63	\({,}63 - {,}46 = {,}17\)
6	,80	\({,}80 - {,}63 = {,}17\)
7	,88	\({,}88 - {,}80 = {,}08\)
8	1,00	\(1{,}00 - {,}88 = {,}12\)

(Check: de losse frequenties tellen op tot \(1{,}00\) — precies één geheel, zoals het hoort.)

De grootste sprong is de modus. De hoogste losse frequentie is \({,}20\), en die hoort bij cijfer 2. Dat cijfer komt dus het vaakst voor → de modus is \(2\).

Val op — twee instinkers. (a) De modus is de cijferwaarde (\(2\)), niet de bijbehorende frequentie (\({,}20\)). (b) Grijp níét naar de hoogste cumulatieve waarde: die is altijd \(1{,}00\) (het totaal), ongeacht de verdeling — daar lees je nooit een modus uit af. De grootste sprong telt, niet de grootste stand.

Tot slot

Eén getal — het gemiddelde — verbergt een hoop. Pas als je de egels neerlegt langs hun as zie je waar ze écht liggen: of de mediaan netjes in het midden van de box zit (symmetrisch), of dat één ekster met veertig glimmertjes het hele plaatje scheeftrekt. Dat is wat een verdeling je laat zien en een gemiddelde niet: niet waar het midden ligt, maar hoe oneerlijk het eromheen verdeeld is.

In het volgende deel pakken we één speciale verdeling beet — de normaalverdeling — en gaan we onze ruwe scores eindelijk standaardiseren. Want ruw is, zoals je nog vaak gaat horen, ruk.

Werkboek OZP 1 · Thema 2, versie 0.1 (handrekenen & theorie). Doorlopend voorbeeld: de egels.

Terug naar boven