Thema 2 · Verdelingen bekijken

Deel 1 — Beschrijven · het spelletje

Van één gok naar de hele groep

In thema 1 deden we één gok: er kwam een egel binnen, en onze beste schatting was het gemiddelde. Maar één getal — het gemiddelde — verbergt veel. Liggen de egels netjes rond de 20 cm, of zit er een groep kleintjes en een groep groten? Is er eentje die er compleet uitspringt?

Daarvoor moet je naar de hele verdeling kijken: hoe de waarnemingen verspreid liggen. Dat is dit thema. Geen nieuwe gok, wel een beter beeld.

OpmerkingDe egels, nog steeds

We houden ons doorlopende groepje (lengtes in cm):

\[14,\quad 16,\quad 18,\quad 20,\quad 20,\quad 20,\quad 22,\quad 24,\quad 26\]

Negen egels, gemiddelde \(20\) cm. Nu bekijken we niet hun gemiddelde, maar hun verdeling.

De frequentietabel

Als waarden zich herhalen, is een lijst onhandig. Een frequentietabel telt hoe vaak elke waarde voorkomt. Een uil vangt ’s nachts muizen; over 20 nachten turven we de vangst:

\(i\) aantal muizen \(x_i\) \(f_i\) % \(\sum f_i\) cum. %
1 0 2 10 % 2 10 %
2 1 5 25 % 7 35 %
3 2 7 35 % 14 70 %
4 3 4 20 % 18 90 %
5 4 2 10 % 20 100 %
20 100 %

Lees de kolommen:

  • Frequentie \(f\) — hoe vaak een waarde voorkomt (7 nachten ving de uil precies 2 muizen).
  • Percentage\(f\) gedeeld door het totaal, maal 100 (denk liever in proporties: \(7/20 = 0{,}35\); een proportie loopt van 0 tot 1, een percentage van 0 tot 100).
  • Cumulatief — alles tot en met die rij opgeteld. Op 70 % van de nachten ving de uil twee muizen of minder. Anders gezegd: pak je willekeurig één van de twintig nachten, dan is de kans dat de uil hooguit twee muizen ving \(0{,}70\). Zo wordt “cumulatief” meteen een kans — precies het sommetje dat we vanaf het volgende thema steeds maken.

Diezelfde tabel zie je in één oogopslag als je de frequenties als staafjes tekent — de hoogte is hoe vaak een waarde voorkomt:

Figuur 1: Frequentieverdeling van de uilenvangst over 20 nachten: aantal muizen per nacht (horizontaal) tegen het aantal nachten dat dit voorkwam (verticaal). Dit is de frequentietabel als plaatje — de hoogste staaf (2 muizen, 7 nachten) is meteen de modus.

Centrum: modus, mediaan, gemiddelde

Drie manieren om “het midden” te vangen.

  • Modus — de waarde die het vaakst voorkomt. Bij de uil: 2 muizen (\(f=7\)). Snel, maar zwak — hij voelt vaak niet echt als het midden.
  • Mediaan — de middelste waarde. Robuust: hij trekt zich niets aan van uitschieters.
  • Gemiddelde — de balanspunt-gok uit thema 1. Gevoelig: één extreme waarde sleurt hem mee.

De mediaan in twee stappen

Bepaal de mediaan altijd in twee vragen: waar zit hij, en wat is hij.

  1. Waar? Het rangnummer van de mediaan is \(\dfrac{n+1}{2}\). Voor de egels: \(\dfrac{9+1}{2} = 5\) — de vijfde egel op volgorde.
  2. Wat? De vijfde egel (gesorteerd) meet 20 cm. Mediaan \(= 20\).

Bij een even aantal valt het rangnummer tussen twee egels in; dan neem je hun gemiddelde.

TipPositie en waarde zijn twee dingen

Een kwantiel vind je altijd in twee stappen: eerst het rangnummer (de positie in de geordende rij), dán de waarde op die positie. Het rangnummer zegt waar je moet kijken — niet wat eruit komt.

Maat Positie (rangnummer)
\(Q_1\) \(\dfrac{n+1}{4}\)
Mediaan (\(Q_2\)) \(\dfrac{n+1}{2}\)
\(Q_3\) \(\dfrac{3(n+1)}{4}\)

Valt een rangnummer tussen twee waarnemingen in (bijvoorbeeld \(2{,}5\)), dan neem je het gemiddelde van de twee buren. Merk op: de positie hangt alleen van \(n\) af — niet van hóé groot of klein de waarden zijn.

TipWaarom de mediaan robuust is

Stel je meet de huizenprijzen in een straat waar toevallig de koning woont. Dat ene paleis trekt het gemiddelde omhoog tot iets wat niemand herkent. De mediaan — het middelste huis — verandert er nauwelijks van. Bij scheve verdelingen of uitschieters is de mediaan vaak het eerlijker midden.

Spreiding: kwartielen, IQR en de boxplot

De mediaan deelt de groep in twee helften. Deel elke helft nóg eens, en je hebt kwartielen.

  • \(Q_1\) (eerste kwartiel) = de mediaan van de onderste helft. Rangnummer \(\dfrac{n+1}{4} = 2{,}5\) → tussen de 2e (16) en 3e (18) egel → \(Q_1 = 17\).
  • \(Q_2\) = de gewone mediaan \(= 20\).
  • \(Q_3\) (derde kwartiel) = de mediaan van de bovenste helft. Rangnummer \(\dfrac{3(n+1)}{4} = 7{,}5\) → tussen de 7e (22) en 8e (24) → \(Q_3 = 23\).

De interkwartielafstand vangt de spreiding van de middelste 50 %:

\[\text{IQR} = Q_3 - Q_1 = 23 - 17 = 6 \ \text{cm}\]

Samen met het kleinste en grootste getal heb je de five-number summary, en die teken je als boxplot:

\[\underbrace{14}_{\text{min}\,(Q_0)} \quad \underbrace{17}_{Q_1} \quad \underbrace{20}_{\text{mediaan}\,(Q_2)} \quad \underbrace{23}_{Q_3} \quad \underbrace{26}_{\text{max}\,(Q_4)}\]

De box loopt van \(Q_1\) tot \(Q_3\) (de middelste 50 %), met een streep op de mediaan; de “snorharen” lopen naar het kleinste en grootste getal binnen bereik.

Soms is het handig om het zo te zien: het minimum is eigenlijk \(Q_0\) en het maximum \(Q_4\) — de “nulde” en “vierde” kwartielgrens. Dan staat de five-number summary er als één nette reeks \(Q_0, Q_1, Q_2, Q_3, Q_4\): van helemaal onderaan, in stappen van 25 %, naar helemaal bovenaan.

Figuur 2: Boxplot van de negen egels, opgebouwd uit de five-number summary die we met de hand vonden. De box (lichtblauw) loopt van \(Q_1 = 17\) tot \(Q_3 = 23\); de streep erin is de mediaan (20); de snorharen reiken naar het kleinste (14) en grootste (26) getal. De verdeling is symmetrisch: de mediaan ligt midden in de box en beide snorharen zijn even lang.

Uitbijters: de 1,5·IQR-regel

Wanneer is een waarneming een echte uitschieter? De vuistregel: alles méér dan \(1{,}5 \times \text{IQR}\) voorbij een kwartiel.

Neem elf eksters en hun verzameling glimmertjes:

\[12,\ 13,\ 14,\ 14,\ 15,\ 16,\ 17,\ 18,\ 19,\ 20,\ 40\]

Hier is \(Q_1 = 14\), \(Q_3 = 19\), dus \(\text{IQR} = 5\) en \(1{,}5 \times \text{IQR} = 7{,}5\).

  • Bovengrens: \(Q_3 + 7{,}5 = 26{,}5\).
  • De hoarder-ekster met 40 ligt daar ver boven → uitbijter (in de boxplot een los sterretje). De snorhaar stopt bij 20, de laatste waarde binnen de grens.
Figuur 3: Boxplot van de elf eksters. De stippellijn markeert de grens \(Q_3 + 1{,}5 \times \text{IQR} = 26{,}5\). De snorhaar stopt op 20 — de laatste waarde binnen de grens — en de hoarder met 40 verschijnt als los sterretje erbuiten: een uitbijter. Vergelijk met de egels: hier zit de mediaan níét in het midden van de box, een teken van scheefheid.

Scheefheid

Vergelijk mediaan en gemiddelde, dan weet je meteen de vorm:

  • Symmetrisch — gemiddelde ≈ mediaan (zoals de egels: beide 20).
  • Rechts-scheef — een staart naar rechts (de eksters met die ene hoarder); het gemiddelde wordt naar rechts getrokken, dus gemiddelde > mediaan.
  • Links-scheef — spiegelbeeld: gemiddelde < mediaan.

Het beeld eronder is steeds hetzelfde: het gemiddelde laat zich naar de staart toe trekken, de mediaan blijft zitten. Eén uitschieter sleept het gemiddelde mee — denk aan de koning in de straat — terwijl de mediaan alleen naar posities kijkt en nauwelijks verschuift. Hoe verder gemiddelde en mediaan uit elkaar liggen, hoe schever de verdeling, en de kant waar het gemiddelde naartoe is getrokken wíjst de staart aan.

  • Stam-en-blad-diagram — de tientallen vormen de stam, het laatste cijfer een blad. Kantel je het, dan zie je een histogram: handig voor scheefheid.
  • QQ-plot — zet je waargenomen z-scores af tegen wat je onder een normaalverdeling zou verwachten. Liggen de punten op de lijn, dan oogt het normaal; buigen de uiteinden weg, dan is het scheef.
  • Normaliteitstoets (Kolmogorov-Smirnov) — let op de titel: “test of normality” toetst de \(H_0\) dat de data normaal verdeeld is in de populatie. \(p > .05\)\(H_0\) niet verwerpen → je mág normaliteit aannemen. (Toetsen komt in deel 5; hier alleen het idee.)

Spreiding terugrekenen uit een frequentietabel

Variantie en standaardafwijking (thema 1) werken ook met frequenties — je weegt elke afwijking met hoe vaak hij voorkomt:

\[\bar{y} = \frac{\sum f_i\, y_i}{n} \qquad\qquad s_y^2 = \frac{\sum f_i\,(y_i - \bar{y})^2}{n-1}\]

Dezelfde gedachte als de blauwe vierkantjes; je telt ze alleen met hun frequentie mee in plaats van één voor één.

OpmerkingHier komt straks SPSS

SPSS maakt frequentietabellen, boxplots, histogrammen en de five-number summary met een paar klikken — en markeert de uitbijters vanzelf. We weven het later in; eerst zie je met de hand wat de software straks voor je doet.

Oefenen

OpmerkingT2.1 — Modus-val

In een frequentietabel komt de laagste waarde verreweg het vaakst voor (37,5 % van de gevallen), de rest is verspreid. Een student gaat meteen rekenen en mist de modus. Wat is de modus, en waarom is het een instinker?

De modus is simpelweg de laagste waarde — die met de hoogste frequentie. De instinker: je hoeft niets te berekenen, alleen te kijken welke waarde het vaakst voorkomt. Wie meteen begint te rekenen, zoekt te moeilijk.

OpmerkingT2.2 — Met de hand: kwartielen & uitbijters

Zeven dassen, nachtelijke graaftijd (minuten), op volgorde:

\[8,\ 11,\ 12,\ 15,\ 18,\ 22,\ 40\]

Bepaal (a) de mediaan, (b) \(Q_1\) en \(Q_3\), (c) de IQR, (d) of de das van 40 minuten een uitbijter is.

(a) Mediaan: rangnummer \((7+1)/2 = 4\) → 4e waarde \(= 15\).

(b) \(Q_1\) = mediaan onderste helft (\(8,11,12\)) \(= 11\); \(Q_3\) = mediaan bovenste helft (\(18,22,40\)) \(= 22\).

(c) \(\text{IQR} = 22 - 11 = 11\).

(d) \(1{,}5 \times 11 = 16{,}5\); bovengrens \(= 22 + 16{,}5 = 38{,}5\). De das van 40 ligt erboven → uitbijter. (De verdeling is rechts-scheef: gemiddelde \(\approx 18{,}0\) > mediaan \(15\).)

OpmerkingT2.3 — Eén uil erbij: positie, waarde, en de brug naar ‘gevoelig’

Vijf uilen, nachtelijke waakzaamheid: \(4,\ 6,\ 7,\ 8,\ 10\). (Mediaan én gemiddelde zijn hier allebei \(7\).)

  1. Er komt een zesde uil bij met waakzaamheid \(9\). Wat wordt de positie (rangnummer) van de mediaan, wat wordt de waarde, en wat wordt het gemiddelde?

  2. Vervang die zesde uil door een extreme waakzaamheid van \(100\). Wat doet dit met de positie en de waarde van de mediaan? En met het gemiddelde?

  3. Wat leer je hieruit over mediaan versus gemiddelde?

(a) \(n = 6\). Mediaan-positie \(= \dfrac{6+1}{2} = 3{,}5\) → tussen de 3e en 4e waarde van \(4,6,7,8,9,10\), dus tussen \(7\) en \(8\)waarde \(7{,}5\). Gemiddelde \(= \dfrac{44}{6} \approx 7{,}33\).

(b) Geordend: \(4,6,7,8,10,100\). De mediaan-positie is nóg steeds \(3{,}5\) → tussen \(7\) en \(8\)waarde \(7{,}5\) — precies hetzelfde als bij (a)! Het gemiddelde springt naar \(\dfrac{135}{6} = 22{,}5\).

(c) De positie van de mediaan hangt alleen van \(n\) af, niet van hoe extreem een waarde is — en de mediaan-waarde verschuift nauwelijks (\(7 \to 7{,}5\), of er nu een \(9\) of een \(100\) bijkomt). Het gemiddelde wordt wél meegesleurd door die ene uitschieter (\(7 \to 22{,}5\)). De mediaan is robuust, het gemiddelde gevoelig.

Bruggetje naar later: de meeste toetsen die je straks leert — de \(t\)-toets en zijn familie — zijn gebouwd op het gemiddelde. Dat noemen we parametrische methoden, en ze erven die gevoeligheid voor uitschieters. Daarom checken we eerst op uitbijters en scheefheid (thema 2!) vóórdat we zo’n toets vertrouwen.

Tot slot

Een verdeling is meer dan één getal. De mediaan en kwartielen geven een robuust beeld van centrum en spreiding, de boxplot maakt het zichtbaar, en de 1,5·IQR-regel vangt de uitschieters. In het volgende deel gaan we een speciale verdeling van dichtbij bekijken — de normaalverdeling — en leren we onze ruwe scores eindelijk standaardiseren. Want ruw is, zoals je nog gaat horen, ruk.


Werkboek OZP 1 · Thema 2, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven