Thema 4 · Discrete kansvariabelen

Deel 2 — Standaardiseren · het gewogen gemiddelde

Een dobbelspel in het bos

De kraai heeft een gokspel opgezet. Je gooit met een dobbelsteen, en hij heeft ’m stiekem onzuiver én raar gemaakt: de ogen zijn priemgetallen (2, 3, 5, 7, 11, 13), en de lage vallen vaker dan de hoge. De kansen liggen dus vast — en als de kansen vastliggen, kunnen we van tevoren uitrekenen wat er gemiddeld gebeurt. Dat is dit korte thema: rekenen aan een discrete kansvariabele.

Wat is een discrete kansvariabele?

Een kansvariabele is eigenlijk gewoon een getal waarvan je nog niet weet wat het wordt — maar waarvan je de kansen wél kent. Discreet betekent dat er enkel losse mogelijkheden zijn: je springt van de ene waarde naar de andere (1, 2, 3 … — geen 2,7 ertussen). Omdat de kansen bekend zijn, gaat het eigenlijk over de hele populatie: we hoeven niks te schatten, we wéten hoe vaak elke waarde valt.

De kraaiendobbelsteen, \(X\) = aantal ogen:

\(i\)	oog \(x_i\)	kans \(p_i\)
1	2	,20
2	3	,20
3	5	,20
4	7	,20
5	11	,10
6	13	,10
		1,00

Let op de twee linkerkolommen: de index \(i\) (1 t/m 6) nummert gewoon de rijen, de ogen \(x_i\) (2, 3, 5, 7, 11, 13) zijn de echte waarden. Handig dat ze niet op elkaar lijken — bij een gewone 1-t/m-6-steen zou je ze zo door elkaar halen.

De verwachtingswaarde = een gewogen gemiddelde

Wat is de gemiddelde uitkomst? Niet gewoon \((1+2+\dots+6)/6\) — want de lage ogen tellen zwaarder mee, die vallen vaker. Je moet elke waarde wegen met zijn kans. Dat is de verwachtingswaarde:

\[\mu_x = E(X) = \sum p_i\, x_i\]

Dit is precies hetzelfde idee als het gewone gemiddelde (Deel 1) en het gemiddelde uit een frequentietabel (thema 2) — alleen weeg je nu met kansen in plaats van frequenties.

\(i\)	\(x_i\)	\(p_i\)	\(p_i \cdot x_i\)	\((x_i - \mu_x)^2 \cdot p_i\)
1	2	,20	0,40	\((2-5{,}8)^2 \cdot {,}20 = 2{,}888\)
2	3	,20	0,60	\((3-5{,}8)^2 \cdot {,}20 = 1{,}568\)
3	5	,20	1,00	\((5-5{,}8)^2 \cdot {,}20 = 0{,}128\)
4	7	,20	1,40	\((7-5{,}8)^2 \cdot {,}20 = 0{,}288\)
5	11	,10	1,10	\((11-5{,}8)^2 \cdot {,}10 = 2{,}704\)
6	13	,10	1,30	\((13-5{,}8)^2 \cdot {,}10 = 5{,}184\)
			\(\mu_x = 5{,}8\)	\(\sigma_x^2 = 12{,}76\)

Dus \(\mu_x = 5{,}8\). Kun je een 5,8 gooien? Nee — die zit netjes tussen de ogen in. Maar het is wél de verwachting — het gemiddelde als je oneindig vaak zou gooien.

De variantie van een kansvariabele

Dezelfde gedachte als in Deel 1 (de blauwe vierkantjes), maar weer gewogen met de kans. We hebben geen echte worpen meer nodig: de kans zelf vertelt hoe zwaar elke afwijking meetelt.

\[\sigma_x^2 = \sum (x_i - \mu_x)^2 \, p_i = 12{,}76, \qquad \sigma_x = \sqrt{12{,}76} \approx 3{,}57\]

(De rechterkolom van de tabel hierboven, opgeteld.)

De brug: frequenties worden kansen

Dit ligt dichter bij thema’s 1 en 2 dan het lijkt. Daar woog je het gemiddelde met frequenties:

\[\bar{y} = \frac{\sum f_i\, y_i}{n} = \sum \underbrace{\frac{f_i}{n}}_{\text{proportie}}\, y_i\]

Hier weeg je met kansen:

\[\mu_x = \sum \underbrace{p_i}_{\text{kans}}\, x_i\]

Zelfde structuur, andere gewichten — en de gewichten zijn familie. Deel je een frequentie door \(n\) (precies de “keer \(\tfrac{1}{n}\)”-blik uit thema 1), dan wordt \(f_i\) een proportie: hoe vaak in jóuw data. Op de lange duur stabiliseert die proportie tot een kans \(p_i\): hoe vaak het zou gebeuren. Frequenties worden kansen. De variantie volgt exact dezelfde gewogen-vierkantjes-logica — alleen weegt thema 2 met \(f_i/n\) en dit thema met \(p_i\).

De kraai verandert de regels (lineaire transformatie)

De kraai zegt: je betaalt €10 inleg, en krijgt €5 per geworpen oog terug. Je winst is dan \(Y = -10 + 5X\) — een lineaire transformatie (\(a = -10\), \(b = 5\)). Wat is je verwachte winst en de spreiding?

Gemiddelde schuift én schaalt mee: \(\mu_Y = a + b\,\mu_x = -10 + 5 \cdot 5{,}8 = 19\). (Verwachte winst €19 — de kraai heeft écht belabberd gerekend.)
Variantie: \(\sigma_Y^2 = b^2 \, \sigma_x^2 = 5^2 \cdot 12{,}76 = 319\).
Standaardafwijking: \(\sigma_Y = |b| \, \sigma_x = 5 \cdot 3{,}57 = 17{,}86\) ( \(= \sqrt{319}\), klopt).

Let op: de variantie krijgt b-kwadraat

De makkelijkste fout (ik trap er zelf soms even in): bij de variantie staat \(b^{2}\), niet \(b\). De standaardafwijking krijgt \(|b|\). Logisch ook: een variantie leeft in “kwadraten” (denk aan de vierkantjes uit Deel 1), dus een schaalfactor telt daar gekwadrateerd. Een constante \(a\) erbij verschuift alleen het midden en doet niets met de spreiding.

Bruggetje naar straks

Onthoud \(\sigma_Y^2 = b^2\sigma_x^2\) goed — want precies díé regel verklaart in Deel 4 waarom de standaardfout \(\sigma_{\bar{x}} = \sigma_x / \sqrt{n}\) is. Dit voelt nu misschien als een detail, maar het is straks precies de reden waarom een gemiddelde minder spreidt dan losse scores. Hier leg je dat fundament.

Oefenen

T4.1 — Eerlijke dobbelsteen

Neem nu een eerlijke dobbelsteen: elk oog kans \(1/6\).

Wat is \(\mu_x = E(X)\)?
Kun je dat oog ook echt gooien?

Antwoord T4.1

(a) \(\mu_x = \sum p_i x_i = \tfrac{1}{6}(1+2+3+4+5+6) = \tfrac{21}{6} = 3{,}5\).

(b) Nee — een 3,5 bestaat niet op de dobbelsteen. De verwachtingswaarde is een gemiddelde, geen mogelijke uitkomst.

T4.2 — Andere spelregels

Bij de eerlijke dobbelsteen (\(\mu_x = 3{,}5\), en reken zelf na dat \(\sigma_x^2 \approx 2{,}92\)). De uil verandert het spel: \(Y = 2 + 3X\) punten. Wat worden \(\mu_Y\), \(\sigma_Y^2\) en \(\sigma_Y\)?

Antwoord T4.2

\(\mu_Y = a + b\mu_x = 2 + 3 \cdot 3{,}5 = 12{,}5\).

\(\sigma_Y^2 = b^2 \sigma_x^2 = 3^2 \cdot 2{,}92 = 9 \cdot 2{,}92 = 26{,}28\) (let op: \(b^2 = 9\), niet 3).

\(\sigma_Y = |b|\,\sigma_x = 3 \cdot \sqrt{2{,}92} = 3 \cdot 1{,}71 = 5{,}13\) (\(=\sqrt{26{,}28}\)).

Tot slot

Niks nieuws onder de zon: een kansvariabele reken je precies zoals een gewone groep, alleen weeg je nu met kansen in plaats van met frequenties. Een 5,8 kun je niet gooien en €19 winst krijg je nooit netjes uitbetaald — en tóch zijn dat de getallen waar je op moet rekenen, want het is wat er op de lange duur uit komt rollen.

Hou vooral dat ene regeltje vast: bij een lineaire transformatie krijgt de variantie een \(b^2\), geen \(b\). Dat lijkt nu een mug die ik zit te ziften, maar het is geen detail. Het is straks de hele reden dat een gemiddelde minder spreidt dan losse scores — de motor onder de standaardfout. Hier leg je ’m alvast neer.

Werkboek OZP 1 · Thema 4, versie 0.1 (handrekenen & theorie).

Terug naar boven