Thema 7 · Steekproevenverdeling & betrouwbaarheidsinterval

Deel 4 — Van steekproef naar populatie · de bordjes

Van één egel naar een hele steekproef

Tot nu toe keken we naar de score van één egel. Nu nemen we een hele steekproef — zeg 25 egels — en kijken naar hun gemiddelde. Want in de praktijk zien we de populatie nooit; we hebben alleen een steekproef, en daarmee willen we iets zeggen over alle egels. Dit is de stap naar inferentie: van steekproef naar populatie.

De egels — pienterheid, nu in steekproeven

De pienterheid is normaal verdeeld met \(\mu_x = 100\) en \(\sigma_x = 15\) (thema 3). We trekken steekproeven van \(n = 25\) egels en kijken naar het steekproefgemiddelde \(\bar{x}\).

Drie verdelingen — niet door elkaar halen

Dit is hét struikelpunt van het hele vak, dus we maken het scherp. Er zijn drie verdelingen:

Populatieverdeling — de pienterheid \(x\) van alle egels, met als centrum \(\mu_x = 100\) (een parameter: één vast getal, meestal onbekend — de p–p uit thema 1, populatie → parameter). \(N(100, 15)\).
Verdeling binnen één steekproef — de 25 losse \(x\)-scores in één steekproef, met als centrum het steekproefgemiddelde \(\bar{x}\) van díe steekproef (een statistiek: de st–st uit thema 1, steekproef → statistiek — en hij valt per steekproef anders uit). Een klein, hobbelig wolkje. (Let op: sommige boeken noemen steekproevenverdeling juist de derde — wij houden die naam strikt voor de bordjes.)
Steekproevenverdeling — de verdeling van het stéékproefgemiddelde \(\bar{x}\) over heel veel steekproeven. Op het bordje staat geen \(x\), maar \(\bar{x}\).

Die derde is de nieuwe, en de belangrijkste. Voel het verschil tussen de twee centra: \(\mu_x\) is één vast getal (al kennen we het meestal niet), terwijl \(\bar{x}\) per steekproef opnieuw uitvalt — en juist omdat \(\bar{x}\) varieert, krijgt hij zélf een verdeling. Dat is precies nummer 3.

Figuur 1: Twee curves overlappen: de brede populatieverdeling van pienterheid (lichtblauw, σx = 15) en de smalle steekproevenverdeling van het steekproefgemiddelde x̄ bij n = 25 (donkerblauw, σx̄ = 3). Beide hebben centrum 100. De bordjes liggen veel dichter bij elkaar dan individuele egels — dat is wat de standaardfout vangt.

De bordjes — het spelletje, opnieuw

Herinner je het spelletje uit thema 1 (er komt iets binnen, wat is je beste gok?). Nu schalen we het op:

Jullie nemen állemaal een steekproef van 25 egels, rekenen het gemiddelde uit, schrijven dat op een bordje, en hangen het op. Ik kom langs en gok wat erop staat. Mijn beste gok: 100 (het populatiegemiddelde). Maar het ene bordje zegt 103, het andere 97 — ze wijken af.

Vroeger (thema 1) vroegen we: hoeveel mist één egel het gemiddelde? Nu vragen we: hoeveel mist één bordje (één steekproefgemiddelde) het echte gemiddelde? Die afwijking van een bordje is weer een gokfout. En de gemiddelde gokfout van een bordje is de standaardafwijking van het steekproefgemiddelde — die noemen we de standaardfout, \(\sigma_{\bar{x}}\).

Individuen variëren met σ, statistieken met de standaardfout

Eén egel wijkt af met \(\sigma_x\). Eén bórdje (een steekproefgemiddelde) wijkt af met \(\sigma_{\bar{x}}\) — en dat is kleiner, want een gemiddelde “middelt de uitschieters weg”. Het is nog steeds gewoon een standaardafwijking (de gemiddelde gokfout) — alleen van een ander soort gebeurtenis: niet een individu, maar een steekproefuitkomst.

De standaardfout

\[\sigma_{\bar{x}} = \frac{\sigma_x}{\sqrt{n}} = \frac{15}{\sqrt{25}} = \frac{15}{5} = 3\]

(Herinner je uit thema 4: een variantie schaalt met het kwadraat van een factor. Een gemiddelde is een gewogen optelling; daar valt de \(\sqrt{n}\) uit — dáárom \(\sqrt{n}\).) Speel met \(n\) en je ziet de theorie:

\(n\)	\(\sigma_{\bar{x}} = 15/\sqrt{n}\)
9	5
25	3
100	1,5

Hoe groter de steekproef, hoe dichter de bordjes bij elkaar liggen — hoe preciezer je schatting.

Centrale limietstelling — waarom we de z-tabel mogen gebruiken

Het bijzondere (en eigenlijk flauwe): als je steekproef groot genoeg is (vuistregel \(n \gtrsim 15\)), dan is de steekproevenverdeling bij benadering normaal — hoe lelijk of scheef de populatie ook is. Daarom mogen we voor \(\bar{x}\) gewoon de z-tabel pakken. Let op het woordje bij benadering: bij een lelijke, scheve populatie is de steekproevenverdeling niet magisch perfect normaal, maar bij genoeg egels vaak dichtbij genoeg om ermee te rekenen.

Het betrouwbaarheidsinterval

We vonden in onze enige echte steekproef \(\bar{x} = 106\). Dat is onze puntschatting van \(\mu_x\). Maar één getal is te stellig — we geven een range eromheen waarvan we redelijk zeker zijn dat de ware \(\mu_x\) erin ligt:

\[\bar{x} \pm z^* \cdot \sigma_{\bar{x}}\]

Voor 95% zekerheid is \(z^* = 1{,}96\) (de heilige z-waarde). Dus:

\[106 \pm 1{,}96 \cdot 3 = 106 \pm 5{,}88 = [\,100{,}12\,;\,111{,}88\,]\]

Dat stuk dat je naar links én rechts gaat, \(M = z^* \cdot \sigma_{\bar{x}} = 5{,}88\), heet de foutenmarge (de halve breedte). De \(z^*\)-waarden uit je hoofd: 90% → 1,645; 95% → 1,96; 99% → 2,576.

Welke kant op? p → z → x (lineaaltje = σ_x̄)

Een betrouwbaarheidsinterval is gewoon de richtings-engine uit thema 3, maar nu met de standaardfout als lineaaltje. Je krijgt een kans (het CI-niveau) en zoekt een gebeurtenis (de grenzen): dus \(p \to z \to x\). Het fietsje vertrekt nu vanuit \(\bar{x}\), met snelheid \(\sigma_{\bar{x}}\), en je wandelt \(z^*\) lineaaltjes naar links en naar rechts.

Het betrouwbaarheidsinterval als richtings-engine, andersom dan bij een toets: \(p \to z \to \bar{x}\). Je begint met de kans (95% in het midden → \(z^* = 1{,}96\)) en wandelt vanuit \(\bar{x}\) het lineaaltje (\(\sigma_{\bar{x}}\)) naar **beide** kanten — dat geeft de twee grenzen (op de kaart \(x_o\) en \(x_b\); in ons voorbeeld 100,12 en 111,88). Bij een toets ga je de andere kant op (\(\bar{x} \to z \to p\)); het is hetzelfde fietsje.

Wat betekent ‘95%’ precies? (het hoefijzer)

Strikt genomen: als je dit spelletje 100 keer zou doen — 100 keer een steekproef nemen en een 95%-interval berekenen — dan bevat in 95 van die 100 gevallen het interval de ware \(\mu_x\). (Als een hoefijzer dat je 100 keer naar de paal gooit en 95 keer raak.) De “gezellige” lezing — met 95% zekerheid ligt \(\mu_x\) tussen 100,12 en 111,88 — mag je voelen, maar weet dat de strikte versie over de intervallen gaat, niet over deze ene.

In SPSS — klikpad

Data om mee te spelen: egels_pienterheid.sav — of de hele zip. Hier rekenen we het interval met de hand, maar SPSS geeft ’m ook — verstopt in de t-toets. Klik:

Analyze → Compare Means → One-Sample T Test → de variabele naar rechts → bij Options… het Confidence Interval Percentage op 95 (of wat je wilt) → OK.

Het CI lees je af in de tabel One-Sample Test, onder 95% Confidence Interval of the Difference — let op: dat is het interval rond het verschil met de testwaarde, dus tel die testwaarde er weer bij op.

Foutenmarge en steekproefgrootte

De foutenmarge hangt af van \(n\): meer egels → kleinere \(M\). Andersom kun je vooraf uitrekenen hoeveel egels je nodig hebt voor een gewenste precisie. Wil je \(M \le 2\) bij 95% (\(\sigma_x = 15\))?

\[n = \left(\frac{z^* \cdot \sigma_x}{M}\right)^2 = \left(\frac{1{,}96 \cdot 15}{2}\right)^2 = 14{,}7^2 = 216{,}09 \;\to\; 217\]

(Naar boven afronden — met 216 zit je nog net boven de grens; meer egels = kleinere marge.)

Oefenen

T7.1 — Standaardfout en n

De pienterheid heeft \(\sigma_x = 15\).

Wat is de standaardfout bij \(n = 9\)? En bij \(n = 100\)?
Waarom wordt het interval smaller als \(n\) groter wordt?

Antwoord T7.1

(a) \(\sigma_{\bar{x}} = 15/\sqrt{9} = 5\); en \(15/\sqrt{100} = 1{,}5\).

(b) Een groter \(n\) middelt de uitschieters sterker weg, dus de bordjes (steekproefgemiddelden) liggen dichter bij elkaar → kleinere \(\sigma_{\bar{x}}\) → kleinere foutenmarge \(z^*\sigma_{\bar{x}}\) → smaller interval. Meer informatie, preciezere schatting.

T7.2 — Een interval bouwen

Een steekproef van \(n = 9\) egels geeft \(\bar{x} = 108\) (\(\sigma_x = 15\)). Bouw het 95%-betrouwbaarheidsinterval voor \(\mu_x\). Ligt 100 erin?

Antwoord T7.2

\(\sigma_{\bar{x}} = 15/\sqrt{9} = 5\). Foutenmarge \(M = 1{,}96 \cdot 5 = 9{,}8\). Interval: \(108 \pm 9{,}8 = [\,98{,}2\,;\,117{,}8\,]\). Wandel je van links naar rechts, dan kom je 100 tegen — dus ja, 100 ligt erin. (In thema 8 zie je: dat betekent dat we bij een toets H₀: \(\mu_x = 100\) niet zouden verwerpen.)

T7.2 in SPSS — een CI laten uitrekenen

Data: egels_pienterheid_n9.sav — 9 egels, kolom pienterheid met \(\bar{x} = 108\) en \(s = 15\) (exact).

Analyze → Descriptive Statistics → Explore → zet pienterheid bij Dependent List → OK. (Of via Compare Means → One-Sample T Test, Test Value 100.)

Aflezen: SPSS geeft Mean = 108,00, en daaronder het 95% Confidence Interval for Mean. Let op — dit wijkt bewust af van je handwerk: wij rekenden met \(\sigma_x = 15\) bekend (dus de \(z\)-waarde 1,96 → interval \([98{,}2\,;\,117{,}8]\)), maar SPSS kent \(\sigma\) nooit en schat ’m met \(s\) — dus gebruikt het de t-verdeling (\(t^*_{df=8} = 2{,}306\)), wat een iets breder interval geeft (\(\approx [96{,}5\,;\,119{,}5]\)). Precies het verschil dat in thema 9 centraal staat: \(z\) als je \(\sigma\) kent, \(t\) als je ’m schat. In beide gevallen ligt 100 erin.

T7.3 — Welke \(z^*\) hoort bij 80%?

Een collega heeft genoeg aan wat losser en wil geen 95%- maar een 80%-betrouwbaarheidsinterval rond het egel-gemiddelde. Welke \(z^*\) moet hij in \(\bar{x} \pm z^* \sigma_{\bar{x}}\) stoppen?

Kort antwoord T7.3

\(C = 80\%\) in het midden → wat overblijft voor de twee staarten samen: \(1 - C = 20\%\)
Per staart de helft: \((1-C)/2 = 10\%\)
Bij 10% in één staart hoort \(z^* \approx 1{,}28\)
Antwoord: \(z^* \approx 1{,}28\) — kleiner dan de 1,96 van 95%, dus een lossere eis geeft een smaller interval.

Volledige uitwerking T7.3 — stap voor stap

Het CI-niveau (\(C\)) is niks anders dan: hoeveel kans wil je in het midden, tussen de twee grenzen? De rest verdeel je symmetrisch over de twee staarten. Drie stapjes:

Wat zit er in het midden? \(C = 80\%\) — die wil je tussen de grenzen hebben.
Wat blijft over voor de staarten? \(1 - C = 20\%\), samen in de twee staarten.
Symmetrie → per staart de helft: \((1-C)/2 = 20\%/2 = 10\%\) in elke staart. Bij 10% in één staart (dus 90% eronder) hoort \(z^* \approx 1{,}28\).

Dat is precies de \(p \to z\)-wandeling uit thema 3, alleen lees je ’m nu af als de \(z^*\) die je in élk interval stopt. De vaste rij om uit je hoofd te kennen:

BI-niveau \(C\)	per staart	\(z^*\)
80%	10%	1,28
90%	5%	1,645
95%	2,5%	1,96
99%	0,5%	2,576

Val op: hoe zékerder je wilt zijn, hoe verder \(z^*\) naar buiten schuift (99% → 2,576) → breder interval. 80% is juist de lósste eis in de rij → de kleinste \(z^*\) → het smalste interval. Meer zekerheid koop je met minder precisie, en andersom.

De middelste 80% ligt tussen \(z^* = -1{,}28\) en \(+1{,}28\); in elke staart blijft 10% over

T7.4 — Twee beweringen over verdelingen

Welke van deze twee beweringen is juist?

Hoe groter de steekproef, hoe kleiner de spreiding van de steekproevenverdeling van het gemiddelde.
Als de steekproef maar groot genoeg is, is élke variabele normaal verdeeld.

Antwoord T7.4

Alleen (1) is juist.

Waarom (1) klopt:

\(\sigma_{\bar{x}} = \sigma_x / \sqrt{n}\) — een grotere \(n\) staat in de noemer, dus de standaardfout wordt kleiner.
Kleinere \(\sigma_{\bar{x}}\) = de bordjes (steekproefgemiddelden) klitten dichter samen. Precies de tabel bij “De standaardfout” (\(n=9 \to 5\), \(n=25 \to 3\), \(n=100 \to 1{,}5\)).

Waarom (2) onjuist is:

De centrale limietstelling maakt de verdeling van het steekproefgemiddelde \(\bar{x}\) (bij benadering) normaal — níét de ruwe variabele \(x\).
Een scheve populatie blíjft scheef, hoeveel egels je ook trekt. Wat normaal wordt is de muur van bórdjes, niet de losse egels.
Dit is de drie-verdelingen-val: bewering (2) verwart verdeling 1 (populatie van \(x\)) met verdeling 3 (steekproevenverdeling van \(\bar{x}\)).

De verdeling van \(x\) (breed) naast de verdeling van \(\bar{x}\) (smal) — zelfde midden. De centrale limietstelling werkt op de rechter, niet op de ruwe \(x\)

T7.5 — 95% of 99%?

Een collega rapporteert standaard een 95%-BI, maar stapt voor een gevoelige uitkomst over op een 99%-BI. Waarom zou zij dat willen? En wat zeg je tegen de collega die roept: “Doe niet, dan wordt je interval juist nauwkeuriger — lekker smal”?

Antwoord T7.5

Waarom een 99%-BI:

Grotere kans dat het interval de ware \(\mu_x\) bevat: 99 van de 100 intervallen raak, tegen 95 van de 100 (het hoefijzer, maar met meer treffers).
Je wilt zekerder zijn dat je ’m echt te pakken hebt — handig als een misser duur is.

De prijs — en meteen de weerlegging van de afleiders:

“Smaller/nauwkeuriger”? Fout: juist breder. \(z^*\) gaat van 1,96 → 2,576, dus \(\bar{x} \pm z^* \sigma_{\bar{x}}\) wordt wijder. Nauwkeuriger (smaller) krijg je niet door meer zekerheid te eisen, maar door meer egels (\(n\) omhoog → \(\sigma_{\bar{x}}\) omlaag).
“Dan is de kans dat \(\mu_x\) erin ligt maar 1%”? Fout: het is 99%, niet 1%. (En strikt gaat die 99% over de intervallen — het hoefijzer, niet over deze ene worp.)

Wat blijft liggen

Hier gebruiken we \(\sigma_x\) alsof we ’m kennen. In de echte wereld ken je de populatie-standaardafwijking nooit (alleen God) — dan schat je ’m met \(s_x\) uit de steekproef, wordt het lineaaltje de standaardfout \(s_x/\sqrt{n}\), en gebruik je de \(t\)-verdeling in plaats van \(z\). Dat komt in thema 9. En in thema 8 draaien we de vraag om: niet “wat is \(\mu_x\)?”, maar “ís \(\mu_x\) gelijk aan een bepaalde waarde?” — dan toetsen we.

Tot slot

Hang al die bordjes op en je ziet het: ze klitten samen rond de 100, veel dichter dan losse egels ooit doen — want een gemiddelde middelt de uitschieters weg. Hoe meer egels per bordje, hoe strakker dat klitten, en die strakheid is precies de standaardfout \(\sigma_x/\sqrt{n}\). Daar hang je je betrouwbaarheidsinterval omheen, en zelfs dat is geen nieuwe truc: hetzelfde fietsje van thema 3, alleen rijdt het nu met de standaardfout als lineaaltje.

Tot nu toe vroegen we: wat is \(\mu_x\)? Een getal, met een marge eromheen. In het volgende thema draaien we ’m om — ís \(\mu_x\) eigenlijk wel die ene waarde die ze beweren? Dan zijn we aan het toetsen.

Werkboek OZP 1 · Thema 7, versie 0.1 (handrekenen & theorie). Doorlopend voorbeeld: de egels.

Terug naar boven