Thema 10 · Power

Deel 5 — Toetsen · hoe scherp kijkt mijn toets?

Power = onderscheidingsvermogen

In de natuurkunde is power vermogen: energie per seconde, gemeten in Watt of paardenkracht. In de statistiek is het ook een soort vermogen — maar dan het onderscheidingsvermogen van je toets: het vermogen om licht te laten schijnen op het verschil tussen twee hypothesen. Hoe goed kan je toets een echt effect ook echt zien?

Tot nu toe vroeg je alleen: verwerp ik \(H_0\)? Maar er is een eerlijker, ongemakkelijker vraag. Stel je hóópt op een effect — egels zijn pienter, je interventie werkt. Hoe groot is dan eigenlijk de kans dat je toets dat oppikt áls het echt zo is? Of, scherper: hoe groot is de kans dat je gaat beslissen wat je zo graag wílt bewijzen — terecht? Dát is de power.

Arme nerds, sterke power

Een onderzoeksgroep met weinig geld kan geen duizend proefpersonen werven. Dus rekenen ze vóóraf uit hoeveel power hun toets heeft bij de steekproef die ze zich wél kunnen veroorloven — en ontwerpen ze hun studie slimmer: scherpere meting, gerichter effect, eenzijdige toets waar dat mag. Arme nerds, sterke power. Een rijk lab dat zonder nadenken een enorme steekproef binnenharkt, vindt daarentegen soms alles significant — ook nepeffecten. Power is dus geen luxe; het is weten hoe scherp je bril is vóór je ’m opzet.

Formeel is power het tegenovergestelde van de type-II-fout (\(\beta\), het misser-tarief uit thema 8):

\[\text{power} = 1 - \beta\]

Een toets met lage power ziet effecten over het hoofd, ook als ze er wél zijn (veel missers). Een toets met hoge power ziet ze. En let op: één toets heeft niet één vaste power — die hangt af van hóé groot het echte effect is, zoals je zo gaat zien.

Twee werelden: God en Allah

In thema 8 beloofde ik een tweede berg — hier is-ie. Power begrijp je het beste door twee werelden tegelijk op dezelfde getallenlijn te tekenen:

De God-wereld — \(H_0\) klopt, egels zijn gewoon \(\mu_0 = 100\). Hier maakten we in thema 8 onze toets.
De Allah-wereld — \(H_1\) klopt, egels zijn écht pienterder, zeg \(\mu_A = 110\). Een andere waarheid, dezelfde getallenlijn.

Twee waarheden die niet allebei waar kunnen zijn. Beide hebben hun eigen steekproevenverdeling (met dezelfde standaardfout \(\sigma_{\bar{x}} = 3\)), dus hun eigen berg. En dwars door beide loopt één grens: de kritieke waarde \(\bar{x}_c = 104{,}94\) die we in de God-wereld maakten — want dáár bepaalt \(\alpha\) hem. Let op die asymmetrie: de grens máák je in de ene wereld, maar je legt ’m óók over de andere om te zien hoeveel je vangt.

Eén grens, vier kansen — alles is een voorwaardelijke kans

Hier zit de hele kern. Of je nu de \(p\)-waarde, \(\alpha\), \(\beta\) of de power bedoelt — het is steeds dezelfde vraag, met een andere wereld erachter: aan welke kant van de grens \(\bar{x}_c\) val ik, gegeven in welke wereld ik leef? In symbolen: \(P(\bar{X} \gtrless \bar{x}_c \mid \text{wélke wereld})\).

In de God-wereld (\(\mu = \mu_0\))	In de Allah-wereld (\(\mu = \mu_A\))
\(P(\bar{X} > \bar{x}_c \mid \mu_0) = \alpha\) — vals alarm	\(P(\bar{X} > \bar{x}_c \mid \mu_A) = \text{power}\) — terecht vangen
\(P(\bar{X} \le \bar{x}_c \mid \mu_0) = 1-\alpha\) — terecht behouden	\(P(\bar{X} \le \bar{x}_c \mid \mu_A) = \beta\) — gemist

Vier cellen, één vorm. \(\alpha\) en power zijn allebei “de kans om bóven de grens te vallen” — alleen in een andere wereld. Dáárom is power geen nieuwe formule; het is dezelfde kans, één berg opgeschoven.

Onze egels uit thema 8 (\(\sigma_x = 15\), \(n = 25\), \(\mu_0 = 100\), \(\alpha = .05\) eenzijdig). Stel de echte populatie-pienterheid is \(\mu_A = 110\). Met \(\sigma_{\bar{x}} = 3\) en \(\bar{x}_c = 104{,}94\) ziet dat er zo uit:

Figuur 1: Twee werelden naast elkaar: de God-wereld (boven de getallenlijn, centrum mu0 = 100) en de Allah-wereld (onder de getallenlijn, centrum muA = 110). De kritieke waarde x̄c = 104,94 snijdt door beide. Oranje (rechts van x̄c in de God-wereld) = alpha = vals alarm. Paars (links van x̄c in de Allah-wereld, naar onder gespiegeld) = beta = gemist. Groen (rechts van x̄c in de Allah-wereld) = power. De groene oppervlakte is hier ongeveer 95%. Je herkent de drie gebieden aan hun plek t.o.v. de grens x̄c (alpha rechtsboven, beta linksonder, power rechtsonder), niet alleen aan de kleur.

De beslis-tabel: lees eerst de namen

Diezelfde vier kansen passen in een 2×2. Maar pas op — een 2×2 is alleen nuttig als je weet wát er op de rijen en wát op de kolommen staat. Wij zetten de werkelijkheid op de rijen (welke wereld is waar — dat is het gegeven waarop je conditioneert) en de beslissing op de kolommen (wat je toets ervan maakt):

werkelijkheid ↓ · beslissing →	niet verwerpen (niet-significant)	verwerp \(H_0\) (significant)
\(H_0\) waar — God (\(\mu = 100\))	terecht behouden · \(1-\alpha\)	type-I-fout · \(\alpha\)
\(H_1\) waar — Allah (\(\mu = 110\))	type-II-fout · \(\beta\)	terecht vangen — power · \(1-\beta\)

Waarom deze kant op — en: controleer altijd de rij- en kolomnamen

Elke rij is één wereld, dus één berg. De bovenste rij is de God-berg, de onderste de Allah-berg — precies de figuur hierboven. En elke rij telt op tot 1: in de God-rij \(1-\alpha\) en \(\alpha\) (samen alle steekproeven uit die wereld), in de Allah-rij \(\beta\) en power. Dáárom lees je \(\alpha\) en power gewoon dwárs over hun rij af — het zijn echte voorwaardelijke verdelingen, “gegeven de wereld”.

Belangrijke gewoonte: een 2×2 zegt op zichzelf niets — de cel “type-I-fout” betekent pas iets als je weet of de rij of de kolom “de werkelijkheid” is. Het college zet de waarheid vaak juist in de kolommen en de beslissing in de rijen: zelfde vier cellen, gespiegelde tabel. Lees dus altijd éérst de rij- en kolomnamen, dán pas de cel. Wie dat overslaat, verwisselt vroeg of laat \(\alpha\) en \(\beta\).

De power uitrekenen — zelfde fietsje, andere berg

Je hoeft hier niets nieuws te leren. Power is gewoon de richtings-engine uit thema 8 — \(p \to z \to x\) — alleen reken je nu in de Allah-berg in plaats van de God-berg. De vraag: hoe vaak valt \(\bar{x}\) bóven de grens \(\bar{x}_c\), als het echte centrum \(\mu_A = 110\) is? Standaardiseer die grens in de Allah-wereld:

\[z_{\text{power}} = \frac{\bar{x}_c - \mu_A}{\sigma_{\bar{x}}} = \frac{104{,}94 - 110}{3} = -1{,}687\]

\[\text{power} = P(Z > -1{,}687) \approx {,}954\]

Dus bij \(\mu_A = 110\) vangen we het effect in zo’n 95% van de steekproeven. De misser-kans \(\beta = 1 - {,}954 = {,}046\). Zelfde lineaaltje (\(\sigma_{\bar{x}}\)), zelfde beweging — andere berg.

Power-recept (drie stappen)

Bepaal de kritieke waarde \(\bar{x}_c\) in de God-wereld (\(\mu_0\)), precies zoals in thema 8.
Standaardiseer die grens in de Allah-wereld (\(\mu_A\)): \(z = \dfrac{\bar{x}_c - \mu_A}{\sigma_{\bar{x}}}\).
Power = de kans rechts van die \(z\) (of links, bij een linkszijdige toets).

Volg het college — van onze z naar hun T

Op de collegesheets staat power geschreven met \(T\) in plaats van \(\bar{X}\), en met \(t^*\) in plaats van \(\bar{x}_c\):

\[P(T > t^* \mid \mu = \mu_0 + c)\]

Dat is exact onze Allah-cel: “de kans om bóven de grens te vallen, als het echte gemiddelde \(\mu_0 + c\) is” — met \(c\) de effectgrootte (hier \(c = 10\)). De Allah-berg heet daar een niet-centrale \(t\)-verdeling: een \(t\)-berg die niet meer rond 0 ligt maar een eindje is opgeschoven.

Waarom dan \(z\) bij ons? Omdat het college de power-berekening zélf óók met de \(z\)-formule doet — de \(t\)-variant is onhandig en gaat met software. De \(t\) is enkel de eerlijke versie die meerekent dat je \(\sigma\) met \(s\) schat (thema 9); voor het plaatje en het gevoel maakt het niets uit. Op het tentamen hoef je power niet te berekenen — wél deze notatie te kunnen lézen: \(P(T > t^* \mid \mu = \mu_0 + c)\) is gewoon “het stukje Allah-berg voorbij de grens”.

Wat maakt power groter?

Vier knoppen — en in de figuur zie je telkens precies wat er met de twee bergen gebeurt:

Grotere \(n\) → kleinere \(\sigma_{\bar{x}}\) → de bergen worden smaller → minder overlap → meer power. (De duurste knop in onderzoek: meer deelnemers werven.)
Groter effect (\(\mu_A - \mu_0\)) → de bergen schuiven verder uit elkaar → meer power. (Vaak niet direct jouw keuze: de werkelijkheid bepaalt grotendeels hoe groot het effect is — al kun je ’m soms vergroten met een sterkere interventie of een betere meting.)
Grotere \(\alpha\) → \(\bar{x}_c\) schuift naar links → minder \(\beta\), meer power. (Maar je accepteert ook meer vals alarm — een afruil.)
Kleinere \(\sigma_x\) → kleinere \(\sigma_{\bar{x}}\) → smallere bergen → meer power. (Vaak buiten je controle; soms te krimpen door betere meting.)

Eén- of tweezijdig — power kost een tikje bij tweezijdig

Onze egel-toets was eenzijdig (\(H_1: \mu > 100\)): alle \(\alpha\) in de rechterstaart, grens \(\bar{x}_c = 104{,}94\). Toets je tweezijdig (\(H_1: \mu \neq 100\)), dan splits je \(\alpha\) over twee staarten (\(z^* = 1{,}96\)) en schuift de rechtergrens naar \(\bar{x}_c = 100 + 1{,}96 \cdot 3 = 105{,}88\). Diezelfde Allah-berg (\(\mu_A = 110\)) vang je dan:

\[z = \frac{105{,}88 - 110}{3} = -1{,}37 \quad\Rightarrow\quad \text{power} = P(Z > -1{,}37) \approx {,}915\]

Iets lager dan de eenzijdige \({,}954\). Logisch: bij tweezijdig reserveer je ook \(\alpha\) voor de línkerstaart — waar bij een echt-pienter-effect tóch niets zit. Die halve \(\alpha\) is “verspild”, en dat kost een beetje power. Eenzijdig toetsen heeft dus iets meer power — je stopt er meer informatie in (je zegt vooraf welke kant op). Maar alleen als je die richting eerlijk kunt onderbouwen (thema 8).

Speel zelf — Nerd Power

Schuif aan de drie knoppen en kijk wat er met de twee bergen, \(\alpha\), \(\beta\) en de power gebeurt. Vast: \(\mu_0 = 100\), \(\sigma_x = 15\). Boven de getallenlijn de God-wereld met het oranje \(\alpha\)-staartje; eronder de Allah-wereld met het groene power-vlak en het paarse \(\beta\)-vlak. De gestreepte lijn is de kritieke waarde \(\bar{x}_c\), in de God-wereld bepaald en doorgetrokken naar de Allah-wereld. (Werkt in de online/HTML-versie van het werkboek.)

De drie knoppen: N = steekproefgrootte · α = significantieniveau (rechtszijdig) · μₐ = het echte gemiddelde als \(H_1\) klopt.

viewof N = Inputs.range([4, 100], {value: 25, step: 1, label: "N", width: 320})
viewof alpha_app = Inputs.radio([0.10, 0.05, 0.01], {value: 0.05, label: "α", format: x => x.toFixed(2)})
viewof muA_app = Inputs.range([101, 130], {value: 110, step: 1, label: "μₐ", width: 320})

mu0_app = 100
sigma_app = 15
se_app = sigma_app / Math.sqrt(N)
zStar = new Map([[0.10, 1.2816], [0.05, 1.6449], [0.01, 2.3263]]).get(alpha_app)
xc_app = mu0_app + zStar * se_app
power_app = 1 - Phi((xc_app - muA_app) / se_app)
beta_app = 1 - power_app
dEff = (muA_app - mu0_app) / sigma_app

function dens(x, mu, s) { return Math.exp(-0.5 * ((x - mu) / s) ** 2) / (s * Math.sqrt(2 * Math.PI)); }
function Phi(z) {
  const t = 1 / (1 + 0.2316419 * Math.abs(z));
  const d = 0.3989423 * Math.exp(-z * z / 2);
  const p = d * t * (0.3193815 + t * (-0.3565638 + t * (1.781478 + t * (-1.821256 + t * 1.330274))));
  return z > 0 ? 1 - p : p;
}

peak = 1 / (se_app * Math.sqrt(2 * Math.PI))
gap = peak * 0.46
xdom = [72, 138]
ydom = [-gap - peak * 1.30, peak * 1.32]
xgrid = d3.range(xdom[0], xdom[1], (xdom[1] - xdom[0]) / 400)
curve0 = xgrid.map(x => ({ x, y: dens(x, mu0_app, se_app) }))
curve1 = xgrid.map(x => ({ x, ylo: -gap - dens(x, muA_app, se_app), yhi: -gap }))

{
  const fig = Plot.plot({
    width: 920, height: 470, marginTop: 24, marginBottom: 46, marginLeft: 20, marginRight: 20,
    x: { domain: xdom, label: "steekproefgemiddelde x̄ →", labelAnchor: "right" },
    y: { axis: null, domain: ydom },
    marks: [
      // God-wereld (boven de lijn): alpha
      Plot.areaY(curve0.filter(d => d.x >= xc_app), { x: "x", y: "y", fill: "#c07a2b", fillOpacity: 0.55 }),
      Plot.lineY(curve0, { x: "x", y: "y", stroke: "#33425a", strokeWidth: 2.5 }),
      // Allah-wereld (onder de lijn): power + beta
      Plot.areaY(curve1.filter(d => d.x >= xc_app), { x: "x", y1: "ylo", y2: "yhi", fill: "#3d7a5a", fillOpacity: 0.50 }),
      Plot.areaY(curve1.filter(d => d.x < xc_app), { x: "x", y1: "ylo", y2: "yhi", fill: "#6a5a9a", fillOpacity: 0.45 }),
      Plot.lineY(curve1, { x: "x", y: "ylo", stroke: "#33425a", strokeWidth: 2.5 }),
      // getallenlijn + kritieke waarde
      Plot.ruleY([0], { stroke: "#333", strokeWidth: 1.5 }),
      Plot.ruleX([xc_app], { stroke: "#555", strokeWidth: 1.5, strokeDasharray: "5 4" }),
      Plot.dot([{ x: mu0_app, y: 0 }, { x: muA_app, y: 0 }], { x: "x", y: "y", r: 3, fill: "#333" }),
      // posities onder de lijn (x̄_c apart toegevoegd met echte subscript, zie hieronder)
      Plot.text([{ x: mu0_app, y: -gap * 0.24, t: `μ₀ = ${mu0_app}` }], { x: "x", y: "y", text: "t", fill: "#33425a", fontWeight: 700, fontSize: 12 }),
      Plot.text([{ x: muA_app, y: -gap * 0.54, t: `μₐ = ${muA_app}` }], { x: "x", y: "y", text: "t", fill: "#3d7a5a", fontWeight: 700, fontSize: 12 }),
      // wereld-labels in de bergen
      Plot.text([{ x: mu0_app, y: peak * 1.12, t: "God-wereld (H₀)" }], { x: "x", y: "y", text: "t", fill: "#33425a", fontWeight: 700, fontSize: 14 }),
      Plot.text([{ x: muA_app, y: -gap - peak * 1.14, t: "Allah-wereld (H₁)" }], { x: "x", y: "y", text: "t", fill: "#3d7a5a", fontWeight: 700, fontSize: 14 }),
      Plot.arrow([{ x1: Math.min(xc_app + 2.8 * se_app, 132), y1: peak * 0.66, x2: xc_app + 0.5 * se_app, y2: peak * 0.05 }], { x1: "x1", y1: "y1", x2: "x2", y2: "y2", stroke: "#c07a2b", strokeWidth: 1.2 }),
      Plot.text([{ x: Math.min(xc_app + 2.8 * se_app, 132), y: peak * 0.76, t: `α = ${alpha_app.toFixed(2)}` }], { x: "x", y: "y", text: "t", fill: "#c07a2b", fontWeight: 700, fontSize: 13 }),
      Plot.arrow([{ x1: Math.min(muA_app + 3.0 * se_app, 134), y1: -gap - peak * 0.88, x2: muA_app, y2: -gap - peak * 0.50 }], { x1: "x1", y1: "y1", x2: "x2", y2: "y2", stroke: "#2c5a44", strokeWidth: 1.2 }),
      Plot.text([{ x: Math.min(muA_app + 3.0 * se_app, 134), y: -gap - peak * 0.98, t: `power = ${(power_app * 100).toFixed(1)}%` }], { x: "x", y: "y", text: "t", fill: "#2c5a44", fontWeight: 700, fontSize: 14 }),
      Plot.arrow([{ x1: Math.max(xc_app - 3.0 * se_app, 76), y1: -gap - peak * 0.88, x2: xc_app - 1.0 * se_app, y2: -gap - peak * 0.12 }], { x1: "x1", y1: "y1", x2: "x2", y2: "y2", stroke: "#6a5a9a", strokeWidth: 1.2 }),
      Plot.text([{ x: Math.max(xc_app - 3.0 * se_app, 76), y: -gap - peak * 0.98, t: `β = ${(beta_app * 100).toFixed(1)}%` }], { x: "x", y: "y", text: "t", fill: "#6a5a9a", fontWeight: 700, fontSize: 13 })
    ]
  });
  // x̄_c-label met echte subscript-c via een SVG <tspan> (Unicode kent geen subscript-c).
  // Pixelpositie deterministisch uit de vaste domeinen — geen afhankelijkheid van de Plot-scale-API.
  const svg = fig.tagName.toLowerCase() === "svg" ? fig : fig.querySelector("svg");
  const plotW = 920 - 20 - 20, plotH = 470 - 24 - 46;
  const px = 20 + (xc_app - xdom[0]) / (xdom[1] - xdom[0]) * plotW;
  const py = 24 + (ydom[1] - (-gap * 0.84)) / (ydom[1] - ydom[0]) * plotH;
  const NS = "http://www.w3.org/2000/svg";
  const startX = px - 31;                 // begin van het label (≈ gecentreerd op de streeplijn)
  const t = document.createElementNS(NS, "text");
  t.setAttribute("x", startX); t.setAttribute("y", py);
  t.setAttribute("text-anchor", "start");
  t.setAttribute("font-size", "12"); t.setAttribute("font-weight", "700"); t.setAttribute("fill", "#555");
  t.appendChild(document.createTextNode("x"));
  const sub = document.createElementNS(NS, "tspan");
  sub.setAttribute("baseline-shift", "sub"); sub.setAttribute("font-size", "9");
  sub.textContent = "c";
  t.appendChild(sub);
  t.appendChild(document.createTextNode(` = ${xc_app.toFixed(2)}`));
  svg.appendChild(t);
  // macron (gemiddelde-streepje) als losse lijn boven de x — exact plaatsbaar; kleiner getal = meer naar links
  const barL = startX - 0.3, barR = startX + 5.7;
  const bar = document.createElementNS(NS, "line");
  bar.setAttribute("x1", barL); bar.setAttribute("x2", barR);
  bar.setAttribute("y1", py - 9); bar.setAttribute("y2", py - 9);
  bar.setAttribute("stroke", "#555"); bar.setAttribute("stroke-width", "1.4");
  svg.appendChild(bar);
  return fig;
}

html`<b>standaardfout σ<sub>x̄</sub></b> = ${se_app.toFixed(2)} &nbsp;·&nbsp; <b>kritieke waarde x̄<sub>c</sub></b> = ${xc_app.toFixed(2)} &nbsp;·&nbsp; <b>power (1 − β)</b> = ${(power_app * 100).toFixed(1)}% &nbsp;·&nbsp; <b>β</b> = ${(beta_app * 100).toFixed(1)}%`

Tip

Probeer: N groter → bergen smaller, \(\bar{x}_c\) naar links, power omhoog. α kleiner (.05 → .01) → \(\bar{x}_c\) naar rechts, power omlaag. \(\mu_A\) dichter bij 100 → de Allah-berg schuift onder de grens, power omlaag. Precies de vier knoppen hierboven, nu om te voelen.

Een lage-power voorbeeld

Stel je hebt maar \(n = 9\) egels in plaats van 25. Dan \(\sigma_{\bar{x}} = 15/\sqrt{9} = 5\) en \(\bar{x}_c = 100 + 1{,}645 \cdot 5 = 108{,}23\). Power bij \(\mu_A = 110\):

\[z = \dfrac{108{,}23 - 110}{5} = -0{,}354 \quad\Rightarrow\quad \text{power} = P(Z > -0{,}354) \approx {,}638\]

Slechts 64% — je mist het effect in ruim 1 op de 3 onderzoeken. Dat is de prijs van een kleine steekproef. (En een klein effect maakt het nóg erger.) Let op wat dit betekent: een níét-significant resultaat is hier nauwelijks geruststellend — misschien was je toets gewoon te blind om het effect te zien.

Oefenen

T10.1 — Power bij ander effect

Bij de egels (\(\sigma_x = 15\), \(n = 25\), \(\alpha = .05\), eenzijdig, \(\bar{x}_c = 104{,}94\)) — wat is de power als de echte \(\mu_A\) slechts 105 is (klein effect)? En als \(\mu_A = 115\) (groot effect)?

Antwoord T10.1

\(\mu_A = 105\): \(z = \dfrac{104{,}94 - 105}{3} = -0{,}02 \Rightarrow\) power \(= P(Z > -0{,}02) \approx {,}508\) — krap boven 50%, een muntje opgooien is bijna net zo goed.

\(\mu_A = 115\): \(z = \dfrac{104{,}94 - 115}{3} = -3{,}35 \Rightarrow\) power \(\approx {,}9996\) — vrijwel zeker vangen.

Moraal: power hangt sterk af van het ware effect. Bij kleine effecten zit je vaak rond de 50% en zie je waarheid en toeval bijna niet meer uit elkaar — dus rapporteer ook nul-resultaten met je power erbij.

T10.2 — n vergroten

Bij \(\mu_A = 105\) (klein effect) en \(\alpha = .05\) eenzijdig: hoe groot moet \(n\) ongeveer zijn voor power \(\ge {,}80\)? (Trucje: power = .80 hoort bij \(z = -0{,}842\) in de power-formule.)

Antwoord T10.2

We willen \(z = \dfrac{\bar{x}_c - \mu_A}{\sigma_{\bar{x}}} = -0{,}842\), met \(\bar{x}_c = \mu_0 + 1{,}645 \cdot \sigma_{\bar{x}}\). Vul in: \[\dfrac{\mu_0 + 1{,}645 \cdot \sigma_{\bar{x}} - \mu_A}{\sigma_{\bar{x}}} = -0{,}842\] \[\dfrac{100 - 105}{\sigma_{\bar{x}}} + 1{,}645 = -0{,}842 \;\Rightarrow\; \dfrac{-5}{\sigma_{\bar{x}}} = -2{,}487 \;\Rightarrow\; \sigma_{\bar{x}} = 2{,}01\] \[\sigma_{\bar{x}} = \dfrac{\sigma_x}{\sqrt{n}} \;\Rightarrow\; \sqrt{n} = \dfrac{15}{2{,}01} = 7{,}46 \;\Rightarrow\; n \approx 56\] Voor een klein effect van 5 punten heb je dus zo’n 56 egels nodig voor 80% power — ruim het dubbele van onze 25.

T10.3 — Lees de college-notatie

Op een collegesheet staat, voor een toets met kritieke grens \(t^*\):

\(P(T > t^* \mid \mu = \mu_0)\) — welke van de vier (\(\alpha\), \(\beta\), power, \(1-\alpha\)) is dit, en in welke wereld?
\(P(T \le t^* \mid \mu = \mu_0 + c)\) — en deze?
In welke wereld “maak” je de grens \(t^*\), en in welke “meet” je de power?

Antwoord T10.3

(a) \(\mu = \mu_0\) is de God-wereld; “bóven de grens” in die wereld is vals alarm → dit is \(\alpha\) (het significantieniveau).

(b) \(\mu = \mu_0 + c\) is de Allah-wereld; “ónder de grens” daar is een gemist effect → dit is \(\beta\) (de type-II-fout). En power \(= 1 - \beta\).

(c) Je maakt de grens \(t^*\) in de God-wereld (daar bepaalt \(\alpha\) hem), en je meet de power in de Allah-wereld — het stuk berg voorbij diezelfde grens.

T10.4 — Welke fout maakt ze?

Een onderzoeker geeft egels een pienterheids-training. In werkelijkheid wérkt de training (de egels zijn echt pienterder geworden), maar haar toets komt niet-significant uit en ze concludeert: “geen effect.”

Welke fout maakt ze — type I of type II?
Komt dat doordat ze ergens een rekenfout heeft gemaakt?

Antwoord T10.4

(a) Een type-II-fout (fout-negatief). Er is écht een effect — de Allah-wereld is waar — maar ze verwerpt \(H_0\) niet, dus het effect glipt door de mazen. In de 2×2 uit §“De beslis-tabel: lees eerst de namen” is dat de cel linksonder: \(H_1\) waar × niet verwerpen \(= \beta\).

(b) Nee, geen rekenfout. Dit hoort bij beslissen onder onzekerheid: bij weinig power (kleine \(n\), klein effect) valt \(\bar{x}\) vaak vóór de kritieke grens \(\bar{x}_c\), puur door toeval. Precies de halfblinde toets uit “Een lage-power voorbeeld” — een niet-significant resultaat zegt dan eerder iets over de blinde toets dan over de wereld.

De twee fouten in één regel (de volledige 2×2 staat in §“De beslis-tabel”, werkelijkheid op de rijen, beslissing op de kolommen):

type-I-fout = vals alarm: \(H_0\) waar, tóch verworpen — brandalarm zonder brand (\(\alpha\)).
type-II-fout = gemiste brand: \(H_1\) waar, niet verworpen — brand, maar geen alarm (\(\beta\)). Dít is wat de onderzoeker overkomt.

Wat blijft liggen

Wij rekenen met bekende \(\sigma\). In de praktijk doe je vooraf een power-analyse met een geschatte effectgrootte (Cohens \(d\)) en gebruik je software (G*Power, R-pakket pwr). De gedachte — twee werelden, een grens ertussen, vier kansen — blijft exact hetzelfde.

Tot slot

Tot nu toe vroeg je alleen: verwerp ik? Power draait dat om naar de vraag die er minstens zo toe doet — als er écht een effect was, had ik het dan gezien? Een toets met negen egels is gewoon halfblind: vindt hij niks, dan zegt dat eerder iets over die blinde toets dan over de wereld. Dát is onderscheidingsvermogen: niet of je toevallig iets vond, maar hoe scherp je toets eigenlijk kón kijken. Vond je niks? Kijk dan eerst even hoe scherp die bril was vóór je opgelucht ademhaalt. Absence of evidence is not evidence of absence — en in die twee bergen, met die ene grens ertussen, zie je precies waaróm.

Werkboek OZP 1 · Thema 10, versie 0.2 (handrekenen & theorie). Doorlopend voorbeeld: de egels.

Terug naar boven