Thema 6 · Regressie

Deel 3 — Samenhang · DATA = FIT + RESIDU

Van dubbele pijl naar enkele pijl

In thema 5 vonden we een verband tussen leeftijd en lengte van de egels — een dubbele pijl, zonder richting. Nu zetten we er een enkele pijl op: we gaan lengte voorspellen uit leeftijd. Dat is regressie.

Het woord komt van re (terug) + gressie (gaan): we brengen een hele puntenwolk terug tot zijn essentie — een lijntje. De variatie in lengte verklaren we zo veel mogelijk vanuit de variatie in leeftijd.

TipBegin met de Y

Mijn vader vertelde verhalen met eindeloze bijzinnen vóór hij bij de clou kwam — pas op het eind wist je waar het heen ging. Doe dat in de statistiek niet. Begin met de afhankelijke variabele: wat wil je verklaren? De lengte. En pas dán: waarmee? De leeftijd. “Wij willen lengte voorspellen aan de hand van leeftijd” — meteen helder.

Het spelletje: DATA = FIT + RESIDU

Er komt een egel binnen. Wat is je beste gok voor zijn lengte? Zonder verdere info: het grote gemiddelde, 20 cm (Deel 1). Maar nu verklap ik je zijn leeftijd — dan kun je het beter doen, via de lijn.

Neem de langste egel (leeftijd 5, lengte 26). We splitsen zijn afstand tot het grote gemiddelde in twee stukken:

\[\underbrace{(y - \bar{y})}_{\text{totale gok-fout}} \;=\; \underbrace{(\hat{y} - \bar{y})}_{\text{wat de lijn verklaart}} \;+\; \underbrace{(y - \hat{y})}_{\text{wat overblijft (residu)}}\]

Oftewel: DATA = FIT + RESIDU. Voor onze egel (we vinden zo \(\hat{y} = 21\)): de totale gok-fout is \(26 - 20 = 6\); daarvan verklaart de lijn \(21 - 20 = 1\); en er blijft \(26 - 21 = 5\) over. En inderdaad: \(6 = 1 + 5\).

OpmerkingDrie stukjes (straks drie kleuren)

Op een spreidingsdiagram teken je deze drie als streepjes: het totale streepje (naar het grote gemiddelde), het stuk dat de lijn ophoest, en het restje van het punt tot de lijn. In de figuur straks geven we ze elk een kleur (blauw = totaal, groen = verklaard, oranje = residu). Wie dit spelletje snapt, kan straks regressie én variantieanalyse bijna zonder formules — het is steeds deze opsplitsing.

De regressielijn

De lijn is \(\hat{y} = b_0 + b_1 x\), met \(b_0\) het intercept (startwaarde) en \(b_1\) de helling (hoeveel \(y\) stijgt per stap in \(x\)). Begin met de helling:

\[b_1 = r_{xy}\cdot\frac{s_y}{s_x} = \frac{s_{xy}}{s_x^2} = \frac{2{,}5}{2{,}5} = 1\]

(Let op: \(s_y\) bóven, \(s_x\) onder — een klassieke tentamenval.) Dan het intercept:

\[b_0 = \bar{y} - b_1\,\bar{x} = 20 - 1\cdot 4 = 16\]

Dus: \(\hat{y} = 16 + 1\,x\). Per maand ouder wordt een egel gemiddeld 1 cm langer, en de lijn start (rekenkundig) op 16.

Figuur 1: De regressielijn ŷ = 16 + leeftijd (grijze lijn) door de wolk, met de grijze stippellijn op het grote gemiddelde (lengte 20). Voor de langste egel (leeftijd 5, lengte 26) is de totale afwijking opgesplitst: blauw = totaal (6), groen = wat de lijn verklaart (FIT = 1), oranje = wat overblijft (residu = 5). Bij dit matige verband is het residu veel groter dan de FIT.

Voorspellen en residuen

Vul een leeftijd in en je hebt een voorspelling; trek die van de echte lengte af en je hebt het residu \(e = y - \hat{y}\) — wat het model mist.

\(i\) leeftijd \(x_i\) lengte \(y_i\) voorspeld \(\hat{y}_i = 16 + x_i\) residu \(e_i = y_i - \hat{y}_i\)
1 2 14 18 −4
4 3 22 19 +3
5 4 20 20 0
7 5 26 21 +5
8 6 18 22 −4

Een positief residu = de egel is langer dan de lijn voorspelt (punt boven de lijn); negatief = eronder. Egel 4 (jong maar lang) en egel 8 (oud maar kort) — onze dwarsliggers uit thema 5 — hebben de grootste residuen tegen de trend in. (Verwar over- en onderschatting niet: kijk altijd wat ten opzichte van wat — de echte waarde ten opzichte van de voorspelling.)

Hoe goed past het model?

TipSpijkerbroek of maatpak?

Een model is een vereenvoudiging van de werkelijkheid — net als een kledingmaat. Een spijkerbroek heeft twee parameters (lengte, wijdte, “28/32”) en past redelijk. Een maatpak heeft veel meer parameters en past beter. Zo ook hier: het allersimpelste model is het grote gemiddelde (één parameter); de regressielijn voegt er één toe (de helling) en past beter. Hoe complexer het model, hoe beter het past — of dat ook significant beter is, is een andere vraag (voor later).

De verklaarde variantie is \(r_{xy}^2 \approx 0{,}18\) (uit thema 5): de lijn verklaart maar zo’n 18% van de variatie in lengte, 82% blijft in de residuen zitten. Dat zag je in de figuur: voor onze langste egel was de FIT (1) klein en het residu (5) groot. Een matig verband geeft een lijn die iets helpt, maar lang niet alles vangt — en dat is eerlijk.

Pas op

  • Niet doortrekken buiten bereik (extrapolatie). Onze egels zijn 2 tot 6 maanden oud. Worden ze bij 60 maanden 76 cm? Natuurlijk niet — de lijn geldt alleen binnen het gemeten gebied.
  • Causaliteit. Net als bij correlatie: de richting (lengte uit leeftijd) is een gekozen richting, geen bewijs van oorzaak. We hadden ook leeftijd uit lengte kunnen voorspellen.
  • Negatieve \(r\) → negatieve helling. Een consistentiecheck: het teken van \(b_1\) volgt het teken van \(r_{xy}\).

Gestandaardiseerde regressie

Net als \(b_1\) “ruw” is (afhankelijk van eenheden), kun je ook met z-scores werken. Dan voorspel je \(z_y\) uit \(z_x\), en het intercept valt weg (het wordt 0). Het gestandaardiseerde gewicht is bij enkelvoudige regressie precies de correlatie:

\[\hat{z}_y = r_{xy}\cdot z_x = 0{,}42\, z_x\]

“Ga je 1 standaardafwijking omhoog op leeftijd, dan ga je gemiddeld 0,42 standaardafwijking omhoog op lengte.” Ruw is ruk; gestandaardiseerd is vergelijkbaar.

Oefenen

OpmerkingT6.1 — Voorspellen en residu

Met \(\hat{y} = 16 + x\): (a) wat is de voorspelde lengte van een egel van 5 maanden? (b) Een egel van 3 maanden blijkt 20 cm. Wat is zijn residu, en zit hij boven of onder de lijn?

(a) \(\hat{y} = 16 + 5 = 21\) cm.

(b) \(\hat{y} = 16 + 3 = 19\); residu \(e = 20 - 19 = +1\). Positief → de egel is langer dan voorspeld → hij ligt boven de lijn.

OpmerkingT6.2 — DATA = FIT + RESIDU

Voor de egel van 3 maanden uit T6.1 (lengte 20, \(\hat{y}=19\)): splits zijn afstand tot het grote gemiddelde (20) in het verklaarde deel en het residu. Klopt DATA = FIT + RESIDU?

Totale afstand tot \(\bar{y}\): \(20 - 20 = 0\). Verklaard door de lijn: \(\hat{y} - \bar{y} = 19 - 20 = -1\). Residu: \(y - \hat{y} = 20 - 19 = +1\). Check: \(0 = -1 + 1\). Klopt — de lijn trekt ’m iets naar beneden (jong → korter verwacht), het residu duwt ’m weer terug omhoog.

Wat blijft liggen

Hier stopt het voor nu. In een vervolgcursus voeg je méér voorspellers toe (meervoudige regressie) en splits je de hele berg variatie netjes op in sum of squares — model versus error. Dat is precies dit DATA = FIT + RESIDU-spelletje, maar dan voor de hele dataset tegelijk.

Tot slot

Regressie brengt de wolk terug tot een lijn die voorspelt. Onthoud DATA = FIT + RESIDU: elke waarneming is wat het model verklaart plus wat het mist. Datzelfde spelletje draagt straks de zwaardere modellen — maar de gedachte blijft deze.


Werkboek OZP 1 · Thema 6, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven