Thema 5 · Correlatie
Deel 3 — Samenhang · bewegen ze samen?
Twee variabelen tegelijk
Tot nu toe keken we naar één variabele per keer. Nu twee. De egels worden ouder én langer — en de vraag is: bewegen die twee samen? Als een egel ouder is, is hij dan ook langer? Dat is samenhang (correlatie, verband, associatie — allemaal hetzelfde, zie Deel 0).
Hier is de wolk — negen egels, elk een puntje:
Kijk er even naar vóór je verder leest: zie je een verband? En valt je iets op — zit er een egel tussen die juist tegen de trend in lijkt te gaan?
Het gevoel: vier kwadranten
Teken een verticale lijn op \(\bar{x} = 4\) en een horizontale op \(\bar{y} = 20\). Dat hakt de wolk in vier kwadranten. Loop nu elke egel langs en vraag twee dingen: scoort hij hoog of laag op leeftijd, en hoog of laag op lengte?
- Zelfde kant op (hoog-hoog óf laag-laag) → draagt bij aan een positief verband.
- Tegengesteld (hoog-laag óf laag-hoog) → draagt bij aan een negatief verband.
- Precies op een gemiddelde (geen beweging op leeftijd óf op lengte) → draagt niks bij.
De meeste egels gaan mee met de trend: jong-en-kort linksonder, oud-en-lang rechtsboven (allebei positief). Maar let op de dwarsliggers: een jonge egel die tóch al lang is (linksboven) en een oude egel die kort gebleven is (rechtsonder) — die trekken juist tegen het verband in (negatief). En een paar egels liggen precies op de lengte-gemiddelde lijn (lengte 20): die scoren wél gemiddeld op lengte, maar niet op leeftijd. Hun product is nul; ze doen niet mee.
Covariantie: samen afwijken
We vangen dat in een getal. Per egel vermenigvuldigen we zijn afwijking op \(x\) met zijn afwijking op \(y\) — een kruisproduct. Min × min = plus, dus laat je niet vangen door min-min: dat is gewoon plus. Aan het teken van het product zie je of een egel aan een positief of negatief verband bijdraagt — en een product van nul betekent: doet niet mee.
| \(i\) | \(x_i\) | \(y_i\) | \(x_i-\bar{x}\) | \(y_i-\bar{y}\) | product |
|---|---|---|---|---|---|
| 1 | 2 | 14 | −2 | −6 | 12 |
| 2 | 2 | 20 | −2 | 0 | 0 |
| 3 | 3 | 16 | −1 | −4 | 4 |
| 4 | 3 | 22 | −1 | +2 | −2 |
| 5 | 4 | 20 | 0 | 0 | 0 |
| 6 | 5 | 24 | +1 | +4 | 4 |
| 7 | 5 | 26 | +1 | +6 | 6 |
| 8 | 6 | 18 | +2 | −2 | −4 |
| 9 | 6 | 20 | +2 | 0 | 0 |
| som | 20 |
De som van de producten is 20. Deel door \(n-1\) en je hebt de covariantie:
\[s_{xy} = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{n-1} = \frac{20}{8} = 2{,}5\]
Merk op: de twee dwarsliggers (egels 4 en 8, met een negatief product) drukken de som omlaag. Zonder hen zou het verband sterker ogen — maar zo eerlijk is de natuur niet.
Ruw is ruk → de Pearson-correlatie
Die covariantie van 2,5 — is dat veel? Ruw is ruk. Hij hangt af van de eenheden (maanden, centimeters), dus je kunt ’m niet interpreteren; alleen het téken (positief) zegt iets. We standaardiseren naar de Pearson-correlatie \(r_{xy}\), die altijd netjes tussen −1 en +1 loopt:
\[r_{xy} = \frac{s_{xy}}{s_x \cdot s_y} = \frac{2{,}5}{\sqrt{2{,}5}\cdot\sqrt{14}} = \frac{2{,}5}{5{,}92} \approx 0{,}42\]
(Hetzelfde als het gemiddelde product van de z-scores, \(r_{xy} = \tfrac{1}{n-1}\sum z_x z_y\) — standaardiseren maakt het vergelijkbaar.) Een \(r\) van 0,42: een matig positief verband (tegen de 0,5 aan). Vuistregel uit het college: vanaf ±0,2 zwak, ±0,5 matig, ±0,8 sterk. Egels worden dus langer met de leeftijd, maar er is flink wat ruis — precies wat je in de wolk al zag.
Pas op
- Lineariteit. \(r\) meet alleen rechte samenhang. Je kunt door elke wolk een rechte lijn leggen, maar is dat terecht? Een kromme “hema-worst” verstop je niet in een \(r\) — teken altijd eerst de scatterplot.
- Uitbijters kunnen \(r\) flink optillen of platdrukken; één extreem punt doet veel.
- Schaal maakt niet uit. Meet je lengte in cm of in meters, \(r\) blijft gelijk — hij is gestandaardiseerd.
- Correlatie ≠ causatie. De egels worden langer met de leeftijd, niet noodzakelijk vanwege de leeftijd — ze groeien door voedsel, zorg en een beetje liefde. Tijd is geen oorzaak; het is een meeloper. Pas dus op met het woord “invloed”: dat is iets causaals, en daar gaat een correlatie niet over.
Oefenen
Tot slot
Correlatie vangt of twee variabelen samen bewegen — het gevoel zit in de vier kwadranten, het getal in de covariantie, en de interpreteerbare maat is de gestandaardiseerde \(r\). Maar een verband is een dubbele pijl: het zegt niks over richting of voorspelling. In het volgende thema zetten we er een enkele pijl op — dan voorspellen we lengte uit leeftijd. Dat is regressie.
Werkboek OZP 1 · Thema 5, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.