Thema 5 · Correlatie

Deel 3 — Samenhang · bewegen ze samen?

Twee variabelen tegelijk

Tot nu toe keken we naar één variabele per keer. Nu twee. De egels worden ouder én langer — en de vraag is: bewegen die twee samen? Als een egel ouder is, is hij dan ook langer? Dat is samenhang (correlatie, verband, associatie — allemaal hetzelfde, zie Deel 0).

OpmerkingDe egels — nu met leeftijd erbij

Bij elke egel meten we nu twee dingen: leeftijd \(x\) (maanden) en lengte \(y\) (cm).

\(i\) leeftijd \(x_i\) lengte \(y_i\)
1 2 14
2 2 20
3 3 16
4 3 22
5 4 20
6 5 24
7 5 26
8 6 18
9 6 20

De lengtes zijn dezelfde negen als in Deel 1: \(\bar{y} = 20\), \(s_y = \sqrt{14} \approx 3{,}74\). Voor de leeftijd: \(\bar{x} = 4\), en (reken na) \(s_x = \sqrt{2{,}5} \approx 1{,}58\).

Hier is de wolk — negen egels, elk een puntje:

Figuur 1: Spreidingsdiagram van de negen egels: leeftijd (maanden) op de horizontale as, lengte (cm) op de verticale as. Elke egel is één punt. Globaal lopen oudere egels iets hoger (langer), maar er zit duidelijk ruis op de wolk.

Kijk er even naar vóór je verder leest: zie je een verband? En valt je iets op — zit er een egel tussen die juist tegen de trend in lijkt te gaan?

Het gevoel: vier kwadranten

Teken een verticale lijn op \(\bar{x} = 4\) en een horizontale op \(\bar{y} = 20\). Dat hakt de wolk in vier kwadranten. Loop nu elke egel langs en vraag twee dingen: scoort hij hoog of laag op leeftijd, en hoog of laag op lengte?

  • Zelfde kant op (hoog-hoog óf laag-laag) → draagt bij aan een positief verband.
  • Tegengesteld (hoog-laag óf laag-hoog) → draagt bij aan een negatief verband.
  • Precies op een gemiddelde (geen beweging op leeftijd óf op lengte) → draagt niks bij.

De meeste egels gaan mee met de trend: jong-en-kort linksonder, oud-en-lang rechtsboven (allebei positief). Maar let op de dwarsliggers: een jonge egel die tóch al lang is (linksboven) en een oude egel die kort gebleven is (rechtsonder) — die trekken juist tegen het verband in (negatief). En een paar egels liggen precies op de lengte-gemiddelde lijn (lengte 20): die scoren wél gemiddeld op lengte, maar niet op leeftijd. Hun product is nul; ze doen niet mee.

Figuur 2: Dezelfde egels, nu met de gemiddelde-lijnen (stippellijnen op leeftijd 4 en lengte 20) die de wolk in vier kwadranten delen. Blauw = positief product (gaat mee met het verband), oranje = negatief product (dwarsligger), grijs = ligt op een gemiddelde en draagt niets bij. Het teken in elke hoek is het teken van het product van de twee afwijkingen.

Covariantie: samen afwijken

We vangen dat in een getal. Per egel vermenigvuldigen we zijn afwijking op \(x\) met zijn afwijking op \(y\) — een kruisproduct. Min × min = plus, dus laat je niet vangen door min-min: dat is gewoon plus. Aan het teken van het product zie je of een egel aan een positief of negatief verband bijdraagt — en een product van nul betekent: doet niet mee.

\(i\) \(x_i\) \(y_i\) \(x_i-\bar{x}\) \(y_i-\bar{y}\) product
1 2 14 −2 −6 12
2 2 20 −2 0 0
3 3 16 −1 −4 4
4 3 22 −1 +2 −2
5 4 20 0 0 0
6 5 24 +1 +4 4
7 5 26 +1 +6 6
8 6 18 +2 −2 −4
9 6 20 +2 0 0
som 20

De som van de producten is 20. Deel door \(n-1\) en je hebt de covariantie:

\[s_{xy} = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{n-1} = \frac{20}{8} = 2{,}5\]

Merk op: de twee dwarsliggers (egels 4 en 8, met een negatief product) drukken de som omlaag. Zonder hen zou het verband sterker ogen — maar zo eerlijk is de natuur niet.

Ruw is ruk → de Pearson-correlatie

Die covariantie van 2,5 — is dat veel? Ruw is ruk. Hij hangt af van de eenheden (maanden, centimeters), dus je kunt ’m niet interpreteren; alleen het téken (positief) zegt iets. We standaardiseren naar de Pearson-correlatie \(r_{xy}\), die altijd netjes tussen −1 en +1 loopt:

\[r_{xy} = \frac{s_{xy}}{s_x \cdot s_y} = \frac{2{,}5}{\sqrt{2{,}5}\cdot\sqrt{14}} = \frac{2{,}5}{5{,}92} \approx 0{,}42\]

(Hetzelfde als het gemiddelde product van de z-scores, \(r_{xy} = \tfrac{1}{n-1}\sum z_x z_y\) — standaardiseren maakt het vergelijkbaar.) Een \(r\) van 0,42: een matig positief verband (tegen de 0,5 aan). Vuistregel uit het college: vanaf ±0,2 zwak, ±0,5 matig, ±0,8 sterk. Egels worden dus langer met de leeftijd, maar er is flink wat ruis — precies wat je in de wolk al zag.

TipVerklaarde variantie: r²

Kwadrateer je \(r\), dan krijg je het aandeel gedeelde variatie: \(r_{xy}^2 = 0{,}42^2 \approx 0{,}18\). Oftewel: zo’n 18% van de variatie in lengte hangt samen met de variatie in leeftijd (en dat mag je omdraaien). De overige 82% is (nog) niet verklaard — er speelt veel meer mee dan leeftijd alleen.

Pas op

  • Lineariteit. \(r\) meet alleen rechte samenhang. Je kunt door elke wolk een rechte lijn leggen, maar is dat terecht? Een kromme “hema-worst” verstop je niet in een \(r\) — teken altijd eerst de scatterplot.
  • Uitbijters kunnen \(r\) flink optillen of platdrukken; één extreem punt doet veel.
  • Schaal maakt niet uit. Meet je lengte in cm of in meters, \(r\) blijft gelijk — hij is gestandaardiseerd.
  • Correlatie ≠ causatie. De egels worden langer met de leeftijd, niet noodzakelijk vanwege de leeftijd — ze groeien door voedsel, zorg en een beetje liefde. Tijd is geen oorzaak; het is een meeloper. Pas dus op met het woord “invloed”: dat is iets causaals, en daar gaat een correlatie niet over.
TipGevoel ontwikkelen

Wil je leren hoe een wolk en een \(r\) bij elkaar horen: speel een paar potjes guess the correlation (online te vinden). Een strakke, smalle wolk is makkelijk te raden; een ronde wolk (\(r \approx 0\)) is lastig. Goede oefening vóór je gaat rekenen.

Oefenen

OpmerkingT5.1 — Wie draagt bij, wie werkt tegen?

Kijk naar de productentabel hierboven. (a) Welke egel draagt het meest bij aan het positieve verband? (b) Twee egels hebben een negatief product — welke, en wat is er bijzonder aan die egels? (c) Drie egels dragen niks bij — waarom niet? (d) Wat zou er met \(r\) gebeuren als álle egels precies even oud (leeftijd 4) waren?

(a) Egel 1 (leeftijd 2, lengte 14): de jongste én de kortste, dus van beide gemiddelden ver de “goede” kant op → product 12.

(b) Egel 4 (leeftijd 3, lengte 22) en egel 8 (leeftijd 6, lengte 18). Het zijn dwarsliggers: egel 4 is jong maar tóch al lang, egel 8 is oud maar kort gebleven. Ze gaan tegen de trend in, dus hun product is negatief (−2 en −4) en ze drukken de covariantie omlaag.

(c) Egels 2, 5 en 9 liggen precies op de lengte-gemiddelde lijn (lengte 20): hun afwijking op \(y\) is 0, dus het product is 0 — wat hun leeftijd ook is. Ze scoren gemiddeld op lengte en zeggen daarom niets over de samenhang.

(d) Dan is er geen variatie in leeftijd (\(x_i - \bar{x} = 0\) voor iedereen), dus alle producten zijn 0, de covariantie is 0 en \(r = 0\). Zonder verschil in \(x\) kan er geen samenhang zijn — je hebt verschil nodig.

OpmerkingT5.2 — Interpreteren

Een onderzoeker vindt tussen schoenmaat en leesvaardigheid bij kinderen een correlatie van \(r = 0{,}70\). Mogen we concluderen dat grotere voeten beter lezen veroorzaken? Wat is hier waarschijnlijk aan de hand?

Nee — correlatie ≠ causatie. Er is vermoedelijk een derde variabele die met beide samenhangt: leeftijd. Oudere kinderen hebben grotere voeten én lezen beter. De schoenmaat doet niks; leeftijd loopt mee. (Zo’n meeloper heet ook wel een confounder.)

Tot slot

Correlatie vangt of twee variabelen samen bewegen — het gevoel zit in de vier kwadranten, het getal in de covariantie, en de interpreteerbare maat is de gestandaardiseerde \(r\). Maar een verband is een dubbele pijl: het zegt niks over richting of voorspelling. In het volgende thema zetten we er een enkele pijl op — dan voorspellen we lengte uit leeftijd. Dat is regressie.


Werkboek OZP 1 · Thema 5, versie 0.1 (handrekenen & theorie; SPSS later). Doorlopend voorbeeld: de egels.

Terug naar boven