Regresjon mot gjennomsnittet

Regresjon mot gjennomsnitt ("regression to the mean", tilbakefall mot gjennomsnittet) er et statistisk fenomen som opptrer når man trekker en ikke-tilfeldig prøve fra en populasjon, og som undersøkes for to mulige utkomme som ikke er fullstendig korrelert. Hvis man har en hendelse med en ekstrem verdi ved første måling vil en gjentatt måling av den samme hendelsen ved et seinere tidspunkt ofte være nærmere gjennomsnittsverdien for hendelsen . Tilbakefall mot gjennomsnittet skyldes naturlig variasjon ved gjentatte målinger, og som ved mange nok målinger vil følge den sentrale tendens. Regresjons mot gjennomsnittet kan bidra til forklare mange fenomener som for eksempel placeboeffekter, eller hvorfor man kan finne mer opphopning av tilfeller i en mindre gruppe enn forventet.

Spesielt må man være oppmerksom på "regresjon mot gjennomsnittet" hvis man fra en populasjon plukker ut ekstremgruppene fra en normalfordeling og gjør undersøkelser eller eksperimenter med disse. Innen epidemiologi gjelder det spesielt hvis man undersøker en gruppe som har en sykdom i utgangspunktet. En slik gruppe vil uten behandling vise bedring grunnet regresjon mot gjennomsnittet. Ofte vil bivariate fordelinger med delvis korrelasjon vise regresjon mot gjennomsnittet. Alle kvantitative målinger består av den sanne verdien og feilkilder. Gjennomsnitt av feilkildene, uansett hvilken statistisk fordeling feilkildene har, vil bli normalfordelte grunnet sentralgrenseteoremet. Det vil si at ytterpunktene over tid vil nærme seg gjennomsnittet.

Sir Francis Galton (1822-1911) var den første som påpekte regresjon mot gjennomsnittet i studiet av midthøyden av foreldrene og høyden av deres barn i voksen alder. Galton innførte begrepet «regression to mediocrity» i 1875 basert på følgende regresjonsligning:

\(\displaystyle\frac{y-\bar y}{s_y}=r \frac{x - \bar x}{s_x}\)

Regresjonslinjen for n datapunkter (x, y) hvor r er korrelasjonskoeffisienten mellom x og y, sx og sy er standardavviket for henholdsvis x og y.

Galton studerte sammenhengen mellom midthøyden av 250 foreldrepar og høyden av deres 930 voksne barn. Han ”korrigerte” for kjønn ved å øke kvinnehøyden med faktor 1.08. Gjentatte målinger av ekstreme høye målinger vil bli forskjøvet nedover, og gjentatte målinger av ekstremt lave verdier vil bli skjøvet oppover. Hvis en variabel viser et ekstremt stort utslag ved første måling, så vil det ved en ny måling være mindre utslag, og man kommer nærmere gjennomsnittet. En regresjonslinje vil passere gjennom gjennomsnittsverdien, og ikke gjennom mode. Når regresjonslinjen går gjennom barn med ekstremt høye foreldrepar så vil den ikke gå gjennom moden, den vanligste forekommende høyden, Man antar at x er uten feil og all feilen ligger i y. Effekten kan man se ved å la variablene bytte.

Galton foreldre og høyde av barn

Figur 1. Galtons datasett og regresjon mot gjennomsnitt. x=y er prikket linje, og heltrukken linje er regresjonslinjen. Figur laget i R og datasett er hentet fra pakken UsingR.

Nobelprisvinneren i økonomi og psykologen Daniel Kahneman skriver i boka Thinking fast and slow om skjevheter i resonnement, og om hvor lett det er å trekke feil konklusjoner om tilfeldigheter og statistikk.

Flaks og kunnskap (dyktighet) er to bivariate som har korrelasjon mindre enn 1. For eksempel er å bestå eksamen en kombinasjon av dyktighet og flaks. Hvis en gruppe studenter som gjør det bedre enn gjennomsnittet til eksamen gjennomgår en ny eksamen så er det mest sannsynlig at gruppen får dårligere resultat enn forrige gang. Den gruppen som i første omgang gjorde det bra til eksamen består av dem med mye kunnskap og mye flaks, men det er rimelig å anta at den tilfeldige flaksen ikke er like stor i neste runde. Ting jevner seg ut. Det er en tendens for at en tilfeldighet langt fra gjennomsnittet vender tilbake til det normale. Også innen idrett er det en kombinasjon av flaks og det å være dyktig. Flaks vedvarer ikke. Det laget som leder serien midt i fotballsesongen er sannsynligvis ikke det laget som vinner til slutt. Regresjon mot gjennomsnittet er med å forklare effekten av alternativ medisin. Symptomer på sykdom og skavanker kommer og går på en litt tilfeldig måte. Man søker behandling når symptomene er som verst, og neste uke virker ofte ting mindre alvorlig ut fra tilfeldige variasjoner. Man skjønner at bedringen ikke kan tilskrives den alternative medisinen, men regresjon mot gjennomsnittet. Bedringen hadde også skjedd om man ikke hadde fått noen behandling. Derfor er det viktig å utføre randomiserte dobbelt blindforsøk med en kontrollreferanse som placebokontroll, slik at både behandlings- og kontroll-gruppen får lik bedring via regresjon mot gjennomsnittet, og derved gjør det mulig å finne effekter.

Var dette en slags spøk, eller var det en slik balanse i alt, at når utslaget ble for stort i én retning, skjedde det automatisk en forskyvning, og likevekten ble gjenopprettet ?

John Steinbeck: Øst for eden. 2.bnd., s. 296. Gyldendal Norsk Forlag, 1953.

Litteratur

R Core Team (2016). R: A language and environment for Statistical   computing. R Foundation for Statistical Computing, Vienna, Austria.
  URL https://www.R-project.org/.

Wikipedia

Tilbake til hovedside

Publisert 6. juni 2018 12:10 - Sist endret 28. feb. 2020 10:10