Sentral tendens

Den sentrale tendens i et datasett kan beskrives i form av gjennomsnitt, medianen (midtverdien) eller mode (dataverdien med høyest frekvens). Sentral tendens er der hvor hoveddelene av dataene i et datasett befinner seg

Vi har de tre M for å beskrive tendensen i et datasett: "Mean" (gjennomsnitt, middelverdi), "Median" og "Mode". For en normalfordeling blir disse tre verdiene like, men de blir forskjellige for andre statistiske sannsynlighetsfordelinger som de høyreskjeve lognormalfordelingen, kjikvadratfordelingen og eksponentialfordelingen.

Spredningsmål er en numerisk oppsummering av populasjonen: varians, standardavvik, standardfeil, maksimum-minimum, og interkvartilområde. Varians (kvadratsum) har en prøvefordeling som følger kjikvadratfordeling (”chi-square distribution”)(χ2).

Gjennomsnitt

Aritmetisk gjennomsnitt

Aritmetisk gjennomsnitt hvor alle dataverdiene summeres og divideres på antall verdier. Gjennomsnittet  (middelverdien, eng. mean) av en rekke tall får man ved å summere tallene og dividere på antall tall. Det aritmetiske gjennomsnitt (gjennomsnittsverdi, middeltall, middelverdi, forventet verdi (E(X)) er summen av alle observasjonene (xi) dividert på antallet observasjoner (n):

\(\overline x=\frac{1}{n}\displaystyle\sum_{i=1}^{n}x_i=\frac{(x_1+x_2+x_3+\dots+x_n)}{n}\)

Geometrisk gjennomsnitt

Hvis vi har data som endrer seg geometrisk i stedet for aritmetisk så er det bedre å bruke det geometrisk gjennomsnitt her kalt GM. Geometrisk middel (geometrisk gjennomsnitt)  brukes på høyreskjeve fordelinger (lognormalfordeling) og er n-te roten av produktet av alle dataverdiene:

\(\text{geometrisk gjennomsnitt (GM)}= \;\;^n\sqrt{x_1 \cdot x_2 \cdot x_3 \cdot \dots x_n}\)

GM er gjennomsnittet av logtransformerte data. Hvis man tar det aritmetiske gjennomsnittet av logaritmeverdiene:

\(\overline x = \displaystyle\frac{1}{n} \sum_ {i= 1}^n\log x_i\)

så kan man finne det geometriske gjennomsnitt avhengig av om man bruker Briggske eller naturlige logaritmer som:

\(GM = 10 ^\overline x\;\;\;\;\; GM= e^\overline x\)

Hvis X er lognormal stokastisk variabel så vil W=ln(X) bli en normalfordelt variabel og vi kan finne X=eW

Vi kan finne GM ved å ta antilog til det aritmetiske middeltallet:

\(\displaystyle GM= e^{(\frac{1}{n}\sum_{i= 1}^n \ln(x_i))}\)

Ifølge regelen for logaritmer er logaritmen til en sum lik logaritmen til produktene og vi kan da skrive GM som er lik n-te rot av produktene av tallene i datasettet:

\(\displaystyle GM= {^n}\sqrt{\prod_{i= 1}^n x_i}\)

Det geometriske middeltall er velegnet hvis vi skal se på den sentrale tendensen i tall som varierer mye i størrelse.

Harmonisk middeltall (HM) er mye brukt til beregning av sentral tendens i populasjonsstørrelser:

\(\displaystyle HM= \frac {1}{\frac{1}{n}\sum_{i= 1}^n \frac{1}{x_i}}\)

Harmonisk middeltall er mindre enn aritmetisk middeltall og er ekstremt følsomt for små verdier.

I et trimmet gjennomsnitt regner man gjennomsnitt av data mellom 5. og 95.-persentil.

Usikkerhet: varians, standardavvik og standardfeil

Gjennomsnittet er en enkel måte å gi informasjon via ett tall hvor den sentrale tendens befinner seg, men et hvert måltall er beheftet med usikkerhet. Sentralverdien er nyttig, men sier ingenting om spredningen av data og man trenger et spredningsmål. Spredningsmålet  maksimumsverdi minus minimumsverdi er svært følsom for ekstremverdier. 

Usikkerheten angis i form av varians, standardavvik og standardfeil. 

Statistisk utvalg

Vi tar ut et representativt og tilfeldig utvalg, et statistisk utvalg eller prøve fra den store populasjonen, og lager et estimat av de sanne verdiene 

µ (mu) gjennomsnitt, varians σ2 (sigma opphøyd I andre potens) og standardavvik σ (kvadratroten av varians) for populasjonen. Vi bruker greske bokstaver som betegnelser på populasjonen, og vanlige bokstaver når vi snakker om prøven. De sanne verdiene for populasjonen finner vi aldri, men vi kan lage et estimat av dem. Ved utregning av varians brukker man summen av kvadrerte avvik dividert på antallet i prøven, n. Siden varians er kvadrert må man bruke kvadratroten av varians, kalt standardavvik, som mål på spredning omkring gjennomsnittet for å få samme måleenhet. 

\(\text{Gjennomsnitt prøve}:\overline x\;\;\; \;\;\text{Gjennomsnitt populasjon}:\mu\)

Forventningsverdien E(X) er gjennomsnitt for populasjonen (µ).

Vi kan fra vår prøve lage et estimat av av populasjonsgjennomsnittet:

\(\overline x= \displaystyle\frac{\sum_{i=1}^n}{n}\)

Varians angitt som σ2 for populasjonen og s2 for prøven:

\(\text{Varians prøve}: s^2\;\;\;\;\; \text {Varians populasjon}:\sigma ^2 \)

\(s^2 = \displaystyle\frac{\sum_{i=1}^n\left(x_i-\overline x\right)^2}{n-1}\)

Standardavvet er lik σ for populasjonen og s for prøven.

\(\text{Standardavvik prøve}: s= \sqrt{s^2}\;\;\;\;\; \text {Standardavvik populasjon}: \sigma = \sqrt{\sigma ^2 }\)

Standardavviket er lik kvadratroten av varians, lik σ for populasjonen og s for prøven.

Standardavviket angir spredningen av måleverdiene i prøven, mens standardfeilen er lik standardavviket til gjennomsnittene hvis man tar ut en rekke prøver fra populasjonen. 

Standardavviket er kvadratroten av summen av de kvadrerte avvikene mellom hver enkelt målverdi og det aritmetiske gjennomsnitt. Ved beregning av standardavvik har alle data samme vekting. Det betyr at skjevheter i datafordelingen og ekstremverdier påvirker standardavviket forholdsvis mye på grunn av kvadreringen. Man bør fortrinnsvis bruke standardavvik hvis data følger en normalfordeling. For høyreskjeve data bør man ikke bruke standardavvik, en mulighet er å logtransformere og retransformere. Siden variansen får en kvadrert måleenhet, må vi ta kvadratroten av variansen for å vise variasjon rundt gjennomsnittet med samme måleenhet, den gjennomsnittlige spredningen rundt gjennomsnittsverdien. 

Median (midtverdi)

Median er midtverdien, midtpunktet, den verdi som har like mange over og under seg. Halvparten er mindre og halvparten er større en midtverdien. Median påvirkes lite av utliggere, mens gjennomsnittsverdien påvirkes mye av utliggere. I et normalfordelt symmetrisk datasett blir gjennomsnitts- og medianverdien like.

Median deler datasettet i to like halvdeler. Data ordnes i rekkefølge fra laveste til høyeste verdi. Hvis n er et liketall gir dette to sentrale verdien og gjennomsnittet av disse blir median. Mens aritmetisk gjennomsnitt påvirkes sterkt av ekstremverdier, så vil median som er en sekvens tåle ekstremverdiene bedre. Kjikvadratfordelingen er høyreskjev, men med økende antall frihetsgrader nærmer den seg normalfordelingen. For kjikvadratfordelingen blir mode<GM<median<aritmetisk gjennomsnitt. Det geometriske gjennomsnitt påvirkes av lave verdier fordi logtransformert kjikvadratfordeling er venstreskjev.

Medianverdi finnes ved å sortere datasettet etter størrelse. List opp tallene i stigende orden fra de minste til de største. Har man odde antall tall så blir median tallet i midten. Har man n tall blir tallet i midten (n+1)/2.

Har man et like antall tall så finner man median ved å summere de to midterste tallene og dele på 2. Medianen eller midtverdien brukes for eksempel for å se hvor den sentrale tendens ligger for lønnsinntekter, og er mer illustrerende enn gjennomsnittsverdien. 

Mode

Mode i et datasett er den verdien som forekommer med høyest frekvens. Hvis man har to moder er dataene bimodale, og man oppgir moden i hver av de to gruppene. Moden gjelder også for kategoriske data. Mode er den verdien med høyest sannsynlighet, og mode blir lite meningsfull hvis det er få data. Logaritmen til en lognormalfordeling blir lik normalfordelingen. Geometrisk gjennomgsnitt til lognormalfordelingen gir det aritmetiske gjennomsnitt. Mode er toppen i lognormalfordelingen.

The Median Isn’t the Message

Et essay av biologen Stephen Jay Gould som omhandler prinsippet om at den sentrale tendens ikke nødvendigvis er hovedbudskapet,  fordi normalfordelingskurven har uendelige lange haler hvor det også befinner seg hendelser selv om de oppstår med meget lav sannsynlighet, så kan de allikevel skje. Da Gould ble rammet av alvorlig sykdom med dårlig prognose så kunne han være en av dem som befant seg utenfor den sentrale tendens, det vil si i sannsynlighetshalene. Gould var heldig og var en av dem. 

Boksplot og sannsynlighetsfordelinger

Tukey konstruerte i 1977 et boksplot som er meget informativt og nyttig i utforskende dataanalyse. Utstikkere trekkes fra boksen til det indre gjerde med en strek. Selve boksen, interkvartilområdet, IQR, de indre 50% av data, omfatter første kvartil (Q1) til tredje kvartil (Q3) med medianverdien som en svart strek inne i boksen. Median har halvparten av data over seg og halvparten under seg. De øvre 25% og de nedre 25% av data blir ikke brukt i boksen.  Er det en symmetrisk fordeling blir median liggende midt i boksen. Boksplot bør brukes med forsiktighet på data med skjevfordeling, siden det gir feil signal om ekstremverdiene. I stedet kan man for eksempel lage boksplot på logtransformerte data.

Utliggere er ekstremt høye eller lave verdier som skiller seg ut fra resten av datasettet. Utliggere som gir lang hale til høyre gir høyre-skjev fordeling. Her ligger gjennomsnitt og median til høyre for mode.  Data som trekke halen ut til venstre gir venstre-skjev fordeling, og her ligger gjennomsnitt og median til venstre for mode.  Symmetriske data gir like haler.

Kvartiler er verdier som deler datasettet i fire like store deler. Den midtre kvartilen er lik median. Området mellom tredje og første kvartil kalles interkvartilområdet og er mindre følsom for utliggere. Interkvartilområdet omfatter de sentrale 50% av dataene.   Første kvartil har 25% av dataene under seg og tredje kvartil har 25% av dataene over seg. Det vil si 1/4 (25%) av data er mindre enn første kvartil, og 3/4 (75%) er større enn første kvartil. Alfa-kvartil (α-kvartil) er den verdi hvor andelen α av data er lavere og 1-α er større. Spredning begrenses av øvre og nedre grense, tilsvarende maksimums- og minimumsverdi.

I et boksplot tilsvarer interkvartilområdet Q1-Q3 selve boksen og medianen (Q2), 50.percentilen, er streken inne i boksen. Utstikkere fra boksen er 1.5 ganger interkvartilområdet, eller minimums- og maksimumsverdi.

 

Boksplot

Boksplot. Streken midt i boksen angir medianen eller midtverdien. Er dataene normalfordelt blir streken liggende midt i boksen. Er fordelingen skjev blir medianen liggende mot en av sidene i boksen, avhengig av om fordelingen er høyreskjev eller venstreskjev. 

Deles datasettet i ti like store deler kalles det deciler.

Percentiler deler datasettet i prosenter. Persentiler er analoge til kvartiler hvor α er uttrykt i % for eksempel 2,5, 10, 50,95, 98%.90-percentilen omfatter regnet nedenfra 90% av datasettet. 50-percentilen er det samme som midtverdien (median). 25-percentilen er lik nedre kvartil. Skal man finne en percentil sorteres dataene i stigende orden fra de minste til de største. Hvis det er n tall, og du vil beregne k-percentilen beregn a=k∙(n/100). Hvis a er et heltall så blir k-persentilen halvveis mellom a og neste tall i rekken. Hvis a ikke er et heltall, forhøy og du er ved posisjonen for k-persentilen.

En enkel avrundingsregel er at man bruker ett desimalsiffer mer enn det som forekommer i det originale datasettet, samt vanlig forhøyningsregler.

Hvis tallene xi i et datasett tillegges forskjellig vekting (wi, sum av vektene =1) så kan gjennomsnittet regnes ut som et vektet middel.

\(\overline x= \displaystyle \frac{\sum_{i=1}^n w_ix_i}{\sum_{i=1}^n w_i }\)

Kovarians

Hvis vi har variable i par (x,y) så er kovariansen γ(x,y) for populasjoen lik:

\(\gamma(x,y)= E\left[(x-\mu_x)(y-\mu_y)\right]\)

Kovariansen er en lineær assosiasjon mellom variablene x og y.

Ut fra vår prøve får vi et estimat av kovariansen:

\(Cov (x,y)=\displaystyle\frac{\sum_{i=1}^n (x_i - \overline x)(y_i - \overline y)}{n-1}\)

hvor

\((\overline x, \overline y)\)

er gjennomsnittsverdiene for prøven.

For flere variable kan kovarians uttrykkes som en kovariansmatrise.

Korrelasjon

Korrelasjonen for populasjonen, ρ (rho), og for et variabelpar ρ(x,y) blir:

\(\rho (x,y)= \displaystyle\frac{E\left[(x-\mu_x)(y-\mu_y)\right]}{\sigma_x \sigma_y}=\frac{\gamma(x,y)}{\sigma_x \sigma_y}\)

For prøven blir korrelasjonen Cor(x,y), hvor sd(x) og sd(y) er standardavviket for henholdsvis x og y,  og Cov(x,y) kovarians mellom x og y:

\(\displaystyle Cor(x,y)= \frac{Cov(x,y)}{sd(x)sd(y)}\)

Er det flere variable kan korrelasjonen uttrykkes i en korrelasjonsmatrise. Korrelasjon betyr ikke årsakssammenheng.

Forventet verdi

Vi kan uttrykke forventningen eller  forventet verdi E(X) (gjennomsnitt (μ, mu)) av en  tilfeldig (stokastisk) diskret variabel  (heltallsvariabel) hvor hver verdi av  xi i X har en tilsvarende sannsynlighet pi:

\(\displaystyle E(x)= \sum_ {i= 1}^n x_i P(X= x_i)\)

Hvis X er en stokastisk kontinuerlig variabel med sannsynlighets tetthetsfunksjon f(x) blir forventningen:

\(\displaystyle E(X)= \int_{-\infty}^\infty xF(x)dx\)

Hvis X og Y er to tilfeldige kontinuerlige uavhengige variable så vil forventningen til en sum bli lik summen av forventningene (addisjonsregelen for forventninger):

\(\displaystyle E(X + Y)= E(X) + E(Y)\)

Dessuten hvor hvor a og b er konstanter.

\(\displaystyle E(a) = a\;\;\;\;\;\;\, E(bX)= bE(X)\)

Tilbake til hovedside

Publisert 12. nov. 2019 11:03 - Sist endret 8. mai 2020 12:16