Litt statistikk

Statistikk

: Mer utførlig om statistikk (pdf 541kb); Litt regning og matematikk (pdf 300 kb); Den vitenskapelige metode; Forsøket; Deskriptiv statistikk; Randomisering (tilfeldig utvalg) og replikat (gjentak); Tilnærmingsverdi og gjeldende siffer; Normalfordeling; Konfidensintervall; Sammenligning av middeltall fra to eller flere grupper; Z-score - standard normalt avvik; Students t-test; Chi-kvadrat test; Korrelasjon; Regresjon; Lineær regresjon (minste kvadraters metode); Binomial fordeling; Poisson fordeling; Variansanalyse; Litteratur

Statistikkprogrammet R

Det finnes en lang rekke statistikkprogrammer som kan brukes til analyse av et datasett. Det ligger muligheter i Excel, og i tillegg finnes avanserte programmer bl.a. SPSS, SPLUS, SAS, og Minitab. Imidlertid kan statistikkprogrammet R anbefales meget sterkt for bruk i videregående skole, høyskoler og universiteteter. Her er en liten bruksanvisning som viser muligheter som ligger i programmet: Bruksanvisning for R

I noen sammenhenger kan det være aktuelt å bruke matematikkprogrammet Matlab: Bruksanvisning for matlab (uferdig), og skal man løse Lotka-Volterra-ligningen bør man vite litt om differensialligninger. Litt mer om differensialligninger.

Den vitenskapelige metode

Vitenskap er en fagdisiplin brukt til å undersøke og forstå våre omgivelser. Grunnlaget for all vitenskap er å kunne observere. Vitenskapen gjør fremskritt ved å fremsette og teste hypoteser. Hypoteser er mulige forklaringer på observerte fenomener. Formålet med vitenskapelige eksperimenter er å se om hypotesene stemmer med virkeligheten. Vi kan teste om en hypotese er sann eller falsk. En hypotese kan beholdes eller forkastes, men den kan aldri bevises. Vi trenger statistikk for å kunne beregne om et avvik fra hypotesen er signifikant. Sannheter er observasjoner som alle er enige om at er sanne. Induktiv logikk er generaliseringer ut fra en enkelt observasjon. Deduktiv logikk er av typen "hvis.... så", at man fra en generell hypotese kan forutsi hva som vil skje. Et eksperiment må alltid ha en kontroll som det kan sammenlignes med.

Forsøket

To frø som spirer og gis lik behandling, med samme type gjødsel, vanning, lys og temperatur blir nødvendigvis ikke like store. Dessuten er alle målinger beheftet med feil som er forskjellen mellom målt verdi og sann verdi. Slike feil er systematiske og konstante målefeil og tilfeldige målefeil som skyldes manglende kontroll med ytre faktorer. Måleresultater hvor det brukes biologisk materiale varierer mer enn rene fysiske målinger uten biologi. Et forsøk må planlegges før det kan utføres følgende må bestemmes:

: 1. Hva er formålet ?; 2. Hvilken metode skal brukes ?; 3. Hvor følsomme og nøyaktige målingene må være ?; 4. Kostnadene i tid og penger ved hver av målingene.; 5. Hvilke variable finnes og hvordan de kan kontrolleres ?; 6. Hvordan man skal ta ut prøver og hvor mange prøver man trenger.

I forsøkene/eksperimentene som du utfører må du ikke lage en skjevhet i observasjonene eller behandlingene ut fra din egen mening/forventning om hva som gir best resultat. Den variabel som kontrolleres av den som utfører forsøket kalles uavhengig variabel. Den variabel som blir avhengig av denne kalles avhengig variabel. Et problem i et forsøksoppsett er det hvis det finnes flere uavhengige variable som den som utfører forsøket ikke er oppmerksom på. Variablene kan være kontinuerlige som vekt- og lengdeenheter eller de kan være diskrete (diskontinuerlige). Kontinuerlige variable faller innenfor en uavbrutt skala. Diskontinuerlige data er som regel tellinger av hendelser eller frekvenser. En serie målinger kalles en fordeling. I statistikk betyr populasjonen samlingen av alle de individuelle tilfellene som inngår i undersøkelsen og prøve er de observasjonene vi bruker i vårt forsøk. Karakteristiske egenskaper ved populasjonen som varierer fra individ til individ (forsøk til forsøk) kalles variable. Lengde, høyde, alder, fluks og temperatur er eksempler på biologiske variable som kan bestemmes ved tall. De verdiene vi får ved å undersøke vår prøve tjener som estimater av populasjonsverdiene. En god prøve er lik populasjonen den er tatt fra. Det er sjelden praktisk å undersøke alle enhetene i populasjonen, derfor tar vi et en prøve. Hvert individ/tilfelle i populasjonen må ha lik mulighet til å bli trukket ut når vi tar ut prøver. Hvis man har mulighet til det bør det brukes slumptall ved utvalget. Mange statistiske metoder forutsetter at observasjonen i en prøve er uavhengig av hverandre. For å kunne undersøke effekten av forskjellig behandling må du være sikker på at gruppene som mottar behandlingen er like. Vi ønsker å foreta en generalisering slik at det som er sant for prøve også er sant for populasjonen. Statistic kalles en enkelt prøve verdi. Biologer kan få mer enn en observasjon for hver prøveenhet. F.eks. kan man i en prøverute telle antall planter og måle pH i jorda. Dette gir bivariable data og det finnes egen statistikk for dette.

Deskriptiv statistikk

Deskriptiv statistikk er systematisk organsiering og presentasjon av tallmateriale. Omfatter middeltallet, standardavvik, standardfeilen til middeltallet, konfidensintervallet til middeltallet, skjevhet, kurtosis, median, maksimums- og minimumsverdi og intervall. Det arimetiske middeltallet /middelverdien for en serie målinger x_i , antall n,(observasjoner) beregnes ved å dividere summen av observasjoner med antall observasjoner.

middeltallet

Den sanne verdien

my, snittet av populasjonen, som finnes ved å foreta et uendelig antall målinger finner vi aldri. Vi bruker greske bokstaver for å beskrive populasjonen, de sanne verdiene som vi aldri finner, men som vi lager et estimat for. Flere individuelle målinger samles seg omkring et middeltall. Når vi angir et måleresultat skal vi angi et mål på variasjonen av resultatet. Jo flere forsøk og måledata vi skaffer oss i et eksperiment desto nærmere kommer vi de sanne tallene. Graden av spredning av målingene rundt middeltallet kalles variansen (s²). Variansen er summen av kvadratene av avvikene fra middeltallet for hver verdiVariansen av populasjonen er^s2 Variansen av en prøve tatt fra populasjonen er gitt som. I de fleste tilfeller kjenner vi ikke s og må bruke s til å gi et estimat av s (sigma).

variansen

n er antall målinger og vi bruker n - 1 siden en av målingene har blitt brukt til å beregne middeltallet . Man tar kvadratet til differensen mellom hver enkelt observasjon og det arimetiske middeltall, kvadratene summeres og divideres på n-1. Summen av kvadrerte avvik kalles kvadratsummen (sum of squares (SS)).

kvadratsummen

Kvadratsummen dividert på antall frihetsgrader kalles middelkvadratet (Mean square (MS)). Standardavviket (s) som er det vanligst brukte mål på variasjon; er kvadratroten av variansen.

standardavvik

En annen form for gjennomsnitt er median. Det er den verdi hvor halvparten av målingene ligger under og den andre halvparten over. Median er den variabelen som deler den totale frekvensen i to halvdeler. Mode (modalverdi) er det tallet som forekommer oftest. Fordelingen kan ha bare en topp (unimodal) eller to topper (bimodal). For tallene 26, 8, 6, 5, 4, 3, 2, 2 vil middeltallet være 7, median vil ligge mellom 4 og 5 og mode er 2. For en perfekt symmetrisk fordeling vil median, mode og middeltall være like. Er det en skjev fordeling blir de forskjellige. Median for følgende tall 9.2, 11.5, 13.2, 19.7, 29.4 og 50.1 vil være 16.45. En samling middeltall vil også ha en fordeling og standardavviket til denne fordelingen kalles standardfeilen. Standardfeilen (S.E.) er standardavviket til middeltallene er gitt som:

standardfeil

s er standardavviket til prøve. Ser vi på fordelingen av middeltall blir også disse normalfordelte på samme vis som enkeltobservasjonene blir normalfordelte. Dette forklares ut fra Sentralgrense-teoremet. Det sier at for prøves med tilstrekkelig størrelse så vil den virkelige fordelingen av middeltallene fra disse prøvene bli normalfordelte. Fordelingen av middeltall vil nærme seg mer og mer normalfordelingen når prøve størrelsen øker. Men hva med middeltallet for middeltallene ? Jo det blir populasjonsmiddelet, den sanne Det er av begrenset verdi å sammenligne variasjon i data hvor middeltallet er svært forskjellig. Man bruker da variasjonskoeffisienten (VC) som uttrykker variasjon i forhold til middeltallet i %. F.eks. hvis middeltallet er 3 og S.D. 0.54 er VC=0.54/3·100 % = 18 %. m. Hva er da standardavviket til fordelingen av middeltall ? Det blir ikke standardavviket til populasjonen, men vi deler standardavviket på kvadratroten til prøve-størrelsen og får da standardfeilen. For å beregne standardavviket til fordelingen av middeltall må vi vite standardavviket til populasjonen og antall tilfeller/observasjoner i hver prøve. Standardavviket til en fordeling av middeltall kalles altså standardfeilen til middeltallet (angitt som ovenfor).

variasjonskoeffisient

Randomisering (tilfeldig utvalg) og replikat (gjentak)

Det er to krav for et godt eksperiment og det er randomisering (tilfeldig utvalg) og gjentak (replikat). Replikat vil si at behandlingen gis til mer enn en eksperimentell enhet. Det er ikke noe fast svar for hvor mange eksperimentelle enheter man trenger per behandling. Før vi svarer må vi vite noe om presisjonen vi krever. Venter vi å finne signifikante forskjeller på 2 %, 20 % eller 50 % ? Hvor stor er variasjonen innen hver eksperimentell enhet ?

Tilnærmingsverdier og gjeldende siffer

Hvis vi måler lengden til en plante og finner at den er 10.7 cm, mener vi at verdien må ligge mellom 10.65 og 10.75 cm. Skriver vi 10.70 cm må verdien ligge mellom 10.695 og 10.705. 10.7 og 10.70 er altså to forskjellige måleresultater, og kalles tilnærmingsresultater. Når vi måler at planten er 10.7 cm er usikkerheten 0.05 cm som er lik den maksimale avrundingsfeil. Hvor presise skal vi være med en måling ? Som en tommelfingerregel skal det være mellom 30 og 300 enheter mellom største og minste observasjon. Hvis vi måler lengder på blader og finner at det lengste er 67 mm og det korteste 59 mm tilsvarer dette 67-59= 8 enheter, noe som er for lite. Måles lengden til 67.4 mm og 58.8 mm blir dette 674-588= 86 enheter som derved er nøyaktig nok. Tallet 10.7 har 3 gjeldende siffer. Det samme har 4.00 og 0.00457. Nuller foran tallet teller ikke som gjeldende siffer. Skal vi skrive 8000 med 3 gjeldende siffer skriver vi 8.00 10³. Hvis vi adderer eller subtraherer skal svaret angis med så mange desimaler som det leddet som har færrest desimaler: 3.5 cm + 7.88 cm + 10 cm = 21 cm Hvis vi vi multipliserer eller dividerer skal svaret angis med samme antall gjeldende siffer som det tallet som har færrest gjeldende siffer og inngår i beregningen. 3.5 cm x 7.88 cm x 10 cm = 0.28 10³ cm³. Ved målingene kan det oppstå systematiske feil f.eks. hvis vekten viser feil. Slik feil virker ensidig og det kan korrigeres for slike hvis man oppdager dem. Tilfeldige feil er årsaken til at man ikke får samme resultat hver gang man måler samme prøven. Er det en tidsavhengig måling kan det skyldes at man ikke bruker samme tid ved hver måling.

Fordelinger

Det finnes forskjellige sannynlighetsfordelinger av kontinuerlige og diskontinuerlige variable. For kontinuerlige variable har vi normalfordeling, t-fordeling, F-fordeling og chikvadratfordeling. To hovedtyper fordelinger er knyttet til diskrete variable: binomial fordeling og Poisson fordeling.

Normalfordeling

Når måleresultatene samles rundt middelverdien og målingene mindre og større enn denne verdien forekommer omtrent like ofte med en assymptotisk tilnærming mot abscissen jo lenger vi kommer vekk fra middeltallet, har vi sannsynligvis en normalfordeling. Hvis antall målinger fordeles i klasser få man en frekvensfordeling av resultatene og frekvensfordelingen vil nærme seg normalfordeling. En matematisk ligning definerer normalfordelingen. For et middeltall og et standardavvik bestemmer denne ligningen hvilken prosentdel av observasjonene som faller hvor i forhold til middeltallet. I en normalfordeling har middeltallet, median og mode alle samme verdi. En normalfordeling kan ha hvilket som helst middeltall og standardaviik, men prosentene av tilfellene som faller innenfor et spesielt antall standardavik fra middelet blir alltid det samme. Det er en kontinuerlig fordelingen for frekvensen av x = f(x). Når f(x) plottes mot x fås normalfordelingskurven også kalt Gauss-kurven

Gauss

^s2

blir 95 %. 1.96 blir en konfidensgrense.

normalfordelingskurve

Hvis dataene ikke er normalfordeltet kan de normaliseres via transformasjoner: logaritmisk, arcsin eller kvadratrot transformasjon. En fordeling kalles skjev (skewed) hvis den ikke er symmetrisk. Hvis den har en lang hale mot høyere verdier er det en positiv skew. Hvis det er en lang hale mot lavere verdier er det negativ skew.

Hvis en større andel av tilfellene faller i "halene" til en fordeling enn i en nomalfordeling så har vi en positiv kurtosis. Hvis det er færre tilfeller i halene har vi negativ kurtosis. Jo større prøvestørrelse desto mindre varisjon blir det i middeltallene fra prøven. Som regel vet vi ikke populasjonmiddelet og derav ikke standardavviket til middeltallene. Men vi kan allikevel laget et estimat av standardfeilen til middeltallet fra vårt forsøk hvor vi har et middeltall fra en prøve og et standardavvik. Ved normalfordeling er skewness og kurtosis begg lik null.

Konfidensintervall

Innenfor hvilket intervall er resultatet sant ? Konfidensintervallet kan beregnes fra Student´s t- test.Vi kan beregne de øvre og nedre grenser, et intervall, som inneholder populasjonsmiddelet i 95 % av tilfellene, et konfidensintervall. Vi vet som tidligere nevnt aldri populasjonsmiddelet, men vi kan beregne et intervall rundt vår prøve middeltal som inneholder det sanne populasjonsmiddelet i 95 % av tilfellene. Konfidensintervallet for middelet av en stor prøve (> 30) er gitt ved at det er 95 % sannsynlig at populasjonen faller innenfor middeltallet ± 1.96·S.E. Det er 99 % sannsynlig at populasjonen faller innenfor middeltallet ±2.58·S.E. Hvis vi derimot har en liten prøve må det legges inn en korreksjonsfaktor: 95 % konfidensintervall= middeltallet ± t·S.E. Når prøvestørrelsen er stor blir standardfeilen liten. I en nomalfordeling vil 95 % av verdiene ligge innenfor

konfidensintervall

Sammenligning av middeltall fra to eller flere grupper

Signifikans-tester

Statistiske metoder som biologene bruker er av to typer: parametriske som forutsetter normalfordeling og ikke-parametriske. Ikke-parametriske tester gjør om observasjonene til rangeringer.. Signifikanstester brukes når vi skal teste hypotesen om at to uavhengige middeltall er forskjellige. Sentralgrense-teoremet gjelder ikke bare middeltall, men også forskjellen mellom middeltall. Når er forskjellen mellom to middeltall stor nok til at du antar at de to prøvene er fra populasjoner med forskjellig middeltall ? Svaret avhenger av hvor villig du er til å ta feil. Vi kan lage en fordeling av forskjellene mellom middeltallene og vi kan beregne standardavviket til fordelingen av forskjeller kalt standardfeilen til forskjellene. Skal vi finne forskjeller brukes hypotese-testing. Det er sjelden vi kjenner den sanne ^s2 Vi starter med en null hypotese som er en påstand om at det ikke er noen forskjell dvs. Man må på forhånd velge et sannsynlighetsnivå f. eks. p=0.05. Hvordan beregnes standardfeilen til en forskjell i middeltallene ? Når du har to middel fra uavhengige prøvene er variansen til forskjellene lik summen av variansene til de to prøves. Vi ønsker altså å trekke konklusjoner om hele populasjonen på grunnlag av en prøve. Vi beregner hvor sannsynlig det er at en forskjell så stor som den vi har funnet ville inntre/forekomme hvis det ikke var noen forskjell mellom middeltallene. Vi antar at det ikke er noen forskjell mellom middeltallene og etterpå ser vi på hvor sannsynlig det er at dette er sant. Det formuleres altså en null hypotese at det ikke er noen forskjell. Beregn sannsynligheten for at den forskjellen du ser er minst så stor som du den kan observere i din prøve hvis nullhypotesen er sann.

Z-score - standard normalt avvik

En verdi av en observasjon x på abscissen i en normalfordeling kan beskrives i "antall standardavvik" som x er vekk fra middeltallet

Z-score på 1.96 og 2.58 angir grensene på begge sider av populasjonsmiddelet og omfatter hhv. 95 % og 99 % av alle observasjonene. 50 % (0.67), 5% (1.96), 1% (2.58) og 0.1% (3.31). På samme måte som en observasjon kan omgjøres til z-score kan den omgjøres til t-score hvis vi har små prøver (<30).

Z-score

: 1. Ta din verdi og trekk den fra middeltallet. Hvis resultatet er positivt er den over gjennomsnittet. Er den negativ er den under gjennomsnittet.; 2. Divider forskjellen på standardavviket. Den verdien du får forteller deg hvor mange standardavvik en score er over eller under gjennomsnittet.

Men tar du gjennomsnittet av flere standard score for en variabel er den alltid 0 og standardavviket er alltid 1. Selv om en variabel er normalfordelt i en populasjon behøver nødvendigvis ikke en prøve fra populasjonen være det. Men er en prøve stor nok vil den bli nær normalfordelt. Z-verdien (standard score) forteller hvor en observasjon ligger i antall standardavvik over eller under middeltallet av fordelingen. En og to-halete-tester: En-halet test brukes når retningen av resultatet er bestemt. En to-halet test brukes for å oppdage forskjeller mellom middeltall i to populasjoner uansett retningen på forskjellen. Ved en to-halet test og p= 0.05 må denne deles slik at man har 0.025 i hver ende av normalfordelingskurven. En Z-verdi på minst 1.96 er nødvendig for å forkaste hypotesen.

Det er 2 typer feil som kan oppstå ved hypotesetesting Type 1 feil: hypotesen er sann, men forkastes Type 2 feil: hypotesen er gal, men forkastes ikke Settes p= 0.001 er det stor mulighet for type 2 feil. Er n stor blir standardfeilen mindre dvs. sannynligheten for type 2 feil blir mindre. Test-styrke: en tests evne til å oppdage falske nullhypoteser.

Students t-test

En t-test brukes til å sammenligne om det er signifikant forskjell mellom to små prøver. F-testen brukes til å sammenligne variansen til to prøver. Et standard problem i biologisk forskning er å bestemme om det er en statistisk forskjell mellom middeltallet i to populasjoner. Observert signifikans er sannsynligheten for at en forskjell minst så stor som den observerte ville ha oppstått hvis middeltallene hadde vært like. W.S. Gosset skrev under navnet Student og skapte en familie av fordelinger som har en innebygget gjenkjennelse av begrensningene ved små prøvestørrelser. Student studerte fordelingen av t og fant at den var symmetrisk og formet som normalfordelingskurven og variansen var avhengig av antallet måledata n. Dette er koblet sammen med begrepet frihetsgrader. Forskjellen i middeltall divideres på standardfeilen til differansen.

t-verdi

Hvor ofte kan vi forvente å se en forskjell mellom middeltallene som du har funnet når det ikke er noen forskjell mellom de to gruppene i populasjonen ? t-fordelingen er lik normalfordelingen når prøve-størrelsen er stor. Null hypotesen blir: det er 2 prøver fra samme populasjon med identisk middeltall og varianse. t- for de lin ge n ha r en an net ar eal for å jus ter e for at vi ikke vet hva standardavviket virkelig er. Vi finner altså forskjellen mellom de to middeletallene, finner standardfeilen og beregner så hvor usannsynlig den observerte forskjellen er. t-verdien er standard score. Antall frihetsgrader er antall observasjoner i de 2 gruppene minus 2. Hvor sannsynlig er det å få en score så stor som denne ? Dette er det observerte signifikansnivå og når den er meget liten betyr det at det er sannsynlig at det er forskjell. Det er altså mulig (< 0.0005), men lite sannsynlig at denne prøve kommer fra en populasjon hvor det ikke er noen forskjell. Parametriske tester som brukes til å sammenligne to middeltall bygger på visse forutsetninger: dataene må være normalfordelte og populasjonene som prøvene tas fra må ha lik varianse. Det er en enkel varianse-ratio test (F-test) som kan brukes til å bestemme om forskjellen i varianse er så liten at man kan se bort fra den. To populasjoner med identisk varianse vil ha et varianse- ratio forhold lik 1. Jo større tall, desto mer forskjellig er variansene. Siden de kritiske verdiene av F er større enn 1 må den største variansen deles på den minste. Kolmogorov-Smirnov test kan brukes for å se om dataene er normalfordelte og Levene Median-test brukes for å undersøke om variansene er like. Det observerte signifikansnivå som er assosiert med en t verdi er angitt som 0.xx. Denne sier at minst xx % av tilfellene er forskjellige når de to populasjonsmidlene er like. t-verdien sier hvor mange standardfeil den observerte forskjellen er over middelet. Den sier at xx % av forskjellene i middel vil bli så store som t ganger standardfeilen hvis forskjellen i middel er 0. Når signifikansnivået er lite er tolkningen grei dvs. de to middeltallene er ulike. 0.05 er en vanlig verdi i så måte. Vi beregner altså observerte signifikansnivå. Dette forteller oss hvor ofte vi forventer å se en forskjell så stor som den vi observerer hvis det ikke var noen forskjell mellom gruppene i populasjonen. Hvis det observerte signifikansnivå er lite dvs. <0.05 så forkaster vi hypotesen om at de to middelene er like. Vi bruker uavhengig t-test når det ikke er noen sammenheng mellom tilfellene i de to gruppene. Parvis t-test brukes når de samme tilfellene brukes før og etter behandlingen. Samme subjekt observeres under to forskjellige behandlinger. Ethvert subjekt i den ene gruppen har et tilsvarende subjekt i den andre gruppen. I et parvis forsøk blir måten som t beregnes ut på forskjellig. For hvert par finnes en forskjell mellom de to verdiene og så analyseres denne forskjellen.

I en F-test sammenlignes variansen i to prøver. Har fått navn etter R. Fisher. F er beregnet slik at F er alltid større enn 1. Derfor må det velges slik at alltid telleren er større enn nevneren. Nullhypotesen for F antar at de to prøvene kommer fra samme normalfordelte populasjon og derved har samme varianse. Denne hypotesen beholdes eller forkastes.

F-test

Chi-kvadrat test

Chikvadrattest brukes til å bestemme om det er signifikant forskjell mellom observert og forventet frekvens av to datasett. Bare frekvens-data kan analyseres med en chi-kvadrattest dvs. testen baserer seg på diskrete variable. Hvordan kan en null hypotese testes om to prosenter er like og at de to variablene er uavhengige ? Vi bruker antall observerte tilfeller som observerte frekvenser og forventet frekvens. Når vi ønsker å studere forskjellen mellom et sett observerte frekvenser brukes chi-kvadrat statistikk. For hver rute finnes: 1. Forskjellen mellom observert og forventet frekvens. 2. Divider kvadratet til forskjellen på forventet frekvens. Hver forskjell kalles residual (rest). Positiv residual indikerer flere tilfeller observert enn forventet fra null hypotesen. Negative residual indikerer færre observerte tilfeller enn forventet. Akkurat som for en t-statistikk beregnes nå hvor ofte du vil få en verdi for chi-kvadrat statistic som er minst så stor som den du observerer i din tabell hvis null hypotesen er sann. ^k2^k2

for virkelige tall er diskrete. Dette kan det tas hensyn til ved Yates korreksjon. Yates korreksjon for kontinuitet minsker den absolutte verdien for hver forskjell mellom observert og forventet verdi med 0.5. Chi-kvadratet modifiseres derved til:

Kolonnens minimum forventet frekvens angir den minste forventede frekvens i tabellen. Man bør ikke bruke chi-kvadrat test hvis mer enn 20 % av rutene har forventet verdi mindre enn 5.

En Fisher eksakt test brukes istedet for chi-kvadrat hvis du har en 2x2 kontingenstabell og det er mindre enn 5 observasjoner bak hver rute. For tabeller med 2 rader og 2 kolonner (2x2) gjøres ofte en kalt Yates korreksjon. Denne er omdiskutert. I en chi-kvadrat test omdannes forventede prosenter til aktuelle tall. Multipliser forventet % med antall tilfeller i hver kategori. Antall frihetsgrader fås ved: substraher 1 fra antall rader substraher 1 fra antall kolonner multipliser disse to tallene med hverandre og du har tallet for antall frihetsgrader. hvor O er observert frekvens E er forventet frekvens Formelen angir summen av kvadratene av absolutte forskjeller mellom observert frekvens og forventet frekvens dividert på forventet frekvens.

chikvadrat

Mc Nemars test brukes hvis man gjør observasjoner på de samme individene.

Korrelasjon

Hvis en variabel henger sammen med eller er assosiert med en annen er de positivt eller negativt korrelert. Selv om de er korrelert behøver ikke den ene være en funksjon av den andre. Det er sikkert mulig å finne en korrelasjon mellom antall lungekrefttilfeller og antall telefonsamtaler, men de har ingen sammenheng med hverandre. Man må skille mellom korrelasjon og regresjon. Regresjon- avhengighet mellom en avhengig variabel y og en uavhengig variabel x som forandres av den som utfører forsøket. Kan brukes til å forutsi en variabelverdi ut fra en en uavhengig variabel. Regresjon kalles å tilpasse en linje eller kurve til dataene. Korrelasjon- hverken x eller y er uavhengig variabel. Mye brukt er Pearson produkt-moment korrelasjon eller Spearman Rank ordnet korrelasjonskoeffisient. Er det ikke noen lineær sammenheng er r = 0. Er det en perfekt positiv sammenheng er r=+1. Betyr r=0 at det ikke er noen relasjon mellom de to variablene ? Nei, Pearson korrelasjonskoeffisient måler bare styrken av lineær sammenheng. Pearson korrealsjonskoeffisient bør bare brukes for lineære sammenhenger .

Regresjon

Regresjon er en parametrisk statistisk metode som forutsetter at restene (residuals) av forskjellene mellom forventede og observerte verdier av de avhengige variablene er normalfordelte og med konstant variasjon. Det er forskjellige typer regresjon: - enkel lineær regresjon: en uavhengig variabel og avhengig variabel varierer lineært med den uavhengige.

- multippel lineær regresjon: flere uavhengige variable og avhengig variabel varierer lineært med forandring i uavhengig variable.

hvor y er avhengig variabel og x₁, x₂, osv. er k uavhengig variable og b - polynom regresjon: kurvet sammenheng mellom uavhengig av avhengig variabel. - ikke-lineær regresjon: tilpasse en generell ligning til dine observasjoner. Ikke-lineær regresjon brukes når dine data følger en kurve som er en ikke-lineær funksjon. Man behøver derfor ikke gå veien om transformasjon og lineær regresjon. I ikke-lineær regresjon kan man bruke Marquordt-Levenberg algoritmen for å finne foeffisientene til de(n) uavhengige variabel som gir best tilpasning mellom ligning og data.

Lineær regresjon (minste kvadraters metode)

Den enkleste form for sammenheng mellom to variable er en rett linje. Hvis vi lager en grafisk fremstilling av x-verdier mot y-verdier kan vi få en tilnærmet rett linje, men ikke alle punktene faller på linjen. Vi ønsker derfor å kunne trekke den beste representative linjen gjennom punktskyen. Linjen er valt slik at kvadratet av summen av avvik for den beste linjen blir minst mulig. Tilpasning av data til en lineær funksjon med minste kvadraters metode er vanlig. Ligningen for den rette linje er angitt av en stigningskoeffisient og skjæringspunktet med y- aksen.

Vi kan har y som en avhengig variabel som avhenger av x som er den uavhengige variabel. Den rette linjen er av formen hvor b er stigningskoeffisienten til linjen og a er skjæringspunktet med y-aksen. For hvert punkt på plottet kan du finne den vertikale avstanden fra punktet til linjen. Vi finner den vertikale avstanden fra linjen for alle punktene. Tar kvadratet av denne verdien og summerer. Alle andre linjer har større sum av kvadrerte avstander.

Populasjonsregresjonslinjen hva er det? Vi ønsker også her å trekke konklusjoner om populasjoner på hva vi så i vår prøve. Middeltallet for alle populasjonsfordelingen må ligge på en rett linje. Hvor godt er resultatene tilpasset modellen? Multiple R: er den absolutte verdien til korrelasjonskoeffisienten SS forklart ved regresjonsligningen kalles regression. Uforklart variasjon kalles residuals. R-square forklarer hvor stor % av variasjonen som skyldes regression. Analyse av variansen kan også brukes til å teste null hypotesen om at det ikke er noen linær relasjon mellom de to variablene. F-verdien er den samme type som tidligere. F er forholdet mellom mean sq for regression over MS for residuals og MS er SS dividert på antall frihetsgrader. Hvis det ikke er noen lineær sammenheng mellom variablene så vil hver av disse MS gi et estimat av variansen, eller variasjonen til den avhengige variabelen. Hvis det er et lineært forhold så vil variasjonen estimat på regression MS være mye større enn variasjonen basert på residuals. Store F-verdier angir lineær sammenheng. F=0 dvs < 0.00005 gjør at vi forkaster null hypotesen om at det ikke er noen lineær sammenheng. Multippel regression gjør at man kan bruke mer enn en uavhengig variabel i samme ligningen. Hva forteller residuals ? Residuals er resten etter at modellen er tilpasset dataene. I lineær regression er residuals forskjellen mellom observerte og forventede verdier for den avhengige variable. Hvis dataene passer modellen perfekt er residuals = 0 Casewise gir informasjon om residuals. zresid- standardiserte residuals fås ved å dividere hver residuals med et estimat av dens standardavvik. zresid går fra +2 til -2. Studier av residuals er det primære verktøy for å sjekke om forutsetningen som er nødvendig for lineær regresjon ikke er overskredet. Vi kan lage et histogram av residuals og det bør bli normalfordelt. For å sjekke om variansen er konstant så kan residuals plottes mot predikterte verdier og mot verdiene til den uavhengige variable. Det bør ikke være noen relasjon mellom residuals og noen av disse to variable. Hvis det er et mønster har du grunn til å anta at konstant varianse ikke forekommer. Noen ganger når relasjonen mellom to variable ikke er lineær kan man tranformere de variable og få dem lineære. Korrelasjonskoeffisienten r ligger mellom +-1. Man bør alltid sende data med kjent resultat gjennom PC-baserte statistikk-program.

Binomial fordeling

Man deler populasjonen i to deler og sier at den ene hendelsen skjer med sannsynlighet p og den andre tingen skjer med sansynligheten q og vi har p + q = 1. Myntkast er et eksempel på binomial fordeling. Sannsynligheten for å få en kron eventuelt mynt er p = 1/2. Hver prøve eller uttak er uavhengig av det foregående. Fordelingen ved å kaste 1 mynt er (p + q)¹. Fordelingen ved å kaste 2 mynter er (p + q)². Kastes 5 mynter er fordelingen (p + q)⁵Hvis man regner ut dette blir det: p⁵ + 5 p⁴q + 10 p³q² + 10 p²q³ + 5 pq⁴ + q⁵. Sannynligheten for å få 5 kron i dette siste tilfellet er p⁵ dvs (1/2)⁵ som er 1/32 som tilsvarer ca. 3 %. Sannsynligheten for å få 4 kron og 1 mynt er 5/32. Sannsynligheten P(r) for å få r av en sort og n-r av en annen sort er:

binomialfordeling

n over r kalles binomialkoffisienter og kan bl.a. settes opp som i Pascals trekant. Produktet av tallene fra 1 til n (1·2·3···n) skrives n! og uttales "n fakultet". Det vil sannynligvis regne imorgen kan være en påstand. Sannynligheten er etablert før det skjer dvs. a priori. Det kan være uavhengige tilfeller som kasting av kron og mynt. Avhengige tilfeller er når f.eks. man trekker et kort ut av en kortstokk hvor sannynligheten for å få et ess er 4/52. Er ett ess trukket blir sannynligheten for å trekke et neste ess 3/51.

Poisson fordeling

Fordelingen har fått navn etter en fransk matematiker. Denne fordelingen er en spesialfordeling av den binomiale hvor sannsynligheten for å få det ene utfallet p er meget liten. p Vi har denne fordelingen når vi teller individer eller hendelser. Følgende forutsetninger må være tilstede: 1. Hvert individ eller hendelse må forekomme/skje tilfeldig i området/tid. 2. Hvert individ/hendelse forekommer uavhengig av de andre 3. Telletallet er funnet ved å telle antallet individer/hendelser av samme type som er tilstede i et gitt enhetsareal eller per tidsenhet. Dette blir eksempler på stokastiske eller tilfeldige prosesser. For Poisson-fordelingen er middeltallet lik variansen. Det betyr at standardavviket blir ± kvadratroten til telletallet. Hvis variansen er større enn middelet er det klumpingseffekter. 0! = 1 n! = n (n-1)(n-2)....2 1

Poissonfordeling

Som eksempel la oss anta sannsynligheten for å finne en sjelden plante langs en homogen veistrekning er 15 planter pr. 20 mil dvs. 0.75 planter pr. mil. Sannsynligheten for å finne ingen planter på en mil er e^-0.75 = 0.472 Sannsynligheten for å finne 1 plante på en mil er: 0.472 x 0.75 = 0.354 Sannsynligheten for å finne 2 planter: For Poisson fordelingen er middlet variansen ^s2 Hvis p 1 vil variansen bli np dvs. middelverdien.

Variansanalyse

Student's t-test/Mann-Whitney analyserer data fra 2 grupper, men mange ganger skal 3 eller flere grupper sammenlignes. Problemet med å få en rekke t-tester unngås ved variansanalyse kalt ANOVA (analysis of variance) hvor alle sammenligningene gjøres i en test. ANOVA trenger en eller to faktorkolonner (indekserte data) og en datakolonne. To-veis ANOVA brukes hvis to eksperimentelle faktorer varierer for hver eksperimentell enhet. Kruskal-Wallis ANOVA brukes på rangeringer (ikke-parametrisk) ved at datasettet omdannes til en ordinal-skala (tilordninger). I prøvene er det 2 kilder til variasjon: 1. Variasjon rundt middelet innen prøven. 2. Variasjon mellom prøvene som skyldes differansen mellom midlene i populasjonen som prøvene kommer fra:

Variabilitet_total=variabilitet_innen + variabilitet_mellom. ANOVA deler opp den totale variasjon av et visst antall prøvene i deres enkelte komponenter. Det blir da enklere å arbeide med kvadratsummen SS (sum of squares), men i siste regneprosess omregnes SS til varianse ved å dividere på antall frihetsgrader. Hvis man anlyserer effekten av 2 variable på middeltallet har en 2-veis ANOVA. Er det bare 1 variabel er det 1-veis ANOVA.

SS_{mellom
gruppene} måler variasjonen til gjennomsnittsforskjellen mellom prøvegruppene. SS_{innen gruppene} (også kalt rest SS) måler den underliggende variasjon til alle de individuelle prøvene. Den totale SS angir total variasjon til observasjonene omkring middelet til alle observasjonene. MS gir to estimater på variasjonen i populasjonen. Hvilke forutsetninger gjelder? Hvordan kan man gjøre hypoteser om middeltallene ved å se på variasjon av observasjonene ? Hva er innen gruppen og mellom gruppene variasjon ? Hvordan gjøres en F-test og hvordan tolkes den ? Hver gruppe må være en tilfeldig prøve fra en normalfordelt populasjon og innen populasjonen må variansen i alle gruppene være like. I variansanalyse blir som tidligere nevnt den observerte variansen delt i to deler: variasjonen av observasjonen innen gruppen (omkring gruppens middel) og variasjon mellom gruppene. Du har et prøve middel for hver gruppe og du kan beregne hvordan disse midlene varierer. Først beregnes innen gruppen summen av kvadratene. Ta hver varianse og multipliser den med antall tilfeller i gruppen minus 1 og summer resultatet Neste trinn er å bestemme variasjonen i de individuelle gruppene "sum of squares" (SS) dividert på antall frihetsgrader. Antall frihetsgrader er antall resultater i hver gruppe minus 1. Resultatet angis som mean square (MS).

Mellom gruppe variasjon

Først beregnes mellom gruppene SS ved å substrahere middelet av alle observasjonene fra hvert grupppe middel. Kvadrer forskjellene og multipliser med observasjonene i hver gruppe. Antall frihetsgrader beregnes ut fra antall grupper - 1. Mellom gruppene "mean square" (MS) beregnes ved å dividerer SS på antall frihetsgrader.

F-ratio

Det må nå estimere variasjonen innen poplasjonen: innen gruppen MS og mellom gruppene MS. Innen gruppen MS baserer seg på hvor mye observasjonene i hver gruppe varierer og mellom gruppe MS hvor mye gruppe midlene varierer. Hvis null hypotesen er sann bør disse to tallene være nær hverandre. Divideres den ene på den andre skal forholdet bli nær 1 Hvis F er ca lik 1 kan du konkludere med at det ikke er noen signifikant forskjellom mellom gruppene dvs. nullhypotesen beholdes. Hvis F er et stort tall kan du regne med at minst en av prøvene er fra en annen populasjon. For å bestemme hvilken gruppe som er forskjellig må du gjøre en multippel sammenligningstest (Bonferronit-test eller Student-Newman-Keuls test). Vi trenger nå å vite det observerte signifikansnivå. Hvorfor kan vi ikke bruke mange t-tester istedet ? Nei, fordi jo flere sammenligninger du gjør, desto mer sannynlig er det at du finner et par som er statistisk forskjellig selv om alle midlene er like i populasjonen. Til en-veis variansanalyse kan benyttes tukey-b multippel sammenligning. Hvis man har to variable får man en 2-veis analyse av variansen. ANOVA gir deg også mulighet for å finne interaksjonseffekter. Assosiasjoner sier noe om de to variablene er relatert Plotte data i en grafisk framstilling er den beste måten å se etter relasjoner og mønstere.

Forsøks-design :Randomisert blokk-design

Hvis vi skal samle prøver fra et stort areal kan det være en underliggende systematisk kilde til variasjon som skyldes gradienter i omgivelsene. Slike gradienter kan være vind, drenering eller eksponering. Vi deler ved randomisert blokk-design forsøksenhetene inn i like mange blokker som vi har replikater/gjentak. Formålet er å få variasjonen innen blokkene så liten som mulig. Middelkvadratet "Mean square" (MS) er et annet mål på variansen-estimatet hvor man deler kvadratsummen SS på antall frihetsgrader. Dette gir MS varians estimat assosiert med variasjonen mellom behandlingsmidlene og variansen innen gruppene:

MS_Error = SS_Error / d.f.

F = MS_treatment/ MS_Error

Jo mindre error MS desto lettere er det å oppdage forskjeller. Antar at omgivelsesfaktorene innen blokken er relativt konstante og at maksimal heterogenitet i omgivelsesfaktorene er mellom blokkene dvs. vi antar at det er minimum variasjon innen blokken og maksimal variasjon mellom blokkene. Total SS kan reduseres ved å fjerne SS som skyldes varianse mellom blokkene.

SS_total= SS_{hovedeffekten} + SS_blokker + SS_{innen blokken}

Faktorielle eksperimenter

Faktorielle eksperimenter tillater separasjon og evaluering av interaksjoner mellom effektene av to eller flere faktorer i et eksperiment. F.eks. kan interaksjonen av faktor A ha forskjellig effekt i nærvær av faktor B enn uten B.

Spredning (dispersion)

Sannsynlighetsregning kommer fra studiet av spill, og går ut på å kvantifisere sannsynligheten for at en spesiell hendelse skal skje. Sannsynlighetsskalaen går fra 0 (umulig) til 1. Myntkast er ofte brukt som eksempel. Det er hovedsakelig 3 måter objekter/ kan fordele seg på et gitt område: regulært, tilfeldig eller klumpet. Det er en indeks som kan beskrive spredningen: Er dette forholdet < 1 tyder det på regulær fordeling og man velger en binomial modell. Er forholdet = 1 tyder det på tilfeldig fordeling og vi velger Poisson fordeling. Er forholdet > 1 antyder det klumpet fordeling og vi velger negativ binomial fordeling. Forholdet mellom variansen og middelet kan standardiseres ved å multiplisere med antall observasjoner minus 1. En prøve med telledata som har liten varians indikerer et regulært mønster. Er det stor variasjon tyder det på klumpet, og tilfeldig spredning faller midt imellom.

Variablene kan klassifiseres i forskjellige grupper basert på hvordan de er målt: nominal -(lat. ord) plassering av et individ i en gruppe f.eks. han eller hun. ordinal -(lat. orden) Inneholder en rangering f.eks. fra sjelden til vanlig 1-6 interval -måletall ratio Vi kan bruke regresjonsanalyse for å forutsi verdien for den avhengige variable basert på de uavhengige variable målt som interval eller ratio. Diskriminantanalyse brukes hvis den avhengige variable er en ordinal Faktor analyse I Clusteranalyse søkes det etter like grupper.

Litteratur

: Brown, D. & Rothery, P.: Models in Biology. John Wiley & Sons 1993.; Fowler, J. & Cohen, L.: Practial statistics for field biology. Open University Press 1990.; Mead, R. & Curnow, R.N. Statistical methods in agriculture and experimental biology. Chapman and Hall 1983.; Schefler, W.C. Statistics for the biological sciences. Addison-Wexley Publ.Comp 1979. SPSS/PC Base manual. SPSS Inc. 1988.

mm er det sanne aritmetiske middeltallet for fordelingen (populasjonen). s er standardavviket til populasjonen og er variansen. De greske symbolene brukes som tidligere nevnt når man snakker om den sanne verdien for populasjonen som man egentlig aldri kan finne, men komme svært nær jo flere forsøk og målinger man gjør. Normalfordelingskurven er beskrevet av middeltallet og standardavviket. Det betyr at hvis vi har et middeltall og et standardavvik har vi automatisk fått en normalfordelingskurve. Hvis vi sier at det totale arealet under normalfordelingskurven er 100 % blir arealet som dekkes av middeltallet ± standardavviket (m ± s) lik 68.26 %. Arealet som dekkes av m±1.96sm og . m og X er like. Man kan ikke bevise en hypotese, men den kan forkastes eller beholdes. m. Z er plassering av variabelen x uttrykt som antall standardavvik fra populasjonsmiddelet. Dette uttrykket kalles Z-score. er kontinuerlig, mens ® 0 når n ® uendelig. m = n·p = n·p·q ® 0 og q ®

Av Halvor Aarnes

Publisert 3. feb. 2011 14:42