Kontingenstabeller og odds ratio

Odds er forholdet mellom sannsynligheten for at en hendelse skjer og sannsynligheten for at den ikke skjer. Kontingenstabeller viser sammenhengen mellom kategoriske variable, først undersøkt av Karl Pearson i 1904. Odds ratio er forholdet mellom to odds. 

Kontingensstabeller

Kontingenstabeller brukes til å analysere telledata organisert i kategorier, teller hvor mange det er i hver kategori. Typisk er en 2x2 kontingenstabell med to rader og to kolonner. Gir fire ruter med kombinasjoner av de to faktorene:

 

Kolonne 1

Kolonne 2

Rad total

Rad 1

a

b

a+b

Rad 2

c

d

c+d

Kolonne total

a+c

b+d

n

Nullhypotesen er at de to faktorene er uavhengige. Alternativ hypotese er at det er en relasjon mellom de to faktorene. Den katagoriske dataanalysen kan bli utført med Pearsons kjikvadrattest2) for uavhengighet, G-test eller eller Fishers eksakt test, hvor man k kan vurdere signifikansen mellom observert frekvens (O) fra forventet frekvens (E).

Generelt for kontingenstabeller utvides til r antall rader og k antall kolonner, og  har antall frihetsgrader (df) lik:

\(df=\left(r-1\right)\left(k-1\right)\)

For en 2x2 kontingenstabell blir antall frihetsgrader df=1.

Sannsynligheten for et gitt utkomme er:

\(p=\frac{(a+b)!(c+d)!(a+c)!(b+d)!}{a!b!c!d!n!}\)

Pearsons kjikvadrat χ2

Testobservator kjikvadrat (χ2) er gitt ved:

\(\chi^2= \displaystyle\sum\frac{\left(O-E\right)^2}{E}\)

Tester om to faktorenr er uavhengige eller om det er en relasjon mellom dem.

På et kurs er det følgende antall jenter (26) og gutter (16). Kan vi forkaste hypotesen om jevnt kjønnsforhold 50:50 ? Nei

data:  c(26, 16), X-squared = 2.381, df = 1, p-value = 0.1228

I et av Mendels klassiske forsøk med dihybrid krysning av erteplanter med alleler for gule- (d) og grønne (r) erter, runde- (d) og rynkete (r) erter, (d dominant, r-recessiv)  ga etter selvpollinering i F1-generasjonen følgende antall fenotypeavkom i F2-generasjonen: 315 gule-runde,101 gule-runde, 108 grønne-runde, og 32 grønne-rynkete. Er tallene overenstemmelse med hypotesen 9:3:3:1 ?

data:  c(315, 101, 108, 32), X-squared = 0.47, df = 3, p-value = 0.9254

Med en p-verdi 0.93 beholder vi nullhypotesen at fenotypfordelingen er 9:3:3:1

observert=315,101,108, 32

forventet=556*(9/16,3/16,3/16,1/16)= 312.75 104.25 104.25  34.75

sum((observert-forventet)2/forventet)= 0.470024

Hvor sannsynlig er det å få en slik kjikvadratverdi ?1-pchisq(0.470024,3)= 0.9254259.

Mosaikkplot er velegnet for å vise grafisk framstilling av kontingenstabeller.

G-test

Vi beregner avvik fra en log-lineær modell:

\(G=2\sum O\;\ln\left(\frac{O}{E}\right)\)

hvor O er observert frekvens, E er forventet frekvens (expected)

Fisher´s eksakt test

For en 2x2 kontingenstabell  beregnes alle mulige kombinasjoner mellom de fire verdiene i tabellen. Lager en fordeling av alle mulige verdier og undersøker hvor ekstrem den tabellen vi har i forhold til denne. Er datamaskinkrevende. Hvis en eller flere av frekvensene er lave, <5 kan man ikke lenger vente kjikvadratfordeling.

Vi ser på datasettet med Mendels erter nevnt over, og det blir samme konklusjon som tidligere. Nullhypotesen beholdes. Vi ser at p-verdiene varierer litt.

GLM og kontingenstabeller

Et alternativ er å analysere kontingenstabeller med en generalisert lineær modell (GLM) med Poissonfordeling. Devianse angir hvor godt modellen er tilpasset data. Devianse er -2 ganger forskjellen i loglikelihood mellom den nåværende modell og en modell som gir absolutt tilpasning til data.

For telletall blir deviansen lik:

\(\text{devianse}= \displaystyle -2\sum_{i=1}^n O_i\ln\left(\frac{O_i}{E_i}\right)\)

Odds

Odds er definert som:

\(odds= \frac{p}{q}= \frac{p}{1-p}\)

hvor p er sannsynligheten for at hendelsen skjer og q=1-p er sannsynligheten for at den ikke skjer. Oddsen for at en tilfeldig valgt dag i uken er en mandag er 6 mot 1, hvor 6 antall muligheter for feil utkomme dvs. ikke mandag, og 1 er antall muligheter for et ønsket utkomme. Odds 6:1 betyr at det er 6 ganger mer sannsynlig at en dag ikke er en mandag, enn at den er det. Imidlertid er sannsynligheten for at en av ukedagene er en mandag er 1/7. Mens sannsynligheten p varierer mellom 0-1, så varierer odds fra 0 til uendelig (∞).

Hvis sannsynligheten p for suksess er 0.8 er sannsynligheten for ikke-suksess q=1-0.8=0.2. Odds for suksess blir 4 til 1 (4:1). p/q=0.8/0.2=4. Odds for ikke-suksess q/p=0.2/0.8=0.25, blir 1 til 4. Odds for suksess og ikke-suksess er resiproke verdier 1/4=0.25 og 1/0.25=4. 

Kasus versus kontroll eksperimenter

Kasus kontroll eksperimenter er av type hvor en kontrollgruppe med friske individer sammenlignes med en gruppe syke.

Kontingens kasus kontroll eksperiment

Vi får to odds, odds1=b/d og odds2=a/c, et odds ratio (OR) som er lik odds1/odds2 =ad/bc. Hvis OR>1 er det mer sannsynlig med sykdom hos de eksponerte. En kohort følges over tid, for eksempel en kohort med røykere og ikke-røykere undersøkt over tid. En stor prøvestørrelse øker presisjonen i undersøkelsen. Positiv predikativ verdi er sannsynligheten for at en positiv test predikterer sykdom.

Prevalens (forekomst)=antall syke/antall individer.

Klassiske kliniske forsøk deler pasientene inn i to grupper hvor den ene gruppen får behandling og den andre gruppen ingen behandling. Her ligger det muligheter for feil i design: Regresjon mot gjennomsnittet. 

Placebokontroll, man ønsker at et legemiddel skal virke bedre enn placebo. Legemidler er kostbare for samfunnet, fører til økt medikalisering og legemidler er alltid beheftet med bivirkninger av mer eller mindre alvorlig grad som må veies opp mot fordelen.  

Feil i forsøksdesignet

- Pasienter som faller fra og ikke fullfører deltakelse i undersøkelsen av diverse grunner, ”Intention to treat” versus per protocol bare de som blir behandlet. Man må kjenne til egenskapen til den gruppen som trekker seg fra en undersøkelse, siden disse gjør at utvalget av forsøkspersoner ikke lenger er tilfeldig. 

- Måler en respons med liten informasjonsverdi.

- Formulerer hypotesen for eksperimentet etter at det er avsluttet, i stedet for før.

- Skjevhet i utvalg av forsøksobjekter. Vi er ikke flinke til å velge tilfeldig. Mange uavhengige prøveobjekter jevner ut tilfeldig variasjon og bakgrunnsstøy. 

- Selektiv rapportering, resultater som viser ingen signifikante forskjeller blir publisert i mindre grad enn de som viser signifikante forskjeller.

- Konfundering (effekt av uavhengige variable som ikke er tatt med i undersøkelsen) og kovarianse.

- Villedende grafisk framstilling av resultater, med manipulering av akser som overdriver forskjeller.  

- Velger bare ut referanser og litteratur som understøtter resultatet i undersøkelsen, og utelater dem som viser noe annet. 

- Industrifinansiert forskning som kanskje har en egen agenda versus forskning finansiert av offentlige midler.

Har du funnet et enkelt svar på et komplekst spørsmål, er svaret ditt sannsynligvis feil.

Kontingenstabeller og odds

I kontingenstabellen sammenlignes andelen utkomme for de forskjellige kategoriene.

Vi ser på variable med bare to kategorier: Forklaringsvariabel X med I kategorier i rader og responsvariabel Y med J kategorier i kolonner. Rutene i tabellen inneholder tellinger av antall utkomme (frekvens).

Kontingenstabell2

Tabellen under viser celle-sannsynligheten, og summen av celle-sannsynlighetene er lik 1. Den estimerte sannsynligheten i hver rute blir:

\(\hat p_{ij}= \frac{n_{ij}}{n}\)

Kontingenstabell

Odds ratio (OR) blir forholdet mellom to odds, og er lik produktet av sannsynlighetene hvor X=Y dividert på produktet hvor X≠Y. Odds ratio endrer seg ikke selv om orienteringen av tabellen snus. Odds ratio er forholdet mellom odds i en gruppe og odds i en annen gruppe.

\(OR= \displaystyle\frac{\frac{p_{11}}{p_{12}}}{\frac{p_{21}}{p_{22}}}= \frac{p_{11}p_{22}}{p_{12}p_{21}}\)

Tilsvarende for tellinger i rutene:

\(OR= \displaystyle\frac{\frac{n_{11}}{n_{12}}}{\frac{n_{21}}{n_{22}}}= \frac{n_{11}n_{22}}{n_{12}n_{21}}\)

Vi kan også sette opp odds ration som betingete sannsynligheter:

\(OR= \displaystyle\frac{\frac{p_{11}}{p_{12}}}{\frac{p_{21}}{p_{22}}}=\frac{\frac{P(Y=1|X=1)}{P(Y=2|X=1)}}{\frac{P(Y=1|X=2)}{P(Y=2|X=2}} =\frac{p_{11}p_{22}}{p_{12}p_{21}}\)

Odds ratio OR=1, dvs. odds1=odds2, hvis og bare hvis X og Y er uavhengige.

Hvis 1<OR<∞ dvs. odds1>odds2, så betyr det at subjekter i rad 1 har større sannsynlighet for suksess enn subjekter i rad 2.

Hvis OR=3 så betyr at odds for suksess i rad 1 er tre ganger odds i rad 2.

Hvis 0<OR<1 betyr odds1<odds2.

Hvis noen av rutene har sannsynlighet lik 0 så vil OR blir lik 0 eller uendelig (∞).

For å kunne trekke statistiske konklusjoner fra odds ratio ser vi på den naturlige logaritmen til odds ratio:

\(\ln OR= \ln\frac{p_{11}p_{22}}{p_{12}p_{21}}= \ln p_{11}+ \ln p_{22} - \ln p_{12} - \ln p_{21}\)

Hvis n er stor nok så kan vi anta at logaritmen til odds ratio følger ca. normalfordeling. Summen (n) av alle utkomme:

\(n= n_{11}+n_{12}+ n_{21}+n_{22}\)

Standardfeilen (SE) blir:

\(SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}}\)

Konfidensintervallet (95% KI) for ln(odds ratio) blir:

\(\ln(\text{odds ratio (OR)}) \pm 1.96 \cdot SE\)

For å finne konfidensintervallet for odds ratio bruker vi eksponentialfunksjonen:

\(e^{\ln(\text{odds ratio}) \pm 1.96 \cdot SE}\)

For et 95% konfidensintervall vil i 95 av 100 tilfeller punktestimatet ligge innen konfidensintervallet.

Odds ratio (OR)benyttes mye innen epidemiologi og kliniske undersøkelser av typen behandling-kontroll, hvor OR oppgis i tabellene med tilhørende 95% konfidensintervall

Man kan ogå oppgi relativ risiko (RR) i stedet for odds ratio. I sjeldne tilfelle så blir OR et godt mål på relativ risiko.

Hvis p→0 som gir (1-p)→ 1.

For å undersøke homogenitet benyttes Brewlow Day statistik.

Sammenheng røyking og lungekreft

Sir Richard Doll og Sir Austin Bradford Hill er kjent for å ha funnet en statistisk sammenheng mellom røyking og lungekreft. Som vanlig gikk tobakksindustrien til motangrep, men Doll fikk også noen striper i lakken. Hill som ble rammet av fattigmannssykdommen tuberkulose fant også sammenheng mellom arsenikk og kreft i den kjemiske industrien, samt en sammenheng mellom røde hunder og fosterskader.

 For 20 sykehus i London ble pasienter som fikk lungekreft forespurt om de røykte. Dette ble sammenlignet med røykeatferd hos pasienter av samme type, men som ikke hadde utviklet lungekreft. Studiet ble publisert som Smoking and carcinoma of the lung:preliminary report i British Medical Journal 221 (1950)739-748.

Lungekreft er binomial responsvariabel og røyking er en binomial forklaringsvariabel, og data fra tabell IV fra tidsskriftartikkelen er slått sammen for menn og kvinner:

Røyking og lungekreft

Andelen lungekrefttilfeller blant røykere: 688/709=0.970

Andelen lungekrefttilfeller blant ikke-røykere: 650/709=0.917

Odds for kreft for ikke-røykere er ca. 0.36 og for røykere ca. 1.06 og odds ration ca. 3

odds2 = (21/(21+59))/(1-(21/(21+59))) #odds ikke røykere = 0.3559322

odds1 = (688/(688+650))/(1-(688/(688+650))) #odds røykere = 1.058462

Skal vi kunne si noe om sannsynligheten for lungekreft gitt at vedkommende røyker må vi beregne odds ratio: odds1/odds2= 2.973773

\(OR= \displaystyle\frac{\frac{n_{11}}{n_{12}}}{\frac{n_{21}}{n_{22}}}= \frac{n_{11}n_{22}}{n_{12}n_{21}}= \frac{688 \cdot59}{650 \cdot 21}= 2.97\)

Oddsen for lungekreft for røykere er ca. 3 ganger estimert odds for ikke-røykere.

\(SE=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}}= \sqrt{\frac{1}{688}+\frac{1}{650} +\frac{1}{21}+ \frac{1}{59}}= 0.26\)

Vi kan bestemme 95% konfidensintervall for odds ratio:

exp(ln(2.97)+1.96*0.26)=  4.943937

exp(ln(2.97)-1.96*0.26)=  1.784185

Det vil si 95% konfidensintervall for odds ratio er

1.8 < OR <4.9

Relativ risiko

Regner man ut relativ risiko i stedet for odds ratio:

Kontingenstabell

Prevalens/insidens for eksponert:

\(I_1=\frac{ai}{ai+bi}\)

Prevalens/insidens for ikke-eksponert:

\(I_0=\frac{ci}{ci+di}\)

Homogenitet for odds ratio kan også testes med Breslow Day statistiks.

Den relative risiko (RR) er forholdet mellom sannsynligheten for to hendelser.

\(RR= \frac{I_1}{I_0} \)

Den relative risiko RR er tilnærmet lik:

\(RR\approx \frac{OR}{1-I_0+(I_0 \cdot OR)}\)

for eksempel 10% risiko tilsvarer 0.1.

Hvis for eksempel relativ risiko er 1.26 er det 26% større sannsynlighet for en effekt sammenlignet med placebokontroll.

Relativ risiko kan virke meget villedende sammenlignet med absolutt risiko. Her gjelder det å passe på, hvis ikke blir du lurt. Hvis 20 av 1000 individer lider av en sykdom tilsvarer det 2%. Hvis etter behandling med et legemiddel er det 10 av 1000 som blir syke, dvs. 1%, så blir den relative risikoreduksjonen 50%, men den absolutte risikoreduksjonen er 1%. I stedet for risiko kan man bruke ”Numbers needed to treat”, hvor mange må behandles for at et individ skal få nytte. Det er et mer illustrerende tall. 

Risikoen for at en som røyker utvikler koronar hjertelidelse er 2-4 ganger den for ikke-røykere. Relativ risiko brukes ofte i kohortstudier, mens odds ratio i tilfelle-kontroll studier.

Kontingenstabell analysert som GLM (generalisert linær modell) 

Man kan også lage en binomial modell ja-nei og analysere denne med GLM.

siden vi nå har en binomial modell betyr dette at logaritmen til odds er lik:

\(\ln odds= logit= \ln \frac{p}{1-p}= \beta_0 + \beta_1x\)

Vi bruker eksponentialfunksjonen på begge sider av likhetstegnet og får odds for kreft for ikke-røykere.

\(\ln \left(\frac{p}{1-p}\right)= \beta_0 + \beta_1 x\)

Hvis vi nå øker x med en enhet:

\(\ln \left(\frac{p}{1-p}\right)= \beta_0 + \beta_1( x+1)= \beta_0+\beta_1x + \beta_1\)

Vi bruker deretter eksponentialfunksjonen på begge sider av likhetstegnet og finner at oddsen blir lik:

\(\frac{p}{1-p}= e^ {\beta_0+\beta_1x + \beta_1}= e^ {\beta_0+\beta_1x \cdot \beta_1}\)

Det vil si at øker x med 1 enhet så øker oddsen med eβ1.

Koeffisienttabellen gir verdiene for intercept beta0 og stigningstall beta 1

ln(odds)= 0.05682 -1.08983·røyking

Det vil si at ln(odds) for kreft minsker med -1.09 hvis man ikke røyker i forhold til å røyke.

exp(0.05682-1.08983) #odds ikke røykere= 0.355934

exp(-1.033+1.0898) #odds for røykere= 1.058444

Odds ratio blir som vi fant tidligeretidligere 1.06/0.36=3

 Tilbake til hovedside

 

Publisert 23. des. 2019 12:07 - Sist endret 13. jan. 2020 15:16