Why most published research findings are false

John PA Ioannidis ved universitetet i Standford oppdaget i sine studier av metaforskning (forskning om forskning) at mye publisert forskning var vanskelig å reprodusere grunnet dårlige og lite presise metodebeskrivelser, og metoder som ikke er allment tilgjengelige, dårlig forsøksdesign, ulempe med småskalastudier innen nye forskningsområder, små effektstørrelser, falske positiver, hypoteser fremsatt etter at eksperimentene/observasjonsstudiene er utført, misbruk av p<0.05 statistikk, samt at rådatasettene fra forskningen ikke er tilgjengelig slik at grafikk og tabeller kan reproduseres. Ioannidis vakte i 2005 oppsikt med sin artikkel ”Why most published research findings are false” , publisert i PLOS (Public Library of Science) Medicine, seinere fulgt opp av “Why most discovered true associations are inflated” (Epidemiology 19 (2008) 640-648).

Desverre har sjarlataner (med manglende kritisk tenkning) og alternativbevegelsen (e.g. alternativ medisin, vaksinemotstand) begjærlig grepet fatt i tittelen, og tror at all moderne vitenskap er nonsens, i et forsøk på å miskreditere all forskning og skape en antivitenskapelig holdning i samfunnet, men disse har fullstendig misforstått budskapet til Ioannidis. Ioannidis provokasjon har medført betydelige forbedringer innen forskningsmetodikk og publiseringsrutiner.

Ioannidis: "Science is the best thing that has happened to human beings .., but we can do it better."

Ioannidis artikkel har bidratt til en bredere diskusjon om publiseringspraksis for vitenskapeelige studier ved universitetene ("publish or perish", publiser eller forsvinn), hvor antallet publikasjoner har blitt viktigere enn kvalitet (liten kvalitetskontroll, tellekanter), samt de store internasjonale forlagenes prissetting på sine vitenskapelige tidsskrifter og "open access". For å motvirke publiseringsskjevhet er det innført offisiell preregistrering av forskningsprosjekter før de er startet. Ben Goldacre kjent for blant annet bøkene Bad Science (2008) og Bad pharma. How Drug Companies Mislead Doctors and Harm Patients,(2012), Imidlertid, alternativ urtemedisin og alternativ medisin er ikke et alternativ, men se heller til evidensbasert medisin og "best practice".

Bad pharma

samt AllTrials-prosjektet ("All trials registered, all results reported").

Spesielt store konsekvenser har ikke-reprodserbare resultater innen medisin og psykologi (men også innen de fleste andre vitenskapelige disipliner), en replikasjonskrise, hvor flere fagfellevurderte publiserte resultater ikke lar seg reprodusere (replikere). Reproduserbarhet er en essensiell del av den vitenskapelige metode. Flere kliniske studier er unyttige, og Ioannidis peker også på behovet for mer pasientsentrert forskning. Mange mataanalyser har vist at flere publikasjoner har kompromitterende dårlig kvalitet, feil statistikkbruk, konfliktinteresser mellom oppdragsgiver og utøver (økonomi, prestisje). Dessuten er det liten vilje og interesse i å forsøke å reprodusere forskning som allerede er publisert.

Med simuleringer viser Ioannidis at for de fleste studiedesign er det mer sannsynlig at en forskningsbasert påstand er usann enn at den er sann. Forskningsbaserte konklusjoner er ofte gjort på basis av få studier med få replikater, og med p-verdier mindre enn 0.05. Forskning som viser ”negative resultater”, det vil si p>0.05, blir ofte ikke publisert. Bruken av ordet ”negativ” i denne sammenheng gir et feil signal. Denne formen for skjevhet i publiseringspraksis med selektiv rapportering påvirker resultatene i metastudier.

Metastudier

Metastudier samler og systematiserer evidens fra mange datasett som omhandler samme spørsmål, men pga. selektiv publisering trekkes slutninger på bare et selektivt datagrunnlag. Det finnes metoder som tar hensyn til denne skjevheten, men disse er ikke fullgode (Modelling publication bias in meta-analysis: A review (Sutton et al. Stat Meth Med Res 9 (2000) 421-445). Metastudier danner basis for evidensbasert medisin som skal sikre pasientene bedre behandlingsmetoder, motvirke feilbehandling og unyttig kirurgi, hvor det også tas hensyn til bivirkninger, overlevelsesanalyse, e.g..Cochrane, Senter for evidensbasert medisin (Universitetet i Oxford),

Cochrane

Evidensbasert medisin.

Galaxy innen bioinformatikk:

Galaxy

Epidemiologi (gr.epi –på, demos-folk) er vitenskapelige studier av sykdom og helse i populasjoner, deres årsaker og risikomønstre, med mål å forstå sykdomsprosesser og deres utvikling. Det må være koherens (sammenheng, forbindelse) mellom epidemiologiske undersøkelser og eksperimenter. Som alltid er det slik at assosiasjon og korrelasjon ikke nødvendigvis betyr årsakssammenheng. Effekten må komme etter årsaken, og den må være spesifik. Årsaken må være plausibel og man forventer en biologisk gradient. Det må være konsistens (sammenheng): mindre eksponering gir mindre forekomst. Dette er en del av Bradford Hill kriteriene (1965), oppkalt etter den britiske epidemiologen Sir Austin Bradford Hill (1897-1991).

Innen et nytt forskningsområde vil oppdagelsene alternere mellom motsatte konklusjoner.Ifølge Proteus-fenomenet er det det første publiserte arbeidet som viser størst trendforskyvning mot ekstreme resultater, også kalt ”vinnerens forbannelse” (”winners curse”). Proteus var en gresk sjøgud som kunne opptre i mange former. Uttrykket ”vinnerens forbannelse”kommer fra auksjonsbransjen hvor en budgiver med ufullstendig informasjon om det auksjonerte objektet betaler for mye, mer enn verdien for det han har fått tilslag på. Selvevaluering fører som regel til at alle anser seg for å være bedre enn gjennomsnittet. Det søkes i storskala metaanalyser etter gener og enkeltbasepolymorfier assosiert med forskjellige typer sykdommer. Tidligere hadde man store forventninger til at mikromatriser for genuttrykk skulle identifisere markører og genuttrykkprofiler relatert til bl.a. kreftsykdommer. Dessverre, massive molekylærebiologiske datasett inneholder som regel så mye støy at det alltid er mulig å finne signifikante effekter av et eller annet, men det er neppe sannsynlig at disse funnene er biologisk interessante og representerer ny kunnskap. Mulighetene for type I og type II feil øker desto flere sammenligninger som gjøres. Bare fra helgenomsekvensering av et enkeltindivid er det nå mulig å generere milliarder av datapunkter. Det blir raskt ”leting etter nåla i høystakken”. Dessuten, individbasert assosiasjon behøver nødvendigvis ikke å gi populasjonsbasert assosiasjon.

Sannsynligheten for at et forskningsresultat er sant avhenger av studiets teststyrke og publiseringsslagside (bias). Bias vil si fordreining og skjevhet, en slagside grunnet systematiske feil.

Det er viktig av SSB og Eurostat gjør at rådatasett er gratis og lett tilgjenglig, slik at publisert statistikk kan etterprøves, samt info om metodeinnsamlingen og type variable.

Både sanne og usanne hypoteser kan fremsettes om en relasjon.

Sannsynligheten (Pr) for sann og usann kan settes lik:

\(Pr(sann)= p\;\;\;\;\;\;\;Pr(usann)=1-p\)

Ioannidis argumenterer med at hvis R er forholdet (ratio) mellom sanne relasjoner og ingen relasjoner, en a priori odds for positiv effekt, så:

\(odds=R=\frac{p}{1-p}\;\;\;\implies\;\; R \left(1-p\right)=0\;\; \implies\;\;p\left(R+1\right)=R\)

R blir her det samme som odds, eller prestudieodds. Regner man ut dette uttrykket, så blir prestudiesannsynligheten for at relasjonen er sann:

\(p=\frac{R}{R+1}\)

og for at den er ikke sann:

\(1-p=\frac{1}{R+1}\)

Sannsynligheten for type I feil (forkaster en sann nullhypotese) settes ofte lik α=0.05 (man er villig til i 1 av 20 tilfeller å ta feil, 5% feil) og raten eller sannsynligheten for type II feil (beholder en usann nullhypotese) settes vanligvis lik β=0.2, 20%, og teststyrke (sensitivitet) er lik 1-β som i dette tilfellet blir lik 0.8 (80%). Sannsynligheten for å finne en sann relasjon er gitt ved teststyrken. Når teststyrken øker så minsker sjansen for type II feil. Teststyrkeanalyse brukes for å beregne minimum prøvestørrelse som trengs for at man skal være rimelig sikker på å oppdage en effekt av gitt forventet størrelse, a priori, eller etter at data er innsamlet (post hoc).

Ulemper med nullhypoteser, p-verdier og α=0.05

Verdien α=0.05 (eller α=0.01) er tilfeldig valgt som skillelinje for avgjørelse mellom å forkaste eller beholde hypotesene, en statistisk signifikant forskjell eller ikke, en valgt α-verdi uten noen form for teoretisk basis, den eneste begrunnelsen er at RA Fisher synes det var en grei verdi.

Tenkningen omkring statistiske nullhypoteser har dessverre blitt en integrert del av den vitenskapelige metode, hvor signifikante p-verdier har inntatt en altoverskyggende plass, gjerne utstyrt med en eller flere stjerner (*) for å angi grad av signifikans. Nullhypotesetesting gir en falsk følelse av objektivitet. Nullhypotesene som fremsettes er ofte trivielle og lite informative, de gir lite ny innsikt og kunnskap, men allikevel brukes de som basis for statistisk inferens. Den tradisjonelle tilnærmingen er nullhypotesen (H₀) om at det er ingen forskjell i populasjonsparametre, selv om man vet at det i utgangspunktet er feil, eventuelle forhåndskunnskaper benyttes ikke, og man sammenligner to grupper som man antar kommer fra samme populasjon. Ut fra eksperiment(-ene) forkaster man nullhypotesen(-e). Omtrent alle nullhypotesene slik de er fremsatt er usanne i utgangspunktet, noe man konkluderer med før noe som helst eksperiment er utført. Misforståelsen er at p-verdien brukes som et mål på styrken av evidens for den alternative hypotesen (H_A). Ofte angis bare p-verdien. Estimerte gjennomsnittsverdier, estimat av effektstørrelser og deres biologiske betydning, konfidensintervall og fortegnet på forskjeller er ofte ikke angitt. I observasjonsstudier er den statistiske fordelingen ikke kjent. Man glemmer ofte å ta hensyn til korrelasjon mellom variable, konfundering som skyldes uavhengige variable som man har glemt å ta hensyn til.

Hvis variablene i den statistiske modell er korrelerte så vil parameterestimatene i koeffisienttabellen heller ikke være uavhengige. I varians-kovariansematrisen for parameterkoeffisientene vil varians for parameterene befinne seg på diagonalen i matrisen, det er disse verdiene som må benyttes til å estimere standardfeilen, mens de andre verdiene i matrisen angir en symmetriske kovariansen mellom parameterne. Egenvektorene i kovariansematrisen angir retningen på vektorene, og lengden av dem er gitt ved kvadratroten av egenverdiene.

Hvis vi har en variabel X med kovariansematrise M, så vil en transformert variabel K:

\(K=AX\)

ha kovariansematrise:

\(AMA^t\)

Innen Bayesiansk statistikk unngår man problemet med nullhypoteser, men hvor ervervet forhåndskunnskap (prior) og etter hvert ny kunnskap benyttes til å si noe om posterior sannsynlighetsfordeling.

Ioannidis argumentasjon

Positiv predikativ verdi (PPV), presisjonsraten, er lik forholdet mellom positive testresultater som er virkelig sanne for eksempel en riktig diagnose i testing av sykdom.

\(PPV=\frac{\text{antall sanne positiver}}{\text{antall sanne positiver + antall usanne positiver}}\)

Falske positiver er et problem med diagnostisk screening (diagnostiske tester) av store befolkningsgrupper, for eksempel for mulig kreft (bryst-, prostata- eller tykktarms-kreft, etc.), hvor testen er beheftet med usikkerhet, hvilket de alltid er.

Test	Relasjon
Test	Syk	Frisk
Test positiv	Sann positiv (SP)	Falsk positiv (FP) (type I feil)
Test negativ	Falsk negativ (FN) (type II feil)	Sann negativ (SN)

Antall individer i de forskjellige kategorier i en 2x2 kontingenstabell.

Sann positiv (SP): syk person med korrekt diagnosetest syk.

Falsk positiv (FP): Frisk person feil identifisert som syk.

Sann negativ (SN): Frisk person korrekt identifisert i testen som frisk

Falsk negativ (FN): Syk person ukorrekt identifisert i diagnosetesten som frisk

Syk(S)-Frisk (F), og test positiv (TP)-test negativ(TN) er binære variable som kan ha verdien 1 eller 0.

Sensitivitet angir sannsynligheten (%) for at den diagnostiske testen viser sykdom hos dem som er syke (sann positiv rate):

\(\text{Sensitivitet}= \frac{SP}{SP + FN}100\)

Spesifisitet er andelen av de uten sykdom som viser negativ test (sann negativ rate), korrekt identifisert:

\(\text{Spesifisitet}= \frac{SN}{FP + SN}100\)

Både sensitivitet og spesifisitet angir egenskapene til testen, og størrelsen på hver av disse må bestemmes og vurderes før den diagnostiske testen tas i bruk. Et ROC-plot ("Receiver Operator Characteristic") viser sammenhengen mellom sensitivitet og spesifisitet.

Sann predikativ verdi (SPV) eller presisjon:

\(SPV=\frac{SP}{SP+FP}\)

Negativ predikativ verdi (NPV):

\(NPV=\frac{SN}{SN+FN}\)

Totalantallet individer:

\(\text{Total}=SP + FP + FN + SN\)

Prevalens er antall individer i en gruppe av befolkningen som syke på et angitt tidspunkt:

\(\text{Prevalens}=\frac{SP+FN}{Total}100\)

Insidens er hvor mange som får sykdom i en gitt periode, for eksempel antall per år.

Hva er sannsynligheten for at en person som virkelig er syk viser en positiv test ?

For en sykdom med høy prevalens er det mer sannsynlig at en person som tester positivt virkelig er syk, sammenlignet med en sykdom med lav prevalens.

Gullstandarden er den uoppnåelige sanne verdi som man aldri kan vite med 100% sikkerhet.

Ioannidis benytter seg av den samme tankegangen i en 2x2 kontingenstabellll som angir relasjonen mellom hva forskning viser (sann hypotese-ja, usann hypotese-nei) og gullstandarden i forskningsfeltet om den sanne relasjon (ja/nei).

Positiv prediktiv verdi (PPV) kan i dette tilfellet uttrykkes som:

\(PPV=\frac{\left(1-\beta\right)R}{\left(1-\beta\right)R \alpha}\)

For R se ovenfor. Et forskningsresultat er mer sannsynlig sant enn usant hvis:

\(\left(1-\beta\right)R>\;\alpha=0.05\)

Falsk positiv

Forskningsresultat og ”den sanne relasjon” (Gullstandarden).

Bays teorem og Bayesiansk statistikk

Sannsynligheten (Pr) for snittet mellom to hendelser A og B kan uttrykkes som betingede sannsynligheter. For eksempel den betingete sannsynligheten Pr(A|B) betyr at gitt utfallet B, B har skjedd, hva er sannsynligheten for utfallet A ?

\(Pr\left(A\cap B\right)=Pr\left(A|B\right)\cdot Pr\left(B\right)=Pr\left(B|A\right)\cdot Pr\left(A\right)\)

Fra dette kan vi utlede Bays teorem:

\(Pr\left(A|B\right)=\displaystyle\frac{Pr\left(B|A\right)\cdot Pr \left(A\right)}{Pr\left(B\right)}=\frac{Pr\left(B|A\right) \cdot Pr \left(A\right)} {Pr\left(B|A\right) \cdot Pr\left(A\right)+Pr\left(B|\overline A\right)\cdot Pr\left(\overline A\right)}\)

hvor \(\overline A\)betyr det motsatte utfall av A.

Bayes teorem anvendt på screeningtester, hvor utfallet A tilsvarer syk og utfall B tilsvarer positiv test:

\(Pr\left(syk|positiv\right)=\displaystyle\frac{Pr\left(positiv|syk\right)\cdot Pr\left(syk\right)}{Pr\left(positiv\right)}= \\ \displaystyle\frac{Pr\left(positiv|syk\right) \cdot Pr \left(syk\right)}{Pr\left(positiv|syk\right) \cdot Pr\left(syk\right) + Pr\left(positiv|frisk\right) \cdot Pr\left(frisk\right)}\)

For eksempel hvis man har en test som som viser riktig i 96% av tilfellene (0.96) og man har en sykdom som har en forekomst (prevalens) med sannsynlighet 0.1% (0.001), dvs. sannsynligheten for å være frisk er 1-0.001=0.999 som tilsvarer 99.9%

Hva vil sannsynligheten være for at man er syk hvis testen viser positivt resultat ?

\(Pr\left(syk|positiv \; test\right)=\displaystyle\frac{0.96 \cdot 0.001}{0.96 \cdot 0.001+0.04\cdot 0.999}=\frac{0.0096}{0.04092}=0.0234\)

Det vil si bare 2.3% sannsynlig for at du er syk hvis testen er positiv gitt betingelsene nevnt foran. Dette gir skremmende perspektiver og viser dilemmaet med falske positiver, med sykliggjøring av friske mennesker. Dette gjelder spesielt massescreening av store befolkninsgrupper for en lidelse som er vanligvis relativt sjelden, med bruk av en metode som ikke klarer å fange opp alle tilfellene. Dette gjelder spesielt massescreening for diverse krefttyper, hvor det blir mange falske positiver, med påfølgende potensielt skadelige biopsier for å bekrefte eller avkrefte, i mange tilfeller unødig angst, uro, redusert livskvalitet, og med kanskje feilbehandlinger som det egenetlig ikke var noen grunn til å utføre. Hvordan sykliggjøre en hel befolkning ? Jo, start massetesting (screening) for en alvorlig sykdom som er relativt sjelden med en test som ikke fanger opp 100% av tilfellene (noe disse testene sjelden gjør) anvendt på store befolkningsgrupper. Bayes formel viser at dette resultater i et stort antall falske positiver. Man undrer seg på om de om initierer slike masseundersøkelser har en egen agenda, sikkert velment, men med lite konsekvensanalyse.

Leter man så finner man. Tankegangen for periodisk kjøretøykontroll har smittet over på helseindustrien. Årlig helsesjekk, selv om man ikke følger seg syk. Snertne teknikker som ultralyd og MR-scanning, testanalyser for enzymaktiviter, elektrolyttnivåer, kolesterol- og viteminkonsentrasjoner, samt blodverdier, som tilsammen øker sannsynligheten for å finne verdier som ligger utenfor normalnivået. Flere «sykdomstilfeller» blir oppdaget og behandlet, men levealderen øker ikke. Tester for alt mulig rart kan kjøpes på apoteket. Du kan sekvensere genomet ditt, men det sier svært lite om det meste. De nasjonene som bruker aller mest penger på helse har ikke en befolkning som lever lenger enn de som bruker litt mindre penger. Regresjon mot gjennomsnittet virker som en reparasjonsmekanisme.

Tester kan også gi falske negativer. Mennesket har en flere millioner år lang evolusjonshistorie med utvikling av et bra immunsystem, ikke perfekt, men det holder til overlevelse og reproduksjon. "Årlig helsesjekk" skyles kanskje redsel for døden.. Her har man arbeidet og skaffet seg hus, hytter, biler, gode venner, det oser av familielykke og vellykkethet, og så skal man gå hen å dø fra alt sammen. Det er ergerlig og forsmedelig.

Feiltolking av statistikk

Advokaten Sally Clark ble tiltalt for mord på sine to spebarn, men hvor påtalemyndighetene begikk feil når det gjaldt statistikk og bevisføring. Spesialisten Meadow mente at sannsynligheten for at to barn i samme familie dør av krybbedød var 1:7300000. Han kom fram til dette ved 8543·8543= 72982849,

hvor 1:8543 var risikoen for at ett barn skulle dø i krybbedød. Det blir feil å multiplisere disse tallene, siden krybbedødtilfeller innen samme familie ikke er uavhengige hendelser, her spiller både genetikk og miljø inn. Både to krybbedød alternativt et dobbeltmord er meget sjeldne hendelser, men når de eventuelt har inntruffet er begge forklaringene mulige, og dette ble det ikke tatt hensyn til. Usannsynlige hendelser skjer også, det er noen som vinner i Lotto hver uke. I ankesaken ble 1:73 millioner erstattet med svært sjelden, uten at dette bedret logikken.

En annen sak var nederlandske sykepleieren Lucia de Berk som arbeidet på et sykehjem og ble i 2003 dømt for 4 mord og 3 mordforsøk. Hun nektet for å ha gjort det og i denne saken dukket den ”Meadowske” sannsynligheten for utfallet 1:342 millioner. Mistenkelige dødsfall blir plukket ut, men dødsfall hvor Lucia ikke var tilstede ble ikke medregnet.

I 2010 kom man fram til at de nevnte dødsfall var tilfeldige, og Lucia frigitt. Man må være meget forsiktig og ikke gjøre metodefeil når man bruker statistikk for å putte folk i fengsel.

Illustrerende er et sitat fra fysikeren Richard Feynman:

”Noe utrolig oppsiktsvekkende skjedde meg i kveld når jeg kom hit til forelesningen og gikk gjennom parkeringsplassen, og du vil ikke tro hva som skjedde meg. Kan du tenke deg: Av alle de millioner av bilnummer som finnes i denne staten så jeg bilnummer ARW357, hva er sjansen for at jeg skulle se akkurat dette spesielle skiltet ikveld ? Utrolig !”

Hvis Feynman på forhånd hadde sagt at han kom til å se akkurat dette bilnummeret hadde det vært oppsiktsvekkende: Hypotese gir data, men hendelsen nå er ikke oppsiktsvekkende i det hele tatt, og den kan ikke brukes til å generere en hypotese, det blir sirkelargumentasjon. Stikkorder her er "på forhånd".

Daniel Kahneman har i boka Thinking fast and slow gitt mange eksempler på hvor lite flinke vi er til å anslå sannsynligheter.

Hvis man skal kombinere små p-verdier kan dette gjøres med Fishers kombinerte sannsynlighetstest og kjikvadratstatistikk med 2k frihetsgrader, hvor k er antall uavhengige tester som gir en p-verdi:

\(\chi_{2k}^2 \approx \displaystyle\sum_{i=1}^k \ln\left(p_i\right)\)

Tiltro og mistro

Også i Norge hvor man antar at det er en godt utdannet befolkning har det blitt økende skepsis til forskning og kunnskap. Mistro til vaksiner (vaksinemotstand), og mistro til årsaker til klimaendringer. "Du som liker denne, vil også like denne" gjør at man bare tilegner seg viten som underbygger den allerede på forhånd inntatte holdning og tro. Høflighet og vanlig folkeskikk har forlatt scenen, den har istedet blitt inntatt av sjikane og insinuasjoner. Villaks (atlanterhavslaks) og lakselus (Lepeophtehirus salmonis) versus oppdrettslaks og lakseoppdrettsnæringen. Rømt oppdrettslaks og genetisk blanding med lokale villaksstammer.Tamreindrift og rovvilttap versus dårlig beitegrunn, sykdom og klima. Ulv og andre rovdyr versus husdyrnæring og utmarksbeite. Kortsiktige næringsinteresser versus langsiktig resssursforvaltning, med bevaring av biodeversitet og habitater. Ressurshøster versus bestandsberegning. Skogbruk versus bevaring fredning av skog. Jaktinteresser versus bevaring av bestander. Evidensbasert medisin versus alternative behandlingsmetoder. Gud og allah versus Darwin-Wallace. Myndigheter og politikere som mener forskningen ved universiteteter, høyskoler og forskningsinstitutter skal støtte opp om næringsinteresser og utvikling av arbeidsplasser, og utøve forskning som støtter et på forhånd valgt syn som tjener "samfunnets interesser".

Les gjerne: Simon Singh og Edzard Ernst: Trick or Treatment? Alternative Medicine on Trial, Bantam Press 2008, som også foreligger på norsk.

Tilbake til hovedside

Publisert 13. jan. 2020 13:23 - Sist endret 11. sep. 2020 10:24