Merking og gjenfangst

Merking og  gjenfangst er en metode innen økologi og ressursforvaltning for å estimere størrelse på en populasjon. Noen individer fra populasjonen blir fanget, merket og sluppet tilbake igjen i populasjonen.

Først fanges n1 (=m) individer fra populasjonen, og hver av disse blir merket for så å bli sluppet tilbake til populasjonen. Man lar det gå litt tid slik at de merkete individene får tid til å blande seg tilfeldig med resten av populasjonen. Det foretas deretter en ny fangst av individer, og i denne andre prøven med antall individer n2 (=k) vil noen av dem, antall Y (=x) være individer som ble merket i første prøveuttak, kalt gjenfangst. De andre i prøven er nye individer som ikke tidligere er fanget. Sannsynligheten for gjenfangst følger en hypergeometrisk sannsynlighetsfordeling:

\(P\left[ antall \space gjenfangst =Y|n\right]=\frac{{n_1 \choose Y }{{N - n_1 \choose {n_2 - Y}}}}{{N \choose n_2}}\)

Forutsetter konstant populasjon N med ingen fødsler eller døde, ingen immigrerte eller emigrerte. Det må være tilfeldig prøveuttaking med samme sannsynlighet for å trekke et merket eller et umerket individ

n1 er antall individer fanget og merket før forsøket,

n2 er antall individer i andre prøveuttak, både merkete og umerkete

Y er antall gjenfangst i det andre prøveuttaket

N, den totale populasjonen som vi skal estimere størrelsen av.

N må minst være n2 – n1 + Y

Likelihood (L) N individer gitt Y gjenfangst:

\(L\left[ \left( N|Y\right)\right]=\frac{{n_1 \choose Y }{{N - n_1 \choose {n_2 - Y}}}}{{N \choose n_2}}\)

Eller som den naturlige logaritmen til likelihood lnL:

\(ln L \left[ N|Y gjenfangst \right]=ln \left[ {n_1 \choose Y}\right] + ln \left[ {N-n_1 \choose n_2 - Y}\right]- ln \left[{N \choose n_2} \right]\)

Vi velger nå ut alle mulige verdier for N og finner maksimumspunktet for loglikelihoodfunksjonen, eller minimumspunktet for -2·loglikelihood, med tilhørende 95% konfidensintervall. Maksimumlikelihoodestimater (MLE) følger ikke normalfordeling, og 95% konfidensintervall basert på standardfeilen (SE) som i Wald konfidensintervall er derfor lite velegnet for små prøver. Likelihoodbasert konfidensintervall baserer seg på kjikvadratfordelingen χ2 med sannsynlighet p=1-α og antall frihetsgrader df=1.

Hypergeometrisk sannsynlighetsfordeling

Hypergeometrisk sannsynlighetsfordeling er en diskret sannsynlighetsfordeling som beskriver sannsynligheten for en stokastisk variabel X med utfall x suksess ved å trekke tilfeldige objekter med en spesiell egenskap eller kjennetegn (her grønn klinkekule eller terning) i k forsøk, uten tilbakelegging, fra en endelig populasjon med N objekter, hvor m er eksakt antall objekter med den spesielle egenskapen grønnfarget. N – m = n er antall objekter for ikke-suksess, her rødfarget klinkekule eller terning.  Utfallet i hvert trekk er dikotomt, suksess versus ikke-suksess, og k er et tilfeldig representativt utvalg. Alle objektene må ha samme sannsynlighet for å bli trukket ut, og man trekker ut en og en ad gangen. Siden det ikke er tilbakelegging endrer sannsynligheten seg for et bestemt utfall ettersom hvert trekk minsker populasjonsstørrelsen. Dette blir derfor forskjellig fra en binomial sannsynlighetsfordeling med tilbakelegging. For en meget stor populasjonen blir det liten forskjell mellom tilbakelegging og ikke tilbakelegging.

En tilfeldig (stokastisk) variabel X har følgende sannsynlighetstetthetsfunksjon for X suksess i k forsøk:

\(\left( X=k\right)= \frac{{m \choose x}{N - m \choose k-x}}{{N \choose k}}= \frac{{m \choose x}{n \choose k-x}}{{m+n \choose k}}\)

for x= 0, 1, 2, 3,...k

Andelen suksess er lik:

\(p = \frac {m}{N}=\frac{m}{m+n}\)

Forventningen E(X) er:

\(E(X)= µ = kp= np\)

Variansen Var(X) er:

\(Var(X)= \frac{kp\left(1-p \right)\left(m+n-k \right)}{m+n-1}=np(1-p)\frac{N-n}{N-1}\)

Et estimat for p er:

\(\hat p=\frac{x}{k}\)

Hypergeometrisk fordeling tetthetsfunksjon

Sannsynlighettetthetsfunksjon for hypergeometrisk fordeling

Hypergeomtrisk fordeling kumulativ

Kumulativ fordelingsfunksjon hypergeometrisk fordeling

I litteraturen blir det brukt forskjellige bokstavkoder som inngår i formlene for hypergeometrisk sannsynlighetsfordeling:

Wikipedia

k

n

N

K

R

x

k

m + n

m

W & S

Y

n2

N

n1

Wolfram  MathWorld

i

N

m + n

n

Div lærebøker

x

n

N

M

Eksperiment hypergeometrisk fordeling

I en boks med N terninger, klinkekuler eller andre typer objekter , hvorav m er grønne og n er røde, N = m + n. Vi definerer å trekke en grønn terning for suksess (1) (x) og en rød terning ikke-suksess (0).  Uten å se i boksen  trekk et og et objekt fra boksen, uten å legge det tilbake, i alt k  ganger. Tell opp antall suksess x.

x er en vektor som angir antall grønne klinkekuler (suksess) som trekkes fra en plastboks, uten tilbakelegging, og plastboksen inneholder både røde og grønne klinkekuler/terninger

m er antall grønne objekter i boksen

n er antall røde objekter i boksen

k er antall objekter som trekkes fra boksen

Eksempel: m=10, n=20 og k=0:5

Hypergeometrisk fordeling eksempel

Hypergeometrisk sannsynlighetsfordeling (uten tilbakelegging) for  m=10, n=20 og k=0:5 (blå streker), sammenlignet med sannsynlighetstettheten for en binomial fordeling med tilbakelegging (røde punkter).  

Litteratur

Whitlock MC& Schluter D: The analysis of biological data (2. ed). W.H Freeman and Company 2015. s. 666. (W & S)

R Core Team (2016). R: A language and environment for statistical
  computing. R Foundation for Statistical Computing, Vienna, Austria.
  URL https://www.R-project.org/.

Wikipedia

Tilbake til hovedside

Publisert 6. des. 2018 14:49 - Sist endret 6. des. 2018 15:45