Poissonfordeling

En diskret sannsynlighetsfordeling som beskriver sannsynligheten for hendelser som skjer tilfeldig i tid eller rom, oppkalt etter den franske matematikeren Siméon Denis Poisson (1781-1840). Telling av hendelser eller objekter som er tilfeldig plassert i tid og/eller rom følger en Poissonfordeling. 

Eksempler er telling av trafikkulykker langs en bestemt veistrekning, antall biler som passerer i et veikryss, antall hjortedyr påkjørt langs en veistrekning med gitt lengde,  antall planter eller dyr tilfeldig fordelt på et areal eller rom, antall dyr av en art som dør om vinteren, antall blodceller eller encellete alger i et tellekammer observert i et mikroskop, antall fugl som man kan observere i et tidsrom, eller radioaktiv desintegrasjon.

Noen ganger teller vi stokastiske hendelser som skjer i en populasjon i tid eller rom, hvor hendelsen skjer sjelden i forhold til ikke-hendelse. Hendelsene skjer uavhengig av hverandre i et gitt tids- eller romintervall. På forhånd vet man gjennomsnittsantall hendelser, lambda (λ),eller raten av hendelser. Variabelen X angir antall hendelser i et tids- eller romintervall

\(\displaystyle X \sim \text{Pois }(\lambda)\)

Poisson-modellen er antall hendelser i et intervall. Rateparameter lambda (λ) er gjennomsnittsverdien av antall hendelser per areal- eller tidsintervall (λ=rt).  Et estimat av verdien λ finner man ved datainnsamling eller ved forhåndskunnskap om fenomenet som studeres.

Poissonfordelingen bestemmes av en parameter lambda (λ) som er forventet verdi, gjennomsnitt eller intensitet (X~Pois(λ)), hendelser per tidsenhet eller individer per arealenhet. X er en stokastisk (tilfeldig) diskret variabel Variansen er lik gjennomsnittet. Poissonfordelingen er en utgave av den Binomiale sannsynlighetsfordelingen med stor n og liten p. Sannsynligheten P for en observasjon eller utfall X=x er:

\(P(X=x)=\displaystyle\frac{\lambda^x e^{-\lambda}}{x!}\)

Sannsynlighetstetthet Poissonfordelingen

Sannsynlighetstetthet for poissonfordelingen ved forskjellige verdier av lambda (λ).

Den kumulative fordelingsfunksjonen F(X) for Poissonfordelingen:

\(\displaystyle F(x)= \sum_ {x=0}^\infty P(X=x)= e^{-\lambda}\sum_{x=0}^\infty \frac{\lambda ^x}{x!}= e^{-\lambda}e^\lambda= 1\)

Formen på Poissonfordelingen endrer seg med verdien av λ. Forventet verdi E(X)og varianse Var(X)er lik antall hendelser i et gitt intervall,λ, og standardavviket blir ± kvadratroten til telletallet.Forventning E(X), varians Var(X), standardavvik SD(X) og variasjonskoeffisient CV  for en Poissonfordeling blir:

\(\displaystyle E(X)= \lambda\;\;\;\;\;\;\, Var(X)= \lambda\;\;\;\;\;\;\; SD(X)= \sqrt{\lambda}\;\;\;\;\;\; CV= \sqrt{\frac{1}{\lambda}}\)

Verdiene er alltid heltall større enn 0. Når lambda blir stor, > 5 så blir fordelingen mer og mer normalfordelt. Vi må imidlertid huske på at dette er diskrete data, som danner stolper eller atskilte punkter.

Bildet kan inneholde: linje, tekst, plott, diagram.

Figuren viser stolpediagram av 3000 poissonfordelte slumptall for lambda (λ= =3 

Zeroinflasjon er hvis det er flere nuller enn e.g. prediktert fra Poissonfordelingen. Hvis en hendelse skjer sjelden kan det bli mange nuller. Negative binomiale statiske modeller kan være et godt valg hvis man har zeroinflasjon i datasettet. Er det nuller i datasettet er det ikke velegnet for logtransformering, siden ln(0) er lik minus uendelig. 

Poissonfordeling

Poissonfordeling for lambda = 10. 

Poissonfordeling

Poissonfordeling for lambda=5

Når lambda er liten er fordelingen skjev, men når lambda øker blir fordelingen mer symmetrisk og kan beskrives av en normalfordeling hvor λ blir lik gjennomsnitt og varians,

\(\displaystyle \lambda = E(X)= Var(X)\)

Hvis to uavhengige variable X og Y følger Poisson-fordeling så vil også X+Y gjøre det. Forventningen er summen er lik summen av forventningen:

\(\displaystyle X+ Y \sim \text{Pois}(\lambda_x+\lambda y)\)

Poisson-fordelingen er egentlig en avart av binomialfordelingen X~Binom(n,p). Hvis n er meget stor (n→∞) og og sannsynligheten p for suksess er veldig liten, <<1, kan man i stedet bruke Binomial-fordeling, siden forventningen lambda da blir tilnærmet lik np og varians lambda blir tilnærmet lik npq.

Generalisert lineære modell med linkfunksjon Poisson

I GLM med family=poisson tilsvarer dette at logaritmen til lambda er lik en lineær modell med parameterestimater βi og variable xi:

\(\displaystyle \ln (\lambda)= \beta_0 + \beta_1 x_ 1+ \beta_2 x_ 2 + \dots +\beta_n x_n\)

Vi benyttter eksponentialfunksjonen på begge sider av likhetstegnet:

\(\displaystyle E(X) = Var(X)= \lambda= e^{\beta_0 + \beta_1 x_ 1+ \beta_2 x_ 2 + \dots +\beta_n x_n}\)

Hva betyr parameterestimatene βi i poisson-modellen? Vi kan e.g. se på parameterestimat β1 for variabel x1 i et intervall [a,b] hvor vi lar x1 øke med 1, [a,b=a+1] Fortegnet + viser at responsvariabel øker, - at den minker.

\(\displaystyle \ln (\lambda_ a)= \beta_0 + \beta_1 x_ 1+ \beta_2 x_ 2 + \dots +\beta_n x_n\)

\(\displaystyle \ln (\lambda_ b)= \beta_0 +\beta_1( x_ 1+ 1) + \beta_2 x_ 2 + \dots +\beta_n x_n\)

\(\displaystyle \ln (\lambda_b) - \ln (\lambda_a)= \beta_1= \ln \frac{\lambda_ b}{\lambda _ a}\;\; \implies \;\; \frac{\lambda_b}{\lambda _ a}= e^{\beta_1}\)

Det vil si at når variabel x1 øker med en enhet lik 1 så endrer og øker lambda seg med eβ1. Minsker tilsvarende hvis minus. I poisson-glm unngår man problemet med variabelverdier lik 0, og at ln(0) er lik -∞.

I modelloppsummeringen må man se om residualdeviansen er mye større en residualfrihetsgrader. Hvis den er det kan det tyde på overdispersjon, det vil si at det er mer varians enn det som forklares fra Poisson-modellen. Det kan skyldes at data ikke er Poisson-fordelte, at det er uavhengige variable man ikke er klar over og tatt hensyn til. Man kan forsøke family=quasipoisson og se om dette hjelper.

Litteratur

R Development Core Team (2011). R: A language and environment for   statistical computing. R Foundation for Statistical Computing,   Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/

Tilbake til hovedside

Publisert 25. feb. 2020 15:30 - Sist endret 2. apr. 2020 16:25