Disputas: Linn Cecilie Bergersen

M. Sc. Linn Cecilie Bergersen ved Matematisk institutt vil forsvare sin avhandling for graden ph.d.: Guiding the Lasso: Regression in High Dimensions

 

Linn Cecilie Bergersen

Tid og sted for prøveforelesning 

14. juni 2013 kl. 10.15,  Aud. 4 Vilhelm Bjerknes' hus.

Bedømmelseskomité

  • Professor Christophe Ambroise, University of Evry

  • Associate Professor Mette Langaas, Norwegian University of Science and Technology

  • Professor Ørnulf Borgan, Universitet i Oslo

Leder av disputas

Professor Bent Natvig, Matematisk institutt, Universitet i Oslo

Veiledere

Sammendrag

I løpet av de siste tiårene har det skjedd store endringer i hvordan vi håndterer informasjonen rundt oss. Informasjon og data er ved hjelp av teknologiske fremskritt tilgjengelig på en helt annen måte enn tidligere. Men å omdanne informasjonen til kunnskap som er nyttig er helt avhengig av gode statistiske metoder og modeller. I denne avhandlingen har Linn Cecilie Bergersen utviklet generiske statistiske metoder for høydimensjonale data, det vil si data der man har et stort antall målinger i et lite utvalg av observasjoner. Høydimensjonale data gjør ofte analysene mer kompliserte og i mange tilfeller er det ikke mulig å utføre de analysene man ønsker på grunn av matematiske og praktiske utfordringer knyttet til de enorme datamengdene.

Metodene som foreslås i avhandlingen er spesielt relevante for data innenfor genomikk som ofte baserer seg på målinger av aktiviteten til titusener av gener målt i et lite utvalg prøver/pasienter. Målet i analysene kan for eksempel være å si noe om sykdomsforløpet til en pasient basert på informasjonen i de genomiske dataene. Siden kun et titalls gener antas  faktisk å spille en rolle i de biologiske prosessene knyttet til sykdommen, er det ønskelig å identifisere disse. I avhandlingen tas det utgangspunkt i en statistisk metode som kalles Lasso. Denne kan brukes til å velge ut et sett av viktige gener, samtidig som den indikerer hvordan aktiviteten i disse genene påvirker sykdommen til en pasient. For konkrete situasjoner der eksisterende metoder kommer til kort, foreslår Linn Cecilie Bergersen og medforfattere ulike lasso-relaterte metoder for analyse av høydimensjonale data.

For eksempel blir det mer og mer vanlig å ha flere typer genomiske data tilgjengelig for pasienter i det samme studiet. Et aktuelt spørsmål er hvordan man kan dra nytte av informasjonen i de forskjellige typene data og sammenhengen mellom disse i analysene man utfører. Dette er et av temaene som behandles i avhandlingen og en metode for å kombinere informasjon fra forskjellige datasett blir foreslått og studert.

Et annet problem oppstår i situasjoner hvor antallet målinger kan være opptil flere millioner og praktiske utfordringer gjør det vanskelig å behandle de enorme datamatrisene. Det andre hovedarbeidet i avhandlingen studerer muligheten for å basere analysen på kun én del av dataene uten at resultatene forringes. Det foreslås en enkel algoritme som gjør det mulig å finne løsningen av det fulle lasso problemet basert på kun en brøkdel av dataene.

I det siste arbeidet foreslås en ny og mer fleksibel metode for høydimensjonal regresjon. Her tillates det at de estimerte effektene i modellen kan ta monoton ikke-lineær form, noe som antas å være mer i samsvar med hvordan de biologiske sammenhengene er i virkeligheten.

For mer informasjon

Kontakt Matematisk institutt.

Publisert 30. mai 2013 15:24 - Sist endret 30. mai 2013 15:30