Oppskriften på en plante (Arabidopsis)

Sekvensering av genomer

Vårskrinneblom (Arabidopsis thaliana) er en liten plante i korsblomstfamilien (Brassicaceae=Cruciferae) som vokser på tørre og varme bakker tidlig om våren. Navnet vårskrinneblom illustrerer voksemåten. Til korsblomstfamilien hører også raps, sennep, reddik, pepperrot, karse og alle sortene av kål. Vårskrinneblom visner tidlig og er vinterettårig. Det vil si at frøene må gjennom en vernalisering for at planten skal blomstre neste vår. Vårskrinneblom har blitt plantebiologenes bananflue. Den tar liten plass, har en rask utvikling, selvpollinerer, produserer mange frø og fullfører livssyklus i løpet av noen uker. Det viktigste er imidlertid at den har et lite genom i kjernen med et lavt innhold av repeterte sekvenser i introns i DNA. 119 millioner basepar (Mbp) fordelt på 5 kromosomer i cellekjernen som koder for ca. 26.000 forskjellige proteiner. Vegetative celler har dobbelt sett med kromosomer, ett sett som de har fått fra moren og ett sett som de har fått fra faren. Vegetative celler er diploide slik at de vegetative cellene i Arabidopsis har 10 kromosomer, to av hver for de 5 kromosomene. I tillegg finnes det sirkulære kromosomer i plastider og mitokondrier.

I 1995 inngikk flere laboratorier i USA, Japan, Frankrike, Tyskland og Storbritannia et samarbeid med formål å sekvensere genomet til Arabidopsis, det vil si finne rekkefølgen av alle basene i DNA i cellekjernen. I nummeret av tidsskriftet Nature som kom ut 14. desember 2000 ble det annonsert at arbeidet var fullført. DNA fra alle levende organismer er satt sammen av de 4 basene adenin (A), cytosin (C), guanin (G) og thymin (T). Basene danner par A-T og G-C som danner en dobbelttrådet DNA-helix. Sekvensen av baser i DNA inneholder instruksjonen om hvordan en organisme blir laget. Antall basepar varierer fra noen få tusen for enkle virus til milliarder basepar for komplekse organismer. Områder av DNA som er viktige for funksjonen er felles for organismene (konservert). Tidligere har sekvensen til 30 forskjellige bakterier blitt bestemt, bl.a. tarmbakterien Escherichia coli (4.7 Mbp) i 1997 . I 1996 kom DNA- sekvensen til den første eukaryote celle,bakegjæ (Saccharomyces cerevisae, 13Mbp). I 1998 kom sekvensen for en 1 mm lang nematode bestående av 959 celler (rundormen Caenorhabditis elegans, 97Mbp) og deretter for bananflue (Drosophila melanogaster) og delvis for mennesket (Homo sapiens(3200 Mbp) (The Human Genome Project-HUGO). Genteknologifirmaet Celera Genomics® , Maryland, USA, spilte en viktig rolle i sekvenseringen av det menneskelige genom. Celera Genomics® valgte den raskere hagleskudd-metoden for sekvenseringen ("shotgun"-sekvensering). Det "statelige" HUGO valgte en ordnet sekvensering basert på fysiske kart av hvor kjente gener befinner seg, og på kunstige (artifisielle)bakteriekromosomer (BAC- "Bacterial Artificial Chromosomes/Clones") og kloning av DNA-fragmentene. All sekvensering er basert på kloner og subkloner. Alt DNA fra kjernen eller fra et isolert kromosom kappes opp i biter og settes inn i kloningsvektorer. I BAC kan man sette inn sekvenser på 150 kilobaser (kb). Hvis alt DNA fra et genom samles i rekombinante bakterier har man et genbibliotek. Hvis man får med 10 kb per klon og hele genomet er 100.000 kb trenger man 10.000 uavhengige kloner. Når man kjenner sekvensen til mange av småbitene kreves det bruk av datamaskiner (bioinformatikk) for å finne igjen overlappende sekvenser og å bygge opp den hele sammenhengende opprinnelige sekvensen. Sekvensering skjer idag i produksjonslinjer som ligner gammel industri med opptil flere hundre sekvenseringsmaskiner som arbeider døgnkontinuerlig. DNA-isolering, lage kloner, elektroforese og sekvenseringen er helautomatisert. For mennesket vil det si 24 forskjellige DNA fordelt på 24 kromosomer (22 autosomer og X og Y-kromosomet. Ikke noe genom representerer det sanne genom siden det er individvariasjoner. Den første grove sekvenseringen av det menneskelige genom ble publisert i Science 16. februar 2001

Science 16.feb. 2001

Den første kjente DNA-sekvensen til en plante representerer en milepel i plantebiologien. Dette angår oss alle fordi det er plantene som skaffer oss mat. Mais (Zea mays) har ca. 20 ganger mer DNA (2.500 millioner basepar (Mbp)), og tetraploid hvete (Triticum aestivum) har ca. 135 ganger mer DNA enn Arabidopsis. Denne forskjellen skyldes flere kromosomer og større innhold av ikke-kodende repetert DNA (introns, repetert DNA, transposons og retrotransposons). Vi kjenner til ca. 275.000 forskjellige plantearter, men alle er laget over samme lest, det vil si hovedoppskriften som finnes i Arabidopsis. Det neste plantegenomet som ble sekvensert var ris (Oryza sativa) med ca.440 millioner basepar fordelt på 12 kromosomer (International Rice Genome Project). Ris er mat for millioner av mennesker og man dyrker spesielt varietetene japonica og indica. Også ved sekvenseringen av risgenomet var det et bioteknologiselskap som var først ute, denne gang Syngenta®, og som forbeholdt seg spesielle rettigheter ifm. sekvenseringen.I tillegg til BAC-kloner ble det brukt YAC ("Yeast Artificial Clones" ) hvor det kan settes inn opptil 300 kb og PAC ("P1 Artificial Clones") i sekvenseringen og resultatene ble publisert i Science 5. april 2002. Risgenomet består av mellom 46-55.000 gener. Ca. 80% av Arabidopsis-genomet har homologe sekvenser hos ris, men bare ca. 49% av risgenomet har homologer i Arabidopsis Risgenomet har imidlertid stor sekvenslikhet med de andre kornslagene mais og hvete som alle hører med til grasfamilien.

Science 5.april 2002 vol. 296

Andre modellorganismer hvor man etterhvert kjenner store deler av genomet er grønnalgen ichlamydomonas med en kloroplast. Zebrafisk (1700 Mbp) som har et gjennomsiktig embryo og som brukes for å studere utvikling av indre organer og nervesystemet hos vertebrater. Sekksporesoppen brødmugg Neurospora crassa som ble brukt av Beadle og Tatum og viste at gener kontrollerer biokjemiske reaksjoner (ett gen - ett protein hypotesen).

Sekvensen til malariamyggen Anopheles gambiae ble publisert i Science 4. oktober 2002. I sekvenseringsarbeidet deltok Celera Genomics®, The Institute for Genomic Research (TIGR), og The French National Sequencing Center.

Science 4. okt. 2002 vol. 298

Malariamyggen sprer parasitten Plasmodium falciparum som er den mest fryktede av malariaparasittene. Den utstrakte bruken av chloroquin som antimalariamiddel har gitt utvikling av chloroquin-tolerant (resistent) P. falciparum, slik det alltid går når det legges et seleksjonspress på en organisme, og er et godt eksempel på hvordan Darwinismen virker i praksis, på samme måte som utvikling av antibiotikaresistens hos bakterier. Bruken av myggnett impregnert med insekticider gir utvikling av insekticidtolerant malariamygg, og man håper at kunnskap om DNA-sekvensene skal gi nyttig kunnskap vedrørende bekjempning av malaria, et arbeid som Verdens helseorganisasjon (WHO) startet på 1950-tallet. I starten ble det brukt DDT. Sekvensen til malariaparasitten Plasmodium falciparum ble presentert i Nature 3. oktober 2002 samtidig med sekvensen for malariamyggen.

Nature 3. okt.2002 vol. 419 no.6906

Funksjonen til genene kan samles i hovedgrupper: metabolisme, transkripsjon, proteinsyntese, signaloverføring, transport, vekst og forsvar. Genomduplisering, inversjoner, delesjoner, translokasjoner, transposons og retrotransposons er viktige mekanismer for evolusjonen av genomene og organismene.

Hva nå ?

Når vi nå kjenner DNA-sekvensene til organismer innen alle de viktigste delene av rikene Bacteria, Archaea og Eukarya har vi en unik mulighet til å kunne studere evolusjonen av alle organismene på jorda. Det er imidlertid mange ubesvarte spørsmål. Når man har den lange sekvensen så blir kunsten å bestemme hvor befinner genene seg og hva slags produkter lager de? Sekvensen er 3-dimensjonal i cellen , i motsetning til den 2-dimensjonale papirutgaven som vi presenteres for. Cellens metabolismeapparat har ingen vanskelighet med å finne ut hvor på sekvensen transkripsjonen av et gen skal starte. Det pågår også en diskusjon om hvor mange gener en organisme egentlig har. Det kan tenkes at ett gen kan brukes til å lage flere forskjellige proteiner ved å sammenkoble DNA-sekvensen på forskjellig måte (alternativ spleising). Hvordan har plantene utviklet seg ? Hvordan alt liv henger sammen ? Hva er felles ? Hva er forskjellig ? Hvordan oppstår symbiose, mutualisme, kommensalisme, og parasittisme ?

Arbeidet de nærmeste årene vil dreie seg om å identifisere alle proteinene (proteomet) som de titusenvis forskjellige genene koder for. Proteomikk er fagområdet som omhandler alle proteinene som kodes av genomet. Vi har mye kunnskap om enzymene som styrer metabolismen og proteiner som deltar i transport og strukturoppbygging, men ikke samme kunnskap om genene og genreguleringen for alle proteinene. Det amerikanske forskningsrådet (The National Science Foundation) har igangsatt et forskningsprosjekt Prosjekt 2010, som har til formål å finne funksjonen til alle genene i Arabidopsis innen år 2010. Det finnes mulighet til å plassere deler av alle de kjente gensekvensene for en organisme på en DNA-brikke eller DNA-mikromatrise. Ved hjelp av hybridiseringsteknikk blir det mulig å finne ut under hvilke betingelser de forskjellige genene uttrykkes og produserer mRNA, og som oversettes til protein. DNA-brikkene avleses med en laserstråle. En annen teknikk som brukes i arbeidet med å finne funksjonen til alle genene, er å påvirke promotersekvensene til genene slik at det overproduseres eller blokkeres for produksjonen av genprodukter. Man ser deretter hvilken effekt dette har på organismen. I dette arbeidet deltar forskningsgrupper ved universiteter og forskningsinstitutter, men i kjølvannet kommer genteknologifirmaer som f.eks. Paradigm Genetics® som håper å kunne tjene penger på bioteknologien.

Sykdom rir alle organismer som en mare. Vi får nye muligheter til å kunne studere sykdomsresistens og immunitet. Vi vet at kulturplantene er lettere utsatt for sykdommer enn ville planter og dette gir mulighet til finne igjen gener og genprodukter som gir forsvar mot sykdom.

Mennesket er nysgjerrig av natur og ønsker å utforske alle sine omgivelser. Genenes tidsalder og "biologenes kjernereaksjon" (PCR) vil imidlertid også skape vanskeligheter og gi nye problemstillinger som vi må forholde oss til i årene som kommer. Ikke minst gjelder dette bruk av genmodifiserte organismer innen landbruk, havbruk, hagebruk og industri. Det er viktig at de nye genteknikkene ikke blir en " genteknologisk atombombe" som fører til malheur for oss alle.

Stadig kommer det ny kunnskap: pax6 er et konservert gen som styrer utvikling av øyet og finnes fra rundormer, kråkeboller, bananflue, mus til menneske. En mutasjon i pax6 gjør at bananfluen mangler øye. Mutasjon i pax6 genet hos mus gir abnormiteter i øyet og hos mennesker gir mutasjon i pax6 en sykdom på øyet (aniridia). Fra planter kjenner man til fenomenet kosuppresjon ("gene silencing") som ble oppdaget da man satte inn et gen i blomsten Petunia med formål å få mer dyp purpurfarge på blomsten. Genet man satte inn skulle produsere mer pigment (anthocyaniner), men resultatet ble at deler av blomsten ble hvit. Det viste seg at det ble laget mRNA transkripter fra det det innsatte genet, men de ble nedbrutt og forsvant fra cytoplasma. Snart viser det seg at man finner samme fenomenet hos nematoden Caenorhabditis elegans og fenomenet blir nå kalt RNA interferens (RNAi). Det starter med at man har dobbelttrådet RNA (dsRNA). Man kunne stoppe aktiviteten til et endogent gen ved innføring av en homolog dsRNA. Mekanismen synes å være at enzymet ribonuklease III (kalt Dicer) spalter dsRNA i en rekke små interfererende RNA (siRNA) med 21-23 nukleotider. Et kompleks kalt RISC ("RNA indusert "silencing complex") bestående av protein og siRNA finner igjen og ødelegger endogent mRNA som er komplementært til siRNA. Formålet med RNA interferens er sannsynligvis at organismene på denne måten kan beskytte seg mot virus og transposons som bringer med seg fremmed DNA. RNA interferens er nå funnet hos insekter og pattedyr, inkludert mennesker. Oppdagelsen ble kalt årets gjennombrudd i Science 20. desember 2002.

Science 20. des. 2002 vol.298

Fenomenet RNA interferens kan brukes til å bestemme funksjonen til gener, men det har også vist seg at in vitro RNA interferens kan hemme replikasjon av HIV. Dette viser litt hvor fort "biologitoget" med ny kunnskap beveger seg framover.

Hvor mange gener ?

For noen ble det en skuffelse da man fant at mennesket har bare ca. 35.000 gener, og det virket litt puslete sammenlignet med andre organismer, selv om tallet er litt usikkert. Bioinformatikk brukes til å forutsi hvor man finner sekvenser som kan brukes til å lage mRNA og proteiner, og arbeidet består nå i å dekryptere informasjonen og bryte den kodete meldingen som ligger i DNA-sekvensen til en organisme. Alle proteinene/polypeptider kodet av genomet kalles proteom, og proteinene er ordnet i proteinfamilier. Kjente sekvenser puttes inn i databaser kalt genbanker og via internett kan man sammenlignet nye sekvenser med de gamle. Et slikt søkeverktøy kalles BLAST ("Basic Local Alignment Search Tool"). En grov gjetning er at det finnes ca. 400.000 forskjellige gener som styrer alt liv på jorda. Hunder er eksempel på en art som er bygget over samme lest, men får meget stor variasjon i utseende. Alle mennesker har 99.9% likt DNA, men det er 0.1% som er forskjellig. Hvordan styres denne variasjonen og hva består forskjellene i ? Man er nå på jakt etter enkeltbasepolymorfier. Et standard protein har molekylvekt ca. 80.000 dalton og aminosyrene har en gjennomsnitts molekylvekt ca. 135. Det vil si et gjennomsnittsprotein inneholder ca. 590 aminosyrer. Siden den gentiske koden har 3 basepar trengs minimum 1770 basepar for å kode for aminosyrene i en slik primæresekvens. I tillegg kommer reguleringssekvenser i 5´-enden på ca. 600 basepar eller lenger. I tillegg er det opptil 300 basepar etter 3´-enden av den kodende sekvensen. I tillegg er de kodende exons hos eukaryoter avbrutt av en eller flere sekvenser som ikke har kodefunksjon, kalt introns. Et vanlig gen for et protein kan inneholde tre til fire introns, med lengde ca. 600 basepar. Totalt blir derfor en sekvens for et protein ca. 3300 basepar. 26.000 gener vil grovt regnet inneholde ca. 86 millioner basepar. I tillegg inneholder det eukaryote genomet minst 10 % repeterte sekvenser, noen har mye mer. Et gen må minimum inneholde en promotersekvens, en startsekvens og en stoppsekvens.

Litteratur:

Wolfenbarger, L.L. & Phifer, P.R.: The Ecological Risks and Benefits of Genetically Engineered Plants. Science vol. 290: 2088-2093. 15. desember 2000.

Nigh, R. et al.: Transgenic Crops: A Cautionary Tale. Science 287:1927-1928. 17. mars 2000

Arabidopsis Genome: A Milestone in Plant Biology (Special Issue). Plant Physiology 2000, vol 124 no. 4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Av Halvor Aarnes
Publisert 4. feb. 2011 13:23 - Sist endret 23. jan. 2013 07:37