Diffusjonsmodeller

Diffusjonsmodeller (diffusjonssannsynlighetsmodeller) beskriver datapunkter som diffunderer gjennom et rom. Diffusjonsmodeller er generative og produserer data som har likhetstrekk med det de er trent på . Foverprosess (diffusjon) legger på støy og en revers diffusjon fjerner støy.   Fjerner Gauss støy ved å reversere diffusjonsprosessen og og en renseprosess med bruk av Markovkjeder, Bayesiansk inferens (prior med forhåndskunnskap brukt til å lage posterior sannsynlighetsfordeling) og maskinlæring. Tidligere anvendt i ikke-likevekts termodynamikk. Diffusjonsmodeller blir brukt i kunstig intelligens (AI «Artificial intelligence») til å lage kunstige bilder via en transformasjon, hvor det legges til Gauss-støy,  navn etter Carl Friedrich Gauss)og Brownske bevegelser på all digital informasjon skrapt sammen fra hele internett. Diffusjonsmodeller kan også bli brukt til å generere tekst og musikk.  

Diffusjonsmodeller anvender reverse diffusjonsprosesser ved å generere bilder fra tilfeldig støy. Stabile diffusjonsmodeller kan lage deltaljerte syntetiske bilder ut fra tekstinstrukser og er en type latente diffusjonsmodeller ved å gjenta fjerning av støy.Diffusjonssannsynlighetsmodeller  lærer fra å imitere og kopiere menneskeskapt tekst, bilder og musikk. Den generative delen er et resultat av flere treningsprosesser som gjør det vanskelig å finne forbindelser mellom de opprinnelige data trening og systemet. Konstrastiv språk-bilde pretrening (Contrastive Language-Image Pretraining ,CLIP) er en teknikk anvendt innen AI som koder for tekst og bilder i faste vektorlengder. Kontrastiv læring er en treningsmodell som skiller mellom like og forskjellige par med datapunkter ved å maksimere deres likhet innen samme klasse og minimere deres likhet i andre klasser

Diffusjonsmodeller (diffusjonssannsynlighetsmodeller) blir anvendt innen maskinlæring og OpenAi sin bildegenereringsmodell DALL-E2. kan lage realistiske kunstbilder ut fra tekstbeskrivelser. Stable Diffusion  er en tekst til bilde diffusjonsmodell. Stabil diffusjon er dyplæringmodell  som omformer tekst til å generere kunstige bilder, likt Midjourney og DALL-E

Diffusjonsmodeller er også anvendt i PyTorch. Ddiffusjonsmodeller blir brukt til å generere data som de er trent på, men som i diffusjonspreossen (foroverprosessen) omformes ved bruk av Markovkjeder til å legge til lag med Gauss støy. Kan også gjendanne opprinnelig data ved å reversere diffusjons- og støyprosessen. Forover diffusjon via Markov-kjeder og Markovkjede diffusjonsprosessrt. Revers diffusjon brukt i nevrale nettverk. PyTorch er et dyplæringsprogram som benytter seg grafiske prosesseringsenheter (GPU) med en klasse i programmeringsspråket Python kalt Tensor. PyTorch er laget innen den digitale allmenningen under Linux. Anvender prinsipper for diffusjon. Audio-språkmodell (Audio LM) for å lage språk og musikk. 

Kunstig intelligens AI

AI er ett datamaskinprogram i en datamaskin kombinert med ekstremt store datasett med enorme mengder data lagret på datatjenere (dataservere) som via grensesnitt API (Application programming itnerface) til sammen tilsynelatende oppfører seg som et menneske som har kunnskaper, tenker og virker rasjonelt. Det vil si at det kan bestå enTuringtest. Med store datasett menes for eksempel all digital informasjon som finnes på internett sammen med alle bøker og medier som er digitalisert. Hva er sannsynligheten for neste ord i en setning basert på alle tekstkorpus som finnes.

Siri (Apple), Alexa (Amazone), Watson (IBM) er eksempler på datasystemer basert på svak AI brukt til å svare på spørsmål. I 1997vant IMBs Deep Blue over Garry Kasparov i sjakk. Alpha Go Zeroer byget opp som et nevralt nettverk og en naturlig Turingmaskin laget av dataselskapet Deep Mind, kjøpt opp av Google, slo den rørkoreanske  Lee Sodol i spillet GO.  AlphaZero er er dataprogram laget over samme lest som Alpha Go Zero basert på AI og Monte Carlo beslutningstrær,  trent på parallelprosessering etter prinsippene fra noder i nevrale nettverk og forsterket læring algoritmer, anvendt i sjakkspill i konkurranse med Stockfish og og Elmo.

Dyplæring virker som kunstige nevrale nettverk med noder (kontaktpunkter) med flere enn tre lag (dyp), er en læringsalgoritme som kan lære, trenes og synes å kunne å ta «intelligente» avgjørelser og predikasjoner. Informasjon som mottas i ett lag blir transformert i neste lag  Dyplæring er en undergruppe innen maskinlæring som etterligner prosessene som skjer i en menneskehjerne med synapsekoblinger mellom nerveceller. Kontaktpunktene i synapser mellom nerveceller og dendritter tilsvarer noder som mottar et signal, prosesserer det, gjør en regneoperasjon og deretter sender det videre til neste node. Nodene kan inngå i et gigantisk nettverk

AI blir brukt i lyd, tale og talegjenkjenning, språkprosessering, språkoversettelse, språkmodeller og språkkommunikasjon (språkrobot) mellom et menneske og en datamaskin, ekspertsystemer, bildegjenkjenning,bildeanalyse med klassifisering og klyngeanalyse.  persepsjon av sensorisk informasjon, roboter. I språkmodeller beregnes sannsynligheter og statistisk for hva neste ord i en setning vil være basert på forhåndskunnskap, blant annet innen Bayesiansk inferens. Bayesiansk inferens innen maskinlæring baserer seg å gjøre prediksjoner (slutninger), posterior sannsynlighetsfordeling basert på forhåndskunnskap (prior) og underliggende sannsynlighetsfordelinger. Med Markovkjeder Monte Carlo (MCMC) kan bli brukt for å approksimere posterior sannsynlighetsfordeling. Kan kombineres med sandre statistiske metoder som  logistisk regresjon, lineær diskriminantanalyse, klyngeanalyse og beslutningstrær (decision trees). Beslutningstrær  består av noder som gir splittinger som i flytdiagrammer og  som minner om et tre hvor kronen deler seg ut i greiner.  Blir brukt til å ta beslutninger, Markov beslutningsprosesser for tilfeldige (stokastiske) beslutninger og avgjørelser.  Kullback-Leiber divergenser brukt i statistisk avstandsmåling mellom to forskjellige sannsynlighetsfordelinger, en for dataobservasjonene med fordelingen P(x) og den andre Q(x) som en approksimasjonsmodell av dataene. Normalfordelingen og betafordelingen er et par eksempler på sannsynlighetstetthetsfordelinger. Navn etter de amerikanske matematikerne Solomon Kullback (1907-1994) og Richard Leibler (1914-2003) som arbeidet med kryptoanalyse og innførte begrepet relativ entropi. Jfr. Shannons entropi innen informasjonsteori.  KL-divergens er et ikke-symmetrisk mål (diskret eller kontinuerlig) som måler forskjeller i relativ entropi for informasjonen som finnes i to sannsynlighetsfordelinger Datamaskiner er spesielt velegnet til å utføre matriseregning hvor mxn matriser kan inneholde flere millioner  m parametre og millioner av n datapunkter.  

Overvåket læring (supervised learning) er algoritmer for trening basert på en modell med  treningsdata. Styrt (veiledet)-  og ikke-styrt maskinlæring. Support Vektormaskin (SVM) er en overvåket læringsmodell basert på assosiasjoner, klassifisering i kategorier og regresjonsanalyse. Formålet med SVM er å finne et optimum hyperplan som er en todimensjonal linje (rett eller krummet) i et 3D-rom som maksimerer avstanden mellom de nærmeste punktene og hyperplanet som atskiller de to klassene med datapunkter. 

Sexindustrien på internett er stor. Det er å forvente at AI-genererte videoer og AI-produserte kvinnemodeller som man kan føre en AI-generert samtale med vil komme i i stor skala

Web-kravler og høsting av web-sider

Common Crawl  hevder å være en ikke-profitt organisasjon som med en webkrabber som har kravlet, trålet og høstet bilder, tekst og datakoder fra hele internett siden 2011, også kopibeskyttet materiale, men ved skyfle og stokke data slipper man unna regelverket for opprettshavbeskyttelsene. Data fra Common Crawl blir brukt som treningsmodell for GPT og kunsitige bildegeneratorer. Common Crawl virker som et web-arkiv og har mange petabyte lagret informasjon fra over tre milliarder nettsider. Common Crawl nå tlknyttet Apache Software Foundation med Apache nutch webkravler.  Med APIer (applikasjons programmeringsgrensesnitt), er det mulig å hente data fra Facebook, KInstagram og Twitter.

Språkmodeller

Språkmodeller blir anvendt i autokorreksjon i tekstbehandlere, stemmegjenkjenning i samtaleroboter, autoutfyller ved å ut fra sannsynlighet heten for neste ord, for eksempel i søkefeltet i Google. Språkmodeller er basert på store  tekstkorpus / ttekstkorpora hvor man kan finne sannsynligheter for forekomst av ord, sannsynlighet for at to ord følger etter hverandre tre ord etter hverandre og så videre Finner struktur og mønster ri et språk. All informasjonen om sparket er uttrykt i form av tall i tall multivariable matriser. Tallene i matrisene simulerer nevroner via noder i nettverket. Språkmodeller angir sannsynlighetstettheten for rekkefølge av ord i et språk, hvor man lager en sannsynlighetsmodell for et språk ved å trene på mange tekstkorpora (ent. tekstkorpus) . Sannsynlighetene blir brukt til å prediktere (forutsi) med en viss sannsynlighet det neste ordet i en ordsekvens. Det er lagt til en dialogmodell i et lag over språkmodellen GPT som gjør at språket virker som en naturlig samtale og dialog (dialo-GPT) hvor datamaskinen opptrer tilsynelatende som en kunnskapsmodell med fornuftig samtale og naturlig intelligens (NI). Dialogmodellen er på forhånd trent til generere en konversasjonsrepons. MultiModal-GPT er en dialog- og språkmodell basert på lyd og bilde som etterligner mønstergjenkjenning, samtale og instruksjoner mellom mennesker. Tekst til bilde generative AI, tekst til bild.modeller, gjør det mulig å editere bilder bare ved å snakke. 

Er basert på formidable datalagringskapasiteter (exabyte og og zettabyte) i dataservere og gigantiske regnehastigheter i petaflops datamaskiner. 1 exabyte (EB)= 1018 byte er 1 milliard gigabyte (GB). Zettayte (ZB) = 1021 byte

Språkmodellen GPT-4 (Generative Pre-Trained Transformer 4)  fra OpenAi,  er en type dyplæringsmodell trent med overvåket læring og forsterket læring fra menneskelig tilbakekobling og belønning, anvendt innen Chat-GPT. Kan svare på spørsmål, generere tekst og oversette til andre språk og lage datakoder. GPT er en serie med språkmodeller basert på kunstige nevrale nettverk og transformersbibliotek i brukt i naturlig språkprosessering, og som er trent på store datasett med tekst og er i stand til å generere menneskelignende tekst. Transformersbiblioteket er en Python-pakke med åpen kode brukt til transformeringsmodeller for tekst, bilder og lyd som kan anvendes i  PyTorch, TensorFlow og Google JAX dyplæringsbibliotek.

Oppfølgere er Microsoft med Bing annonsert med KI bildegenerator tilknyttet Edge. Google Bard er Googles oppfølging av Chat-GPT.

Språkmodeller , bildegeneratorer, trening og rettighetshavere

Språkmodellene og bildegeneratorene med dyplæring har brukt alt som finnes digitalisert i hele verden som treningsdata, og dette har allerede skjedd før noen skjønte at det er ikke bare å forsyne seg uten tanke på opprettshaverregler. Common Crawl  har holdt på siden 2011 . Google og Microsoft har gjort det samme, pluss de vi ikke vet om ?  Treningsdata: Alt som er publisert på internett på alle verdens språk, alle datakoder som finnes i dataprogrammer med åpen kildekilde (den digitale allmenningen), alle bøker i hele verden som er digitalisert, hele wikipedia, alle digitaliserte bilder, videoer, film, aviser, alt som er lagt ut på sosiale medier. En grov og uhemmet bruk av all verdens kunnskap som treningsverktøy. Hva med originalbilder som blir ,ed diffusjonsmodeller brukt til å generere nye databilder ? Mål kommersiell profitt ?, men først blir vi gjort avhengige akkurat som en narkotika-dealer jobber.  Håper EU følger med i timen og sier irfa når nok er nok. Det finnes bilder av personer som aldri har eksistert. Her er det lett å bli lurt. 

AI og bildeanalyse

AI og maskinlæring er spesielt velegnet til å analysere informasjon som finnes i digitale bilder. Innen helsevesenet analyse av røntgenbilder eller mikroskopipreparater fra biopsier i studier av celleforandringer. Innen miljøovervåkning analyse av satellittbilder. Bilder av organismer brukt til artsidentifisering.

AI og kunstuttrykk

AI er en silisiumbasert intelligens som bygger på vår karbonbaserte intelligens og kan bli brukt til å skape det vi vil kalle kunst. Enkelte mener at kunstnerisk talent innen bildekunst, musikk og litteratur bare er noe mennesker har, men egentlig er all kunst kopier og en lang rekke kopier fra kopiene Bildekunst og musikk opprinnelig kopiert fra naturen. Litteratur kopiert fra muntlige mytefortellinger og fra Homer og de greske tragedieforfattere.

AI og virkelighet

Tidligere kunne vi til en viss grad stole på bilder, videoer, og muntlig tale ned stemmer fra noen vi kjenner. Det finnes nå bilder av personer som aldri har eksistert og det kan bli krevende o skille ut hva som er ekte.  

AI i naturovervåking og økosystemendringer

Fra en database med fuglesang fra alle verdens fuglearter kan man fra lydopptak fra en biotop kombinert med AI identifisere hvilke fugler som finnes der ut fra det samlede lydbilde tatt opp med mikrofoner. Over tid gir det mulighet til å observere økosystemendringer. Samme teknikk kan anvendes for parringslyder fra frosker i tropisk regnskog, artsidentifisering av lydproduserende insekter for eksempel sikader eller lyder fra pattedyr. Viltkameraer koblet til internett er en av de mange kildene som kan anvendes i datainnsamling.  

Litteratur

Wikipedia

Tilbake til hovedside

Publisert 23. jan. 2023 11:03 - Sist endret 15. mai 2024 16:31