
handle: 11250/2825098
Induktiv bias referer til forskjellige arkitekturvalg som gjøres når man designer modeller for dyp læring. Spesielt så handler det om hvilke antakelser som gjøres om inngangsdataen, noe som i sin tur påvirker arkitekturvalget. Eksempler på forskjellige nevrale arkitekturer er konvolusjonale nevrale nett for bildedata, grafkonvolusjonale nevrale nett for grafdata og rekurrente nevrale nett for sekvensiell data. Informasjonsflaskehalsmetoden søker å kvantifisere en optimal balanse mellom kompresjon og presisjon for å beskrive en tilfeldig variabel $X$. For nevrale nettverk betrakter man påfølgende representasjoner $Z^i, Z^{i+1}, \dots$ som funksjoner av inngangsdataen $X$, og dermed kan man beregne den gjensidige informasjonen $I(X,Z^i)$, eller beregne $I(Y,Z^i)$ for den gjensidige informasjonen mellom representasjonen $Z^i$ og målvariabelen $Y$. Hovedideen er at jo dypere i nettverket man kommer, så vil representasjonene $Z^i$ få mindre informasjon om inngangsdataen $X$, og mer med målvariabelen $Y$. Dette kan tolkes som at nettverket er i stand til å fjerne unødvendig informasjon i inngangsvariabelen $X$, og er i stand til å generalisere ved å kun beholde informasjon som er relevant for å predikere $Y$. Ved å bruke informasjonsflaskehalsmetoden ønsker vi å belyse treningsprosedyren og læringsevnen til forskjellige nevrale arkitekturer. Tidligere arbeid har i hovedsak betraktet syntetiske datasett og nevrale strukturer som ikke brukes i praktiske anvendelser. I dette arbeidet så kommer vi til å benytte informasjonsflaskehals metoden for å sammenligne tre forskjellige nevrale arkitekturer med deres fulltilkoblede alternativer, sammen med sammenligninger av deres ytelsesevner. Vi begynner med å sammenligne et grafkonvolusjonalt nevralt nett med et fulltilkoblet nettverk trent på Cora datasettet. Deretter sammenligner vi et rekurrent nevralt nettverk med et fulltilkoblet nettverk på et datasett som inneholder navn fra forskjellige språk, der oppgaven er å klassifisere navn til riktige språk. Til slutt sammenligner vi et konvolusjonsnettverk med et fulltikoblet nettverk på MNIST datasettet.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
