Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ Norwegian Open Resea...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 1 versions
addClaim

Inductive Bias And The Information Bottleneck Method

Authors: Landsverk, Marius Mario Cervera;

Inductive Bias And The Information Bottleneck Method

Abstract

Induktiv bias referer til forskjellige arkitekturvalg som gjøres når man designer modeller for dyp læring. Spesielt så handler det om hvilke antakelser som gjøres om inngangsdataen, noe som i sin tur påvirker arkitekturvalget. Eksempler på forskjellige nevrale arkitekturer er konvolusjonale nevrale nett for bildedata, grafkonvolusjonale nevrale nett for grafdata og rekurrente nevrale nett for sekvensiell data. Informasjonsflaskehalsmetoden søker å kvantifisere en optimal balanse mellom kompresjon og presisjon for å beskrive en tilfeldig variabel $X$. For nevrale nettverk betrakter man påfølgende representasjoner $Z^i, Z^{i+1}, \dots$ som funksjoner av inngangsdataen $X$, og dermed kan man beregne den gjensidige informasjonen $I(X,Z^i)$, eller beregne $I(Y,Z^i)$ for den gjensidige informasjonen mellom representasjonen $Z^i$ og målvariabelen $Y$. Hovedideen er at jo dypere i nettverket man kommer, så vil representasjonene $Z^i$ få mindre informasjon om inngangsdataen $X$, og mer med målvariabelen $Y$. Dette kan tolkes som at nettverket er i stand til å fjerne unødvendig informasjon i inngangsvariabelen $X$, og er i stand til å generalisere ved å kun beholde informasjon som er relevant for å predikere $Y$. Ved å bruke informasjonsflaskehalsmetoden ønsker vi å belyse treningsprosedyren og læringsevnen til forskjellige nevrale arkitekturer. Tidligere arbeid har i hovedsak betraktet syntetiske datasett og nevrale strukturer som ikke brukes i praktiske anvendelser. I dette arbeidet så kommer vi til å benytte informasjonsflaskehals metoden for å sammenligne tre forskjellige nevrale arkitekturer med deres fulltilkoblede alternativer, sammen med sammenligninger av deres ytelsesevner. Vi begynner med å sammenligne et grafkonvolusjonalt nevralt nett med et fulltilkoblet nettverk trent på Cora datasettet. Deretter sammenligner vi et rekurrent nevralt nettverk med et fulltilkoblet nettverk på et datasett som inneholder navn fra forskjellige språk, der oppgaven er å klassifisere navn til riktige språk. Til slutt sammenligner vi et konvolusjonsnettverk med et fulltikoblet nettverk på MNIST datasettet.

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green