MIT-forskere løste mysteriet om maskinlæring

Efter 2010 begyndte en seriøs forbedring af softwarealgoritmer, og dette sammen med kraftfulde computere satte skub i den hurtige udvikling af neurale netværk. Softwaremodeller trænes og trænes på tusindvis af eksempler for at danne deres egne handlinger senere. I dag er det mest berømte neurale netværk dette OpenAI GPT-3. Dette er en maskinlæringsmodel, der lærer ved hjælp af en masse internetdata, kan tage et lille fragment af tekst og tilføje et utilstrækkeligt fragment på et ret højt niveau. Og det gælder ikke kun fortællende tekst, men også digte, såvel som linjer med softwarekode.

Men det er ikke alt, som modeller af denne plan er i stand til. Forskere studerer et interessant fænomen kendt som "læring i kontekst", hvor en stor sprogmodel lærer at udføre en opgave efter kun at have set nogle få eksempler, selvom den ikke er blevet trænet i opgaven.

Forskere fra Massachusetts Institute of Technology, Google Research og Stanford University forsøger at løse dette mysterium. Ved kontekstuel læring opdateres modelparametrene ikke, så det ser ud til, at modellen lærer en ny opgave uden at lære noget som helst.

Forskernes teoretiske resultater viser, at disse massive modeller af neurale netværk er i stand til at indeholde mindre og enklere lineære modeller gemt inde i dem. Den store model kan derefter implementere en simpel algoritme til at træne denne mindre lineære model til at udføre en ny opgave ved kun at bruge den information, der allerede er indeholdt i den større model.

Takket være en dybere forståelse af kontekstuel læring vil forskere være i stand til at implementere nye opgaver med modeller uden dyr omskoling. Det vil sige, for det første, for enhver specifik opgave er det nødvendigt at indsamle en lang række data, på grundlag af hvilken træning vil finde sted. Og så vil det være muligt at give det neurale netværk kun nogle få eksempler, takket være hvilke træning vil finde sted.

"Kontekstuel læring er et urimeligt effektivt læringsfænomen, der skal forstås".

Det er blevet antaget, at der er mindre maskinlæringsmodeller i neurale netværksmodeller, der kan lære en ældre model at udføre en ny opgave. For at teste deres teori tog forskerne en neural netværksmodel, der i arkitektur ligner meget GPT-3, men blev bygget specielt til læring i kontekst. Det vil sige, inde i de tidligere lag blev der implementeret en model, som var engageret i at lære en lineær model, implementere simple indlæringsalgoritmer.

"Disse resultater er et springbræt til at forstå, hvordan modeller kan lære mere komplekse opgaver og vil hjælpe forskere med at udvikle mere effektive metoder til træning af sprogmodeller for yderligere at forbedre deres præstationer.".

Læs også:

Dzherelocsail.mit.edu

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

Forskere fra Massachusetts Institute of Technology har løst mysteriet om maskinlæring

Seneste kommentarer