Root NationNyhederIT nyhederMicrosoft præsenteret en multimodal tilgang, der baner vejen for AI på menneskeligt niveau

Microsoft præsenteret en multimodal tilgang, der baner vejen for AI på menneskeligt niveau

-

I begyndelsen af ​​denne uge har forskere fra Microsoft præsenteret Kosmos-1, en multimodal kunstig intelligensmodel, der kan analysere billeder for indhold, løse visuelle gåder, udføre visuel tekstgenkendelse, tage visuelle IQ-tests og forstå naturlige sproginstruktioner. Ifølge forskerne er sådanne AI-modeller det første skridt mod at skabe en kunstig generel intelligens (AI), der kan udføre fælles opgaver på menneskeligt niveau. Det vil sige, at denne teknologi vil være i stand til at erstatte en person i enhver intellektuel opgave. Og dette er det erklærede mål for OpenAI, en vigtig forretningspartner Microsoft inden for kunstig intelligens.

Kosmos-1

I dette tilfælde er Kosmos-1 en rent personlig udvikling af virksomheden Microsoft. Forskerne kalder deres skabelse en "multimodal bred sprogmodel" (MLLM), fordi dens rødder ligger i tekst-kun naturlig sprogbehandling såsom LLM, såsom ChatGPT. For at modellen kan acceptere inputbilleder, skal forskere først konvertere billederne til en speciel serie af tokens (hovedsageligt tekst), som LLM kan forstå.

Kosmos-1

Kosmos-1 blev trænet på en database fra internettet, inklusive uddrag fra The Pile (en 800 GB engelsk tekstressource) og Common Crawl. Modellen blev derefter testet med flere tests for taleforståelse, talegenerering, tekstklassificering uden optisk tegngenkendelse, billedtekstning, visuel besvarelse af spørgsmål, besvarelse af websidespørgsmål og billedklassificering med lokalisering. Ifølge Microsoft, Kosmos-1 overgik de nuværende modeller i mange af disse tests.

Kosmos-1

Særlig interessant var Raven's Progressive Reasoning-test, som måler visuel IQ ved at præsentere en sekvens af former og bede personen om at fuldføre sekvensen. Kosmos-1 var i stand til at give det rigtige svar i 22 % af tilfældene.

Kosmos-1

Disse tidlige trin, som med fremtidig optimering kan give endnu mere betydningsfulde resultater, hvilket gør det muligt for AI-modeller at opfatte og påvirke enhver form for medier, hvilket i høj grad udvider mulighederne for kunstige assistenter.

Læs også:

Dzhereloarttechnica
Tilmelde
Giv besked om
gæst

0 Kommentarer
Indlejrede anmeldelser
Se alle kommentarer