Metas ImageBind AI kan efterligne menneskelig opfattelse

Meta udgiver koden i open access kunstig intelligens under navnet billedbind, som forudsiger forhold mellem data svarende til, hvordan folk opfatter eller forestiller sig deres miljø. Mens billedgeneratorer som Midjourney, Stable Diffusion og DALL-E 2 binder ord til billeder, så du kan skabe visuelle scener baseret på blot en tekstbeskrivelse, går ImageBind ud over det. Den kan sammenkæde tekst, billeder eller video, lyd, 3D-målinger, temperaturdata og bevægelsesdata – og gør det uden behov for fortræning ved enhver lejlighed. Dette er et tidligt trin i en ramme, som i sidste ende vil være i stand til at generere komplekse miljøer ud fra simple input, såsom en tekstprompt, billede eller lyd (eller en kombination heraf).

Du kan tænke på ImageBind som en tilnærmelse af maskinlæring til menneskelig læring. For eksempel, hvis du står i et dynamisk miljø, såsom en travl bygade, absorberer din hjerne (for det meste ubevidst) syn, lyde og andre sansefornemmelser for at få information om forbipasserende biler, høje bygninger, vejret og meget mere . Mennesker og andre dyr har udviklet sig til at behandle disse data for vores genetiske fordele: overlevelse og videregivelse af vores DNA. (Jo mere du ved om dine omgivelser, jo mere kan du undgå fare og tilpasse dig dit miljø for bedre at overleve og trives). Efterhånden som computere kommer tættere på at efterligne dyrs multisensoriske forbindelser, kan de bruge disse forbindelser til at generere fuldt realiserede scener baseret på kun begrænsede stykker data.

Så selvom du måske bruger Midjourney til at skabe "en bassethund i et Gandalf-kostume, der balancerer på en badebold" og få et relativt realistisk billede af den mærkelige scene, kan et multimodalt AI-værktøj som ImageBind ende med at skabe en video med hunden med relevant lyde, herunder en detaljeret stue, stuetemperatur og den nøjagtige placering af hunden og alle andre i scenen. "Dette skaber en glimrende mulighed for at skabe animationer fra statiske billeder ved at kombinere dem med lydprompter," bemærker Meta-forskerne i deres udviklerorienterede blog. "For eksempel kan en kreatør kombinere et billede med et vækkeur og en galende hane og bruge et lydsignal til at segmentere hanen eller lyden fra vækkeuret til at segmentere uret og animere begge dele i en videosekvens."

Hvad der ellers kan gøres med dette nye legetøj, peger det klart på en af Metas kerneambitioner: VR, mixed reality og metaspace. Forestil dig for eksempel et fremtidigt headset, der kan bygge fuldt realiserede 3D-scener (med lyd, bevægelse osv.) på farten. Eller virtuelle spiludviklere kunne i sidste ende bruge det til at spare sig selv for en betydelig del af det omhyggelige arbejde i designprocessen. På samme måde kunne indholdsskabere skabe fordybende videoer med realistiske lydspor og bevægelse baseret på kun tekst, billeder eller lyd. Det er også nemt at forestille sig, hvordan et værktøj som ImageBind åbner nye døre inden for tilgængelighed ved at generere multimediebeskrivelser i realtid for at hjælpe mennesker med syns- eller hørehandicap til bedre at forstå deres omgivelser.

Også interessant: De bedste værktøjer baseret på kunstig intelligens

"I typiske AI-systemer er der en specifik indlejring (dvs. vektorer af tal, der kan repræsentere data og deres relationer i maskinlæring) for hver relevant modalitet," siger Meta. “ImageBind viser, at det er muligt at skabe et fælles indlejringsrum for flere modaliteter uden at skulle træne på data med hver enkelt kombination af modaliteter. Dette er vigtigt, fordi forskere ikke kan oprette datasæt med prøver, der for eksempel indeholder lyddata og termiske data fra en travl bygade eller dybdedata og en tekstlig beskrivelse af en klippe ved havet.”

Meta mener, at denne teknologi i sidste ende vil gå ud over de nuværende seks "sanser", så at sige. "Selvom vi undersøgte seks modaliteter i vores nuværende undersøgelse, tror vi, at introduktion af nye modaliteter, der forbinder så mange sanser som muligt - såsom berøring, tale, lugt og fMRI-hjernesignaler - vil give mulighed for rigere menneskecentrerede AI-modeller." Udviklere, der er interesseret i at udforske denne nye sandkasse, kan starte med at dykke ned i Metas åbne kildekode.

Læs også:

DzhereloEngadget

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

Metas ImageBind AI kan efterligne menneskelig opfattelse

Seneste kommentarer