Et hold ved University of Tokyo har afsløret Alter3, en humanoid robot, der kan udføre bevægelser ved hjælp af GPT-4 Large Language Model (LLM). Alter3 bruger det nyeste værktøj Åbn AI til dynamisk at antage forskellige positurer, fra en selfie-positur til ghosting, alt sammen uden behov for forudprogrammerede databaseindtastninger.

"Alter3's reaktion på samtaleindhold ved hjælp af ansigtsudtryk og gestus er et betydeligt fremskridt inden for humanoid robotteknologi, der let kan tilpasses til andre androider med minimale ændringer," sagde forskerne.

Inden for LLM-integration med robotter er fokus på at forbedre grundlæggende kommunikation og modellering af realistiske svar. Forskere dykker også ned i LLM's muligheder for at sætte robotter i stand til at forstå og udføre komplekse instruktioner og derved øge deres funktionalitet.

Traditionelt ledelse på lavt niveau arbejder er bundet til hardware og ligger uden for LLM-selskabers kompetenceområde. Dette skaber vanskeligheder for direkte styring af LLM-baserede værker. For at løse dette problem har det japanske team udviklet en metode til at konvertere udtryk for menneskelige bevægelser til kode, der er forståelig for Android. Det betyder, at robotten selvstændigt kan generere sekvenser af handlinger over tid uden behov for, at udviklere skal programmere hver kropsdel individuelt.

Under interaktionen kan en person give Alter3-kommandoer såsom "Tag en selfie med din iPhone". Efterfølgende initierer robotten en række anmodninger til GPT-4 for at få vejledning om de nødvendige trin. GPT-4 vil oversætte dette til Python-kode, der gør det muligt for værket at "forstå" og udføre de nødvendige bevægelser. Denne innovation giver Alter3 mulighed for at bevæge sin overkrop, mens hans underkrop forbliver stationær, fastgjort til stativet.

Alter3 er den tredje iteration i Alters serie af humanoide robotter siden 2016, med 43 aktuatorer, der er ansvarlige for ansigtsudtryk og lemmerbevægelser drevet af trykluft. Denne konfiguration giver en bred vifte af udtryksfulde bevægelser. Robotten kan ikke gå, men den kan efterligne typiske gang- og løbebevægelser.

https://cdn-uploads.huggingface.co/production/uploads/60f1abe7544c2adfd699860c/DsQuQEGQLazo-shrUvF_4.mp4

Alter3 demonstrerede også evnen til at kopiere menneskelige positurer ved hjælp af kameraet og OpenPose-rammen. Robotten tilpasser sine led til de observerede stillinger og gemmer vellykkede imitationer til senere brug. Interaktion med et menneske førte til mere varierede stillinger, hvilket understøttede ideen om, at forskellige bevægelser kommer fra efterligning af mennesket, svarende til hvordan nyfødte lærer gennem imitation.

Før LLM skulle forskere omhyggeligt kontrollere alle 43 aktuatorer for at genskabe en persons positur eller simulere en adfærd, såsom at servere te eller spille skak. Dette krævede adskillige manuelle justeringer, men AI hjalp med at befri holdet fra denne rutine. "Vi forventer, at Alter3 effektivt indgår i dialog ved at vise kontekstrelevante ansigtsudtryk og gestus. Det demonstrerede evnen til at spejle følelser, for eksempel at vise tristhed eller lykke som reaktion og derved dele følelser med os," siger forskerne.

Læs også:

Dzherelointeressant teknik

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler

I Tokyo blev succeserne fra Alter3 humanoid robot baseret på GPT-4 vist

Seneste kommentarer