OpenAI annoncerede en ny model AI Sora, som er i stand til at generere high-definition videoer på op til et minut lange baseret på tekstprompter. Sora, som betyder "himmel" på japansk, vil ikke være tilgængelig for offentligheden på et tidspunkt, men virksomheden vil frigive den til en lille gruppe videnskabsmænd og forskere, som vil vurdere skaden og potentialet for misbrug.
"Sora er i stand til at generere komplekse scener med flere karakterer, specifikke typer bevægelser og præcise objekt- og baggrundsdetaljer," står der på virksomhedens hjemmeside. "Modellen forstår ikke kun, hvad brugeren spurgte om i prompten, men også hvordan disse ting eksisterer i den fysiske verden."
En Sora-genereret video viser et par, der går gennem et snedækket Tokyo med kirsebærblomster og snefnug, der hvirvler rundt om dem, mens en anden viser realistisk udseende uldne mammutter, der går gennem en snedækket eng på baggrund af sneklædte bjergkæder.
Vi introducerer Sora, vores tekst-til-video-model.
Sora kan skabe videoer på op til 60 sekunder med meget detaljerede scener, komplekse kamerabevægelser og flere karakterer med levende følelser. https://t.co/7j2JN27M3W
Spørgsmål: "Smuk, snedækket... billede.twitter.com/ruTEWn87vf
- OpenAI (@OpenAI) Februar 15, 2024
OpenAI siger, at modellen arbejder med "dyb sprogforståelse", der gør det muligt for den at fortolke tekstspor. Som næsten alle AI-billed- og videogeneratorer er Sora dog ikke perfekt. OpenAI advarer også om, at modellen kan være svær at give årsag og virkning – for eksempel kan den generere en video af en person, der spiser en cookie, men den viser muligvis ikke bidemærker.
Sora er ikke den første tekst-til-video konverteringsmodel. Andre virksomheder, herunder Meta, Google og Runway, har enten antydet tekst-til-video-værktøjer eller gjort dem offentligt tilgængelige. Men intet andet værktøj er i øjeblikket i stand til at generere en 60-sekunders video. Sora genererer også hele videoer på én gang i stedet for at samle dem billede for billede som andre modeller, så objekter i videoen forbliver intakte, selv når de midlertidigt forsvinder fra visningen.
Spørgsmål: "Flere kæmpe uldne mammutter nærmer sig trædende gennem en sneklædt eng, deres lange uldne pels blæser let i vinden, mens de går, snedækkede træer og dramatiske sneklædte bjerge i det fjerne, midt på eftermiddagen lys med tjuskede skyer og en sol højt inde afstanden… billede.twitter.com/Um5CWI18nS
- OpenAI (@OpenAI) Februar 15, 2024
Fremkomsten af tekst-til-video-værktøjer har rejst bekymringer om deres potentiale til lettere at skabe realistisk udseende falske videoer. Og generativ kunstig intelligens i bredere forstand har forårsaget tilbageslag fra kunstnere og kreative arbejdere, der er bekymrede for, at teknologien potentielt kan erstatte dem.
OpenAI sagde, at det arbejder med eksperter inden for områder som misinformation, hadeindhold og bias for at teste værktøjet, før det gør det tilgængeligt for offentligheden. Virksomheden udvikler også værktøjer, der kan registrere videoer skabt af Sora og inkludere metadata i de oprettede videoer for at gøre dem nemmere at opdage. Virksomheden afviste at sige, hvordan Sora blev trænet, men sagde, at den brugte både "public domain-videoer" og videoer licenseret fra rettighedshaverne.
Læs også: