Phi-3-mini er et gennembrud Microsoft inden for kunstig intelligens?

Phi kunstig intelligens model af Microsoft - lille, billig og lider ikke af "hallucinationer". Sådan siger de om den nye sprogmodel, som spås en stor fremtid.

GPT er helt fantastisk, men samtidig er det frygteligt dyrt, og det kan ikke være perfekt for alle. Af disse og mange andre grunde Microsoft eksperimenterer med meget mindre AI-modeller. Phi-3-mini siges endda at bringe OpenAI-ingeniørernes arbejde til skamme.

Også interessant: Fremtidens transistorer: En ny æra med chips venter os

INDHOLD

1. ChatGPT er ikke et vidundermiddel

2. Hvad vides om Microsoft Phi

3. Hvordan bruger man Phi-3-mini?

4. Microsoft Vil Phi erstatte ChatGPT-modeller?

5. Phi-3 fra Microsoft forstår kun engelsk

ChatGPT er ikke et vidundermiddel

ChatGPT er en opfindelse, der er finansieret, kurateret og forbedret Microsoft. Faktisk hører det ikke til Microsoft, og virksomheden OpenAI, som Microsoft ikke ejer (hun er den førende, men ikke den største, investor). GPT-sprogmodellen gav Microsoft en kæmpe fordel i forhold til resten af de store tech-virksomheder, der nu skynder sig at indhente. Der er dog et stort antal problemer med GPT, hvoraf mange ikke kan løses endnu.

Først og fremmest er dette en meget ressourcekrævende sprogmodel. Web orienteret Microsoft OpenAI's Copilot eller ChatGPT genererer meget høje driftsomkostninger for Microsoft. Dette er ikke kun en funktion i GPT, men også i alle større sprogmodeller. Derudover er GPT, ligesom sine konkurrenter, tilbøjelig til "hallucinationer", det vil sige, at det kan generere svar på forespørgsler, der indeholder falsk eller vildledende information. Jo flere data en sådan model absorberer, jo mere har den en tendens til at generere lignende indhold. Derfor er hallucinationer og falske udsagn ikke en myte suget ud af en digital finger. Brugere bemærker ofte, at store sprogmodeller ofte laver fejl, giver unøjagtige data og opererer på ikke-eksisterende fakta.

Begge problemer er meget alvorlige, hvorfor OpenAI, Microsoft, Meta, Google og andre arbejder på at udvikle ikke kun Large Language Model-teknologien, men også Small Language Model, som i praksis kan give meget bedre resultater.

En digital revisorassistent behøver ikke vide meget om kvantefysik. Det kan være meget mindre og mindre komplekst (og derfor billigere), og ved kun at træne på de data, der er nødvendige til dets formål, burde det teoretisk hallucinere mindre. Selvom det er lettere sagt end gjort. GenAI-teknologi er stadig en vild IT-satsning. Og selvom arbejdet skrider frem i et hidtil uset tempo, er det stadig svært praktisk at skabe gennembrud på grundlæggende spørgsmål. Men virksomheden Microsoft for nylig annonceret et sådant gennembrud. Vi taler om en lille sprogmodel Microsoft Phi.

Også interessant: Hvordan Taiwan, Kina og USA kæmper for teknologisk dominans: Den store chipkrig

Hvad vides om Microsoft Phi

Først og fremmest skal det bemærkes, at eksperimentet blev udført uden deltagelse af OpenAI-virksomheden. Det vil sige, at det er udvikling af ingeniører Microsoft.

- Annonce -

Modeller Microsoft Phi er en serie af små sprogmodeller (SLM'er), der opnår exceptionelle resultater i en række forskellige tests. Den første model, Phi-1, havde 1,3 milliarder parametre og opnåede de bedste Python-kodningsresultater blandt eksisterende SLM'er.

Udviklerne fokuserede derefter på sprogforståelse og -tænkning og skabte Phi-1.5-modellen, som også havde 1,3 milliarder parametre og viste ydeevne sammenlignelig med modeller med fem gange så mange parametre.

Phi-2 er en 2,7 milliarder parametermodel, der demonstrerer fremragende ræsonnement og sprogforståelsesevner, der yder på niveau med de bedste basismodeller med 13 milliarder parametre. Phi-2 skiller sig ud fra andre modeller på grund af sine innovationer inden for modelskalering og datakurationstræning.

Det er tilgængeligt i Azure AI Studio-modelkataloget, som letter forskning og udvikling inden for sprogmodeller. Phi-2 blev lanceret i december 2023. Udviklerne forsikrer, at det fungerer lige så godt som Mistral eller llama 2 fra Meta. Og Phi-3 fungerer endnu bedre end den tidligere version.

Phi-3-modellen, der netop blev annonceret, er dog helt ny i kvaliteten. Det er i hvert fald, hvad du kan vurdere ud fra de oplyste oplysninger Microsoft. Ifølge virksomheden yder Phi-3 ifølge indikatorerne for alle kendte benchmarks bedre end nogen anden model af lignende størrelse, herunder sproganalyse, programmeringsarbejde eller matematisk arbejde.

Phi-3-mini, den mindste version af denne model, er netop blevet tilgængelig for alle interesserede. Det vil sige, at den har været tilgængelig siden 23. april. Phi-3-mini har 3,8 milliarder parametre og ifølge målinger Microsoft, dobbelt så effektiv som enhver anden model af samme størrelse. Det kan findes i kataloget over AI-modeller af cloud-tjenesten Microsoft Azure, Hugging Face maskinlæringsmodelplatformen og Ollama, en ramme til at køre modeller på en lokal computer.

Som han påstår Microsoft, Phi-3-mini kræver ikke kraftige chips Nvidia. Modellen kan fungere på almindelige computerchips. Eller passe selv på en telefon, der ikke er forbundet til internettet.

Mindre strøm betyder også, at modellerne ikke bliver så præcise. Phi-3 vil ikke være velegnet til læger eller skatterevisorer, men vil hjælpe med enklere opgaver. For eksempel til målretning af annoncer eller opsummering af anmeldelser på internettet.

Da de mindre modeller kræver mindre forarbejdning, vil de være billigere for private virksomheder at bruge. Det vil sige i Microsoft der vil være flere kunder, der gerne vil involvere AI i deres arbejde, men som fandt det for dyrt. Det er dog endnu ikke klart, hvor meget de vil koste.

Det vides endnu ikke, hvornår de små og mellemstore modeller dukker op. Men sidstnævnte vil være mere kraftfuld og dyrere. Selvom det allerede er kendt, at Phi-3-small vil have 7 milliarder parametre, og Phi-3-medium vil have så mange som 14 milliarder parametre.

- Annonce -

Læs også:

Hvordan bruger man Phi-3-mini?

GPT-4 Turbo kræver kraftige AI-chips, som stadig er meget dyre. Phi-3 lille talemodellen kan arbejde offline, uden skyen, selv med en chip på en mobiltelefon.

Phi-3 er ikke et produkt for slutbrugere, men en teknologi, som udviklere vil kunne bruge og implementere i deres applikationer – både cloud-baseret, det vil sige fjernplaceret, og dem, der fungerer lokalt og offline. Det forventes at fungere problemfrit med enheder og deres komponenter, såsom mobiltelefoner, biler og deres infotainmentsystemer eller endda IoT-sensorer. I nogle scenarier kan denne teknologi være uvurderlig.

Microsoft giver endda et konkret eksempel, så vi ikke skal anstrenge vores fantasi. Forestil dig en landmand, der inspicerer sine afgrøder og ser tegn på sygdom på blade, stængler og grene. Da han er langt væk fra telekommunikationsmaster, behøver han kun at tage sin telefon frem, tage et billede af skaden, lægge den i en applikation, der bruger Phi-3 teknologi - og modellen vil hurtigt og offline analysere billedet og give råd vedr. hvordan man præcist bekæmper denne sygdom.

Som han forklarer Microsoft, var nøglen til GPT's succes at trække på enorme mængder data til træning. Med så store datasæt er høj datakvalitet udelukket. I mellemtiden, når man trænede Phi-modellen, blev den stik modsatte OpenAI-tilgang brugt. I stedet for at proppe modellen med information, var fokus på inkrementel og grundig læring.

I stedet for at bruge rå internetdata, forskerne Microsoft skabte TinyStories-datasættet, der genererede millioner af miniature "baby"-historier. Disse historier blev brugt til at træne meget små sprogmodeller. Forskerne gik derefter videre ved at skabe CodeTextbook-datasættet, som brugte omhyggeligt udvalgte, offentligt tilgængelige data, der blev filtreret for uddannelsesmæssig værdi og indholdskvalitet. Disse data blev derefter filtreret flere gange og ført tilbage til en stor sprogmodel (LLM) for yderligere syntese.

Alt dette gjorde det muligt at skabe en række data, der var tilstrækkelige til at træne en mere dygtig SLM. Derudover blev der brugt en multi-level tilgang til risikostyring og afbødning i udviklingen af Phi-3 modellen, herunder vurdering, test og manuelle justeringer. Som et resultat, som han hævder Microsoft, kan udviklere, der bruger Phi-3-modelfamilien, drage fordel af det tilgængelige værktøjssæt i Azure AI til at bygge mere sikre og pålidelige applikationer.

Læs også: Teleportation fra et videnskabeligt synspunkt og dets fremtid

Microsoft Vil Phi erstatte ChatGPT-modeller?

Slet ikke. Små sprogmodeller (SLM'er), selv når de trænes på data af høj kvalitet, har deres begrænsninger og er ikke designet til dyb læring. Store sprogmodeller (LLM'er) overgår SLM'er i komplekse ræsonnementer på grund af deres størrelse og beregningskraft. LLM'er er, og vil fortsat være, særligt nyttige inden for områder som lægemiddelopdagelse, hvor man skal søge gennem store samlinger af videnskabelige artikler og analysere komplekse mønstre. På den anden side kan SLM bruges til enklere opgaver, såsom at opsummere hovedpunkterne i et langt tekstdokument, skabe indhold eller drive kundeservice chatbots.

Microsoft, sagde hun, bruger allerede hybridmodelsæt internt, hvor LLM tager føringen og dirigerer visse forespørgsler, der kræver mindre computerkraft, til SLM, mens den selv håndterer andre, mere komplekse forespørgsler. Phi er placeret til beregning på enheder uden brug af skyen. Der vil dog stadig være et hul mellem små sprogmodeller og det intelligensniveau, der kan opnås med store modeller i skyen. Dette hul, takket være den fortsatte udvikling af LLM, er usandsynligt, at forsvinde snart.

Phi-3 er endnu ikke verificeret af eksterne uafhængige parter. Microsoft taler nogle gange om 25 gange højere effektivitet eller energieffektivitet i ekstreme tilfælde sammenlignet med konkurrenterne, hvilket lyder ganske fabelagtigt. Selvom man på den anden side ikke kan glemme, at disse år er gået Microsoft vænnet os lidt fra, at det er en klar leder inden for IT-innovationer, og måske derfor tror vi ikke rigtig på det. AI-baserede programmer, der reagerer øjeblikkeligt og kører offline i stedet for at generere? Dette ville være en værdig kulmination på den nuværende revolution. Desværre er der et centralt problem.

Læs også: Alt om Neuralink Telepathy-chippen: hvad det er, og hvordan det virker

Phi-3 fra Microsoft forstår kun engelsk

Phi-3 slugte ikke de petabytes, der blev kastet efter den i massevis. Omhyggelig og omhyggelig træning af modellen involverer et mindre problem. Phi-3 er blevet trænet med information på engelsk og aner endnu ikke noget andet sprog. Ikke kun ukrainsk, men også tysk, spansk, fransk eller kinesisk. Dette reducerer naturligvis dens appel til de fleste brugere rundt om i verden.

Men i Microsoft sikret, at arbejdet med udvikling og forbedring er i gang. Selvom du ikke bør snyde dig selv ved, at det ukrainske marked er en prioritet for nogen af de store virksomheder. Derfor bliver vi nødt til at vente meget længe på støtten til det ukrainske sprog. Men dette faktum har aldrig stoppet entusiaster og dem, der ønsker at følge med fremskridt.

Læs også:

Mere fra forfatteren

Tilmelde

0 Kommentarer

Indlejrede anmeldelser

Se alle kommentarer

Andre artikler