Contents

De 6 bästa stora språkmodellerna 2023

Viktiga slutsatser

OpenAI:s GPT-4 har fått erkännande som en toppmodern och ofta använd storskalig språkmodell med ett imponerande antal parametrar på 1,76 biljoner och mångsidiga multimodala funktioner.

Anthropics Claude 2 uppvisar imponerande färdigheter i kreativt skrivande och utgör en formidabel utmaning för GPT-4, även om den arbetar med begränsade resurser jämfört med sin motsvarighet.

Googles PaLM 2 är kanske inte lika avancerad som GPT-4, men den är fortfarande en kraftfull lingvistisk modell med robust tvärspråklig kapacitet och fantasifull förmåga. Falcon-180B, som är tillgänglig i ett format med öppen källkod, uppvisar däremot prestanda i nivå med kommersiella titaner som GPT-3.

Den nuvarande spridningen av artificiell intelligens har lett till ett överflöd av storskaliga språkmodeller som produceras av teknikföretag i en häpnadsväckande takt. Den stora volymen av nya releaser är en utmaning för enskilda individer att övervaka och upprätthålla en omfattande medvetenhet om.

När året närmar sig sitt slut är det uppenbart att endast ett fåtal bland de många nyutgivna modellerna har utmärkt sig som formidabla konkurrenter inom den expansiva sfären av stora språkmodeller. Med detta i åtanke presenterar jag de sex mest exceptionella exemplen på sådana modeller som utan tvekan är värda att utforska.

OpenAI: s GPT-4

/sv/images/7-ways-to-use-chatgpt-vision.jpg

GPT-4 representerar ett betydande framsteg inom artificiell intelligens när det gäller bearbetning av naturligt språk. Som det senaste tillskottet till den uppskattade Generative Pre-trained Transformer-linjen utvecklades denna banbrytande teknik av OpenAI och debuterade i mars 2023. Sedan introduktionen har GPT-4 fått ett brett erkännande för sin exceptionella prestanda och positionerat sig som en av de mest utbredda och högt ansedda stora språkmodellerna som för närvarande är tillgängliga för allmänheten.

GPT-4 uppges ha imponerande 1,76 biljoner parametrar, vilket är ungefär tio gånger mer än GPT-3.5 och överträffar till och med kapaciteten hos Googles toppmoderna modell PaLM. Det stora antalet parametrar gör att GPT-4 har en exceptionell multimodal kapacitet, vilket gör att den enkelt kan hantera både textuella och grafiska inmatningar. Denna avancerade kapacitet underlättar följaktligen GPT-4:s förmåga att förstå och ge beskrivningar av visuellt innehåll som diagram och skärmdumpar tillsammans med textmaterial. Genom denna multimodala kompetens uppvisar GPT-4 en nivå av förståelse som är mycket lik människans uppfattning av komplexa data från den verkliga världen.

GPT-4 har i många vetenskapliga utvärderingar visat överlägsen prestanda jämfört med andra modeller. Även om benchmark-resultat inte ger en heltäckande bild av en modells kapacitet, har faktiska tillämpningar visat att GPT-4 har en extraordinär förmåga att lösa komplexa problem på ett enkelt sätt. GPT-4 kostar för närvarande 20 USD per månad och kan erhållas genom att prenumerera på ChatGPT:s Plus-plan.

Anthropics Claude 2

/sv/images/meet-claude-anthropic-ai-logo-feature.jpg Image Credit: Anthropic

Claude 2, en AI-språkmodell skapad av Anthropic AI, har förmågan att uppnå liknande tekniska färdigheter och praktiska resultat som GPT-4, om än med mindre framträdande. I vissa standardiserade utvärderingar, såsom specifika examinationsscenarier, har Claude 2 visat sig vara överlägsen GPT-4. En anmärkningsvärd skillnad mellan de två är att Claude 2 har en betydligt mer expansiv kontextuell omfattning på cirka 100.000 tokens, medan GPT-4:s jämförbara modeller är begränsade till 8.000 eller 32.000 tokens. Även om det inte är universellt sant att ökad kontext leder till förbättrad prestanda, erbjuder Claude 2:s bredare kapacitet onekligen konkreta fördelar,

Medan GPT-4 behåller en fördel i allmän prestanda, visar våra interna bedömningar att Claude 2 överträffar den i vissa kreativa skrivuppgifter. GPT-4 leder dock fortfarande när det gäller programmering och matematiska förmågor enligt våra utvärderingskriterier. Trots detta utmärker sig Claude 2 genom att producera svar som påminner mycket om mänsklig kommunikation, vilket gör den till ett attraktivt alternativ när man söker sammanhängande och välformulerad produktion. Under vår testperiod där vi bad om kreativa kompositioner från varje modell som listas här, föredrog sex tillfällen av tio Claude 2 på grund av dess sömlösa och verklighetstrogna resultat. För närvarande kan användare använda Claude 2 utan kostnad via Claude AI-chattbotten. Dessutom finns det en premiumprenumeration till ett pris av tjugo

Anthropics Claude 2 AI-modell visar anmärkningsvärd prestanda trots begränsat ekonomiskt stöd jämfört med branschledare som OpenAI och Microsoft. När Claude 2 ställs mot populära alternativ som GPT och Googles PaLM-serie klarar den sig faktiskt utmärkt. Som ett AI-system med relativt få resurser är Claude 2:s konkurrenskraft verkligen berömvärd. Om man skulle spekulera i vilken nuvarande modell som har störst chans att konkurrera med GPT på kort sikt, skulle Claude 2 vara ett klokt val.Även om Claude 2 står inför betydande resursskillnader visar dess avancerade funktioner att den har potential att klara av även generöst finansierade motståndare, även om det bör noteras att Google har gett betydande stöd till Anthropic

OpenAI:s GPT-3.5

/sv/images/person-holding-openai-logo-in-hand-feature.jpg Bildkredit: Marcelo Mollaretti/ Shutterstock

Trots att GPT-3.5 har fått mindre uppmärksamhet än sin efterföljare GPT-4 har den en imponerande uppsättning funktioner tack vare kontinuerlig förbättring genom iterationer av finjustering och förbättringar som är inriktade på effektivitet, precision och säkerhet. Trots att GPT-3.5 inte kan mäta sig med GPT-4 när det gäller multimodal integration och övergripande kapacitet, uppvisar den fortfarande anmärkningsvärda färdigheter. När GPT-3.5 ställs mot GPT-4 kan den dock knappast matcha dess överlägsna prestanda.

Eftersom det är en dotterversion inom GP

GPT-4 innebär ett betydande framsteg inom artificiell intelligens, men GPT-3.5 har fortfarande en anmärkningsvärd kraft och kan ofta överträffa nyare konkurrenter. Den kontinuerliga optimeringen av denna modell gör att den förblir relevant även när nya generationer dyker upp.

Googles PaLM 2

/sv/images/google-palm-2-feature.jpg Bildkredit: Google

När man bedömer kompetensen hos en modell för artificiell intelligens är den konventionella metoden att läsa igenom den tekniska rapporten och undersöka dess benchmarkresultat, om än med en nypa skepsis. Det är viktigt att genomföra oberoende tester för att verifiera de påståenden som görs av dessa mätvärden, eftersom de kontraintuitivt nog inte alltid motsvarar den faktiska prestandan i alla fall. Googles Project Magnet (PaLM) 2 utmålades till exempel som en formidabel motståndare till GPT-4 baserat på dess rapporterade överlägsenhet i vissa benchmarktester. Vid praktisk tillämpning ser situationen dock något annorlunda ut.

PaLM 2, som utvecklats av Google, kan inte mäta sig med andra avancerade språkmodeller som GPT-It eller Claude inom områden som matematiskt resonemang, logik och kreativitet. Trots denna begränsning har PaLM 2 fortfarande betydande förmågor inom sitt område, vilket har lett till ett stort intresse bland både forskare och utvecklare. Det är viktigt att notera att mycket av den kritik som riktats mot PaLM 2 härrör från den jämförelse som gjorts mellan den och mer avancerade modeller, snarare än någon inneboende brist från dess sida.

PaLM 2 har ett kolossalt antal parametrar, 340 miljarder, vilket gör den till en av de mest omfattande modellerna i världen.Dess styrka ligger i dess exceptionella prestanda på flerspråkiga uppgifter, tillsammans med robusta kunskaper i matematik och programmering. Även om PaLM 2 kanske inte är bäst, uppvisar den lovvärda förmågor inom kreativa områden som t.ex. skrivande. Trots att de inledande positiva indikatorerna från riktmärkena inte helt materialiserades visar PaLM 2 ändå upp en anmärkningsvärd AI-lämplighet, även om den inte lyckas överträffa alla rivaler i alla aspekter.

TII:s Falcon-180B

/sv/images/falcon-180b.jpg

Falcon-180b, en produkt från Technology Innovation Institute i Förenade Arabemiraten, har imponerande 180 miljarder parametrar och är en av de mest kraftfulla open source-språkmodellerna som finns på marknaden idag. Trots sin brist på renommé jämfört med populära modeller som GPT eller den omfattande användningen av Metas Llama, är kapaciteten hos Falcon-180B onekligen formidabel och kan med säkerhet konkurrera mot alla andra utmanare inom samma kategori.

Falcon-180B:s prestanda har visat sig överträffa många open source-modeller och hävda sig mot branschledare som PaLM 2 och GPT-3 i en mängd olika tester, inklusive matematik, programmering, problemlösning och kreativt skrivande. I vissa fall lyckades den till och med överträffa GPT-3.5. Vid en jämförelse mellan dessa tre AI-system (GPT-4, GPT-3.5 och Falcon-180B) placerar sig Falcon-180B gynnsamt mellan dem på grund av sin skicklighet i flera olika tillämpningar.

Även om det kanske inte överträffar GPT-3.5 i alla avseenden, visar Falcon-180B sin potential genom att erbjuda jämförbar funktionalitet med mer välkända alternativ. Även om den är mindre välkänd förtjänar den att övervägas på grund av dess förmåga att matcha och till och med överträffa andra modeller. Intresserade personer kan testa Falcon-180B på Hugging Face-plattformen, som stöder stora språkmodeller med öppen källkod.

Meta AI:s Llama 2

/sv/images/llama-illustration.jpg

Llama 2 är en språkmodell som utvecklats av Meta AI och som har imponerande 70 miljarder parametrar. Även om den kanske inte är lika omfattande som vissa av dess konkurrenter, har Llama 2 visat anmärkningsvärda prestanda i olika benchmarktester och praktiska tillämpningar. Faktum är att den överträffar många offentligt tillgängliga stora språkmodeller, med Falcon-180B som ett anmärkningsvärt undantag.

För att bedöma prestandan hos Llama 2 jämförde vi den med andra toppmoderna modeller som GPT-4, GPT-3.5, Claude 2 och PaLM 2 på olika utvärderingsmått. Resultaten visade att GPT-4 överträffade Llama 2 avsevärt i de flesta fall.Trots detta visar våra resultat att Llama 2 uppvisade konkurrenskraftig prestanda när den ställdes mot GPT-3.5 och PaLM 2 i vissa riktmärken. Det bör inte dras slutsatsen att Llama 2 är definitivt överlägsen PaLM 2. Våra experiment avslöjade dock fall där Llama 2 lyckades lösa problem som visade sig vara utmanande för PaLM 2, även om de omfattade

Medan Llama 2 inte överträffar kapaciteten hos de mest avancerade proprietära modellerna, överträffar den förväntningarna för ett open source-alternativ genom att uppvisa anmärkningsvärda prestanda som konkurrerar med branschledare som PaLM 2 i vissa bedömningar. Denna prestation ger en lovande försmak av vad som kan vara möjligt med framtida språkmodeller med öppen källkod.

Prestandagapet mellan AI-modeller minskar

Medan artificiell intelligens fortsätter att utvecklas snabbt behåller OpenAI:s GPT-4 sin position som den främsta prestandamodellen. Det är dock uppenbart att även mindre modeller, när de är utrustade med tillräcklig expertis, kan konkurrera inom specifika domäner. Till exempel visar Claude 2 denna förmåga genom att visa imponerande resultat i vissa uppgifter. På samma sätt kanske Googles PaLM 2 inte helt har uppfyllt alla förväntningar, men den uppvisar ändå anmärkningsvärd kapacitet. Dessutom visar open source-projektet Falcon-180B på potentialen för sådana initiativ att konkurrera med industrijättar om det finns gott om resurser.