Contents

De 6 bästa stora språkmodellerna år 2023

Viktiga slutsatser

Den nuvarande versionen av OpenAI:s GPT-4 har en imponerande mängd funktioner, inklusive ett svindlande antal parametrar på 1,76 biljoner, vilket gör den till en av de största och mest avancerade stora språkmodeller som finns idag. Dessutom möjliggör dess multimodala förmåga ett större utbud av tillämpningar i olika medier.

Anthropics Claude 2 uppvisar imponerande färdigheter i kreativt skrivande och uppnår prestanda i nivå med GPT-4, trots att den har begränsade resurser jämfört med sin motsvarighet.

Även om Googles senaste språkmodell, känd som PaLM 2, kanske inte riktigt kan mäta sig med GPT-4, är den fortfarande en formidabel kraft inom språkvetenskapen, med imponerande kapacitet inom flera språk och betydande uppfinningsrikedom i sin produktion. Samtidigt har Falcon-180B, ett alternativ med öppen källkod, visat anmärkningsvärd skicklighet i nivå med några av branschledarna, och till och med vågat sig in på territorium som tidigare dominerades av GPT-3.

Dagens klimat kännetecknas av ett överflöd av teknik för artificiell intelligens, där många företag producerar avancerade språkmodeller i en allt snabbare takt. Spridningen av dessa nya system har lett till en situation där det blir allt svårare för individer att upprätthålla en heltäckande medvetenhet om alla tillgängliga alternativ.

När året närmar sig sitt slut är det uppenbart att endast ett fåtal utvalda modeller har utmärkt sig bland den stora mängden nylanserade språkmodeller. Dessa exceptionella modeller har visat sin skicklighet i det konkurrensutsatta landskapet av stora språkmodeller. Med detta i åtanke presenterar jag de sex mest anmärkningsvärda stora språkmodellerna som är värda att utforska.

OpenAIs GPT-4

/sv/images/7-ways-to-use-chatgpt-vision.jpg

GPT-4 representerar ett betydande framsteg inom området artificiell intelligens eftersom det utgör den mest aktuella förekomsten av en storskalig språkmodell som gjorts tillgänglig för allmänheten. Detta banbrytande system utvecklades gemensamt av OpenAI och rullades ut under mars månad år 2023. Som en integrerad del av den pågående Generative Pre-trained Transformer-serien har GPT-4 exceptionell kapacitet som har gjort den till en av de mest utbredda och eftertraktade stora språkmodellerna globalt.

GPT-4 beräknas ha cirka 1,76 biljoner parametrar, vilket är betydligt fler än i föregångaren GPT-3.5, eller till och med i Googles avancerade modell PaLM.Den enorma storleken på dessa parametrar gör att GPT-4 har ett omfattande utbud av funktioner som sträcker sig längre än att bara bearbeta text, vilket gör att den kan hantera både bild- och textinmatningar samtidigt. Denna funktion ger GPT-4 förmågan att förstå och avbilda visuellt material som diagram och skärmdumpar parallellt med skriftligt innehåll. Införlivandet av flera modaliteter förbättrar systemets förmåga att förstå verkliga situationer på ett sätt som påminner om mänsklig kognition.

I en rad empiriska utvärderingar har GPT-4 visat sig vara anmärkningsvärt överlägset sina samtida motsvarigheter i många bedömningar. Det bör dock noteras att även om dessa riktmärken ger värdefulla insikter i en modells kapacitet, ger de inte en heltäckande bild av dess övergripande styrkor. Trots detta har det konstaterats att GPT-4 har en utomordentlig förmåga att lösa praktiska problem med en hög grad av intuition när den tillämpas på faktiska scenarier. För närvarande kostar GPT-4 20 USD per månad och kan nås som en del av ChatGPT:s Plus-abonnemang.

Anthropics Claude 2

/sv/images/meet-claude-anthropic-ai-logo-feature.jpg Image Credit: Anthropic

Claude 2, en AI-språkmodell skapad av Anthropic AI, kan matcha GPT-4:s tekniska kompetens och verkliga prestanda inom flera domäner. I vissa standardiserade utvärderingar, t.ex. utvalda prov, har det visat sig att Claude 2 överträffar GPT-4. En anmärkningsvärd fördel som Claude 2 har gentemot sin konkurrent är dess expansiva kontextfönster på cirka 100 000 symboler, vilket vida överstiger kapaciteten på 8k och 32k symboler i GPT-4:s modeller. Även om det är viktigt att notera att ett större kontextfönster inte nödvändigtvis garanterar bättre prestanda, ger den ökade kapaciteten hos Claude 2 utan tvekan tydliga fördelar, såsom dess förmåga att analysera hela

GPT-4 fortsätter att visa exceptionell prestanda inom olika områden, medan våra interna utvärderingar visar att Claude 2 överträffar GPT-4 i vissa kreativa skrivuppgifter. GPT-4 har dock fortfarande en fördel gentemot Claude 2 när det gäller programmering och matematiska förmågor enligt våra utvärderingar. Trots detta levererade Claude 2 konsekvent mycket välformulerade och fantasifulla svar, som valdes som det föredragna resultatet i sex av tio fall när flera AI-modeller uppmanades att utföra en kreativ uppgift. För närvarande kan användare interagera med Claude 2 via den fritt tillgängliga Claude AI-chattboten, eller välja premiumversionen som kostar 20 USD för utökade funktioner.

Anthropics AI-modell Claude 2 uppvisar en anmärkningsvärd prestationsnivå trots att den har färre ekonomiska resurser jämfört med branschledare som OpenAI och Microsoft. Faktum är att när Claude 2 ställs mot populära AI-modeller som GPT och Googles PaLM-serie, håller den sin ställning på ett beundransvärt sätt. Det är uppenbart att för en AI med begränsade resurser uppvisar Claude 2 en lovvärd konkurrenskraft. Om man skulle spekulera i vilken nuvarande AI-modell som har störst potential att utmana GPT inom en snar framtid, verkar Claude 2 vara den mest lovande kandidaten. Även om Anthropic kanske inte har samma finansieringsnivå som några av sina mer etablerade motsvarigheter, tyder Claude 2:s avancerade funktioner på att den verkligen kan konkurrera

OpenAI:s GPT-3.5

/sv/images/person-holding-openai-logo-in-hand-feature.jpg Bildkredit: Marcelo Mollaretti/ Shutterstock

GPT-3.5, trots att den överskuggades av den senare utgåvan av GPT-4, får inte undervärderas på grund av dess betydande storlek på 175 miljarder parametrar. GPT-3.5 har kontinuerligt förfinats genom iterativa finjusteringar och förbättringar med fokus på effektivitet, precision och säkerhet, och har därmed utvecklats avsevärt sedan den första versionen som GPT-3. Även om GPT-3.5 inte når upp till GPT-4 när det gäller multimodal kompetens och övergripande förmåga, särskilt med tanke på kontextuell räckvidd och parameterkapacitet, uppvisar GPT-3.5 fortfarande en anmärkningsvärd kompetens. Trots detta är GPT-4 för närvarande den enda utmanaren som otvetydigt kan överträffa GPT-3.5 i alla

GPT-3.5 är en dottermodell inom GPToken-serien och visar en imponerande förmåga att konkurrera med ledande AI-system som de som tillhandahålls av Google och Meta. Jämförelser med PaLM 2 från Google visade att även om det inte fanns någon betydande marginal mellan dem när det gäller matematisk och kodningsmässig skicklighet, visade GPT-3.5 faktiskt en marginell fördel i vissa fall. Vid utvärdering av kreativitet genom mått som humor och berättelsekomposition uppvisade GPT-3.5 dessutom en klar överlägsenhet jämfört med konkurrenterna.

Avslöjandet av GPT-4 innebär ett betydande framsteg inom artificiell intelligens. Men trots att GPT-3.5 har ersatts av sin efterföljare har den fortfarande en formidabel förmåga och överträffar ofta toppmoderna alternativ. Dessutom upprätthåller den pågående finjusteringen dess relevans bland nyare och mer fängslande framväxande teknik.

Googles PaLM 2

/sv/images/google-palm-2-feature.jpg Bildkredit: Google

När man bedömer kompetensen hos en artificiell intelligensmodell är det vanligt att läsa igenom dess tekniska rapport och undersöka dess benchmarkresultat, men man måste närma sig dessa resultat med skepticism och genomföra personliga tester. I motsats till vad man kan tro speglar resultaten från benchmarktester inte konsekvent den faktiska prestandan för vissa AI-modeller. Enligt de tekniska specifikationerna förväntades till exempel Googles PaLM 2 överträffa GPT-4 i olika benchmarks, men vid praktisk tillämpning uppstår ett annat scenario.

PaLM 2, som utvecklats av Google, har utvärderats mot andra avancerade språkmodeller som GPT-It och Anthropics Claude när det gäller dess förmåga att utföra olika kognitiva funktioner, inklusive matematiska resonemang, logiskt tänkande och kreativt skrivande. Även om den uppvisar betydande styrkor inom dessa områden, ligger den fortfarande efter några av sina konkurrenter när de jämförs sida vid sida. Trots att PaLM 2 inte uppfyllde alla förväntningar på att vara en direkt efterföljare till GPT-3 anses det fortfarande vara en formidabel spelare på området tack vare dess imponerande kapacitet som överträffar många andra AI-system.

PaLM 2 har ett stort antal parametrar, över 340 miljarder, vilket gör den till en av de mest omfattande modellerna som finns. Modellen uppvisar exceptionell skicklighet i flerspråkiga uppgifter och har en formidabel matematisk och beräkningsmässig kapacitet. Även om PaLM 2 kanske inte är oöverträffad i alla avseenden, är den fortfarande mycket kapabel när det gäller kreativa ansträngningar som att skriva. Trots vissa initiala löften som antyds av riktmärken uppnåddes inte full realisering enhetligt över alla domäner, men PaLM 2 fortsätter att visa anmärkningsvärd artificiell intelligens, även om den inte lyckas överträffa alla sina kamrater universellt.

TII:s Falcon-180B

/sv/images/falcon-180b.jpg

Falcon-180B, en produkt från Förenade Arabemiratens Technology Innovation Institute, är kanske inte lika känd som andra AI-språkmodeller som GPT eller populära Meta’s Llama. Men med sina imponerande 180 miljarder parametrar tillhör den eliten och kan konkurrera med de bästa inom området.

Falcon-180B:s prestanda har visat sig överträffa många open source-modeller och stå sig väl mot ledande kommersiella lösningar som PaLM 2 och GPT-3. I en rad olika tester, inklusive matematisk problemlösning, programmering, logiskt resonemang och kreativt skrivande, har Falcon-180B till och med lyckats överträffa GPT-3.5 vid enstaka tillfällen.När man överväger placeringen av GPT-4, GPT-3.5 och Falcon-180B är det uppenbart att Falcon-180B bör placeras mellan dessa två modeller på grund av dess anmärkningsvärda kapacitet inom flera användningsområden.

Även om Falcon-180B kanske inte överträffar GPT-3.5 i alla avseenden, har den ett övertygande argument med sin förmåga att matcha och till och med överträffa kapaciteten hos mer framstående alternativ. Trots att den är mindre känd förtjänar den här modellen att övervägas och har gjorts tillgänglig via LLM-plattformen med öppen källkod, Hugging Face.

Meta AI:s Llama 2

/sv/images/llama-illustration.jpg

Llama 2 är en anmärkningsvärd vidareutveckling av Meta AI:s expansiva språkmodell med imponerande 70 miljarder parametrar. Trots att den har färre resurser jämfört med vissa andra branschledare visar den anmärkningsvärt överlägsen prestanda i både benchmarktester och praktiska tillämpningar, vilket överträffar många allmänt tillgängliga LLM:er med öppen källkod. Det finns dock undantag som Falcon-180B som kan prestera bättre i vissa situationer.

För att bedöma Llama 2:s prestanda i förhållande till andra toppmoderna modeller genomförde vi experiment där den ställdes mot GPT-4, GPT-3.5, Claude 2 och PaLM 2. GPT-4 visade sig vara överlägsen Llama 2 i nästan alla utvärderingar. Trots detta visade Llama 2 konkurrenskraftiga resultat jämfört med både GPT-3.5 och PaLM 2 på vissa riktmärken. Det ska inte tolkas som att Llama 2 helt överträffar PaLM 2, men Llama 2 överträffade PaLM 2 när det gällde att lösa olika utmanande problem, t.ex. kodningsuppgifter. Claude 2 och GPT-3.5 överskred däremot marginellt

Trots att Llama 2 inte överträffar de mest avancerade proprietära modellerna uppvisar den anmärkningsvärda prestanda för en språkmodell med öppen källkod. Faktum är att den i vissa utvärderingar kan mäta sig med branschledare som PaLM 2, vilket ger en lovande försmak av vad språkmodeller med öppen källkod kan åstadkomma i framtiden.

Prestandagapet mellan AI-modeller minskar

Trots de snabba framstegen inom artificiell intelligens fortsätter OpenAI:s GPT-4 att ligga i framkant när det gäller både storlek och prestanda. Även om ingen annan modell ännu har kunnat matcha GPT-4:s kapacitet är det värt att notera att vissa mindre modeller har uppvisat exceptionella färdigheter inom specifika domäner. Till exempel är Claude 2 en sådan modell som har visat sin skicklighet inom utvalda områden. Dessutom, även om Googles PaLM 2 kanske inte har uppfyllt vissa höga förväntningar, har den fortfarande betydande förmågor. Slutligen är open source-projektet Falcon-180B ett utmärkt exempel på hur initiativ med tillräckliga resurser kan vara i nivå med ledande branschaktörer.