De 6 beste grote taalmodellen in 2023
Belangrijkste opmerkingen
De huidige versie van OpenAI’s GPT-4 heeft een indrukwekkend aantal mogelijkheden, waaronder een duizelingwekkend aantal van 1,76 biljoen parameters, waardoor het een van de grootste en meest geavanceerde grote taalmodellen is die op dit moment bestaan. Bovendien zorgen de multimodale mogelijkheden voor een groter aantal toepassingen in verschillende media.
Anthropic’s Claude 2 laat een indrukwekkende vaardigheid zien in creatief schrijven, met prestaties die vergelijkbaar zijn met die van GPT-4, ook al heeft het beperkte bronnen vergeleken met zijn tegenhanger.
Hoewel Google’s nieuwste taalmodel, bekend als PaLM 2, zich misschien niet kan meten met GPT-4, blijft het een formidabele kracht op het gebied van linguïstiek, met indrukwekkende capaciteiten in meerdere talen en een aanzienlijke vindingrijkheid in zijn output. Ondertussen heeft Falcon-180B, een open-source alternatief, een opmerkelijke vaardigheid laten zien die vergelijkbaar is met die van enkele industrieleiders, en heeft het zich zelfs gewaagd in gebieden die voorheen gedomineerd werden door GPT-3.
Het huidige klimaat wordt gekenmerkt door een overvloed aan technologieën voor kunstmatige intelligentie, waarbij talloze bedrijven in versneld tempo geavanceerde taalmodellen produceren. De proliferatie van deze nieuwe systemen heeft geresulteerd in een situatie waarin het voor individuen steeds uitdagender wordt om zich volledig bewust te blijven van alle beschikbare opties.
Nu het jaar ten einde loopt, is het duidelijk dat slechts een paar modellen zich hebben onderscheiden tussen de vele nieuw uitgebrachte taalmodellen. Deze uitzonderlijke modellen hebben hun bekwaamheid bewezen in het competitieve landschap van grote taalmodellen. Met dit in gedachten presenteer ik u de zes meest opvallende grote taalmodellen die de moeite waard zijn om te onderzoeken.
OpenAI’s GPT-4
GPT-4 vertegenwoordigt een belangrijke vooruitgang op het gebied van kunstmatige intelligentie omdat het het meest recente voorbeeld is van een grootschalig taalmodel dat toegankelijk is gemaakt voor het grote publiek. Dit baanbrekende systeem werd gezamenlijk ontwikkeld door OpenAI en werd uitgerold in de maand maart van het jaar 2023. Als integraal onderdeel van de lopende Generative Pre-trained Transformer-serie, beschikt GPT-4 over uitzonderlijke capaciteiten die het tot een van de meest voorkomende en meest gewilde grote taalmodellen wereldwijd hebben gemaakt.
GPT-4 heeft naar schatting ongeveer 1,76 biljoen parameters, wat aanzienlijk meer is dan het aantal in zijn voorloper GPT-3.5 of zelfs in Google’s geavanceerde model PaLM.Dankzij de enorme omvang van deze parameters beschikt GPT-4 over een uitgebreide reeks mogelijkheden die verder gaan dan alleen het verwerken van tekst, waardoor het tegelijkertijd zowel beeld- als tekstinvoer kan verwerken. Hierdoor kan GPT-4 naast geschreven inhoud ook visueel materiaal zoals diagrammen en schermafbeeldingen begrijpen en weergeven. De integratie van meerdere modaliteiten verbetert het vermogen van het systeem om situaties in het echte leven te begrijpen op een manier die doet denken aan menselijke cognitie.
In een reeks empirische evaluaties heeft GPT-4 in talloze beoordelingen aangetoond superieur te zijn aan zijn tegenhangers uit die tijd. Er moet echter worden opgemerkt dat, hoewel deze benchmarks waardevolle inzichten bieden in de capaciteiten van een model, ze geen alomvattende weergave zijn van de algehele sterke punten. Desalniettemin is vastgesteld dat GPT-4 een buitengewoon vermogen heeft om praktische problemen op te lossen met een hoge mate van intuïtie wanneer het wordt toegepast op werkelijke scenario’s. GPT-4 kost momenteel $20 per maand en kan worden gebruikt als onderdeel van ChatGPT’s Plus-abonnementsoptie.
Anthropic’s Claude 2
Afbeelding Credit: Anthropic
Claude 2, een AI-taalmodel gemaakt door Anthropic AI, is in staat om de technische vaardigheid en real-world prestaties van GPT-4 in verschillende domeinen te evenaren. Het is zelfs aangetoond dat Claude 2 in bepaalde gestandaardiseerde beoordelingen, zoals selecte examens, GPT-4 overtreft. Daarnaast is een opmerkelijk voordeel van Claude 2 ten opzichte van zijn concurrent het uitgebreide contextvenster van ongeveer 100.000 tokens, dat de 8k en 32k tokencapaciteiten van GPT-4’s modellen ver overstijgt. Hoewel het belangrijk is om op te merken dat een groter contextvenster niet noodzakelijkerwijs betere prestaties garandeert, biedt de grotere capaciteit van Claude 2 ongetwijfeld duidelijke voordelen, zoals de mogelijkheid om hele
GPT-4 blijft uitzonderlijke prestaties laten zien in verschillende domeinen, terwijl onze interne beoordelingen aangeven dat Claude 2 GPT-4 overtreft in bepaalde creatieve schrijftaken. GPT-4 blijft volgens onze evaluaties echter in het voordeel ten opzichte van Claude 2 wat betreft programmeer- en wiskundige vaardigheden. Desalniettemin leverde Claude 2 consistent zeer welbespraakte en fantasierijke antwoorden, die zes van de tien keer als voorkeursuitvoer werden gekozen wanneer meerdere AI-modellen werden gevraagd om een creatieve taak uit te voeren. Op dit moment kunnen gebruikers communiceren met Claude 2 via de vrij toegankelijke Claude AI chatbot, of kiezen voor de premium versie die $20 USD kost voor uitgebreide mogelijkheden.
Anthropic’s Claude 2 AI model laat een opmerkelijk prestatieniveau zien ondanks het feit dat het over minder financiële middelen beschikt in vergelijking met marktleiders zoals OpenAI en Microsoft. In feite, wanneer Claude 2 het opneemt tegen populaire AI-modellen zoals GPT en Google’s PaLM-serie, houdt het zich bewonderenswaardig staande. Het is duidelijk dat voor een AI met beperkte middelen, Claude 2 een prijzenswaardige competitiviteit vertoont. Als we moeten speculeren over welk huidig AI model het grootste potentieel heeft om GPT uit te dagen in de nabije toekomst, dan lijkt Claude 2 de meest veelbelovende kandidaat. Hoewel Anthropic misschien niet hetzelfde financieringsniveau heeft als sommige van zijn meer gevestigde tegenhangers, suggereren de geavanceerde mogelijkheden van Claude 2 dat het inderdaad kan concurreren met GPT-3.5 van OpenAI.
Image Credit: Marcelo Mollaretti/ Shutterstock
GPT-3.5 mag, ondanks dat het overschaduwd werd door de latere release van GPT-4, niet onderschat worden vanwege zijn substantiële omvang van 175 miljard parameters. Door middel van voortdurende verfijning door middel van iteratieve fine-tuning en verbeteringen gericht op efficiëntie, precisie en veiligheid, heeft GPT-3.5 aanzienlijke vooruitgang geboekt sinds zijn oorspronkelijke incarnatie als GPT-3. Hoewel het tekortschiet ten opzichte van GPT-3, is het niet altijd even betrouwbaar. Hoewel GPT-3.5 qua multimodale vaardigheid en algehele capaciteit tekortschiet ten opzichte van GPT-4, met name als het gaat om contextueel bereik en parametercapaciteit, laat GPT-3.5 nog steeds een opmerkelijke competentie zien. Niettemin is GPT-4 momenteel de enige mededinger die GPT-3.5 ondubbelzinnig kan overtreffen in alle
Gezien het feit dat het een subsidiair model is binnen de GPToken-serie, toont GPT-3.5 een indrukwekkend vermogen om te wedijveren met toonaangevende AI-systemen zoals die van Google en Meta. Vergelijkingen met PaLM 2 van Google toonden aan dat er geen significante marge was op het gebied van wiskundige en codeervaardigheid, maar dat GPT-3.5 in bepaalde gevallen een marginale voorsprong had. Bovendien, bij het evalueren van creativiteit door middel van maatstaven zoals gevatheid en verhaalopbouw, toonde GPT-3.5 een duidelijke superioriteit ten opzichte van de concurrentie.
De onthulling van GPT-4 betekent inderdaad een aanzienlijke vooruitgang in de mogelijkheden van kunstmatige intelligentie. Ondanks het feit dat GPT-3.5 is ingehaald door zijn opvolger, beschikt het nog steeds over formidabele capaciteiten en presteert het vaak beter dan geavanceerde alternatieven. Bovendien blijft GPT door voortdurende verfijning relevant te midden van nieuwere en boeiendere opkomende technologieën.
Google’s PaLM 2
Afbeelding Credit: Google
Bij het beoordelen van de competenties van een model voor kunstmatige intelligentie is het gebruikelijk om het technische rapport door te nemen en de benchmarkscores te bekijken. In tegenstelling tot wat de intuïtie zegt, weerspiegelen de resultaten van benchmarktests niet consequent de werkelijke prestaties van bepaalde AI-modellen. Volgens de technische specificaties zou Google’s PaLM 2 bijvoorbeeld GPT-4 overtreffen in verschillende benchmarks, maar bij de praktische toepassing ontstaat een ander scenario.
PaLM 2, ontwikkeld door Google, is geëvalueerd ten opzichte van andere geavanceerde taalmodellen zoals GPT-It en Anthropic’s Claude wat betreft zijn vermogen om verschillende cognitieve functies uit te voeren, waaronder wiskundig redeneren, logisch denken en creatief schrijven. Hoewel het significante sterke punten laat zien op deze gebieden, blijft het nog steeds achter bij sommige van zijn concurrenten als je het naast elkaar legt. Ondanks het feit dat PaLM 2 niet aan alle verwachtingen voldeed als directe opvolger van GPT-3, wordt het nog steeds beschouwd als een geduchte speler in het veld dankzij de indrukwekkende mogelijkheden die veel andere AI-systemen overtreffen.
PaLM 2 heeft een enorm aantal parameters, met meer dan 340 miljard, waardoor het een van de meest uitgebreide modellen is die er bestaan. Het model vertoont een uitzonderlijke vaardigheid in meertalige taken en beschikt over formidabele wiskundige en rekenkundige capaciteiten. Hoewel het misschien niet in alle opzichten ongeëvenaard is, blijft PaLM 2 zeer capabel als het aankomt op creatieve inspanningen zoals schrijven. Ondanks de aanvankelijke belofte die uit de benchmarks naar voren kwam, werd de volledige realisatie niet in alle domeinen op dezelfde manier bereikt. Toch blijft PaLM 2 opmerkelijke kunstmatige intelligentie laten zien, ook al presteert het niet universeel beter dan al zijn concurrenten.
TII’s Falcon-180B
Falcon-180B, een product van het Technology Innovation Institute van de Verenigde Arabische Emiraten, geniet misschien niet dezelfde bekendheid als andere AI-taalmodellen zoals GPT of de populariteit van Meta’s Llama. Met zijn indrukwekkende 180 miljard parameters behoort het echter tot de elite en kan het zich meten met de beste spelers in het veld.
Er is aangetoond dat de prestaties van Falcon-180B veel open-source modellen overtreffen en zich kunnen meten met toonaangevende commerciële oplossingen zoals PaLM 2 en GPT-3. De prestaties van Falcon-180B overtreffen veel open-source modellen. In een reeks van tests waaronder wiskundige problemen oplossen, programmeren, logisch redeneren en creatief schrijven, is Falcon-180B er zelfs in geslaagd om GPT-3.5 af en toe te overtreffen.Wanneer we de plaatsing van GPT-4, GPT-3.5 en Falcon-180B overwegen, is het duidelijk dat Falcon-180B tussen deze twee modellen geplaatst zou moeten worden dankzij zijn opmerkelijke capaciteiten in meerdere toepassingen.
Hoewel het misschien niet GPT-3.5 in elk aspect overtreft, presenteert Falcon-180B een overtuigend argument met zijn vermogen om de mogelijkheden van meer prominente alternatieven te evenaren en zelfs uit te blinken. Ondanks het feit dat dit model minder bekend is, verdient het overweging en is het beschikbaar gemaakt via het open-source LLM platform, Hugging Face.
Llama 2 van Meta AI
Llama 2 is een opmerkelijke verbetering van het uitgebreide taalmodel van Meta AI met een indrukwekkende 70 miljard parameters. Ondanks het feit dat het minder bronnen heeft in vergelijking met sommige andere marktleiders, laat het opmerkelijk superieure prestaties zien in zowel benchmarktests als praktische toepassingen, en overtreft het veel algemeen toegankelijke open-source LLM’s. Er zijn echter uitzonderingen zoals de Falcon-180B die in bepaalde situaties beter kan presteren.
Om de prestaties van Llama 2 ten opzichte van andere geavanceerde modellen te beoordelen, hebben we experimenten uitgevoerd waarbij we het hebben opgenomen tegen GPT-4, GPT-3.5, Claude 2 en PaLM 2. GPT-4 was in bijna elke evaluatie beter dan Llama 2. Desondanks was Llama 2 in bijna alle evaluaties beter. Niettemin liet Llama 2 concurrerende resultaten zien in vergelijking met GPT-3.5 en PaLM 2 op bepaalde benchmarks. Het moet niet worden geïmpliceerd dat Llama 2 PaLM 2 volledig overtreft; Llama 2 presteerde echter beter dan PaLM 2 bij het oplossen van verschillende uitdagende problemen, zoals codeertaken. Claude 2 en GPT-3.5 presteerden daarentegen marginaal beter dan
Hoewel Llama 2 de capaciteiten van de meest geavanceerde propriëtaire modellen niet overtreft, laat het opmerkelijke prestaties zien voor een open-source taalmodel. In feite kan het zich in bepaalde beoordelingen meten met industrieleiders zoals PaLM 2, wat een veelbelovend voorproefje is van wat open-source taalmodellen in de toekomst kunnen bereiken.
De prestatiekloof tussen AI-modellen wordt kleiner
Ondanks de snelle vooruitgang op het gebied van kunstmatige intelligentie blijft OpenAI’s GPT-4 toonaangevend, zowel qua omvang als qua prestaties. Hoewel nog geen enkel ander model de capaciteiten van GPT-4 heeft kunnen evenaren, is het de moeite waard om op te merken dat bepaalde kleinere modellen uitzonderlijke vaardigheden hebben laten zien in specifieke domeinen. Claude 2 is bijvoorbeeld zo’n model dat zijn bekwaamheid op bepaalde gebieden heeft laten zien. Ook al heeft Google’s PaLM 2 niet aan de hoge verwachtingen voldaan, het beschikt nog steeds over aanzienlijke capaciteiten. Tot slot is het open-source project Falcon-180B een uitstekend voorbeeld van hoe initiatieven met voldoende middelen zich kunnen meten met toonaangevende spelers in de industrie.