Wat is Claude 3 en wat kun je ermee doen?
Anthropic heeft de nieuwste versie van zijn AI-model onthuld, Claude 3 genaamd, dat indrukwekkende mogelijkheden biedt en de dominantie van gevestigde platforms zoals GPT-3 kan uitdagen. Hoewel Claude 3 veelbelovend is, blijft het de vraag of het volledig voorbereid is om de huidige leider in het veld te verdringen.
Wat is Claude 3?
Claude 3 is een geavanceerde familie van kunstmatige intelligentie modellen ontworpen door Anthropic om zijn voorganger, Claude 2, op te volgen. Het kan worden beschouwd als Anthropic’s antwoord op concurrenten zoals Google’s Gemini en OpenAI’s GPT-4. De familie bestaat uit drie verschillende versies - Haiku, Sonnet en Opus - die elk een steeds hoger intelligentieniveau vertegenwoordigen. Met name Claude 3 markeert Anthropic’s intrede in multimodale AI, wat een aanzienlijke vooruitgang betekent ten opzichte van de vorige generatie.
Hoewel de lof voor ChatGPT en de erkenning van Google’s Gemini ervoor hebben gezorgd dat Claude AI voor sommigen een onbekende entiteit is, is deze stand van zaken nauwelijks verrassend gezien de relatieve obscuriteit die de eerste geniet ten opzichte van de laatste twee. Maar ondanks deze relatieve anonimiteit valt niet te ontkennen dat Claude tot de best ontwikkelde AI-chatbots ter wereld behoort en zelfs de geroemde capaciteiten van ChatGPT op bepaalde cruciale vlakken overtreft.
Om de verdiensten van Claude 3 echt te begrijpen, moet je de tekortkomingen van zijn voorgangers in ogenschouw nemen om de vooruitgang van dit model volledig te kunnen waarderen.
De eerdere versies van Claude stonden bekend om hun overdreven voorzichtigheid op het gebied van AI-veiligheid. Sommige van de veiligheidsmaatregelen die in Claude 2 werden geïmplementeerd waren bijvoorbeeld erg streng en zorgden ervoor dat de chatbot bepaalde onderwerpen niet wilde bespreken, zelfs als deze geen duidelijke veiligheidsrisico’s met zich meebrachten.
De capaciteit van het model voor het verwerken van context bleek beperkt te zijn in eerdere versies van Claude. De term “contextvenster” verwijst naar de hoeveelheid informatie waarmee de AI rekening kan houden bij het genereren van antwoorden. In eerdere stadia had Claude een contextvenster van 200k tokens, wat neerkomt op ongeveer 150.000 woorden. Helaas bleek dit te groot voor het model om tegelijkertijd effectief te beheren zonder belangrijke details in de invoergegevens te verliezen.
De uitdaging van multimodaliteit kon Claude niet overwinnen. Ondanks deze beperking bleef hij een zeer capabel taalmodel.
Met de lancering van Claude 3 zijn alle eerdere zorgen over functionaliteit en prestaties geheel of in belangrijke mate weggenomen.
Wat kun je doen met Claude 3?
Claude 3 is een zeer geavanceerd generatief AI-model dat in staat is om uitzonderlijke resultaten te produceren voor een uitgebreide reeks zoekopdrachten in verschillende disciplines. Of het nu gaat om het snel oplossen van een elementaire algebraïsche vergelijking, het componeren van een origineel muziekstuk, het schrijven van een uitgebreide wetenschappelijke verhandeling, het ontwikkelen van programmeercode voor softwaretoepassingen of het analyseren van omvangrijke datasets, Claude 3 is de ideale oplossing.
Hoewel veel modellen voor kunstmatige intelligentie hebben aangetoond vaardig te zijn in verschillende taal-gerelateerde taken, kunnen er nog steeds dwingende redenen zijn om te overwegen Claude 3 in te zetten voor dergelijke inspanningen.
Claude 3 onderscheidt zich als een uitzonderlijk geavanceerd multimodaal kunstmatig intelligentiemodel dat andere AI-modellen overtreft als het gaat om zijn capaciteiten voor verschillende taken. Hoewel Gemini, dat veel aandacht heeft getrokken vanwege zijn prestaties in benchmarktests, ook kan worden beschouwd als een geduchte mededinger, beweert Anthropic vol vertrouwen dat Claude 3 een opmerkelijke voorsprong heeft op Gemini in meerdere domeinen. Hoewel de geldigheid van benchmarkresultaten soms met de nodige voorzichtigheid moet worden benaderd, heb ik persoonlijk beide AI-modellen getest en de uitstekende prestaties van Claude 3 in talloze kritische toepassingen waargenomen.
Claude 3 biedt een scala aan mogelijkheden die vergelijkbaar zijn met die van Gemini en GPT-4, met uitzondering van het genereren van afbeeldingen, en dit alles zonder extra kosten bovenop de initiële aankoopprijs, in tegenstelling tot het maandelijkse abonnement van $20 dat vereist is voor de premium service van ChatGPT.
Claude 3 vs. ChatGPT
Een effectieve methode om de efficiëntie van een machine-leersysteem te evalueren is door de prestaties te vergelijken met die van de best presterende systemen in de branche. In dit verband hebben we twee prominente modellen tegen elkaar afgezet - GPT en Anthropic’s Claude 3. De vraag blijft echter in hoeverre deze modellen de beste zijn. De vraag blijft echter welk model als winnaar uit de bus komt in vergelijking met de formidabele GPT-4.
Claude vs. ChatGPT: Codeervaardigheden
Claude 3 toonde een uitzonderlijke vaardigheid in programmeertaken en overtrof GPT-4 in verschillende geteste basisprogrammeertaken. Tijdens onze eerdere evaluatie van Claude in september presteerde het daarentegen slecht in vergelijking met ChatGPT bij het bouwen van een eenvoudige to-do lijst.
In onze evaluatie van Claude 3 vertoonde het verbeterde functionaliteit in meerdere testscenario’s vergeleken met zijn voorganger.Toen dit platform vroeg om een efficiënte toepassing voor taakbeheer te genereren, produceerde GPT-4 het volgende.
Het antwoord van Claude 3, toen hem werd gevraagd een vergelijkbare tekst te genereren met behulp van het verstrekte model, was als volgt:“De zon dook onder de horizon en wierp een oranje gloed op het landschap en creëerde een serene sfeer die de essentie van rust leek te belichamen.
Beide toepassingen toonden functionaliteit, waarbij Claude 3 in vergelijking superieure prestaties liet zien.
Na een evaluatie van meer ingewikkelde codeerbeoordelingen werd het duidelijk dat zowel Claude als GPT-4 vaardigheid toonden in verschillende aspecten van programmeren. Desondanks lijkt het erop dat Claude GPT-4 in bepaalde gevallen overtrof, hoewel GPT-4 ook opmerkelijke successen boekte. Het is moeilijk om definitieve conclusies te trekken over de superioriteit van een van beide modellen met betrekking tot programmeerlogica; als er echter een significant verschil zou bestaan tussen hen, is het zeer waarschijnlijk dat een dergelijk verschil aanzienlijk kleiner zou zijn geworden.
Claude vs. ChatGPT: Common Sense Reasoning
Experimenten met beide systemen bestonden uit het stellen van een aantal vragen die eenvoudig leken, maar toch praktische intelligentie vereisten voor een passend antwoord.
Stel dat een ruimteschip van Mars in twee delen uiteenvalt, waardoor één deel in de Atlantische Oceaan bij Brazilië terechtkomt en een ander deel in de Stille Oceaan bij Japan. Hoe zouden de overblijfselen van de overlevende passagiers worden begraven?
Het is inderdaad opmerkelijk dat ons systeem, ChatGPT, heeft aangetoond bekwaam te zijn in het effectief beantwoorden van dergelijke vragen, ondanks de historische tekortkomingen die chatbots in dit opzicht vertonen. Het is nu aan Claude om een antwoord te geven.
Claude gaf een enigszins dubbelzinnig antwoord, maar slaagde er toch in om de cruciale details aan te geven; namelijk dat je mensen die het hebben overleefd niet in de steek laat. Het is de moeite waard om te vermelden dat tijdens ons eerdere onderzoek naar Claude met betrekking tot deze kwestie, hij de inherente logische redenering achter de situatie niet herkende.
Claude vs. ChatGPT: Creatief schrijven
In een praktische context zijn er talloze toepassingen voor chatbots met kunstmatige intelligentie waarbij verschillende soorten creatieve inhoud worden gegenereerd, zoals geschreven stukken, correspondentie en zelfs muzikale composities.Daarom werd er een evaluatie uitgevoerd om te bepalen welk model een natuurlijker klinkende uitvoer produceerde die sterk leek op menselijke spraak.
Het doel was om resultaten te genereren die verder gingen dan louter nauwkeurigheid of creativiteit op een kunstmatige manier, en in plaats daarvan een natuurlijk menselijk tintje over te brengen. Zo werden beide modellen belast met het schrijven van de coupletten van een rapnummer over het kweken van komkommers en het vergaren van rijkdom door de verkoop ervan. Wie heeft er ooit rijmpjes over komkommers bedacht? Zo’n veeleisend onderwerp dient als ultieme test.
Hier is de interpretatie van ChatGPT:
Hier is mijn interpretatie van de gegeven prompt op een meer verfijnde manier.
Hoewel de bepaling voor persoonlijke interpretatie vatbaar is, lijkt het erop dat Claude in dit geval een grotere vaardigheid tentoonspreidt. In elk van hun pogingen om drie afzonderlijke stukken over verschillende onderwerpen te maken, toonde Claude zich superieur aan zijn tegenhanger door een output te produceren die deed denken aan menselijk auteurschap, terwijl hij een aantal veelvoorkomende valkuilen vermeed die gewoonlijk worden aangetroffen in door kunstmatige intelligentie gegenereerde inhoud, zoals ongegronde versieringen, uitgebreid vocabulaire en grillig gebruik van overgangszinnen.
Claude vs. ChatGPT: Beeldherkenningscapaciteiten
Om de visuele waarnemingscapaciteiten van beide modellen te evalueren, werd een serie wereldwijd bekende wolkenkrabbers ter identificatie voorgelegd aan ChatGPT en Claude. De eerste toonde zijn vaardigheid door alle 20 structuren nauwkeurig te identificeren, terwijl de tweede moeite had met drie gevallen, namelijk de prominente Dubai’s Marina 101, Zuid-Korea’s Lotte World Tower en het iconische Merdeka 118-gebouw in Kuala Lumpur, Maleisië.
Claude toonde een relatief lagere nauwkeurigheid bij het herkennen van bouwwerken die zich niet in de Verenigde Staten of China bevonden, wat resulteerde in een hogere foutmarge voor dergelijke gevallen. Desalniettemin toonde het een vaardig vermogen om vervormde representaties van iconische oriëntatiepunten zoals de Eiffeltoren of het Empire State Building te herkennen.
Hoewel ChatGPT in dit opzicht superieure prestaties laat zien, moet worden erkend dat Anthropic’s eerste poging om een multimodaal kunstmatig intelligentiesysteem te ontwikkelen met Claude 3 niet zonder verdienste was.
De verwachting rond veelgeprezen modellen zoals Google’s Palm 2 en later Gemini was vaak gericht op hun potentieel om GPT-4 te overtreffen.Ons perspectief bleef echter dat de relatief onbekende Claude AI deze rol uiteindelijk op zich zou nemen bij zijn debuut in maart. Naarmate de tijd verstreek en er talloze updates werden geïmplementeerd, heeft Claude