Contents

Czym jest Claude 3 i co można z nim zrobić?

Firma Anthropic zaprezentowała najnowszą wersję swojego modelu sztucznej inteligencji o nazwie Claude 3, który może pochwalić się imponującymi możliwościami i może rzucić wyzwanie dominacji uznanych platform, takich jak GPT-3. Chociaż Claude 3 jest bardzo obiecujący, pozostaje pytanie, czy jest w pełni przygotowany do wyparcia obecnego lidera w tej dziedzinie.

Czym jest Claude 3?

Claude 3 to zaawansowana rodzina modeli sztucznej inteligencji zaprojektowana przez Anthropic w celu zastąpienia swojego poprzednika, Claude 2. Można ją uznać za odpowiedź Anthropic na konkurentów, takich jak Google Gemini i OpenAI GPT-4. Rodzina obejmuje trzy różne iteracje - Haiku, Sonnet i Opus - z których każda reprezentuje coraz wyższy poziom inteligencji. W szczególności Claude 3 oznacza wejście Anthropic w multimodalną sztuczną inteligencję, co oznacza znaczny postęp w stosunku do poprzedniej generacji.

Rzeczywiście, podczas gdy uznanie przyznane ChatGPT i uznanie zdobyte przez Google Gemini mogły sprawić, że Claude AI stał się dla niektórych nieznanym bytem, ten stan rzeczy nie jest zaskakujący, biorąc pod uwagę względną niejasność, jaką cieszy się ten pierwszy w porównaniu z dwoma ostatnimi. Jednak pomimo takiej względnej anonimowości, nie można zaprzeczyć, że Claude należy do najbardziej rozwiniętych chatbotów AI na świecie, przewyższając nawet osławione możliwości ChatGPT w niektórych kluczowych wymiarach.

Aby naprawdę zrozumieć zalety Claude 3, należy rozważyć niedociągnięcia jego poprzedników, aby w pełni docenić postępy poczynione przez ten model.

Wcześniejsze wersje Claude były znane z nadmiernej ostrożności w zakresie bezpieczeństwa sztucznej inteligencji. Na przykład, niektóre środki bezpieczeństwa zaimplementowane w Claude 2 były dość rygorystyczne i powodowały, że chatbot unikał omawiania niektórych tematów, nawet jeśli nie stanowiły one żadnego widocznego zagrożenia dla bezpieczeństwa.

Zdolność modelu do przetwarzania kontekstu została uznana za ograniczoną w poprzednich iteracjach Claude. Termin “okno kontekstowe” odnosi się do ilości informacji, które sztuczna inteligencja może wziąć pod uwagę podczas generowania odpowiedzi. Na wcześniejszych etapach Claude miał okno kontekstowe 200 tys. tokenów, co przekładało się na około 150 tys. słów. Niestety, okazało się to zbyt duże, by model mógł skutecznie zarządzać jednocześnie bez utraty ważnych szczegółów w danych wejściowych.

Wyzwanie związane z multimodalnością nie jest wyzwaniem, z którym Claude mógłby sobie poradzić. Pomimo tego ograniczenia, pozostał on bardzo sprawnym modelem językowym.

Wraz z premierą Claude 3, wszystkie wcześniejsze obawy dotyczące funkcjonalności i wydajności zostały rozwiązane w całości lub w znacznym stopniu.

Co można zrobić z Claude 3?

/pl/images/claude-image-1.jpg

Claude 3 to wysoce zaawansowany model generatywnej sztucznej inteligencji, który posiada zdolność do generowania wyjątkowych wyników dla szerokiego zakresu zapytań obejmujących różne dyscypliny. Niezależnie od tego, czy wymagane jest szybkie rozwiązanie elementarnego równania algebraicznego, skomponowanie oryginalnego utworu muzycznego, opracowanie obszernego traktatu naukowego, opracowanie kodu programowania dla aplikacji lub analiza obszernych zbiorów danych, Claude 3 stanowi idealne rozwiązanie.

Podczas gdy wiele modeli sztucznej inteligencji wykazało się biegłością w różnych zadaniach związanych z językiem, nadal mogą istnieć ważne powody, aby rozważyć wykorzystanie Claude 3 do takich przedsięwzięć.

Claude 3 wyróżnia się jako wyjątkowo zaawansowany multimodalny model sztucznej inteligencji, który przewyższa inne modele AI pod względem możliwości wykonywania różnych zadań. Chociaż Gemini, który przyciągnął znaczną uwagę ze względu na swoją wydajność w testach porównawczych, może być również uważany za potężnego rywala, Anthropic z przekonaniem twierdzi, że Claude 3 wykazuje godną uwagi przewagę nad nim w wielu domenach. Chociaż do wyników testów porównawczych należy podchodzić z ostrożnością, osobiście przetestowałem oba modele sztucznej inteligencji i zaobserwowałem znakomitą wydajność Claude 3 w wielu krytycznych zastosowaniach.

Claude 3 oferuje szereg możliwości podobnych do tych dostępnych zarówno w Gemini, jak i GPT-4, z wyłączeniem generowania obrazów, a wszystko to bez dodatkowych kosztów poza początkową ceną zakupu, w przeciwieństwie do 20 USD miesięcznej subskrypcji wymaganej przez usługę premium ChatGPT.

Claude 3 vs. ChatGPT

/pl/images/chatgpt-vs-claude-ai-featured.jpg

Skuteczną metodą oceny wydajności systemu uczenia maszynowego jest porównanie jego wydajności z najlepszymi wynikami w branży. W tym względzie zestawiliśmy ze sobą dwa znane modele - GPT i Claude 3 firmy Anthropic. Pozostaje jednak pytanie, który z nich okaże się zwycięski w porównaniu z potężnym GPT-4.

Claude vs. ChatGPT: Umiejętności kodowania

Claude 3 wykazał się wyjątkową biegłością w zadaniach programistycznych, przewyższając GPT-4 w kilku podstawowych zadaniach programistycznych, które zostały przetestowane. W przeciwieństwie do tego, podczas naszej wcześniejszej oceny Claude we wrześniu, wypadł słabo w porównaniu do ChatGPT w tworzeniu prostej aplikacji z listą rzeczy do zrobienia.

W naszej ocenie Claude 3 wykazał się zwiększoną funkcjonalnością w wielu scenariuszach testowych w porównaniu do swojego poprzednika.Na prośbę tej platformy o wygenerowanie wydajnej aplikacji do zarządzania zadaniami, oto co zostało wygenerowane przez GPT-4.

/pl/images/chatgpt-gpt-4-makes-a-todo-list-app.jpg

Odpowiedź Claude 3, poproszonego o wygenerowanie podobnego tekstu przy użyciu dostarczonego modelu, była następująca: “Słońce zanurzyło się poniżej horyzontu, rzucając pomarańczową poświatę na krajobraz i tworząc pogodną atmosferę, która wydawała się ucieleśniać istotę spokoju.

/pl/images/claude-3-makes-todo-list-app.jpg

Obie aplikacje wykazały się funkcjonalnością, przy czym Claude 3 wykazała się lepszą wydajnością w porównaniu.

Po ocenie bardziej skomplikowanych ocen kodowania stało się oczywiste, że zarówno Claude, jak i GPT-4 wykazały się biegłością w różnych aspektach programowania. Mimo to wydaje się, że Claude przewyższał GPT-4 w niektórych przypadkach, chociaż GPT-4 również osiągnął znaczące sukcesy. Trudno jest wyciągnąć ostateczne wnioski dotyczące wyższości któregokolwiek z modeli w odniesieniu do logiki programowania; jednak gdyby istniała między nimi znacząca różnica, jest wysoce prawdopodobne, że taka różnica znacznie by się zmniejszyła.

Claude vs. ChatGPT: Common Sense Reasoning

Eksperymentowanie z oboma systemami polegało na zadawaniu zestawu zapytań, które wydawały się proste, ale wymagały praktycznej inteligencji, aby uzyskać odpowiednią odpowiedź.

Załóżmy, że statek kosmiczny z Marsa rozpada się na dwa fragmenty, w wyniku czego jedna część zderza się z Oceanem Atlantyckim w pobliżu Brazylii, a druga część uderza w Ocean Spokojny w pobliżu Japonii. Jak zostałyby pochowane szczątki ocalałych pasażerów?

/pl/images/chatgpt-answers-trick-question.jpg

Rzeczywiście, warto zauważyć, że nasz system, ChatGPT, wykazał się biegłością w skutecznym odpowiadaniu na takie zapytania, pomimo historycznych niedociągnięć wykazywanych przez chatboty w tym zakresie. Teraz Claude ma okazję udzielić odpowiedzi.

/pl/images/testing-claude-3-on-commonsense-reasoning.jpg

Claude udzielił nieco niejednoznacznej odpowiedzi, ale udało mu się wskazać kluczowe szczegóły, a mianowicie, że nie porzuca się osób, którym udało się przeżyć. Warto wspomnieć, że podczas naszego poprzedniego zapytania Claude’a w tej sprawie, nie rozpoznał on nieodłącznego logicznego rozumowania stojącego za tą sytuacją.

Claude vs. ChatGPT: Kreatywne pisanie

W kontekście praktycznym istnieje wiele zastosowań dla chatbotów sztucznej inteligencji, które obejmują generowanie różnego rodzaju kreatywnych treści, takich jak prace pisemne, korespondencja, a nawet kompozycje muzyczne.W związku z tym przeprowadzono ocenę w celu ustalenia, który model generował bardziej naturalnie brzmiące dane wyjściowe, które ściśle przypominały ludzką mowę.

Celem było wygenerowanie wyników, które wykraczałyby poza zwykłą dokładność lub kreatywność w sztuczny sposób, zamiast tego przekazując naturalny ludzki dotyk. W ten sposób oba modele miały za zadanie stworzyć wersy rapowej piosenki skupionej wokół uprawy ogórków i gromadzenia bogactwa poprzez ich sprzedaż. Kto wymyśla rymy na temat ogórków? Tak wymagająca tematyka stanowi ostateczny test.

Oto odpowiedź ChatGPT:

/pl/images/chatgpt-writes-lyrics-to-a-rap-song.jpg

Oto moja interpretacja danego podpowiedzi w bardziej wyrafinowany sposób.

/pl/images/claude-writes-lyrics-to-a-wrap-song.jpg

Chociaż decyzja może być otwarta na osobistą interpretację, wydaje się, że Claude wykazuje większą biegłość w tym przypadku. W każdej z prób stworzenia trzech oddzielnych utworów na różne tematy, Claude wykazał wyższość nad swoim odpowiednikiem, tworząc produkt, który przypominał ludzkie autorstwo, unikając jednocześnie niektórych typowych pułapek typowych dla treści generowanych przez sztuczną inteligencję, takich jak nieuzasadnione upiększenia, wyszukane słownictwo i nieregularne wykorzystanie fraz przejściowych.

Claude vs. ChatGPT: Zdolności rozpoznawania obrazów

W celu oceny zdolności percepcji wizualnej obu modeli, seria znanych na całym świecie drapaczy chmur została przedstawiona ChatGPT i Claude w celu identyfikacji. Pierwszy z nich zademonstrował swoją biegłość, dokładnie identyfikując wszystkie 20 struktur, podczas gdy drugi napotkał trudności z trzema przypadkami, a mianowicie wybitną Dubajską Mariną 101, południowokoreańską Lotte World Tower i kultowym budynkiem Merdeka 118 zlokalizowanym w Kuala Lumpur w Malezji.

Claude wykazała stosunkowo niższą dokładność podczas rozpoznawania struktur, które nie znajdowały się w Stanach Zjednoczonych lub Chinach, co spowodowało wzrost poziomu błędu dla takich przypadków. Niemniej jednak wykazała się biegłą zdolnością do identyfikowania zniekształconych reprezentacji kultowych punktów orientacyjnych, takich jak Wieża Eiffla czy Empire State Building.

/pl/images/empire-state-building-identified-by-claude-3.jpg

Podczas gdy ChatGPT wykazuje lepszą wydajność w tym zakresie, należy przyznać, że początkowe podejście Anthropic do opracowania multimodalnego systemu sztucznej inteligencji z Claude 3 nie było pozbawione zalet.

Oczekiwania związane z bardzo uznanymi modelami, takimi jak Palm 2 Google, a później Gemini, często były ukierunkowane na ich potencjał przewyższenia GPT-4.Jednak nasza perspektywa pozostała niezachwiana, przewidując, że stosunkowo nieznana Claude AI ostatecznie przejmie tę rolę po debiucie w marcu. W miarę upływu czasu i wdrażania licznych aktualizacji, Claud