Claude 3 là gì và bạn có thể làm gì với nó?

Leonard Strauss included in Artificial Intelligence

2024-04-02 2208 words 11 minutes

Contents

Anthropic đã tiết lộ phiên bản mới nhất của mô hình AI của mình, được đặt tên là Claude 3, có khả năng ấn tượng và có thể thách thức sự thống trị của các nền tảng lâu đời như GPT-3. Trong khi Claude 3 thể hiện nhiều hứa hẹn, câu hỏi vẫn là liệu nó có được chuẩn bị đầy đủ để thay thế người dẫn đầu hiện tại trong lĩnh vực này hay không.

Claude 3 là gì?

Claude 3 là dòng mô hình trí tuệ nhân tạo tiên tiến được Anthropic thiết kế để thay thế người tiền nhiệm của nó là Claude 2. Đây có thể được coi là phản ứng của Anthropic trước các đối thủ như Gemini của Google và GPT-4 của OpenAI. Nhóm này bao gồm ba phiên bản riêng biệt-Haiku, Sonnet và Opus-mỗi phiên bản đại diện cho mức độ thông minh ngày càng cao hơn. Đáng chú ý, Claude 3 đánh dấu bước đột phá của Anthropic vào lĩnh vực AI đa phương thức, đánh dấu một bước tiến đáng kể so với thế hệ trước.

Thật vậy, mặc dù sự tán thưởng dành cho ChatGPT và sự công nhận mà Gemini của Google thu được có thể đã khiến Claude AI trở thành một thực thể xa lạ đối với một số người, nhưng tình trạng này hầu như không gây ngạc nhiên khi so sánh với hai phần sau thì sự mù mờ so với phần trước. Tuy nhiên, bất chấp sự ẩn danh tương đối như vậy, không thể phủ nhận rằng Claude được xếp hạng trong số các chatbot AI phát triển cao nhất trên toàn cầu, vượt qua cả những khả năng được ca ngợi của ChatGPT ở một số khía cạnh quan trọng.

Để thực sự hiểu được ưu điểm của Claude 3, người ta phải suy ngẫm về những thiếu sót của những người tiền nhiệm để có được sự đánh giá đầy đủ về những tiến bộ mà mô hình này đạt được.

Các phiên bản trước của Claude nổi tiếng là thể hiện sự thận trọng quá mức về mặt an toàn AI. Ví dụ: một số biện pháp an toàn được triển khai trong Claude 2 khá nghiêm ngặt và khiến chatbot ngại thảo luận về một số chủ đề nhất định, ngay cả khi chúng không gây ra bất kỳ rủi ro an toàn rõ ràng nào.

Khả năng xử lý bối cảnh của mô hình này bị hạn chế trong các lần lặp lại trước đây của Claude. Thuật ngữ “cửa sổ ngữ cảnh” đề cập đến lượng thông tin mà AI có thể tính đến khi tạo phản hồi. Trong các giai đoạn trước, Claude có cửa sổ ngữ cảnh gồm 200 nghìn mã thông báo, dịch ra khoảng 150.000 từ. Thật không may, điều này được chứng minh là quá lớn để mô hình có thể quản lý đồng thời một cách hiệu quả mà không làm mất các chi tiết quan trọng trong dữ liệu đầu vào.

Thách thức do đa phương thức đưa ra không phải là thách thức mà Claude có thể vượt qua. Bất chấp hạn chế này, anh ấy vẫn là một hình mẫu ngôn ngữ có năng lực cao theo đúng nghĩa của mình.

Với sự ra mắt của Claude 3, tất cả những lo ngại trước đây về chức năng và hiệu suất đã được giải quyết toàn bộ hoặc ở một mức độ đáng kể.

Bạn có thể làm gì với Claude 3?

Claude 3 là một mô hình AI có tính sáng tạo cao, sở hữu khả năng tạo ra các kết quả đầu ra đặc biệt cho một loạt các truy vấn trải rộng trên nhiều lĩnh vực khác nhau. Bất kể người ta yêu cầu giải nhanh chóng một phương trình đại số cơ bản, thành phần của một bản nhạc gốc, soạn thảo một chuyên luận học thuật toàn diện, phát triển mã lập trình cho các ứng dụng phần mềm hay phân tích các bộ dữ liệu đồ sộ, Claude 3 đại diện cho một giải pháp lý tưởng.

Mặc dù nhiều mô hình trí tuệ nhân tạo đã chứng tỏ sự thành thạo trong các nhiệm vụ khác nhau liên quan đến ngôn ngữ, nhưng vẫn có thể có lý do thuyết phục để xem xét sử dụng Claude 3 cho những nỗ lực đó.

Claude 3 nổi bật là một mô hình trí tuệ nhân tạo đa phương thức đặc biệt tiên tiến, vượt trội so với các mô hình AI khác về khả năng thực hiện nhiều nhiệm vụ khác nhau. Mặc dù Gemini, đã thu hút được sự chú ý đáng kể nhờ hiệu suất trong các bài kiểm tra điểm chuẩn, cũng có thể được coi là một đối thủ đáng gờm, Anthropic tự tin tuyên bố rằng Claude 3 thể hiện lợi thế đáng chú ý so với nó trên nhiều lĩnh vực. Mặc dù tính hợp lệ của các kết quả điểm chuẩn đôi khi phải được tiếp cận một cách thận trọng nhưng cá nhân tôi đã thử nghiệm cả hai mô hình AI và quan sát thấy hiệu suất vượt trội của Claude 3 trong nhiều ứng dụng quan trọng.

Claude 3 cung cấp một loạt các khả năng tương tự như những khả năng có sẵn trong cả Gemini và GPT-4, ngoại trừ việc tạo hình ảnh, tất cả đều không tính thêm phí ngoài giá mua ban đầu, không giống như gói đăng ký 20 USD hàng tháng mà dịch vụ cao cấp của ChatGPT yêu cầu.

Claude 3 đấu với ChatGPT

Một phương pháp hiệu quả để đánh giá hiệu quả của hệ thống máy học là so sánh hiệu suất của nó với hiệu suất của những hệ thống hoạt động hàng đầu trong ngành. Về vấn đề này, chúng tôi đã so sánh hai mô hình nổi bật với nhau-GPT và Claude 3 của Anthropic. Tuy nhiên, câu hỏi vẫn là xem mô hình nào sẽ chiến thắng khi so sánh với GPT-4 đáng gờm.

Claude vs. ChatGPT: Kỹ năng viết mã

Claude 3 đã thể hiện sự thành thạo đặc biệt trong các nhiệm vụ lập trình, vượt qua GPT-4 trong một số nhiệm vụ lập trình cơ bản đã được thử nghiệm. Ngược lại, trong lần đánh giá trước đây của chúng tôi về Claude vào tháng 9, nó hoạt động kém hơn so với ChatGPT trong việc xây dựng một ứng dụng danh sách việc cần làm đơn giản.

Trong đánh giá của chúng tôi về Claude 3, nó thể hiện chức năng nâng cao trên nhiều tình huống thử nghiệm so với phiên bản tiền nhiệm. Khi được nền tảng này yêu cầu tạo một ứng dụng quản lý tác vụ hiệu quả, đây là những gì được GPT-4 tạo ra.

Phản hồi của Claude 3, khi được yêu cầu tạo một văn bản tương tự bằng cách sử dụng mô hình được cung cấp, như sau: “Mặt trời lặn xuống dưới đường chân trời, tỏa ánh sáng màu cam lên cảnh quan và tạo ra bầu không khí thanh bình dường như thể hiện bản chất của sự yên bình.

Cả hai ứng dụng đều thể hiện chức năng, trong đó Claude 3 thể hiện hiệu suất vượt trội khi so sánh.

Sau khi đánh giá các bài đánh giá mã hóa phức tạp hơn, rõ ràng là cả Claude và GPT-4 đều thể hiện sự thành thạo trong các khía cạnh lập trình khác nhau. Mặc dù vậy, có vẻ như Claude hoạt động tốt hơn GPT-4 trong một số trường hợp nhất định, mặc dù GPT-4 cũng đạt được những thành công đáng chú ý. Rất khó để đưa ra kết luận chắc chắn về tính ưu việt của một trong hai mô hình đối với logic lập trình; tuy nhiên, nếu có sự chênh lệch đáng kể giữa chúng, rất có thể sự khác biệt đó sẽ giảm đi đáng kể.

Claude vs. ChatGPT: Lý luận thông thường

Thử nghiệm với cả hai hệ thống liên quan đến việc đặt ra một tập hợp các truy vấn có vẻ đơn giản nhưng cần có trí thông minh thực tế cần thiết để có phản hồi thích hợp.

Giả sử một tàu vũ trụ từ sao Hỏa vỡ thành hai mảnh, dẫn đến một phần va chạm với Đại Tây Dương gần Brazil và phần khác va chạm với Thái Bình Dương gần Nhật Bản. Thi thể của những hành khách còn sống sẽ được an táng như thế nào?

Thật vậy, điều đáng chú ý là hệ thống của chúng tôi, ChatGPT, đã chứng tỏ sự thành thạo trong việc giải quyết các truy vấn như vậy một cách hiệu quả, bất chấp những thiếu sót trước đây mà chatbot thể hiện về vấn đề này. Bây giờ là cơ hội để Claude đưa ra câu trả lời.

Claude đưa ra một câu trả lời có phần mơ hồ, tuy nhiên vẫn cố gắng xác định chính xác các chi tiết quan trọng; tức là người ta không bỏ rơi những cá nhân đã cố gắng sống sót. Điều đáng nói là trong cuộc điều tra trước đây của chúng tôi với Claude về vấn đề này, nó đã không nhận ra được lý do logic cố hữu đằng sau tình huống này.

Claude vs. ChatGPT: Viết sáng tạo

Trong bối cảnh thực tế, có rất nhiều ứng dụng cho chatbot trí tuệ nhân tạo liên quan đến việc tạo ra các loại nội dung sáng tạo đa dạng như các tác phẩm viết, thư từ và thậm chí cả các tác phẩm âm nhạc. Do đó, một cuộc đánh giá đã được tiến hành để phân biệt mô hình nào tạo ra âm thanh tự nhiên hơn, gần giống với giọng nói của con người hơn.

Mục tiêu là tạo ra những kết quả vượt qua độ chính xác hoặc tính sáng tạo đơn thuần theo cách nhân tạo, thay vào đó truyền tải sự tiếp xúc tự nhiên của con người. Vì vậy, cả hai người mẫu đều được giao nhiệm vụ tạo ra những câu hát của một bài hát rap xoay quanh việc trồng dưa chuột và tích lũy của cải thông qua việc bán chúng. Có ai nghĩ ra vần điệu về dưa chuột không? Một chủ đề đòi hỏi khắt khe như vậy đóng vai trò là bài kiểm tra cuối cùng.

Đây là ý kiến của ChatGPT:

Đây là cách giải thích của tôi về lời nhắc đã cho theo cách phức tạp hơn.

Mặc dù quyết định có thể được giải thích theo cá nhân, nhưng có vẻ như Claude thể hiện sự thành thạo hơn trong trường hợp này. Trong mỗi nỗ lực tạo ra ba tác phẩm riêng biệt về các chủ đề riêng biệt, Claude đã thể hiện sự vượt trội so với đối tác của mình bằng cách tạo ra sản phẩm gợi nhớ đến quyền tác giả của con người đồng thời tránh một số cạm bẫy phổ biến thường thấy trong nội dung do trí tuệ nhân tạo tạo ra như phần tô điểm không chính đáng, từ vựng phức tạp, và sử dụng thất thường các cụm từ chuyển tiếp.

Claude vs. ChatGPT: Khả năng nhận dạng hình ảnh

Để đánh giá khả năng nhận thức trực quan của cả hai mô hình, một loạt tòa nhà chọc trời nổi tiếng toàn cầu đã được đưa cho ChatGPT và Claude để nhận dạng. Cái trước đã thể hiện sự thành thạo của mình bằng cách xác định chính xác tất cả 20 cấu trúc, trong khi cái sau gặp khó khăn với ba trường hợp, đó là Marina 101 nổi bật của Dubai, Tháp Lotte World của Hàn Quốc và tòa nhà Merdeka 118 mang tính biểu tượng nằm ở Kuala Lumpur, Malaysia.

Claude đã chứng minh độ chính xác tương đối thấp hơn khi nhận dạng các cấu trúc không nằm ở Hoa Kỳ hoặc Trung Quốc, dẫn đến tỷ lệ lỗi trong các trường hợp như vậy tăng lên. Tuy nhiên, nó thể hiện khả năng thành thạo trong việc xác định các hình ảnh thể hiện bị bóp méo của các địa danh mang tính biểu tượng như Tháp Eiffel hoặc Tòa nhà Empire State.

Mặc dù ChatGPT thể hiện hiệu suất vượt trội về mặt này, nhưng cần phải thừa nhận rằng bước đột phá ban đầu của Anthropic trong việc phát triển hệ thống trí tuệ nhân tạo đa phương thức với Claude 3 không phải là không có công.

Sự mong đợi xung quanh các mẫu máy được đánh giá cao như Palm 2 của Google và sau này là Gemini thường hướng đến tiềm năng vượt qua GPT-4 của chúng. Tuy nhiên, quan điểm của chúng tôi vẫn kiên định khi dự đoán rằng Claude AI tương đối xa lạ cuối cùng sẽ đảm nhận vai trò này khi ra mắt vào tháng 3. Thời gian trôi qua và nhiều bản cập nhật đã được triển khai, Claud