Contents

6 mô hình ngôn ngữ lớn tốt nhất năm 2023

Bài học chính

Phiên bản hiện tại của GPT-4 của OpenAI tự hào có một loạt khả năng ấn tượng, bao gồm con số đáng kinh ngạc là 1,76 nghìn tỷ tham số, khiến nó trở thành một trong những mô hình ngôn ngữ lớn lớn nhất và tiên tiến nhất hiện nay. Hơn nữa, khả năng đa phương thức của nó cho phép phạm vi ứng dụng lớn hơn trên nhiều phương tiện khác nhau.

Claude 2 của Anthropic thể hiện khả năng viết sáng tạo ấn tượng, đạt hiệu suất ngang bằng với GPT-4, mặc dù nó sở hữu nguồn lực hạn chế so với đối tác.

Mặc dù mô hình ngôn ngữ mới nhất của Google, được gọi là PaLM 2, có thể không hoàn toàn sánh ngang với sức mạnh của GPT-4, nhưng nó vẫn là một thế lực đáng gờm trong lĩnh vực ngôn ngữ học, tự hào về khả năng ấn tượng trên nhiều ngôn ngữ và thể hiện sự khéo léo đáng kể trong đầu ra của nó. Trong khi đó, Falcon-180B, một giải pháp thay thế nguồn mở, đã chứng tỏ khả năng vượt trội ngang bằng với một số công ty dẫn đầu ngành, thậm chí còn mạo hiểm xâm nhập vào lãnh thổ trước đây do GPT-3 thống trị.

Môi trường hiện tại được đặc trưng bởi sự phong phú của công nghệ trí tuệ nhân tạo, với nhiều công ty sản xuất các mô hình ngôn ngữ tiên tiến với tốc độ ngày càng nhanh. Sự phổ biến của các hệ thống mới này đã dẫn đến tình trạng ngày càng khó khăn cho các cá nhân trong việc duy trì nhận thức toàn diện về tất cả các lựa chọn có sẵn.

Khi một năm sắp kết thúc, rõ ràng là chỉ có một số mẫu chọn lọc có thể nổi bật giữa vô số mẫu ngôn ngữ mới được phát hành. Những mô hình đặc biệt này đã chứng tỏ sức mạnh của chúng trong bối cảnh cạnh tranh của các mô hình ngôn ngữ lớn. Với suy nghĩ này, tôi xin giới thiệu với bạn sáu mô hình ngôn ngữ lớn đáng chú ý nhất đáng để khám phá.

GPT-4 của OpenAI

/vi/images/7-ways-to-use-chatgpt-vision.jpg

GPT-4 thể hiện một tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo vì nó là phiên bản mới nhất của mô hình ngôn ngữ quy mô lớn mà công chúng có thể truy cập được. Hệ thống đột phá này do OpenAI cùng phát triển và triển khai vào tháng 3 năm 2023. Là một phần không thể thiếu của dòng Generative Pre-training Transformer đang diễn ra, GPT-4 tự hào có những khả năng đặc biệt khiến nó trở thành một trong những hệ thống phổ biến nhất và các mô hình ngôn ngữ lớn được săn đón nhiều trên toàn cầu.

GPT-4 được suy đoán là có khoảng 1,76 nghìn tỷ tham số, lớn hơn đáng kể so với con số có trong tiền thân của nó, GPT-3.5 hoặc thậm chí trong mô hình nâng cao của Google, PaLM. Kích thước khổng lồ của số lượng tham số này cho phép GPT-4 sở hữu nhiều khả năng vượt ra ngoài việc chỉ xử lý văn bản, cho phép GPT-4 xử lý đồng thời cả đầu vào hình ảnh và văn bản. Do đó, tính năng này cấp cho GPT-4 khả năng hiểu và mô tả tài liệu trực quan như sơ đồ và ảnh chụp màn hình cùng với nội dung bằng văn bản. Việc kết hợp nhiều phương thức giúp nâng cao khả năng của hệ thống trong việc hiểu các tình huống thực tế theo cách gợi nhớ đến nhận thức của con người.

Trong một loạt các đánh giá thực nghiệm, GPT-4 đã chứng tỏ được tính ưu việt vượt trội so với các đối tác cùng thời trong nhiều đánh giá. Tuy nhiên, cần lưu ý rằng mặc dù các điểm chuẩn này cung cấp những hiểu biết sâu sắc có giá trị về khả năng của mô hình nhưng chúng không thể hiện toàn diện các điểm mạnh tổng thể của mô hình đó. Tuy nhiên, người ta nhận thấy rằng GPT-4 thể hiện khả năng phi thường trong việc giải quyết những khó khăn thực tế với mức độ trực giác cao khi áp dụng vào các tình huống thực tế. Hiện tại, GPT-4 có giá 20 USD mỗi tháng và có thể được truy cập như một phần của tùy chọn đăng ký ChatGPT’s Plus.

Claude 2 của Anthropic

/vi/images/meet-claude-anthropic-ai-logo-feature.jpg Nguồn hình ảnh: Anthropic

Claude 2, một mô hình ngôn ngữ AI do Anthropic AI tạo ra, có khả năng phù hợp với trình độ kỹ thuật và hiệu suất trong thế giới thực của GPT-4 trong một số lĩnh vực. Trên thực tế, trong một số bài đánh giá tiêu chuẩn hóa nhất định như các bài kiểm tra chọn lọc, Claude 2 đã được chứng minh là vượt qua GPT-4. Ngoài ra, một lợi thế đáng chú ý mà Claude 2 nắm giữ so với đối thủ cạnh tranh là phạm vi ngữ cảnh mở rộng với khoảng 100.000 mã thông báo, vượt xa dung lượng mã thông báo 8k và 32k của các mô hình GPT-4. Mặc dù điều quan trọng cần lưu ý là cửa sổ ngữ cảnh lớn hơn không nhất thiết đảm bảo hiệu suất được cải thiện, nhưng khả năng tăng lên do Claude 2 cung cấp chắc chắn mang lại những lợi ích khác biệt, chẳng hạn như khả năng phân tích toàn bộ

GPT-4 tiếp tục thể hiện hiệu suất vượt trội trên nhiều lĩnh vực khác nhau, trong khi các đánh giá nội bộ của chúng tôi cho thấy Claude 2 vượt qua GPT-4 trong một số nhiệm vụ viết sáng tạo nhất định. Tuy nhiên, GPT-4 vẫn duy trì lợi thế hơn Claude 2 về khả năng lập trình và toán học theo đánh giá của chúng tôi. Tuy nhiên, Claude 2 luôn đưa ra những phản hồi rất rõ ràng và giàu trí tưởng tượng, được sáu trên mười trường hợp chọn làm đầu ra ưu tiên khi thúc đẩy nhiều mô hình AI thực hiện một nhiệm vụ sáng tạo. Hiện tại, người dùng có thể tương tác với Claude 2 thông qua chatbot Claude AI có thể truy cập miễn phí hoặc chọn phiên bản cao cấp có giá 20 USD để mở rộng khả năng.

Mô hình AI Claude 2 của Anthropic thể hiện mức hiệu suất vượt trội mặc dù sở hữu ít nguồn tài chính hơn so với các công ty dẫn đầu ngành như OpenAI và Microsoft. Trên thực tế, khi đọ sức với các mô hình AI phổ biến như GPT và dòng PaLM của Google, Claude 2 đã giữ vững lập trường của mình một cách đáng ngưỡng mộ. Rõ ràng là đối với một AI có nguồn lực hạn chế, Claude 2 thể hiện khả năng cạnh tranh đáng khen ngợi. Nếu người ta suy đoán xem mô hình AI hiện tại nào có tiềm năng lớn nhất để thách thức GPT trong tương lai gần, Claude 2 dường như là ứng cử viên triển vọng nhất. Mặc dù Anthropic có thể thiếu mức tài trợ tương tự như một số đối tác lâu đời hơn, nhưng khả năng tiên tiến của Claude 2 cho thấy rằng nó thực sự có thể cạnh tranh

GPT-3.5 của OpenAI

/vi/images/person-holding-openai-logo-in-hand-feature.jpg Nguồn hình ảnh: Marcelo Mollaretti/Shutterstock

GPT-3.5, mặc dù bị lu mờ bởi bản phát hành GPT-4 tiếp theo, nhưng không được đánh giá thấp do kích thước đáng kể của nó là 175 tỷ tham số. Bằng cách sàng lọc liên tục thông qua tinh chỉnh lặp đi lặp lại và các cải tiến tập trung vào hiệu quả, độ chính xác và bảo mật, GPT-3.5 đã tiến bộ đáng kể kể từ lần đầu tiên được gọi là GPT-3. Mặc dù kém hơn so với GPT-4 về mức độ thành thạo đa phương thức và khả năng tổng thể, đặc biệt khi xem xét phạm vi ngữ cảnh và dung lượng tham số, GPT-3.5 vẫn thể hiện năng lực vượt trội. Tuy nhiên, GPT-4 hiện là đối thủ duy nhất có thể vượt trội hơn GPT-3.5 một cách rõ ràng trên tất cả các phương diện.

Vì là mô hình phụ trong dòng GPToken, GPT-3.5 thể hiện khả năng ấn tượng khi cạnh tranh với các hệ thống AI hàng đầu như hệ thống do Google và Meta cung cấp. Các so sánh được thực hiện cùng với PaLM 2 của Google đã chứng minh rằng mặc dù không có chênh lệch đáng kể giữa chúng về trình độ toán học và mã hóa, GPT-3.5 thực sự thể hiện lợi thế cận biên trong một số trường hợp nhất định. Ngoài ra, khi đánh giá tính sáng tạo thông qua các thước đo như tính dí dỏm và bố cục câu chuyện, GPT-3.5 thể hiện sự vượt trội rõ ràng so với đối thủ.

Thật vậy, việc ra mắt GPT-4 thể hiện một bước tiến đáng kể về khả năng trí tuệ nhân tạo. Tuy nhiên, mặc dù đã bị thay thế bởi người kế nhiệm, GPT-3.5 vẫn tự hào về sức mạnh đáng gờm, thường vượt trội so với các lựa chọn thay thế tiên tiến nhất. Hơn nữa, việc tinh chỉnh liên tục vẫn duy trì được sự phù hợp giữa các công nghệ mới nổi mới hơn và hấp dẫn hơn.

PaLM 2 của Google

/vi/images/google-palm-2-feature.jpg Nguồn hình ảnh: Google

Khi đánh giá năng lực của một mô hình trí tuệ nhân tạo, người ta thường đọc báo cáo kỹ thuật và kiểm tra điểm chuẩn của nó, tuy nhiên người ta phải tiếp cận những phát hiện này với thái độ hoài nghi và tiến hành thử nghiệm cá nhân. Trái ngược với trực giác, kết quả từ các bài kiểm tra điểm chuẩn không phản ánh nhất quán hiệu suất thực tế của một số mô hình AI nhất định. Ví dụ: theo thông số kỹ thuật của nó, PaLM 2 của Google được dự đoán sẽ vượt qua GPT-4 ở nhiều điểm chuẩn khác nhau; tuy nhiên, khi áp dụng thực tế, một kịch bản khác sẽ phát sinh.

PaLM 2 do Google phát triển đã được đánh giá dựa trên các mô hình ngôn ngữ tiên tiến khác như GPT-It và Claude của Anthropic về khả năng thực hiện các chức năng nhận thức khác nhau bao gồm lý luận toán học, tư duy logic và viết sáng tạo. Mặc dù nó thể hiện sức mạnh đáng kể trong những lĩnh vực này nhưng nó vẫn bị tụt lại phía sau một số đối thủ cạnh tranh khi so sánh cạnh nhau. Tuy nhiên, dù không đáp ứng được mọi kỳ vọng khi trở thành người kế thừa trực tiếp cho GPT-3, PaLM 2 vẫn được coi là một đối thủ đáng gờm trong lĩnh vực này nhờ khả năng ấn tượng vượt qua nhiều hệ thống AI khác.

PaLM 2 tự hào có số lượng tham số khổng lồ, với hơn 340 tỷ, khiến nó trở thành một trong những mô hình mở rộng nhất hiện có. Mô hình này thể hiện sự thành thạo đặc biệt trong các nhiệm vụ đa ngôn ngữ và thể hiện khả năng tính toán và toán học đáng gờm. Mặc dù có thể không có đối thủ về mọi mặt nhưng PaLM 2 vẫn có khả năng cao khi nói đến những nỗ lực sáng tạo như viết lách. Bất chấp một số lời hứa ban đầu được đề xuất bởi các điểm chuẩn, việc hiện thực hóa đầy đủ vẫn chưa đạt được một cách thống nhất trên tất cả các lĩnh vực, tuy nhiên PaLM 2 vẫn tiếp tục chứng tỏ sức mạnh trí tuệ nhân tạo đáng chú ý, mặc dù không vượt trội so với tất cả các đối thủ của nó trên toàn cầu.

##Falcon-180B của TII

/vi/images/falcon-180b.jpg

Falcon-180B, một sản phẩm của Viện Đổi mới Công nghệ của Các Tiểu vương quốc Ả Rập Thống nhất, có thể không có mức độ quen thuộc như các mô hình ngôn ngữ AI khác như GPT hay mức độ phổ biến của Llama của Meta. Tuy nhiên, 180 tỷ thông số ấn tượng của nó khiến nó trở thành một trong những sản phẩm ưu tú và có khả năng cạnh tranh với những công ty có thành tích hàng đầu trong lĩnh vực này.

Hiệu suất của Falcon-180B đã được chứng minh là vượt qua nhiều mẫu mã nguồn mở và sánh ngang với các giải pháp thương mại hàng đầu như PaLM 2 và GPT-3. Trong một loạt các bài kiểm tra bao gồm giải quyết vấn đề toán học, lập trình, suy luận logic và viết sáng tạo, Falcon-180B thậm chí đôi khi còn vượt trội hơn GPT-3.5. Khi xem xét vị trí của GPT-4, GPT-3.5 và Falcon-180B, rõ ràng Falcon-180B nên được đặt giữa hai mẫu này do khả năng đáng chú ý của nó trên nhiều ứng dụng.

Mặc dù có thể không vượt qua GPT-3.5 về mọi mặt, Falcon-180B đưa ra một lập luận thuyết phục với khả năng phù hợp và thậm chí vượt trội so với khả năng của các lựa chọn thay thế nổi bật hơn. Mặc dù ít được biết đến hơn nhưng mô hình này đáng được xem xét và đã được cung cấp thông qua nền tảng LLM nguồn mở, Ôm Mặt.

Llama 2 của Meta AI

/vi/images/llama-illustration.jpg

Llama 2 là một tiến bộ vượt bậc của mô hình ngôn ngữ mở rộng của Meta AI với 70 tỷ tham số ấn tượng. Mặc dù có ít tài nguyên hơn so với một số công ty dẫn đầu ngành khác, nhưng nó thể hiện hiệu suất vượt trội đáng kể trong cả các bài kiểm tra điểm chuẩn và ứng dụng thực tế, vượt qua nhiều LLM nguồn mở có thể truy cập rộng rãi. Tuy nhiên, có những trường hợp ngoại lệ như Falcon-180B có thể hoạt động tốt hơn trong một số trường hợp nhất định.

Để đánh giá hiệu suất của Llama 2 so với các mẫu tiên tiến khác, chúng tôi đã tiến hành thử nghiệm so sánh nó với GPT-4, GPT-3.5, Claude 2 và PaLM 2. Đáng chú ý, GPT-4 đã thể hiện tính vượt trội so với Llama 2 trong hầu hết mọi đánh giá. Tuy nhiên, Llama 2 đã hiển thị kết quả cạnh tranh so với cả GPT-3.5 và PaLM 2 trên một số điểm chuẩn nhất định. Không nên ngụ ý rằng Llama 2 hoàn toàn vượt qua PaLM 2; tuy nhiên, Llama 2 vượt trội hơn PaLM 2 trong việc giải quyết các vấn đề thách thức khác nhau, chẳng hạn như nhiệm vụ viết mã. Ngược lại, Claude 2 và GPT-3.5 vượt trội hơn một chút

Llama 2, mặc dù không vượt qua khả năng của các mô hình độc quyền tiên tiến nhất, nhưng vẫn thể hiện hiệu suất vượt trội đối với một mô hình ngôn ngữ nguồn mở. Trên thực tế, nó có khả năng chống lại những người dẫn đầu ngành như PaLM 2 trong một số đánh giá nhất định, cung cấp một bản xem trước đầy hứa hẹn về những gì các mô hình ngôn ngữ nguồn mở có thể đạt được trong tương lai.

Khoảng cách hiệu suất giữa các mô hình AI đang được thu hẹp

Bất chấp những tiến bộ nhanh chóng trong lĩnh vực trí tuệ nhân tạo, GPT-4 của OpenAI vẫn tiếp tục dẫn đầu cả về quy mô và hiệu suất. Mặc dù chưa có mẫu nào khác có thể sánh ngang với khả năng của GPT-4, nhưng điều đáng chú ý là một số mẫu nhỏ hơn đã thể hiện những kỹ năng đặc biệt trong các lĩnh vực cụ thể. Ví dụ, Claude 2 là một trong những mô hình đã thể hiện được sức mạnh của nó trong một số lĩnh vực được chọn. Ngoài ra, mặc dù PaLM 2 của Google có thể không đạt được một số kỳ vọng cao nhưng nó vẫn sở hữu những khả năng đáng kể. Cuối cùng, dự án nguồn mở Falcon-180B là một ví dụ tuyệt vời về cách các sáng kiến ​​có đủ nguồn lực có thể sánh ngang với các công ty hàng đầu trong ngành.