6 mô hình ngôn ngữ lớn tốt nhất năm 2023
Bài học chính
Thật vậy, GPT-4 của OpenAI đã nhận được sự ca ngợi như một mô hình ngôn ngữ quy mô lớn hiện đại và được sử dụng phổ biến, tự hào với số lượng tham số ấn tượng là 1,76 nghìn tỷ đồng thời sở hữu khả năng đa phương thức linh hoạt.
Claude 2 của Anthropic thể hiện khả năng viết sáng tạo ấn tượng, đưa ra một thách thức ghê gớm đối với GPT-4, mặc dù nó hoạt động với nguồn lực hạn chế so với đối tác của mình.
Mặc dù PaLM 2 của Google có thể không tiên tiến bằng GPT-4 nhưng nó vẫn là một mô hình ngôn ngữ mạnh mẽ tự hào với khả năng đa ngôn ngữ mạnh mẽ và khả năng tưởng tượng. Ngược lại, Falcon-180B, có sẵn ở định dạng nguồn mở, thể hiện hiệu suất ngang bằng với những gã khổng lồ thương mại như GPT-3.
Sự phát triển vượt bậc của trí tuệ nhân tạo hiện nay đã kéo theo sự phong phú của các mô hình ngôn ngữ quy mô lớn được các hãng công nghệ sản xuất với tốc độ đáng kinh ngạc. Khối lượng khổng lồ các bản phát hành mới là thách thức đối với các cá nhân trong việc giám sát đầy đủ và duy trì nhận thức toàn diện về nó.
Khi một năm sắp kết thúc, rõ ràng là chỉ một số ít được chọn trong số vô số các mô hình mới được phát hành đã tự nhận mình là đối thủ cạnh tranh đáng gờm trong phạm vi mở rộng của các mô hình ngôn ngữ lớn. Với suy nghĩ này, tôi xin giới thiệu với bạn sáu ví dụ đặc biệt nhất về những mô hình như vậy chắc chắn rất đáng để khám phá.
GPT-4 của OpenAI
GPT-4 thể hiện một tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo vì nó liên quan đến xử lý ngôn ngữ tự nhiên. Là sự bổ sung gần đây nhất cho dòng Máy biến áp được đào tạo trước Generative quý giá, công nghệ tiên tiến này được OpenAI phát triển và ra mắt vào tháng 3 năm 2023. Kể từ khi được giới thiệu, GPT-4 đã được công nhận rộng rãi nhờ hiệu suất vượt trội, tự định vị mình là một trong những mô hình ngôn ngữ lớn phổ biến và được đánh giá cao nhất hiện có sẵn cho công chúng.
GPT-4 được đồn đại là có thông số ấn tượng 1,76 nghìn tỷ, lớn hơn khoảng 10 lần so với GPT-3.5 và thậm chí còn vượt qua khả năng của mô hình hiện đại nhất của Google, PaLM. Số lượng tham số khổng lồ cho phép GPT-4 có khả năng đa phương thức đặc biệt, cho phép nó xử lý cả đầu vào văn bản và đồ họa một cách dễ dàng. Do đó, khả năng nâng cao này tạo điều kiện thuận lợi cho khả năng hiểu và cung cấp mô tả cho nội dung trực quan như sơ đồ và ảnh chụp màn hình cùng với tài liệu văn bản của GPT-4. Bằng cách sở hữu trình độ thông thạo đa phương thức này, GPT-4 thể hiện mức độ hiểu biết gần giống với nhận thức của con người về dữ liệu phức tạp trong thế giới thực.
So với các sản phẩm cùng thời, GPT-4 đã chứng tỏ hiệu suất vượt trội trong nhiều đánh giá khoa học. Mặc dù kết quả điểm chuẩn không cung cấp sự thể hiện toàn diện về khả năng của mô hình, nhưng các ứng dụng thực tế đã tiết lộ rằng GPT-4 thể hiện khả năng phi thường trong việc giải quyết các vấn đề phức tạp một cách dễ dàng. Hiện có giá 20 USD mỗi tháng, bạn có thể có quyền truy cập vào GPT-4 bằng cách đăng ký gói ChatGPT’s Plus.
Claude 2 của Anthropic
Tín dụng hình ảnh: Anthropic
Claude 2, một mô hình ngôn ngữ AI do Anthropic AI tạo ra, sở hữu khả năng đạt được trình độ kỹ thuật và kết quả thực tế tương tự như GPT-4, mặc dù ít nổi bật hơn. Trong một số đánh giá tiêu chuẩn hóa nhất định, chẳng hạn như các kịch bản kiểm tra cụ thể, Claude 2 đã thể hiện sự vượt trội so với GPT-4. Một điểm khác biệt đáng chú ý giữa cả hai là Claude 2 tự hào có phạm vi ngữ cảnh mở rộng hơn đáng kể với khoảng 100.000 mã thông báo, trong khi các mô hình tương đương của GPT-4 bị giới hạn ở 8.000 hoặc 32.000 mã thông báo. Mặc dù không hoàn toàn đúng khi cho rằng bối cảnh gia tăng sẽ dẫn đến hiệu suất được cải thiện, nhưng không thể phủ nhận khả năng rộng hơn của Claude 2 mang lại những lợi ích hữu hình,
Mặc dù GPT-4 duy trì lợi thế về hiệu suất chung nhưng các đánh giá nội bộ của chúng tôi cho thấy Claude 2 vượt trội hơn nó trong một số nhiệm vụ viết sáng tạo nhất định. Tuy nhiên, GPT-4 vẫn dẫn đầu về khả năng lập trình và toán học theo tiêu chí đánh giá của chúng tôi. Mặc dù vậy, Claude 2 nổi bật nhờ tạo ra những phản hồi gợi nhớ nhiều đến giao tiếp của con người, khiến nó trở thành một lựa chọn hấp dẫn khi tìm kiếm kết quả mạch lạc và rõ ràng. Thật vậy, trong quá trình chạy thử, chúng tôi đã thu hút các tác phẩm sáng tạo từ mỗi mẫu được liệt kê ở đây, cứ mười trường hợp thì có sáu trường hợp ưu tiên Claude 2 do kết quả đầu ra liền mạch và giống như thật của nó. Hiện tại, người dùng có thể sử dụng Claude 2 miễn phí thông qua chatbot Claude AI. Ngoài ra, còn có một gói đăng ký trả phí có giá 20
Mô hình AI Claude 2 của Anthropic thể hiện hiệu suất vượt trội mặc dù có sự hỗ trợ tài chính hạn chế so với các công ty dẫn đầu ngành như OpenAI và Microsoft. Trên thực tế, khi đọ sức với các lựa chọn thay thế phổ biến như GPT và dòng PaLM của Google, Claude 2 đã giữ vững lập trường của mình một cách đáng ngưỡng mộ. Là một hệ thống AI có nguồn lực tương đối hạn chế, khả năng cạnh tranh của Claude 2 thực sự đáng khen ngợi. Nếu người ta suy đoán về mô hình hiện tại nào có cơ hội lớn nhất để cạnh tranh với GPT trong thời gian tới, Claude 2 sẽ là một lựa chọn sáng suốt. Mặc dù phải đối mặt với sự chênh lệch đáng kể về tài nguyên, các tính năng nâng cao của Claude 2 cho thấy tiềm năng của nó trong việc đối đầu với những đối thủ thậm chí được tài trợ hào phóng, mặc dù cần lưu ý rằng Google đã cung cấp hỗ trợ đáng kể cho Anthropic.
GPT-3.5 của OpenAI
Nguồn hình ảnh: Marcelo Mollaretti/Shutterstock
Mặc dù nhận được ít sự chú ý hơn so với GPT-4 kế nhiệm, GPT-3.5 tự hào có một bộ khả năng ấn tượng nhờ cải tiến liên tục thông qua nhiều lần tinh chỉnh và cải tiến nhắm mục tiêu hiệu quả, độ chính xác và bảo mật. Mặc dù thua kém so với GPT-4 về khả năng tích hợp đa phương thức và năng lực tổng thể, GPT-3.5 vẫn thể hiện sự thành thạo vượt trội. Tuy nhiên, khi đọ sức với GPT-4, GPT-3.5 khó có thể sánh được với hiệu năng toàn diện vượt trội của nó.
Vì đây là phiên bản phụ trong GP
GPT-4 thể hiện sự tiến bộ đáng kể về khả năng trí tuệ nhân tạo, tuy nhiên GPT-3.5 vẫn tự hào có sức mạnh vượt trội và thường có thể vượt trội hơn các đối thủ cạnh tranh gần đây hơn. Việc tối ưu hóa liên tục của mô hình này vẫn duy trì tính phù hợp của nó ngay cả khi các thế hệ mới hơn xuất hiện.
PaLM 2 của Google
Nguồn hình ảnh: Google
Khi đánh giá năng lực của một mô hình trí tuệ nhân tạo, cách tiếp cận thông thường bao gồm việc xem xét báo cáo kỹ thuật và kiểm tra điểm chuẩn của nó, mặc dù có một chút hoài nghi. Điều cần thiết là phải tiến hành thử nghiệm độc lập để xác minh các tuyên bố được đưa ra bởi các số liệu này, vì trái ngược với trực giác, chúng không phải lúc nào cũng tương ứng với hiệu suất thực tế trong mọi trường hợp. Ví dụ: Project Magnet (PaLM) 2 của Google được quảng cáo là đối thủ đáng gờm của GPT-4 dựa trên tính ưu việt được báo cáo của nó trong một số bài kiểm tra điểm chuẩn nhất định. Tuy nhiên, khi áp dụng thực tế, tình hình có vẻ hơi khác.
PaLM 2 do Google phát triển có thể không đạt được mức hiệu suất như các mô hình ngôn ngữ tiên tiến khác như GPT-It hoặc Claude trong các lĩnh vực như lý luận toán học, logic và tính sáng tạo. Tuy nhiên, bất chấp hạn chế này, PaLM 2 vẫn sở hữu những khả năng đáng kể trong phạm vi của nó, điều này đã thu hút được sự quan tâm đáng kể của các nhà nghiên cứu cũng như nhà phát triển. Điều quan trọng cần lưu ý là phần lớn những lời chỉ trích nhắm vào PaLM 2 xuất phát từ sự so sánh giữa nó với các mẫu cao cấp hơn, chứ không phải do bất kỳ thiếu sót cố hữu nào của nó.
PaLM 2 tự hào có số lượng thông số khổng lồ lên tới 340 tỷ, khiến nó trở thành một trong những mô hình mở rộng nhất trên toàn cầu. Điểm mạnh của nó nằm ở hiệu suất vượt trội khi thực hiện các tác vụ đa ngôn ngữ, kèm theo khả năng thành thạo toán học và lập trình. Mặc dù có thể không phải là sản phẩm có hiệu suất cao nhất nhưng PaLM 2 thể hiện những khả năng đáng khen ngợi trong các lĩnh vực sáng tạo như viết lách. Mặc dù các chỉ số tích cực ban đầu từ điểm chuẩn không thành hiện thực hoàn toàn, PaLM 2 vẫn thể hiện năng lực AI đáng chú ý, mặc dù không vượt trội so với mọi đối thủ về mọi mặt.
##Falcon-180B của TII
falcon-180b, một sản phẩm của viện đổi mới công nghệ từ Các Tiểu vương quốc Ả Rập Thống nhất, tự hào có 180 tỷ thông số ấn tượng và được coi là một trong những mô hình ngôn ngữ nguồn mở mạnh mẽ nhất hiện có trên thị trường. Mặc dù không nổi tiếng so với các mẫu phổ biến như GPT hay việc sử dụng rộng rãi Llama của Meta, nhưng không thể phủ nhận khả năng của Falcon-180B là rất đáng gờm và có thể tự tin cạnh tranh với bất kỳ đối thủ nào khác trong cùng danh mục.
Hiệu suất của Falcon-180B đã được chứng minh là vượt qua nhiều mẫu nguồn mở và sánh ngang với các mẫu dẫn đầu trong ngành như PaLM 2 và GPT-3 trong nhiều bài kiểm tra khác nhau bao gồm toán học, lập trình, giải quyết vấn đề và viết sáng tạo. Trong một số trường hợp, nó thậm chí còn hoạt động tốt hơn GPT-3.5. Khi so sánh ba hệ thống AI này (GPT-4, GPT-3.5 và Falcon-180B), Falcon-180B được xếp ở vị trí thuận lợi giữa chúng do tính thành thạo của nó trên nhiều ứng dụng.
Mặc dù có thể không vượt qua GPT-3.5 về mọi mặt, Falcon-180B thể hiện tiềm năng của mình bằng cách cung cấp chức năng tương đương với các lựa chọn thay thế nổi tiếng hơn. Mặc dù ít được biết đến hơn nhưng nó đáng được cân nhắc do khả năng sánh ngang và thậm chí vượt trội so với các mẫu khác. Các cá nhân quan tâm có thể dùng thử Falcon-180B trên nền tảng Hugging Face, nền tảng hỗ trợ các mô hình ngôn ngữ lớn nguồn mở.
Llama 2 của Meta AI
Llama 2 là mô hình ngôn ngữ được phát triển bởi Meta AI với 70 tỷ tham số ấn tượng. Mặc dù có thể không rộng rãi như một số đối thủ cạnh tranh, nhưng Llama 2 đã chứng tỏ hiệu suất vượt trội qua nhiều bài kiểm tra điểm chuẩn và ứng dụng thực tế khác nhau. Trên thực tế, nó vượt qua nhiều mô hình ngôn ngữ lớn có thể truy cập công khai, với một ngoại lệ đáng chú ý là Falcon-180B.
Để đánh giá hiệu suất của Llama 2, chúng tôi đã so sánh nó với các mẫu tiên tiến khác như GPT-4, GPT-3.5, Claude 2 và PaLM 2 trên các số liệu đánh giá khác nhau. Kết quả cho thấy GPT-4 vượt trội đáng kể so với Llama 2 trong hầu hết các trường hợp. Tuy nhiên, những phát hiện của chúng tôi chỉ ra rằng Llama 2 đã thể hiện hiệu suất cạnh tranh khi đọ sức với GPT-3.5 và PaLM 2 ở một số điểm chuẩn nhất định. Không nên suy luận rằng Llama 2 chắc chắn vượt trội hơn PaLM 2; tuy nhiên, các thử nghiệm của chúng tôi đã phát hiện ra các trường hợp trong đó Llama 2 đã thành công trong việc giải quyết các vấn đề được coi là thách thức đối với PaLM 2, thậm chí bao gồm cả
Mặc dù Llama 2 không vượt qua khả năng của các mô hình độc quyền tiên tiến nhất, nhưng nó vượt trội hơn mong đợi về một giải pháp thay thế nguồn mở bằng cách thể hiện hiệu suất vượt trội so với các đối thủ dẫn đầu ngành như PaLM 2 trong một số đánh giá nhất định. Thành tựu này đưa ra một bản xem trước đầy hứa hẹn về những gì có thể xảy ra với các mô hình ngôn ngữ nguồn mở trong tương lai.
Khoảng cách hiệu suất giữa các mô hình AI đang được thu hẹp
Trong khi lĩnh vực trí tuệ nhân tạo tiếp tục phát triển nhanh chóng, GPT-4 của OpenAI vẫn giữ được vị trí dẫn đầu. Tuy nhiên, rõ ràng là ngay cả những mô hình nhỏ hơn, khi được trang bị đầy đủ kiến thức chuyên môn, vẫn có khả năng cạnh tranh trong các lĩnh vực cụ thể. Ví dụ: Claude 2 thể hiện khả năng này bằng cách hiển thị kết quả ấn tượng trong một số nhiệm vụ nhất định. Tương tự, PaLM 2 của Google có thể không đáp ứng đầy đủ mọi mong đợi nhưng dù sao nó cũng thể hiện những khả năng vượt trội. Ngoài ra, dự án nguồn mở Falcon-180B nêu bật tiềm năng của những sáng kiến như vậy đối với những gã khổng lồ trong ngành nếu có sẵn nguồn lực dồi dào.