Tại sao bối cảnh một triệu token của Gemini 1.5 lại là yếu tố thay đổi cuộc chơi
Đường dẫn nhanh
⭐Cửa sổ ngữ cảnh là gì?
⭐Tại sao Cửa sổ ngữ cảnh của Gemini 1.5 lại là một vấn đề lớn
⭐Liệu Gemini 1.5 có đáp ứng được kỳ vọng không?
Bài học chính
Phiên bản mới nhất của nền tảng quảng cáo hỗ trợ AI của Google, được gọi là Gemini 1.5, đã giới thiệu một tính năng ấn tượng giúp nó trở nên khác biệt so với các đối thủ trong ngành. Cụ thể, phiên bản mới này tự hào có cửa sổ ngữ cảnh trị giá một triệu token đáng chú ý, lớn hơn đáng kể so với những gì các nền tảng khác như Claude và ChatGPT hiện cung cấp. Cải tiến này cho phép khả năng phân tích và nhắm mục tiêu toàn diện hơn trong các chiến dịch quảng cáo được quản lý thông qua nền tảng, cuối cùng dẫn đến hiệu suất và kết quả được cải thiện cho người dùng.
Việc tăng kích thước của cửa sổ ngữ cảnh có thể giúp cải thiện hiệu suất cho các mô hình trí tuệ nhân tạo đồng thời giảm khả năng xảy ra lỗi. Tuy nhiên, điều quan trọng cần lưu ý là điều này không nhất thiết đảm bảo thành công chung.
Gemini 1.5 có khả năng tăng đáng kể mức độ chính xác bằng cách sử dụng cửa sổ ngữ cảnh lớn hơn, dẫn đến ít lỗi hơn và cải thiện khả năng hiểu tổng thể.
Phiên bản mới nhất của nền tảng Gemini của Google, phiên bản 1.5, tự hào có cửa sổ ngữ cảnh một triệu mã thông báo ấn tượng, vượt qua các đối thủ cạnh tranh như ChatGPT, Claude và nhiều chatbot hỗ trợ AI khác.
Cải tiến được đề xuất dường như là một cải tiến đáng kể, có khả năng phân biệt Gemini với các đối thủ cạnh tranh. Mặc dù việc hiểu được tầm quan trọng của sự tiến bộ này có thể đưa ra một số thách thức, nhưng có thể khung bối cảnh được mở rộng đáng kể do Song Tử đưa ra có thể mang lại sự biến đổi về bản chất.
Cửa sổ ngữ cảnh là gì?
Các mô hình AI, khi đưa ra các phản hồi như làm rõ các khái niệm hoặc rút gọn văn bản, bị hạn chế bởi mức độ dữ liệu có thể được tính đến khi tạo ra câu trả lời, được gọi là “cửa sổ ngữ cảnh”.
Một khía cạnh khác cần xem xét liên quan đến việc đến thăm chợ để mua hàng mà không có danh sách kiểm kê hàng tồn kho được thiết lập trước. Trong trường hợp này, ranh giới hồi ức của một người sẽ xác định “cửa sổ ngữ cảnh” của họ, điều này ảnh hưởng trực tiếp đến khả năng hoàn thành thành công việc mua hàng dự định của họ. Do đó, việc nâng cao dung lượng bộ nhớ của hệ thống trí tuệ nhân tạo cho phép nó lưu giữ tất cả thông tin cần thiết và tăng khả năng mang lại kết quả tối ưu trong khi vẫn tuân thủ sở thích của người dùng.
Hiện tại, Claude 2.1 của Anthropic tự hào có cửa sổ ngữ cảnh mở rộng nhất trong số tất cả các mô hình AI có thể truy cập dễ dàng, trị giá 200 nghìn mã thông báo. Theo đuổi sát sao là GPT-4 Turbo, có kích thước cửa sổ ngữ cảnh là 128 nghìn mã thông báo. Tuy nhiên, Google Gemini 1.5 đã sẵn sàng giới thiệu một cửa sổ ngữ cảnh đáng kinh ngạc với một triệu mã thông báo, vượt qua tất cả các dịch vụ hiện có trên thị trường với một mức chênh lệch đáng kể. Sự xuất hiện của một cửa sổ bối cảnh lớn như vậy đặt ra một câu hỏi quan trọng liên quan đến tác động và tầm quan trọng tiềm tàng của nó trong ngành.
Tại sao Cửa sổ ngữ cảnh của Gemini 1.5 lại là một vấn đề lớn
Nói một cách đơn giản hơn, Claude AI sở hữu khả năng xử lý đáng kể khoảng 150.000 từ trong cửa sổ ngữ cảnh 200 nghìn, khá ấn tượng. Mặt khác, Gemini 1.5 của Google thậm chí còn có khả năng mở rộng hơn vì nó có thể xử lý đồng thời tới 700.000 từ.
Việc kết hợp lượng lớn thông tin trong giới hạn của một chatbot AI như ChatGPT hoặc Gemini không phải lúc nào cũng khả thi do những hạn chế do cửa sổ ngữ cảnh của nó áp đặt. Việc không xem xét điều này có thể dẫn đến việc cố gắng xử lý nhiều dữ liệu hơn mức mà hệ thống có thể quản lý một cách hiệu quả, dẫn đến các vấn đề tiềm ẩn trong quá trình trao đổi.
Hình dung ra kịch bản trong đó bạn được giao nhiệm vụ tóm tắt một bộ phim dài chỉ sau khi xem 20 phút đầu tiên. Kết quả của nỗ lực như vậy có thể sẽ không đạt yêu cầu, vì việc cung cấp một bản tường thuật toàn diện về cốt truyện và sự phát triển nhân vật của bộ phim sẽ là một thách thức lớn. Trong tình huống này, sẽ là hợp lý nếu một người từ chối đưa ra bất kỳ lời giải thích nào hoặc cách khác, bịa ra một câu chuyện hư cấu do những hạn chế cố hữu của trí tuệ nhân tạo trong việc tạo ra các phản hồi mạch lạc dựa trên đầu vào hạn chế. Do đó, những câu chuyện bịa đặt này có thể làm nảy sinh những nhận thức viển vông xuất phát từ việc AI không có khả năng nắm bắt hoàn toàn sự phức tạp trong giao tiếp của con người.
Điều quan trọng cần lưu ý là bối cảnh của cuộc trò chuyện không chỉ đơn thuần là cung cấp một lượng lớn văn bản để nhập vào mô hình AI trong một lời nhắc duy nhất. Mô hình AI tính đến toàn bộ cuộc đối thoại đã xảy ra trong suốt phiên trò chuyện để tạo ra các phản hồi vừa phù hợp vừa thích hợp. Quan điểm rộng hơn về ngữ cảnh này giúp đảm bảo rằng đầu ra được tạo ra phù hợp với ý nghĩa và mục đích dự định đằng sau giao tiếp của người dùng.
Bản chất năng động trong quá trình trao đổi của chúng tôi với các mô hình ngôn ngữ AI góp phần giúp họ hiểu biết về ngữ cảnh. Mặc dù chúng tôi có thể không cung cấp cho họ những văn bản dài, nhưng quá trình tương tác của chúng tôi và phản hồi mà chúng tạo ra sẽ dần dần làm phong phú thêm cửa sổ ngữ cảnh. Hiện tượng các hệ thống này dường như coi thường các chủ đề đã thảo luận trước đó có thể là do dung lượng lưu trữ của cửa sổ ngữ cảnh đã vượt quá. Kết quả là, thông tin cần thiết bị loại bỏ, dẫn đến mất trí nhớ.
Một khung ngữ cảnh mở rộng hơn là rất quan trọng khi giải quyết các nhiệm vụ đòi hỏi sự hiểu biết phức tạp về ngữ cảnh, chẳng hạn như cô đọng các bài viết dài, giải quyết các truy vấn phức tạp hoặc duy trì tính liên tục liền mạch trong diễn ngôn được tạo ra. Bạn đang khao khát viết một cuốn tiểu thuyết dài năm mươi nghìn từ với cốt truyện thống nhất? Bạn đang tìm kiếm một mô hình có khả năng xem xét kỹ lưỡng và trả lời các câu hỏi liên quan đến bài thuyết trình video dài một giờ? Trong cả hai trường hợp, một cửa sổ ngữ cảnh rộng hơn trở nên không thể thiếu.
Về bản chất, phạm vi ngữ cảnh mở rộng mà Gemini 1.5 cung cấp có khả năng nâng cao đáng kể hiệu quả của mô hình trí tuệ nhân tạo, giảm thiểu các trường hợp trình bày sai và nâng cao rõ rệt cả độ chính xác và việc tuân thủ các hướng dẫn.
Liệu Gemini 1.5 có đáp ứng được kỳ vọng không?
Dựa trên kinh nghiệm trước đây của Google trong việc phát triển các mô hình AI không ổn định, bạn nên thận trọng kiềm chế và không cho rằng việc tăng cửa sổ ngữ cảnh nhất thiết sẽ mang lại hiệu suất vượt trội cho Gemini 1.5. Mặc dù phiên bản mới này có tiềm năng vượt qua các tiêu chuẩn ngành hiện tại nhưng chúng ta vẫn phải thận trọng và xem xét các yếu tố khác ngoài việc điều chỉnh thông số đơn giản.
Trong suốt trải nghiệm sử dụng cửa sổ ngữ cảnh 200k của Claude 2.1 kể từ khi ra mắt, tôi thấy rõ rằng cửa sổ ngữ cảnh mở rộng có thể nâng cao độ nhạy ngữ cảnh. Tuy nhiên, những thiếu sót trong hiệu suất của mô hình cơ bản có thể khiến các cửa sổ ngữ cảnh tăng lên trở thành một trở ngại hơn là một tài sản.
Liệu Google Gemini 1.5 có mang đến cho chúng ta yếu tố thay đổi cuộc chơi không? Phương tiện truyền thông xã hội hiện tràn ngập những đánh giá tích cực về Gemini 1.5 từ những người dùng truy cập sớm. Tuy nhiên, hầu hết các đánh giá 5 sao đều xuất phát từ các trường hợp sử dụng vội vàng hoặc đơn giản hóa. Một nơi tốt để kiểm tra xem Gemini 1.5 sẽ hoạt động như thế nào trong thực tế là trong báo cáo kỹ thuật Gemini 1.5 [PDF] của Google. Báo cáo cho thấy rằng ngay cả trong quá trình “thử nghiệm có kiểm soát”, mô hình không thể truy xuất tất cả các chi tiết nhỏ của tài liệu trong kích thước cửa sổ ngữ cảnh của nó.
Thật vậy, mặc dù việc đạt được cửa sổ ngữ cảnh một triệu mã thông báo thể hiện một thành tựu công nghệ đáng chú ý, nhưng tiện ích thực tế của nó có thể bị giảm đi nếu việc truy xuất đáng tin cậy các chi tiết cụ thể của tài liệu không thể đạt được một cách nhất quán. Ngược lại, những hạn chế như vậy có thể làm giảm độ chính xác và dẫn đến các trường hợp suy đoán hoặc phỏng đoán không chính đáng.