Zero Shot Learning là gì và nó có thể cải thiện AI như thế nào
Bài học chính
Để đảm bảo dự báo chính xác khi gặp phải thông tin mới, điều quan trọng là các thuật toán học sâu phải thực hiện khái quát hóa một cách hiệu quả. Kỹ thuật học tập không bắn tạo điều kiện thuận lợi cho mục tiêu này bằng cách cho phép các hệ thống trí tuệ nhân tạo sử dụng kiến thức có sẵn của chúng và đưa ra những dự đoán đáng tin cậy về các danh mục chưa được quan sát trước đây mà không yêu cầu bất kỳ dữ liệu được dán nhãn nào.
Phương pháp học không bắn nâng cao mô phỏng gần đúng các quá trình nhận thức của con người thông qua đầu vào ngữ nghĩa bổ sung, cho phép phân loại chính xác các danh mục mới với sự hỗ trợ của mô hình đã được đào tạo trước đó. Tương tự như khả năng con người nhận ra một cây đàn guitar thân rỗng dựa trên các thuộc tính xác định của nó, phương pháp này cho phép nhận dạng chính xác trên nhiều lĩnh vực đa dạng.
Zero-shot learning là một cách tiếp cận sáng tạo nhằm nâng cao khả năng của trí tuệ nhân tạo bằng cách nâng cao khả năng khái quát hóa, mở rộng quy mô, tránh trang bị quá mức và giảm chi phí. Phương pháp này cho phép đào tạo các mô hình với bộ dữ liệu rộng hơn, tạo điều kiện thuận lợi cho việc học chuyển tiếp để có được kiến thức bổ sung, giúp cải thiện khả năng hiểu ngữ cảnh và giảm sự phụ thuộc vào thông tin được dán nhãn rộng rãi. Trong bối cảnh phát triển AI, việc học không cần bắn sẽ ngày càng trở nên quan trọng trong việc giải quyết các vấn đề phức tạp trên nhiều lĩnh vực khác nhau.
Mục tiêu tối quan trọng của học sâu là trau dồi các mô hình có khả năng sở hữu hiểu biết có thể áp dụng rộng rãi. Việc hoàn thành nỗ lực này là rất quan trọng vì nó biểu thị rằng mô hình đã nắm bắt được các mô hình có giá trị và sẽ tạo ra các suy luận hoặc phán đoán chính xác một cách thành thạo để đáp ứng với thông tin mới hoặc chưa được quan sát trước đó. Việc xây dựng các loại mô hình này thường đòi hỏi một lượng lớn tài liệu được dán nhãn. Tuy nhiên, việc có được những nguồn lực như vậy có thể đòi hỏi những chi phí đáng kể, đòi hỏi nỗ lực thủ công đáng kể và đôi khi thậm chí có thể không khả thi do những hạn chế thực tế.
Để giải quyết vấn đề nói trên, phương pháp học không bắn đã được giới thiệu như một phương pháp sử dụng nền tảng kiến thức có sẵn của AI để tạo ra các suy luận hợp lý ngay cả khi không có thông tin được dán nhãn đầy đủ.
Học không cần bắn là gì?
Học không bắn là một ví dụ về học chuyển giao, bao gồm việc tận dụng các mô hình đã được đào tạo trước đó để nhận ra các danh mục không quen thuộc thông qua các chi tiết bổ sung liên quan đến các danh mục mới đó.
Bằng cách tận dụng sự quen thuộc rộng rãi của mô hình với các đối tượng cụ thể và cung cấp bối cảnh bổ sung liên quan đến các tính năng thích hợp cần tập trung vào, người ta có thể phân biệt hiệu quả mục tiêu dự định của nó với độ chính xác cao.
Trong trường hợp không có mô hình chuyên biệt để xác định ngựa vằn, người ta có thể sử dụng mô hình hiện có được thiết kế để nhận dạng ngựa là đại diện. Bằng cách thông báo cho mô hình này rằng ngựa sọc thực sự là ngựa vằn, nó có thể phân loại hiệu quả cả ngựa vằn và ngựa dựa trên đặc điểm thị giác của chúng. Cách tiếp cận này nâng cao khả năng nhận dạng chính xác khi áp dụng mô hình vào dữ liệu hình ảnh mô tả hai loài này.
Zero-shot learning là một kỹ thuật tương tự như cách con người tiếp thu kiến thức một cách tự nhiên. Khả năng con người nhanh chóng nắm bắt các khái niệm mới mà không cần hướng dẫn rõ ràng được gọi là “học tập không cần nỗ lực”. Ví dụ: nếu ai đó yêu cầu bạn tìm một cây đàn guitar có thân rỗng tại một cửa hàng âm nhạc, điều đó có thể là một thách thức. Tuy nhiên, nếu họ cung cấp thêm thông tin như lỗ hình chữ F đặc trưng được tìm thấy ở hai bên thì việc tìm kiếm nhạc cụ mong muốn sẽ trở nên dễ dàng.
Để minh họa khái niệm này bằng một phiên bản thực tế, chúng tôi sẽ sử dụng ứng dụng Phân loại Zero-Shot được cung cấp bởi nền tảng Mô hình ngôn ngữ lớn (LLM) nguồn mở, Ôm mặt, sử dụng mô hình Clip-ViT-Large.
Bức ảnh được mô tả thể hiện hình ảnh chiếc bánh mì nằm trong túi mua sắm, được buộc chặt vào ghế cao bằng dây an toàn. Đối tượng của hình ảnh đã được tiếp xúc rộng rãi với cơ sở dữ liệu hình ảnh toàn diện trong quá trình huấn luyện, cho phép nó nhận dạng và phân loại chính xác các yếu tố khác nhau có trong cảnh, bao gồm nhưng không giới hạn ở bánh mì, đồ lặt vặt, đồ nội thất chỗ ngồi và các thiết bị hạn chế.
Để mô hình có thể phân loại chính xác hình ảnh đối với các danh mục chưa từng được biết đến trước đây như “Bánh mì thư giãn”, “Bánh mì an toàn”, “Bánh mì ngồi”, “Tạp hóa lái xe” và “Tạp hóa an toàn”, trước tiên nó phải được đào tạo về tính đa dạng. tập hợp dữ liệu bao gồm các ví dụ từ các danh mục mới này. Điều này sẽ cho phép mô hình khái quát hóa tốt khi trình bày các trường hợp mới và dự đoán chính xác các nhãn tương ứng của chúng.
Điều đáng chú ý là để minh họa khả năng phân loại không ảnh, chúng tôi đã cố tình chọn các lớp cũng như hình ảnh ít phổ biến hơn và chưa từng gặp trước đây để minh họa cho lần trình diễn này.
Khi đưa ra suy luận từ mô hình, nó đã đạt được mức độ tin cậy xấp xỉ 80% khi phân loại hình ảnh là “Bánh mì an toàn”. Có thể phỏng đoán rằng quyết định này xuất phát từ nhận thức của mô hình rằng những chiếc ghế dành cho sự an toàn có tầm quan trọng lớn hơn những chiếc ghế được thiết kế để tạo sự thoải mái cho người ngồi, thư giãn hoặc thậm chí là lái xe.
Chắc chắn, thật vui khi tìm thấy sự đồng nhất giữa kỳ vọng của chúng tôi và đầu ra của mô hình. Tuy nhiên, người ta có thể thắc mắc về quá trình mà mô hình đi đến kết luận này. Hiểu biết sơ qua về phương pháp học không cần bắn có thể cung cấp một số hiểu biết sâu sắc về cơ chế của nó.
Cách thức hoạt động của phương pháp học không cần bắn
Học không cần bắn cho phép một mô hình có sẵn nhận ra các danh mục mới bằng cách sử dụng kiến thức đã thu được trước đó mà không cần cung cấp thêm thông tin chú thích. Quá trình này bao gồm ba giai đoạn cơ bản:
Sự chuẩn bị
Phương pháp học không cần nỗ lực bắt đầu bằng việc tạo ra ba dạng thông tin đặc biệt
Thông tin được cung cấp bởi mô hình được đào tạo trước bao gồm dữ liệu đã được sử dụng trong giai đoạn đào tạo ban đầu, liên quan đến các lớp đã thấy được công nhận. Điều quan trọng cần lưu ý là các mô hình này cung cấp nền tảng để nhận dạng các lớp nhất định mà không cần bất kỳ đầu vào hoặc hướng dẫn bổ sung nào. Để đạt được kết quả tối ưu từ phương pháp học không cần thử nghiệm, bạn nên chọn một mô hình được đào tạo trước có tập dữ liệu huấn luyện bao gồm các lớp có sự tương đồng gần với lớp cụ thể mà người ta dự định nhận ra.
Bộ dữ liệu bao gồm thông tin chưa được sử dụng trước đây cho quá trình đào tạo thuật toán. Để truy cập và phân tích dữ liệu chưa được khai thác này, người dùng buộc phải xác định và thu thập dữ liệu theo cách thủ công vì không thể lấy dữ liệu trực tiếp thông qua mô hình học máy.
Thông tin ngữ nghĩa bổ sung có thể được sử dụng để hỗ trợ mô hình nhận dạng danh mục chưa từng thấy trước đây. Dữ liệu bổ sung như vậy có thể có nhiều dạng khác nhau như từ, cụm từ riêng lẻ, phần nhúng từ hoặc thậm chí nhãn lớp.
Ánh xạ ngữ nghĩa
Để xác định các đặc điểm của một lớp chưa xác định, chúng tôi tạo các từ nhúng và tạo một mạng ngữ nghĩa kết nối các thuộc tính này với thông tin bổ sung có sẵn. Bằng cách sử dụng kiến thức có sẵn từ những người học trước về trí tuệ nhân tạo, được gọi là “học chuyển giao AI”, chúng ta có thể đẩy nhanh quá trình này một cách đáng kể vì nhiều đặc điểm liên quan đến lớp học mới đã được thiết lập trước đó.
Suy luận
Suy luận liên quan đến việc sử dụng một mô hình được đào tạo trước để đưa ra dự báo hoặc kết quả đầu ra dựa trên một phiên bản đầu vào. Phân loại hình ảnh không cần chụp bao gồm việc tạo ra các từ nhúng từ các hình ảnh được cung cấp và so sánh chúng bằng đồ họa với thông tin hỗ trợ bổ sung. Mức độ đảm bảo sẽ phụ thuộc vào sự giống nhau giữa dữ liệu đầu vào và dữ liệu bổ sung được cung cấp.
Học không cần bắn sẽ cải thiện AI như thế nào
Học không bắn đưa ra giải pháp cho các trở ngại khác nhau vốn có trong học máy, chẳng hạn như:
Khả năng khái quát hóa nâng cao: Việc hạn chế sự phụ thuộc vào dữ liệu được gắn nhãn cho phép các mô hình được đào tạo trong các bộ dữ liệu rộng hơn, từ đó tăng cường khả năng khái quát hóa và củng cố độ tin cậy của chúng. Khi các mô hình ngày càng có kiến thức sâu rộng và linh hoạt, chúng có thể có được nhận thức thông thường thay vì tuân thủ các phương pháp phân tích thông tin thông thường.
Thông qua một quá trình được gọi là học chuyển tiếp, các mô hình ngôn ngữ AI có thể tiếp thu kiến thức bổ sung và ngày càng trở nên thành thạo hơn theo thời gian. Điều này cho phép các công ty cũng như các nhà nghiên cứu cá nhân liên tục nâng cao khả năng của các mô hình tương ứng của họ, từ đó đảm bảo rằng chúng vẫn có thể mở rộng và thích ứng khi đối mặt với những thách thức và cơ hội mới.
Việc sử dụng phương pháp zero-shot learning trong đào tạo mô hình giúp giảm thiểu nguy cơ trang bị quá mức, xảy ra khi một mô hình được đào tạo với dữ liệu không đủ đa dạng, dẫn đến việc thể hiện không đầy đủ các biến thể đầu vào tiềm năng. Bằng cách sử dụng phương pháp này, mô hình được trang bị khả năng hiểu ngữ cảnh nâng cao của các chủ đề khác nhau, do đó làm giảm khả năng khớp quá mức.
Việc sử dụng phương pháp học chuyển giao không bắn cho phép phát triển một cách tiếp cận hiệu quả và tiết kiệm chi phí để xây dựng một mô hình mạnh mẽ, bằng cách tận dụng các mô hình được đào tạo trước và sử dụng ít dữ liệu được gắn nhãn hơn so với các phương pháp truyền thống.
Khi trí tuệ nhân tạo tiếp tục phát triển, các phương pháp như zero-shot learning sẽ ngày càng phù hợp và cần thiết trong ứng dụng của nó.
Tương lai của việc học không cần bắn
Zero-shot learning đã nổi lên như một thành phần quan trọng của machine learning, cho phép các mô hình xác định và phân loại các lớp không quen thuộc mà không cần bất kỳ hướng dẫn cụ thể nào. Khi tiến bộ tiếp tục được thực hiện liên quan đến kiến trúc mô hình, phương pháp dựa trên thuộc tính và tích hợp đa phương thức, việc học không cần bắn được kỳ vọng sẽ tăng cường đáng kể tính linh hoạt của hệ thống trí tuệ nhân tạo khi giải quyết các vấn đề phức tạp trong các lĩnh vực như robot, chăm sóc sức khỏe, và thị giác máy tính.