Contents

Co to jest Zero Shot Learning i jak może poprawić sztuczną inteligencję?

Kluczowe wnioski

Aby zagwarantować precyzyjne prognozy w przypadku napotkania nowych informacji, kluczowe znaczenie dla algorytmów głębokiego uczenia się ma skuteczne wykonywanie uogólnień. Technika zero-shot learning ułatwia ten cel, umożliwiając systemom sztucznej inteligencji wykorzystanie ich wcześniejszej wiedzy i tworzenie wiarygodnych prognoz dotyczących wcześniej nieobserwowanych kategorii bez konieczności posiadania jakichkolwiek oznaczonych danych.

Zaawansowane uczenie od zera przybliża procesy poznawcze ludzi poprzez dodatkowe dane semantyczne, umożliwiając precyzyjną klasyfikację nowych kategorii przy pomocy wcześniej wyszkolonego modelu. Podobnie jak ludzka zdolność do rozpoznawania gitary z wydrążonym korpusem w oparciu o jej definiujące atrybuty, podejście to umożliwia dokładną identyfikację w szeregu różnych dziedzin.

Zero-shot learning to innowacyjne podejście, które zwiększa możliwości sztucznej inteligencji poprzez zwiększenie jej zdolności do generalizacji, skalowania, unikania nadmiernego dopasowania i obniżania kosztów. Metoda ta umożliwia trenowanie modeli z szerszymi zbiorami danych, ułatwia uczenie transferowe w celu zdobycia dodatkowej wiedzy, zapewnia lepsze zrozumienie kontekstowe i zmniejsza zależność od obszernych oznaczonych informacji. W świetle postępów w rozwoju sztucznej inteligencji, uczenie się od zera będzie coraz ważniejsze w rozwiązywaniu skomplikowanych kwestii w różnych dziedzinach.

Nadrzędnym celem głębokiego uczenia jest kultywowanie modeli zdolnych do posiadania uniwersalnego zrozumienia. Osiągnięcie tego celu jest kluczowe, ponieważ oznacza, że model uchwycił cenne wzorce i będzie sprawnie generował precyzyjne wnioski lub osądy w odpowiedzi na nowe lub wcześniej nieobserwowane informacje. Konstruowanie tego typu modeli generalnie wymaga dużej ilości oznakowanego materiału. Niemniej jednak uzyskanie takich zasobów może wiązać się ze znacznymi wydatkami, wymagać znacznych nakładów pracy ręcznej, a czasami może być nawet niewykonalne ze względu na ograniczenia praktyczne.

Aby rozwiązać powyższą kwestię, wprowadzono uczenie zerowe jako podejście, które wykorzystuje istniejącą wcześniej bazę wiedzy sztucznej inteligencji do generowania rozsądnych wniosków nawet przy braku odpowiednich oznaczonych informacji.

Co to jest uczenie zerowe?

Zero-shot learning stanowi przykład uczenia transferowego, które polega na wykorzystaniu wcześniej wyszkolonych modeli do rozpoznawania nieznanych kategorii poprzez dodatkowe szczegóły dotyczące tych nowych kategorii.

Wykorzystując rozległą znajomość modelu z konkretnymi przedmiotami i zapewniając dodatkowy kontekst dotyczący istotnych cech, na których należy się skupić, można skutecznie rozpoznać zamierzony cel z dużą precyzją.

W przypadku braku wyspecjalizowanego modelu do identyfikacji zebr, można wykorzystać istniejący model zaprojektowany do rozpoznawania koni jako proxy. Informując ten model, że pasiaste koniowate są rzeczywiście zebrami, może on skutecznie klasyfikować zarówno zebry, jak i konie na podstawie ich cech wizualnych. Takie podejście zwiększa prawdopodobieństwo dokładnej identyfikacji podczas stosowania modelu do danych obrazowych przedstawiających te dwa gatunki.

Zero-shot learning to technika podobna do tego, w jaki sposób ludzie naturalnie zdobywają wiedzę. Zdolność ludzi do szybkiego pojmowania nowych pojęć bez wyraźnych instrukcji jest dobrze znana jako “uczenie się od zera”. Na przykład, jeśli ktoś poprosi Cię o zlokalizowanie gitary z wydrążonym korpusem w sklepie muzycznym, może to być trudne. Gdyby jednak podał dodatkowe informacje, takie jak charakterystyczny otwór w kształcie litery F znajdujący się po obu stronach, znalezienie pożądanego instrumentu stałoby się łatwe.

/pl/images/viktor-forgacs-nurl2wveb6w-unsplash-muo.jpg

Aby zilustrować tę koncepcję za pomocą rzeczywistego przykładu, wykorzystamy aplikację Zero-Shot Classification dostarczoną przez platformę open-source Large Language Model (LLM), Hugging Face, która wykorzystuje model Clip-ViT-Large.

/pl/images/zero-shot-learning-example.jpg

Przedstawione zdjęcie przedstawia chleb umieszczony w torbie na zakupy, która jest bezpiecznie przymocowana do wysokiego krzesełka za pomocą pasa bezpieczeństwa. Podmiot obrazu był szeroko narażony na obszerną bazę danych wizualnych podczas procesu szkolenia, umożliwiając mu dokładne rozpoznawanie i klasyfikowanie różnych elementów obecnych w scenie, w tym między innymi chleba, różnych przedmiotów, mebli do siedzenia i urządzeń ograniczających.

Aby model mógł dokładnie klasyfikować obrazy w odniesieniu do wcześniej nieznanych kategorii, takich jak “Zrelaksowany chleb”, “Bezpieczny chleb”, “Siedzący chleb”, “Prowadzący sklep spożywczy” i “Bezpieczny sklep spożywczy”, musi najpierw zostać przeszkolony na zróżnicowanym zestawie danych, który zawiera przykłady z tych nowych kategorii. Umożliwi to modelowi dobre uogólnianie, gdy prezentowane są nowe instancje i prawidłowe przewidywanie ich odpowiednich etykiet.

Warto zauważyć, że aby zilustrować możliwości klasyfikacji zero-shot, celowo wybraliśmy mniej powszechne i wcześniej niespotykane klasy, a także obrazy do tej demonstracji.

/pl/images/huggingface-image-classification.jpg

Po wyciągnięciu wniosków z modelu, osiągnął on około 80% poziom ufności w kategoryzowaniu obrazu jako “Bezpieczny chleb”. Można przypuszczać, że ta decyzja wynika z postrzegania przez model, że krzesła przeznaczone do zapewnienia bezpieczeństwa mają większe znaczenie niż te zaprojektowane z myślą o komforcie siedzenia, relaksie, a nawet prowadzeniu pojazdu.

Z pewnością satysfakcjonujące jest znalezienie zgodności między naszymi oczekiwaniami a wynikami modelu. Można jednak zastanawiać się nad procesem, w którym model doszedł do tego wniosku. Pobieżne zrozumienie uczenia się od zera może zapewnić pewien wgląd w jego mechanizmy.

Jak działa uczenie od zera

Uczenie od zera umożliwia istniejącemu wcześniej modelowi rozpoznawanie nowych kategorii poprzez wykorzystanie wcześniej zdobytej wiedzy, bez dostarczania dodatkowych informacji z adnotacjami. Proces ten składa się z trzech podstawowych etapów:

Przygotowanie

/pl/images/data-types.jpg

Uczenie się od zera rozpoczyna się od wygenerowania trzech różnych form informacji

Informacje dostarczone przez wstępnie wytrenowany model składają się z danych, które zostały wykorzystane podczas jego początkowej fazy szkolenia, w odniesieniu do rozpoznanych widzianych klas. Należy zauważyć, że modele te oferują podstawę do rozpoznawania określonych klas bez żadnych dodatkowych danych wejściowych lub instrukcji. W celu osiągnięcia optymalnych wyników uczenia zerowego, wysoce zalecane jest wybranie wstępnie wytrenowanego modelu, którego zbiór danych treningowych obejmuje klasy, które wykazują bliskie podobieństwo do konkretnej klasy, którą zamierzamy rozpoznać.

Zbiór danych zawiera informacje, które nie zostały wcześniej wykorzystane w procesie uczenia algorytmu. Aby uzyskać dostęp i przeanalizować te niewykorzystane dane, użytkownicy muszą je ręcznie zidentyfikować i zebrać, ponieważ nie można ich uzyskać bezpośrednio za pomocą modelu uczenia maszynowego.

Dodatkowe informacje semantyczne mogą być wykorzystane do pomocy modelowi w rozpoznaniu wcześniej niewidocznej kategorii. Takie dodatkowe dane mogą przybierać różne formy, takie jak pojedyncze słowa, frazy, osadzenia słów, a nawet etykiety klas.

Mapowanie semantyczne

/pl/images/semantic-mapping-illustration-1.jpg

Aby zidentyfikować cechy nieznanej klasy, generujemy osadzenia słów i tworzymy sieć semantyczną, która łączy te atrybuty z dodatkowymi dostępnymi informacjami. Wykorzystując wcześniej istniejącą wiedzę od wcześniejszych uczniów w sztucznej inteligencji, znaną jako “uczenie się transferu AI”, możemy znacznie przyspieszyć ten proces, ponieważ wiele cech istotnych dla nowej klasy zostało wcześniej ustalonych.

Wnioskowanie

/pl/images/inferencing-model-illustration.jpg

Wnioskowanie polega na wykorzystaniu wstępnie wytrenowanego modelu do tworzenia prognoz lub wyników na podstawie instancji wejściowej. Klasyfikacja wizualna zero-shot polega na tworzeniu osadzeń słów z dostarczonych obrazów i graficznym porównywaniu ich z dodatkowymi informacjami pomocniczymi. Stopień pewności będzie zależał od podobieństwa między danymi wejściowymi a oferowanymi danymi uzupełniającymi.

How Zero-Shot Learning Improves AI

Zero-shot learning przedstawia rozwiązanie różnych przeszkód związanych z uczeniem maszynowym, takich jak:

Zwiększona uogólnialność: Ograniczenie zależności od oznaczonych danych umożliwia trenowanie modeli w szerszych zbiorach danych, zwiększając w ten sposób ich uogólnialność i wzmacniając ich niezawodność. W miarę jak modele stają się coraz bardziej kompetentne i wszechstronne, mogą one nabrać zdrowego rozsądku zamiast stosować się do konwencjonalnych metod analizy informacji.

Dzięki procesowi znanemu jako transfer learning, modele językowe AI są w stanie zdobywać dodatkową wiedzę i z czasem stawać się coraz bardziej biegłe. Pozwala to zarówno firmom, jak i indywidualnym badaczom na ciągłe zwiększanie możliwości swoich modeli, zapewniając tym samym ich skalowalność i adaptację w obliczu nowych wyzwań i możliwości.

Wykorzystanie uczenia zerowego w szkoleniu modelu zmniejsza ryzyko nadmiernego dopasowania, które występuje, gdy model jest szkolony z niewystarczająco zróżnicowanymi danymi, co prowadzi do niepełnej reprezentacji potencjalnych zmian wejściowych. Stosując to podejście, model jest wyposażony w lepsze zrozumienie kontekstowe różnych tematów, zmniejszając w ten sposób prawdopodobieństwo nadmiernego dopasowania.

Wykorzystanie uczenia transferowego zero-shot pozwala na opracowanie wydajnego i opłacalnego podejścia do budowania solidnego modelu, wykorzystując wstępnie wytrenowane modele i wykorzystując mniejszą ilość oznaczonych danych w porównaniu z tradycyjnymi metodami.

Wraz z postępem sztucznej inteligencji, metody takie jak uczenie bezstrzałowe będą stawały się coraz bardziej istotne i niezbędne w jej zastosowaniu.

Przyszłość zero-shot learningu

Zero-shot learning stał się kluczowym elementem uczenia maszynowego, umożliwiając modelom identyfikację i kategoryzację nieznanych klas bez żadnych konkretnych instrukcji. Wraz z ciągłym postępem w zakresie architektury modeli, metodologii opartych na atrybutach i integracji multimodalnej, oczekuje się, że uczenie zerowe znacznie zwiększy elastyczność systemów sztucznej inteligencji podczas rozwiązywania skomplikowanych zagadnień w dziedzinach takich jak robotyka, opieka zdrowotna i wizja komputerowa.