Contents

Wat is Zero Shot Learning en hoe kan het AI verbeteren?

Belangrijkste resultaten

Om precieze voorspellingen te kunnen doen bij nieuwe informatie, is het cruciaal dat deep learning-algoritmen effectief generalisaties kunnen uitvoeren. De techniek van zero-shot learning vergemakkelijkt dit doel door kunstmatige intelligentiesystemen in staat te stellen hun reeds bestaande kennis te gebruiken en betrouwbare voorspellingen te doen over voorheen niet-waargenomen categorieën zonder dat hiervoor gelabelde gegevens nodig zijn.

Geavanceerd ‘zero-shot learning’ benadert de cognitieve processen van mensen door middel van aanvullende semantische input, waardoor nauwkeurige classificatie van nieuwe categorieën mogelijk wordt met behulp van een eerder getraind model. Net zoals de mens een gitaar met holle klank kan herkennen aan de hand van de karakteristieke eigenschappen, maakt deze benadering nauwkeurige identificatie mogelijk in een groot aantal verschillende domeinen.

Zero-shot learning is een innovatieve aanpak die de mogelijkheden van kunstmatige intelligentie vergroot door het vermogen om te generaliseren, te schalen, overfitting te voorkomen en de kosten te verlagen. Deze methode maakt training van modellen met bredere datasets mogelijk, vergemakkelijkt transfer learning om aanvullende kennis te verwerven, biedt een beter begrip van de context en vermindert de afhankelijkheid van uitgebreide gelabelde informatie. In het licht van de vooruitgang van de AI-ontwikkeling zal zero-shot learning steeds belangrijker worden bij het aanpakken van ingewikkelde problemen in verschillende domeinen.

Een belangrijke doelstelling van diep leren is het cultiveren van modellen die universeel toepasbaar begrip kunnen bezitten. De voltooiing van dit streven is cruciaal omdat het betekent dat het model waardevolle patronen heeft begrepen en bekwaam precieze gevolgtrekkingen of oordelen zal produceren als reactie op nieuwe of eerder niet waargenomen informatie. Om dit soort modellen te bouwen is over het algemeen een grote hoeveelheid gelabeld materiaal nodig. Het verkrijgen van dergelijke bronnen kan echter aanzienlijke kosten met zich meebrengen, aanzienlijke hoeveelheden handmatige inspanning vereisen en is soms niet eens haalbaar vanwege praktische beperkingen.

Om het bovengenoemde probleem aan te pakken, is zero-shot learning geïntroduceerd als een benadering die gebruikmaakt van de reeds bestaande kennisbasis van de AI om redelijke conclusies te genereren, zelfs als er geen adequate gelabelde informatie beschikbaar is.

Wat is zero-shot learning?

Zero-shot learning is een voorbeeld van transfer learning, waarbij eerder getrainde modellen worden gebruikt om onbekende categorieën te herkennen met behulp van aanvullende gegevens over die nieuwe categorieën.

Door gebruik te maken van de uitgebreide bekendheid van een model met specifieke onderwerpen en door extra context te bieden met betrekking tot relevante kenmerken waar men zich op moet richten, kan men het beoogde doel effectief en met grote precisie onderscheiden.

Bij gebrek aan een gespecialiseerd model voor het herkennen van zebra’s, kan een bestaand model dat ontworpen is voor het herkennen van paarden als proxy gebruikt worden. Door dit model te laten weten dat gestreepte paardachtigen inderdaad zebra’s zijn, kan het zowel zebra’s als paarden effectief classificeren op basis van hun visuele kenmerken. Deze benadering vergroot de kans op nauwkeurige identificatie wanneer het model wordt toegepast op beeldgegevens van deze twee soorten.

Zero-shot learning is een techniek die lijkt op hoe mensen op natuurlijke wijze kennis verwerven. Het vermogen van mensen om snel nieuwe concepten te begrijpen zonder expliciete instructie staat bekend als “zero-shot learning”. Als iemand je bijvoorbeeld vraagt om een gitaar met holle klank te vinden in een muziekwinkel, kan dat een uitdaging zijn. Maar als je extra informatie krijgt, zoals het karakteristieke F-vormige gat aan weerszijden, is het vinden van het gewenste instrument een fluitje van een cent.

/nl/images/viktor-forgacs-nurl2wveb6w-unsplash-muo.jpg

Om dit concept aan de hand van een concreet voorbeeld te illustreren, gebruiken we de Zero-Shot Classification-toepassing van het open-source Large Language Model (LLM)-platform, Hugging Face, dat gebruikmaakt van het Clip-ViT-Large-model.

/nl/images/zero-shot-learning-example.jpg

De afgebeelde foto toont een afbeelding van brood in een boodschappentas, die met een veiligheidsgordel stevig aan een kinderstoel is bevestigd. Het onderwerp van de afbeelding is tijdens het trainingsproces uitgebreid blootgesteld aan een uitgebreide database met visuele gegevens, waardoor het de verschillende elementen in de scène nauwkeurig kan herkennen en classificeren, inclusief maar niet beperkt tot brood, diverse voorwerpen, zitmeubilair en bevestigingsmiddelen.

Om het model beelden nauwkeurig te laten classificeren met betrekking tot voorheen onbekende categorieën zoals “Ontspannen brood”, “Veilig brood”, “Zittend brood”, “Rijdende kruidenier” en “Veilige kruidenier”, moet het eerst worden getraind op een diverse set gegevens die voorbeelden van deze nieuwe categorieën bevat. Hierdoor kan het model goed generaliseren wanneer het nieuwe gevallen te zien krijgt en hun respectieve labels correct voorspellen.

Om de mogelijkheden van zero-shot classificatie te illustreren, hebben we voor deze demonstratie bewust gekozen voor minder voorkomende en niet eerder gebruikte klassen en afbeeldingen.

/nl/images/huggingface-image-classification.jpg

Na gevolgtrekkingen van het model bereikte het een betrouwbaarheidsniveau van ongeveer 80% bij het categoriseren van de afbeelding als “Veilig brood”. Er kan worden verondersteld dat deze vaststelling voortkomt uit de perceptie van het model dat stoelen die bedoeld zijn voor de veiligheid belangrijker zijn dan stoelen die zijn ontworpen voor zitcomfort, ontspanning of zelfs autorijden.

Het is zeker verheugend om overeenstemming te vinden tussen onze verwachtingen en de output van het model. Je kunt je echter afvragen hoe het model tot deze conclusie is gekomen. Een oppervlakkig begrip van zero-shot learning kan enig inzicht verschaffen in de mechanismen.

Hoe zero-shot learning werkt

Zero-shot learning stelt een reeds bestaand model in staat om nieuwe categorieën te herkennen door gebruik te maken van eerder verworven kennis, zonder aanvullende geannoteerde informatie toe te voegen. Dit proces bestaat uit drie fundamentele stappen:

Voorbereiding

/nl/images/data-types.jpg

Zero-shot learning begint met het genereren van drie verschillende vormen van informatie

De informatie die het voorgetrainde model levert, bestaat uit gegevens die zijn gebruikt tijdens de initiële trainingsfase, met betrekking tot de herkende geziene klassen. Het is belangrijk op te merken dat deze modellen een basis bieden voor het herkennen van bepaalde klassen zonder extra input of instructie. Om optimale resultaten te behalen met zero-shot learning, wordt het sterk aanbevolen om een voorgetraind model te selecteren waarvan de trainingsdataset klassen bevat die grote gelijkenissen vertonen met de specifieke klasse die men wil herkennen.

De dataset bevat informatie die nog niet eerder is gebruikt voor het trainingsproces van het algoritme. Om toegang te krijgen tot deze ongebruikte gegevens en ze te analyseren, is het aan de gebruikers om ze handmatig te identificeren en te verzamelen, aangezien ze niet rechtstreeks door het model voor machinaal leren kunnen worden verkregen.

Aanvullende semantische informatie kan worden gebruikt om het model te helpen bij het herkennen van een eerder ongeziene categorie. Zulke aanvullende gegevens kunnen verschillende vormen aannemen, zoals individuele woorden, zinnen, woordinbeddingen of zelfs klassenlabels.

Semantic Mapping

/nl/images/semantic-mapping-illustration-1.jpg

Om de kenmerken van een onbekende klasse te identificeren, genereren we woordinbeddingen en creëren we een semantisch netwerk dat deze kenmerken verbindt met beschikbare aanvullende informatie. Door gebruik te maken van reeds bestaande kennis van eerdere leerders in kunstmatige intelligentie, bekend als “AI transfer learning”, kunnen we dit proces aanzienlijk versnellen omdat er al eerder veel eigenschappen zijn vastgesteld die relevant zijn voor de nieuwe klasse.

Inferencing

/nl/images/inferencing-model-illustration.jpg

Inference omvat het gebruik van een vooraf getraind model om voorspellingen of resultaten te produceren op basis van een inputsituatie. Zero-shot visuele classificatie houdt in dat er woordinsluitingen worden gemaakt van geleverde afbeeldingen en dat deze grafisch worden vergeleken met aanvullende ondersteunende informatie. De mate van zekerheid hangt af van de gelijkenis tussen de invoer en de aangeboden aanvullende gegevens.

Hoe Zero-Shot Learning AI verbetert

Zero-Shot Learning biedt een oplossing voor verschillende obstakels die inherent zijn aan machinaal leren, zoals:

Verbeterde generaliseerbaarheid: Door de afhankelijkheid van gelabelde gegevens te beperken, kunnen modellen worden getraind in bredere datasets, waardoor hun generaliseerbaarheid toeneemt en hun betrouwbaarheid wordt versterkt. Naarmate modellen steeds beter geïnformeerd en veelzijdiger worden, kunnen ze wellicht gezond verstand verwerven in plaats van zich te houden aan conventionele methoden voor informatieanalyse.

Door een proces dat bekend staat als transfer learning kunnen AI-taalmodellen aanvullende kennis verwerven en na verloop van tijd steeds vaardiger worden. Dit stelt bedrijven en individuele onderzoekers in staat om de mogelijkheden van hun modellen voortdurend te verbeteren, zodat ze schaalbaar blijven en zich kunnen aanpassen aan nieuwe uitdagingen en kansen.

Het gebruik van zero-shot learning bij modeltraining vermindert het risico op overfitting, dat optreedt wanneer een model wordt getraind met onvoldoende diverse gegevens, wat leidt tot een onvolledige weergave van potentiële variaties in de invoer. Door deze benadering toe te passen, wordt het model uitgerust met een verbeterd contextueel begrip van verschillende onderwerpen, waardoor de kans op overfitting afneemt.

Door gebruik te maken van zero-shot transfer learning kan een efficiënte en kosteneffectieve aanpak worden ontwikkeld voor het bouwen van een robuust model, door gebruik te maken van voorgetrainde modellen en minder gelabelde gegevens te gebruiken in vergelijking met traditionele methoden.

Naarmate kunstmatige intelligentie zich verder ontwikkelt, zullen methoden zoals zero-shot learning steeds relevanter en essentiëler worden in de toepassing ervan.

De toekomst van zero-shot learning

zero-shot learning is een kritieke component van machinaal leren geworden, waarmee modellen onbekende klassen kunnen identificeren en categoriseren zonder specifieke instructies. Naarmate er vooruitgang wordt geboekt op het gebied van modelarchitectuur, attribuutgebaseerde methodologieën en multimodale integratie, wordt verwacht dat zero-shot learning de flexibiliteit van kunstmatige intelligentiesystemen aanzienlijk zal vergroten bij het aanpakken van ingewikkelde problemen op gebieden zoals robotica, gezondheidszorg en computervisie.