De 5 bästa AI-bildgeneratorerna med öppen källkod

Alicia Brunner included in Technology Explained Artificial Intelligence Image Chatgpt

2024-04-24 1666 words 8 minutes

Contents

Framsteg inom artificiell intelligens har lett till ett överflöd av modeller för text-till-bild-generering som enkelt kan nås på regelbunden basis. Även om det är enkelt att få tag på önskade bilder via onlineplattformar, ger text-till-bild-generatorer med öppen källkod större flexibilitet under hela skapandeprocessen.

Flera fritt tillgängliga AI-drivna text-till-bild-synthesizers med öppen källkod kan upptäckas online, var och en med fokus på en viss kategori av visuella bilder. Efter att ha granskat dessa alternativ noggrant har vi sammanställt en lista över de bästa AI-text-till-bild-generatorerna med öppen källkod som för närvarande kan användas av användare.

1 Craiyon

Craiyon är en av de mest lättillgängliga AI-bildgeneratorerna med öppen källkod. Den är baserad på DALL-E Mini, och även om du kan klona Github-förvaret och installera modellen lokalt på din dator, verkar Craiyon ha tappat detta tillvägagångssätt till förmån för sin webbplats.

Det officiella Github-arkivet har inte uppdaterats sedan juni 2022, men den senaste modellen är fortfarande tillgänglig gratis på Craiyons officiella webbplats . Det finns inte heller några Android- eller iOS-appar.

När det gäller funktioner tillhandahåller denna AI-bildgenerator de standardfunktioner som man kan förvänta sig när man anger en uppmaning till en bildgenerering. Dessutom har användarna möjlighet att förbättra upplösningen på sina genererade bilder genom att använda uppskalningsfunktionen. Tre distinkta konstnärliga stilar finns tillgängliga för val i form av “Art”, “Photo” och “Drawing”. Alternativt kan man välja “Ingen” och låta modellen själv bestämma stilen.

I expertläget kan negativa nyckelord inkluderas så att modellen kan undvika vissa enheter. Införlivandet av förutsägelser som underlättas av ChatGPT förbättrar användarnas färdigheter i att skapa omfattande och detaljerade uppmaningar. Dessutom påskyndar den AI-drivna funktionen för bakgrundsborttagning processen för att utrota oönskade bakgrunder från visuella medier genom automatisering.

Craion är ett AI-bildgenereringsverktyg med en okomplicerad funktionalitet. Även om det kanske saknar avancerade funktioner och invecklade detaljer, gör dess enkelhet det lämpligt för användare som söker en grundläggande men ändå funktionell lösning utan att kräva höga nivåer av realism i sina genererade bilder.

Plattformen erbjuder en generös användningspolicy, så att individer kan få tillgång till sina tjänster utan att medföra några kostnader.Vissa begränsningar gäller dock för gratisanvändare, till exempel en begränsning av antalet bilder som kan bearbetas under en sextiosekundersperiod. För att låsa upp ytterligare funktioner, inklusive en reklamfri upplevelse, snabbare behandlingstider och möjligheten att lagra bildutdata säkert, kan man välja att uppgradera till antingen Supporter- eller Professional-medlemskapsplanerna. Dessa planer är tillgängliga för månadsbetalningar med årliga faktureringsalternativ och ger varierande nivåer av anpassning och teknisk support beroende på det valda paketet. Dessutom ger en skräddarsydd lösning som kallas Custom-planen omfattande flexibilitet genom att erbjuda personliga maskininlärningsmodeller, sömlösa integrationsfunktioner, prioriterad kundtjänst och exklusiva serverresurser.

2 Stable Diffusion 1.5

Stable Diffusion är en högt ansedd open source-modell för text-till-bild-generering som har vunnit betydande popularitet sedan den släpptes 2022. Förutom att vara en oberoende modell fungerar den som grund för flera andra bildgenereringsmodeller, till exempel de tre ovan nämnda exemplen. Sedan den introducerades har många framgångsrika implementeringar gjorts av denna innovativa metod för bildsyntes.

Jag ska bespara dig de alltför tekniska detaljerna om hur modellen fungerar (för vilka du kan kolla in deras officiella Github-förvar ), men modellen är lätt att installera även för fullständiga nybörjare och fungerar bra så länge du har en dedikerad GPU med minst 4 GB minne. Du kan också komma åt Stable Diffusion online, och vi har allt du behöver om du vill köra Stable Diffusion på en Mac .

Det finns flera kontrollpunkter (betrakta dem som versioner) tillgängliga att använda för Stable Diffusion. Medan vi testade version 1.5, är version 2.1 också under aktiv utveckling och är mer exakt.

Yadullah Abidi/All Things N/DreamShaper

Det är också ganska enkelt att köra modellen. Vi testade den med AUTOMATIC1111 Stable Diffusion webbgränssnitt , och alla kontroller och parametrar fungerar bra. Den är också ganska NSFW-säker tack vare LAION-5B-databasen som modellen tränades på (även om den inte är perfekt, märk väl). Även om själva genereringstiden varierar beroende på din hårdvara, kan du förvänta dig att dina bilder är detaljerade och realistiska även med grundläggande uppmaningar.

3 DreamShaper

DreamShaper är en ny bildgenereringsmodell som använder principerna för stabil diffusion som sin grund.Detta innovativa verktyg har utformats som ett mångsidigt och tillgängligt alternativ till MidJourney och har en exceptionell förmåga att producera mycket realistiska fotografier, samtidigt som det visar en anmärkningsvärd anpassningsförmåga när det gäller att generera anime och konstnärliga målningsstilar genom mindre justeringar.

Modellen är mer kapabel än Stable Diffusion, vilket ger användarna mer frihet över slutresultatet, allt från blixtförbättringar till lösare NSFW-begränsningar. Det är också enkelt att köra modellen, med en nedladdningsbar, förtränad version tillgänglig online för lokal åtkomst och en mängd webbplatser, inklusive Sinkin.ai , RandomSeed och Mage.space (kräver en grundläggande prenumeration) som låter dig köra modellen med GPU-acceleration.

I jämförelse med Stable Diffusion är det uppenbart att de bilder som produceras av DreamShaper uppvisar en högre grad av realism, intrikathet och illumination. Trots att identiska ingångsparametrar används överträffar DreamShaper konsekvent sin motsvarighet när det gäller visuell verklighetstrogenhet och övergripande kvalitet.

En av de viktigaste skillnaderna mellan Stable Diffusion och andra generativa modeller ligger i deras förmåga att skapa verklighetstrogna avbildningar av mänskliga subjekt, t.ex. porträtt eller karaktärer. Även om det onekligen är imponerande att dessa modeller kan producera mycket detaljerade och exakta avbildningar, kan de ändå komma till korta i jämförelse med traditionella konstformer som bygger på mer subjektiva tolkningar och kreativitet. I själva verket kan man hävda att det som gör ett konstverk unikt och värdefullt är just dess ofullkomligheter och individualitet. Även om AI-genererade bilder kan vara tekniskt skickliga kan de därför i slutändan sakna det känslomässiga djup och den personliga touch som skiljer verkligt stora konstverk från rena imitationer.

Du behöver inte nödvändigtvis ha ett omfattande datorsystem för att köra just den här modellen. Faktum är att mitt NVIDIA GeForce GTX 1650Ti med 4 GB videominne fungerade utmärkt för att köra modellen. Även om genereringsprocessen tog något längre tid verkade det inte finnas någon märkbar inverkan på resultatet. Det bör dock noteras att större mängder videominne kan vara nödvändigt för att effektivt hantera de krävande kraven i DreamShaper XL, som bygger på grunden för Stable Diffusion XL-modellen.

4 InvokeAI

Invoke AI är en sofistikerad bildgenereringsmodell som använder den avancerade Stable Diffusion-algoritmen för att skapa visuellt tilltalande bilder.Modellen finns i två versioner - en standard och en XL - som båda är utformade för att effektivt leverera resultat av hög kvalitet. Dessutom har Invoke AI ett användarvänligt webb- och kommandoradsgränssnitt som gör att användarna inte behöver navigera genom komplexa gränssnitt som finns i andra AI-modeller.

Kärnan i vårt erbjudande ligger i att ge användarna möjlighet att generera visuellt fängslande innehåll som härrör från deras egen kunskap och skräddarsy processen efter individuella preferenser. I detta avseende utnyttjar vi den kraftfulla kapaciteten hos InvokeAI, en förstklassig AI-modell med öppen källkod som är särskilt utformad för att odla skräddarsydda bilder genom sin sömlösa integration med proprietära tillgångar.

Dess officiella Github-förvar listar två installationsmetoder: installera via InvokeAI:s installationsprogram eller använda PyPI om du är bekväm med en terminal och Python och behöver mer kontroll över de paket som installeras med modellen.

För att kunna utnyttja de ytterligare funktioner som InvokeAI tillhandahåller måste vissa förutsättningar uppfyllas när det gäller systemspecifikationer. Specifikt krävs en dedikerad GPU med minst 4 GB minne, och 6-8 GB föreslås för den större varianten. Både AMD- och Nvidia-grafikkort omfattas av samma VRAM-begränsningar. Dessutom krävs minst 12 GB RAM-minne och 12 GB tillgängligt hårddiskutrymme för att rymma den neurala nätverksmodellen samt alla tillhörande beroenden och Python-installationsfiler.

Yadullah Abidi/All Things N/InvokeAI

Även om det inte rekommenderas i dokumentationen på grund av otillräckligt videominne, var vår testade installationsprocess med Nvidias GTX 10-serie och 16-serie grafikprocessorer (GPU:er) framgångsrik. Observera dock att prestandan kan variera beroende på individuella systemspecifikationer. Dessutom vill vi informera användare som kör lägre GPU:er att de kan uppleva något längre väntetider innan de ser visuella utdata. Slutligen, för de som använder Windows-operativsystem, var medvetna om att endast Nvidia GPU:er stöds för närvarande, medan AMD GPU:er fortfarande inte stöds.

Den nuvarande implementeringen av InvokeAI-plattformen lutar åt att producera konstnärliga snarare än fotorealistiska bilder. Detta kan dock justeras genom att träna modellen med en anpassad datauppsättning. Detta tillvägagångssätt kommer att ge bättre resultat när realistiska bilder genereras, särskilt inom områden som produktdesign, arkitektur och detaljhandelsmiljöer.Det bör noteras att även om InvokeAI fungerar som en effektiv bildgenereringsmotor, kan det krävas externa modeller som nås via den inbyggda modellhanteraren i användargränssnittet för att uppnå optimala resultat.

5 Openjourney

Openjourney är en AI-bildgenereringsmodell som använder Stable Diffusion-teknik och fungerar som en plattform med öppen källkod. Namnet “Openjourney” återspeglar det faktum att modellen har tränats med hjälp av Midjourney-bilder för att replikera dess distinkta visuella stil i de genererade bilderna.

PromptHero , företaget bakom Openjourney, låter dig testa modellen tillsammans med andra modeller, inklusive Stable Diffusion (version 1.5 och 2), DreamShaper och Realistic Vision. När du registrerar dig får du 25 gratis krediter (en kredit för varje bild som genereras), varefter du måste prenumerera på deras Pro-prenumerationsnivå, som kostar $ 9 per månad och ger dig tillgång till 300 krediter varje månad med andra exklusiva funktioner.

Men om du vill köra det lokalt och gratis kan du ladda ner modellfilen från HuggingFace och köra den med Stable Diffusions webbgränssnitt. Openjourney är också den näst mest nedladdade AI-bildgenereringsmodellen på HuggingFace, precis bakom Stable Diffusion.

Det anges inte uttryckligen på Openjourneys webbplats vilka hårdvaruförutsättningar som krävs för att ladda ner och implementera deras AI-modell offline. Det är dock troligt att dessa krav kommer att vara jämförbara med dem som krävs för Stable Diffusion. För att framgångsrikt kunna köra modellen bör man ha tillgång till en dedikerad grafikprocessor (GPU) med minst 4 gigabyte videominne (VRAM), 16 GB RAM och cirka 12 till 15 gigabyte tillgänglig lagringskapacitet på sin enhet för att rymma modellen och dess tillhörande komponenter.

Yadullah Abidi/All Things N/OpenJourney

Openjourney genererar bilder som skapar en balans mellan realism och konstnärlighet, med undantag för eventuella specifika önskemål. För den som söker en mångsidig modell med egenskaper från både fotorealism och konst, och samtidigt vill slippa betala för ett abonnemang, är Openjourney ett mycket lämpligt alternativ.