MidJourney vs. Stable Diffusion vs. Bing Image Creator

Cuprins

Inteligența artificială transformă domeniul artistic în moduri remarcabile. O aplicare fascinantă a AI în artă este reprezentată de generatoarele de artă descriptivă. Aceste instrumente sunt capabile să analizeze și să înțeleagă imagini, creând apoi opere de artă complet noi pe baza interpretărilor lor.

În acest articol, vom explora trei astfel de generatoare de artă AI: MidJourney, Stable Diffusion și Microsoft Bing Image Creator, analizând care dintre ele oferă cele mai bune rezultate pe baza solicitărilor formulate.

MidJourney

MidJourney, creat de David Holz, este un generator de artă AI care utilizează învățarea automată pentru a identifica tipare și trăsături în operele de artă existente. Aceste informații sunt apoi folosite pentru a concepe creații noi.

MidJourney a fost lansat în versiune beta publică pe 12 iulie 2022. Anterior, Holz a co-fondat Leap Motion, o companie startup care a revoluționat interfețele utilizator prin captarea video și gesturile mâinilor. În 2019, Leap Motion a fost vândută către Ultrahaptics.

Pe măsură ce MidJourney a câștigat popularitate, Holz a împărtășit cunoștințele sale despre tehnologie și impactul acesteia asupra artei și societății. Holz consideră artiștii ca fiind clienți ai MidJourney, nu ca rivali, crezând că platforma poate încuraja o mai mare creativitate și experimentare în faza de generare a ideilor.

Cu toate acestea, există preocupări legate de potențialele încălcări ale drepturilor de autor generate de setul de date de instruire al MidJourney, care ar putea include lucrări protejate de alți artiști.

Holz subliniază că MidJourney este conceput pentru a amplifica abilitățile umane, nu pentru a le înlocui. El face o analogie cu automobilele, explicând că, doar pentru că mașinile sunt mai rapide decât oamenii, nu înseamnă că ar trebui să ne tăiem picioarele.

Prin utilizarea generării de imagini AI oferită de MidJourney, artiștii pot explora noi posibilități și pot genera o multitudine de idei înainte de a-și crea propriile opere.

Stable Diffusion

Stable Diffusion este un model de învățare automată cu sursă deschisă, care poate crea imagini din text, poate modifica imagini bazate pe text sau poate adăuga detalii la imagini cu rezoluție scăzută sau cu detalii limitate. A fost antrenat cu ajutorul a miliarde de imagini și produce rezultate comparabile cu cele generate de DALL-E 2 și MidJourney.

Emad Mostaque, fondatorul și CEO-ul Stability AI, este compania responsabilă pentru Stable Diffusion. Stable Diffusion este un model de difuzie latentă dezvoltat de grupul CompVis de la LMU München și a fost proiectat de Patrick Esser și Robin Rombach, care au conceput anterior arhitectura modelului de difuzie latentă utilizat de Stable Diffusion.

O colaborare între Stability AI, CompVis LMU, Runway, EleutherAI și LAION a făcut ca Stable Diffusion să fie accesibil publicului.

Stable Diffusion poate fi implementat pe diverse platforme, inclusiv pe dispozitive Windows și Apple. Utilizarea unei implementări pe dispozitiv într-o aplicație poate proteja confidențialitatea utilizatorului, fiind o abordare preferabilă unei soluții bazate pe server.

Microsoft Bing Image Creator

Microsoft a lansat un instrument nou, denumit Bing Image Creator, care permite utilizatorilor să își creeze propriile imagini direct din Microsoft Edge. Compania a introdus un set de instrumente creative concepute pentru a stimula creativitatea și exprimarea de sine. Acest instrument permite utilizatorilor să creeze imagini personalizate pentru a-și împărtăși activitățile zilnice sau pentru orice alt scop.

Utilizatorii pot accesa cu ușurință Image Creator din bara laterală a Microsoft Edge. Microsoft a luat măsuri preventive pentru a se asigura că instrumentul este folosit responsabil și nu contribuie la răspândirea conținutului neadecvat.

Compania a stabilit o politică de conținut care interzice utilizarea Image Creator în anumite circumstanțe, iar utilizatorii pot raporta orice încălcare a acestei politici. Mai mult, Microsoft a implementat tehnologie pentru a aborda potențialele prejudecăți care ar putea apărea în tehnologia imaginii generative.

În acest articol, ne vom propune să evaluăm rezultatele fiecărui generator de imagini AI descriptiv atunci când sunt solicitate cu același text.

Prompt 1: Un Moș Crăciun modern pe o sanie trasă de reni într-o zi călduroasă și însorită, pe o autostradă

Prompt 2: O fotografie de prim-plan a unui animal cu ochi mari, surprinzând inocența și drăgălășenia acestuia

Prompt 3: Un astronaut uman care încearcă să aterizeze pe o planetă nouă este întâmpinat de creaturi extraterestre ostile care își scot armele

Prompt 4: O lucrare abstractă modernă pentru coperta unei cărți a unui roman a cărui acțiune se desfășoară în New York City, utilizând culori vibrante și îndrăznețe

Prompt 5: Un bărbat care ezită între două farfurii – una cu pizza și una cu un cheeseburger

Prompt 6: Un războinic rănit, călare pe calul său, într-o zonă muntoasă înzăpezită, ținând o sabie în mână

Prompt 7: O imagine abstractă care folosește diferite nuanțe pentru a sugera mișcarea și curgerea apei

Prompt 8: Un somon într-un râu, cu copaci verzi și luxuriante în fundal

Prompt 9: Un pahar cu apă pe o masă, în care o mână stoarce o lămâie

Prompt 10: O priveliște a orizontului într-un deșert, din perspectiva unor oameni care călăresc un elefant

Prompt 11: O pădure în care banii de hârtie cresc în copaci, iar păsările sunt făcute din monede

Prompt 12: Un bol cu ramen, stil cel-shading, iluminare de seară, fotorealist

Prompt 13: Elon Musk sărac și șomer

Verdict

În urma evaluării rezultatelor generate de MidJourney, Stable Diffusion și Bing Image Creator, este clar că nu există un câștigător absolut.

Fiecare generator interpretează solicitările într-un mod specific, remarcându-se similitudini între rezultatele oferite de Bing Image Creator și MidJourney. Stable Diffusion se dovedește eficient în cazul solicitărilor cu descrieri clare, dar adesea interpretează cuvintele prea literal. Deși MidJourney și Bing Image Creator sunt, în general, performante, ocazional generează rezultate care nu corespund cerințelor.

În particular, Bing Image Creator manifestă prudență în generarea rezultatelor cu conținut potențial abuziv sau incitant, afișând un mesaj de avertizare atunci când i se solicită crearea unei imagini cu Elon Musk sărac și șomer. Această abordare preventivă a Microsoft este demnă de apreciat.

În schimb, expertiza MidJourney în rețele neuronale a generat o imagine a unui Elon Musk sărac și neîngrijit. Prin urmare, se poate concluziona că fiecare generator va satisface cerințele specifice ale bazei sale de utilizatori.