03/29/2024

MidJourney vs. Stable Diffusion vs. Bing Image Creator

Inteligența artificială schimbă lumea artei în moduri remarcabile. Una dintre aplicațiile fascinante ale AI în segmentul de artă este prin utilizarea generatoarelor de artă descriptivă. Acești generatori au capacitatea de a examina și interpreta imagini și de a genera piese de artă complet noi pe baza analizei lor.

În acest articol, discutăm despre trei astfel de generatoare de artă AI: MidJourney, Stable Diffusion și Microsoft Bing Image Creator și care dintre cele trei iese pe primul loc în generarea celor mai bune rezultate pe baza solicitărilor.

MidJourney

MidJourney, fondat de David Holz, este un generator de artă AI care utilizează învățarea automată pentru a identifica modele și caracteristici în operele de artă existente, care pot fi apoi utilizate pentru a crea piese noi.

  Ce este mai bun pentru testarea securității aplicațiilor?

MidJourney a intrat în beta deschisă pe 12 iulie 2022. Înainte de a lansa MidJourney, Holz a co-fondat Leap Motion, un startup care a transformat interfețele utilizatorului utilizând captarea video și gesturile mâinii. În 2019, a vândut Leap Motion către Ultrahaptics.

Odată cu MidJourney câștigând popularitate, Holz și-a împărtășit cunoștințele despre tehnologie și influența acesteia asupra artei și societății. Holz consideră artiștii clienți ai MidJourney, nu concurenți și consideră că platforma poate facilita o mai mare creativitate și experimentare în faza de ideare.

Cu toate acestea, există îngrijorări cu privire la potențiala încălcare a drepturilor de autor din setul de instruire MidJourney, care poate include lucrări protejate prin drepturi de autor de la alți artiști.

Holz subliniază că MidJourney este conceput pentru a îmbunătăți capacitățile umane, mai degrabă decât pentru a le înlocui. El o aseamănă cu mașinile, explicând că doar pentru că mașinile sunt mai rapide decât oamenii, nu înseamnă că ar trebui să ne tăiem picioarele.

Folosind generarea de imagini AI MidJourney, artiștii pot explora noi posibilități și pot genera numeroase idei înainte de a-și crea propriile lucrări.

Difuzie stabilă

Stable Diffusion este un model de învățare automată open-source care poate genera imagini din text, poate modifica imagini pe baza textului sau poate completa detalii pe imagini cu rezoluție scăzută sau cu detalii reduse. A fost antrenat pe miliarde de imagini și poate produce rezultate comparabile cu cele pe care le-ați obține de la DALL-E 2 și MidJourney.

Emad Mostaque, fondator și CEO al Stability AI, este compania responsabilă pentru Stable Diffusion. Stable Diffusion este un model de difuzie latentă dezvoltat de grupul CompVis de la LMU München și a fost proiectat de Patrick Esser și Robin Rombach, care au creat anterior arhitectura modelului de difuzie latentă folosită de Stable Diffusion.

  Cum să utilizați mesageria vocală live pe iPhone

O colaborare între Stability AI, CompVis LMU, Runway, EleutherAI și LAION a făcut ca Stable Diffusion să fie disponibilă publicului.

Difuzarea stabilă poate fi implementată pe diverse platforme, inclusiv pe dispozitive Windows și Apple. Utilizarea implementării pe dispozitiv într-o aplicație poate proteja confidențialitatea utilizatorului, ceea ce este de preferat unei abordări bazate pe server.

Microsoft Bing Image Creator

Microsoft a dezvăluit un nou instrument numit Bing Image Creator, care permite utilizatorilor să-și creeze propriile imagini direct în Microsoft Edge. Compania a lansat o suită de instrumente de creație concepute pentru a stimula creativitatea și exprimarea de sine. Instrumentul permite utilizatorilor să creeze imagini personalizate pentru a-și împărtăși actualizările de viață sau pentru orice alt scop de care ar putea avea nevoie.

Utilizatorii pot accesa cu ușurință Image Creator din bara laterală a Microsoft Edge. Microsoft a luat măsuri proactive pentru a se asigura că instrumentul este utilizat în mod responsabil și nu facilitează răspândirea conținutului ofensator.

Compania a stabilit o politică de conținut care interzice utilizarea Image Creator în anumite cazuri, iar utilizatorii pot raporta orice încălcare a acestei politici. Mai mult, Microsoft a implementat tehnologie pentru a aborda potențialele părtiniri care ar putea apărea în tehnologia imaginii generative.

În acest articol, ne vom porni într-o călătorie pentru a evalua rezultatele fiecărui generator de imagini AI descriptive atunci când vi se solicită mesaje text identice.

Prompt 1: Moș Crăciun modern pe o sanie tras de reni într-o zi caldă și însorită pe o autostradă

Prompt 2: O fotografie în prim-plan a unui animal cu ochi mari, surprinzându-i inocența și drăgălașul

Prompt 3: Un astronaut uman care joacă să aterizeze o nouă planetă este binevenit de creaturile extraterestre ostile care își scot armele

Prompt 4: Artă abstractă modernă a unei coperți a unei cărți a unui roman bazat în New York City, în culori strălucitoare îndrăznețe

Prompt 5: Un bărbat care decide între două farfurii – unul cu pizza și unul cu un cheeseburger pe el

Prompt 6: Un războinic rănit călare pe calul său pe un munte înzăpezit cu o sabie în mână

Prompt 7: O imagine abstractă folosind diferite nuanțe care arată mișcarea și curgerea apei

Prompt 8: Somon într-un râu cu copaci verzi luxurianți în fundal

Prompt 9: Un pahar cu apă pe o masă în care o lămâie este stoarsă de o mână

Prompt 10: Vedere a orizontului într-un deșert din punctul de vedere al oamenilor care călăresc un elefant în el

Prompt 11: O pădure în care banii de hârtie cresc pe copaci și păsările sunt făcute din monede

Prompt 12: Bol de ramen, cel shading, iluminare de seară, fotorealist

Prompt 13: Elon Musk este sărac și șomer

Verdict

La evaluarea rezultatelor MidJourney, Stable Diffusion și Bing Image Creator, este evident că nu există un câștigător definitiv.

  Bătălia celui mai bun software de servicii pentru clienți [2023]

Fiecare generator interpretează solicitările într-un mod distinct, cu asemănări găsite în rezultatele Bing Image Creator și MidJourney. Difuzarea stabilă este eficientă atunci când solicitările au descrieri clare, dar adesea iau cuvintele prea literal. Deși MidJourney și Bing Image Creator sunt în general de succes, ocazional produc rezultate care nu corespund solicitărilor.

În special, Bing Image Creator folosește prudență în generarea oricăror rezultate abuzive sau incitante, emitând un mesaj de avertizare atunci când este solicitat să creeze o imagine a unui Elon Musk sărac și șomer. Adoptarea de către Microsoft a unor astfel de măsuri de protecție este lăudabilă.

Între timp, expertiza în rețelele neuronale a lui MidJourney a generat o imagine a unui Elon Musk sărăcat și rătăcit. Prin urmare, se poate concluziona că fiecare generator va satisface baza de utilizatori respectivă.