Tutorial și comparație pentru crearea imaginilor AI: Dall-e VS Stable Diffusion VS Canva (text în imagine)

Cu popularitatea media actuală a Chat GPT aceasta este o oportunitate de a vorbi și despre DALĂ, o altă inteligență artificială proiectată tot de Deschide AI ! Și, mai general, AI care generează imagini. În cazul în care ChatGPT este capabil să genereze text scris cu o ușurință deconcertantă, DALL-E și cei de la fel au fost instruiți să creeze imagini dintr-o simplă solicitare scrisă a utilizatorului.

Să aruncăm o privire la modul în care funcționează, capacitățile lor, dar și limitele lor cu acest articol comparativ de AI care creează imagini.

Dar apropo, cum funcționează un AI?

O întrebare foarte bună la care poate fi interesant să revenim repede, mai ales că nu am abordat-o în articolul nostru anterior despre ChatGPT. Când auzi „Inteligenta artificială” este greu să nu ai în minte aceste tipuri de roboți umanoizi așa cum i-am văzut în filme. Acesta este ceea ce generează AI-urile înșiși atunci când li se solicită o imagine corespunzătoare căutării acestor cuvinte cheie, cum ar fi imaginea introductivă a acestui articol.

*Acest peisaj nu există, este 100% artificial generat de un AI*

Cu toate acestea, în realitate, multe dintre IA existente nu au înveliș fizic. Într-adevăr, de cele mai multe ori, este vorba de programe de calculator bazate pe algoritmi specifici care au fost antrenate de oameni pentru a îndeplini anumite sarcini mai mult sau mai puțin complexe.

Generarea imaginilor este o sarcină care poate fi atribuită unuia (sau mai multor) AI! Pentru a afla mai multe despre metodele de creare a imaginilor prin AI, nu ezitați să vizionați următorul videoclip:

Să generăm primele noastre imagini cu inteligență artificială

Pentru a face acest lucru, nimic nu poate fi mai simplu la prima vedere, deoarece tot ce trebuie să faci este să descrii textual AI imaginea pe care vrei să o obții. Pentru acest articol am decis să comparăm imaginile date de trei generatoare AI:

DALĂ
Difuzie stabilă
Canva (text în imagine)

Desigur, mai sunt și altele pe care nu ar trebui să ezitați să le testați. Iată una lista neexhaustivă.

Dacă ești puțin creativ, suntem siguri că vei găsi o mulțime de idei de generat de imagini. Dar pentru cei pentru care ar fi puțin mai complex este posibil să ceri... ChatGPT pentru puțin ajutor. Da, am folosit un AI pentru a folosi un alt AI...

*Răspunsul ChatGPT la întrebarea: trebuie să scriu un articol pe dall.e, aveți idei de imagini care pot fi generate cu acest model AI?*

Desigur, ca model de generare de imagini, DALL-E poate crea o mare varietate de imagini. Iată câteva idei de imagini pe care le-ați putea genera cu DALL-E:

Animale fantastice: cereți lui DALL-E să genereze imagini cu animale imaginare, cum ar fi un dragon cu aripi de fluture sau un șarpe cu picioare.

Alimente ciudate: cereți-i lui DALL-E să genereze imagini cu alimente neobișnuite, cum ar fi o pizza cu ciocolată sau un burger cu felii de pepene verde.

Îmbrăcăminte neobișnuită: cereți DALL-E să genereze imagini cu îmbrăcăminte ciudată, cum ar fi o pălărie în formă de Turnul Eiffel sau pantofi cu aripi.

Peisaje imaginare: cereți lui DALL-E să genereze imagini cu peisaje fantastice, cum ar fi un oraș care plutește în nori sau o pădure de ciuperci gigantice.

Obiecte hibride: cereți DALL-E să genereze imagini ale obiectelor care sunt un amestec de două lucruri diferite, cum ar fi un pat care arată ca un hamac sau o mașină cu aripi de pasăre.

Portrete celebrități: cereți DALL-E să genereze imagini cu portrete celebrități care nu există, cum ar fi o versiune alternativă a lui Marilyn Monroe cu tatuaje.

Mașini futuriste: cereți DALL-E să genereze imagini cu mașini futuriste, cum ar fi o mașină care se poate transforma într-un avion sau o mașină care poate zbura.

Arhitectură fantastică: cereți lui DALL-E să genereze imagini ale arhitecturii fantastice, cum ar fi un zgârie-nori în formă de dragon sau o casă care arată ca un copac.

Aceste idei sunt doar sugestii pentru a vă oferi o idee despre ce poate face DALL-E. Există mii de alte idei de imagini pe care le-ați putea genera cu acest șablon AI.

Fiecare IA are propriul stil

Cu această listă, să vedem împreună cum să ne generăm imaginile și care dintre diferitele programe alese se descurcă cel mai bine.

Pentru a citi, de asemenea: Migrarea la un nou forum phpBB 2.0.x la phpBB 3.1!

Pentru prima noastră imagine am ales să reprezentăm dragonul cu aripi de fluture. Pentru a adăuga un context, solicităm, de asemenea, ca acest lucru să fie reprezentat într-o „pădure fantastică de basm”. În funcție de AI, limba cererii poate afecta rezultatul. Așa că am găsit rapid asta pentru DALL-E și Stable Diffusion Engleza a fost limba care a dat cele mai bune rezultate. Dimpotrivă, aplicația text la imagine a Canva funcționează în general mai bine în franceză.

1. DALL-E a generat imagini ale unui dragon cu aripi de fluture

2. Dragoni generați de Stable Diffusion

3. Și în sfârșit cel pe care am ales să îl păstrăm pentru instrumentul Canva

Primul lucru pe care îl putem vedea foarte repede: pentru aceeași cerere, fiecare AI are propriul stil!

DALL-E are o latură „imaginativă”, deși pădurea „de basm” este puțin întunecată pentru zână, aripile de fluture sunt bine reprezentate și îngrijite. Este în stil Artă digitală.
La Stable Diffusion stilul este mai „vesel”, cam copilăresc. Ne imaginăm foarte bine aceste imagini ilustrând o poveste pentru copii. Aici dragonii sunt clar vizibili și amintesc de China, a cărei emblemă este. Pe de altă parte, AI a ascuns complet aripile fluturelui și a ales soluția ușoară făcând fluturi adevărați să apară alături de dragonii noștri.
În cele din urmă, pentru instrumentul Canva, am selectat singura imagine care corespunde solicitării noastre din selecție. Totuși, cele două elemente (dragon și aripi sunt prezente aici). Deși toate imaginile sunt tematice și pot fi acționate, Canva se descurcă cel mai bine în executarea fidelă a cererii și, prin urmare, câștigă un prim punct aici.

Care sunt posibilitățile de stil artistic ale imaginii solicitate?

Dacă nu sunt solicitate detalii despre stilul de artă, atunci AI-urile le vor alege pentru tine, ca în exemplul dragonilor.

Cu toate acestea, pe Dall-e, de exemplu, este posibil să definiți următoarele stiluri:

Peinture à l'huile : Dall-e poate genera picturi în ulei dintr-o descriere a culorilor și texturilor pe care doriți să le vedeți în pictură.
fotografie : Dall-e poate genera fotografii pe baza culorilor, texturilor și detaliilor pe care doriți să le vedeți în fotografie.
Arta digitala : Dall-e poate produce lucrări de artă digitală dintr-un șablon pre-proiectat sau dintr-o descriere a culorilor și detaliilor pe care doriți să le vedeți în opera de artă.
Artă abstractă : Dall-e poate produce lucrări abstracte bazate pe mișcările, culorile și formele pe care doriți să le vedeți în lucrare.
Desen : Dall-e poate genera modele pe baza culorilor și formelor pe care doriți să le vedeți în design.
Artă vectorială : Dall-e poate genera imagini vectoriale dintr-un șablon predefinit sau dintr-o descriere a culorilor și detaliilor pe care doriți să le vedeți în imagine.

Exemplele de Dragon au fost realizate a priori în stilul de artă digitală. Stilul va influența puternic imaginea finală generată.

Mai puternic încă, este posibil să se solicite stiluri de vreun artist celebru. Așa că am generat un chat în stil Picasso, Van Gogh și Dali ! Iar rezultatele sunt... destul de uimitoare!

Pisica noastră desenată de IA în stilurile a 3 mari maeștri de pictură

Pisica în stil Picasso
Pisica în stil Van Gogh
Pisica stil Dali

Mai bine, atunci am cerut un „ Pisica în stil Picasso și Dali și Van Gogh și am primit asta:

Am cerut și noi „Porc în stilul Picasso” iar rezultatul a fost la fel de impresionant, dacă nu mai mult...

Este posibil ca IA să (vor) revoluționeze domeniul artei și al internetului în următorii ani, ceea ce este deja cazul NFT-urilor speculative.

Pentru a citi, de asemenea: Res Legal: date juridice și electricitate regenerabilă în Europa

Îl înțelegem pe neîncrederea în profesioniști de artă față de aceste IA artistice, temerile lor sunt aceleași cu cele ale publicării și creației literare față de chatbot-uri precum ChatGPT! Au dreptate, toate aceste temeri sunt, după părerea noastră, justificate!

Care sunt diferitele metode de a solicita crearea unei imagini cu Dall-e?

Se pot folosi mai multe metode pentru a indica crearea unei imagini cu Dalle-e, inclusiv metode grafice pentru un rezultat mai rapid corespunzător nevoilor dumneavoastră:

Generarea de imagini din cuvinte cheie : puteți introduce un cuvânt cheie și Dall-e va produce o imagine bazată pe cuvintele cheie pe care le-ați introdus.
Generarea de imagini din propoziții : puteți introduce o propoziție completă și Dall-e va produce o imagine pe baza propoziției pe care ați introdus-o.
Generarea de imagini din descrierile imaginilor : Dall-e poate genera imagini dintr-o descriere detaliată a culorilor, formelor și obiectelor pe care doriți să le vedeți în imagine.
Generarea de imagini din scene : Dall-e poate genera imagini 3D dintr-o descriere completă a unei scene.
Generarea de imagini din modele : Dall-e poate genera imagini din modelele pe care le introduceți.
Generarea de imagini din șabloane : îi puteți furniza lui Dall-e un șablon predefinit și va produce imagini pe baza șablonului pe care l-ați furnizat.
Generarea de imagini din secvențe animate : Dall-e poate genera secvențe animate din descrierea mișcărilor, culorilor și sunetelor pe care doriți să le vedeți în secvență.

Imagini realiste, dar improbabile

Am cerut apoi generatorilor noștri de imagini AI să ne deseneze o salata cu ochi : două elemente care la prima vedere nu merg împreună. Cu toate acestea, pe această etapă, cele 3 generatoare ale noastre au trecut fără nicio dificultate aparentă.

1. Cele patru imagini, ale unei salate cu ochi, propuse de DALL-E

2. Cele două imagini corespunzătoare solicitării noastre generate de Stable Diffusion

3. Și cele două imagini corespunzătoare pentru instrumentul Canva

Din nou, fiecare imagine are propriul stil, dar ceea ce este deosebit de izbitor este realismul diferitelor imagini: AI-urile au folosit stilul fotografic.

Recunoaștem alimentele deosebit de bine, până la punctul în care s-ar putea să dorim să reproducem diferitele idei propuse în bucătărie. Dacă Canva se remarcă prin originalitate oferind totuși o imagine cu inspirații „emoticon”, aici DALL-E câștigă punctul cu patru imagini diferite și toate în tema solicitată.

Printre flop-urile lui Stable Diffusion, una dintre imagini merită totuși să revenim

Într-adevăr, pe această imagine eliminată pentru că nu include ochi, vedem pe de altă parte efortul de realism al AI în reprezentarea planului de lucru.

AI-urile noastre sunt într-adevăr capabile să lege cuvântul „salata” de mediul corespunzător. Acesta a fost deja cazul în imaginile de mai sus cu reprezentarea farfurii, furcilor si alte elemente legate de domeniul culinar.

Flopurile care rămân în continuare regulate

În ciuda eficienței lor generale, AI-urile noastre încă generează o cantitate bună imagini mediocre, eronate vede total decalat cu cererea. Acesta a fost cazul nostru Palarie in forma de Turnul Eiffel.

DALL-E câștigă punctul cu singura sa imagine care se apropie de cererea noastră: o pălărie albă, depășită de un Turn miniatural pe care ni l-am imagina perfect pe șeful lui Geneviève de Fontenay !

În afară de acest mic chicot oferit de AI-ul Open AI, celelalte imagini au fost fie prea realiste, reprezentând pur și simplu unul dintre elemente în timp ce îl întunecă pe celălalt:

Pe prima imagine Stable Diffusion reprezintă Turnul, în timp ce pe a doua DALL-E a ales să ne trimită un teanc de pălării, ascunzând și a doua parte a cererii noastre.

Fie au avut o înțelegere eronată a cererii ca în aceste două imagini în care DALL-E reprezintă mai degrabă figurine suveniruri ale Turnului Eiffel:

Pentru a citi, de asemenea: Ma-Bonne-Action.com, solidaritatea de marketing, umanitare și de caritate

În cele din urmă, unele imagini sunt uneori complet neobișnuite, așa cum a fost cazul acestei imagini care ar reprezenta o „persoană din imaginația lui IA Stable Diffusion” care a ales apoi să adauge spontan un citat într-o limbă necunoscută... aproape din engleză...

O sensibilitate care variază uneori cuvânt cu cuvânt

Efectuând testele, realizăm rapid că uneori este suficient ca AI-ul nostru să corecteze situația în cazul unor rezultate nesatisfăcătoare. Așadar, când întrebăm pentru prima dată AI-ul nostru „un oraș plutitor pe un cer înnorat”, selectând cea mai bună imagine pentru fiecare dintre ele, obținem următorul rezultat:

Respectiv de sus în jos, rezultatele Stable Diffusion, DALL-E și Canva

Imagini foarte frumoase, dar care nu prea reflectă conotația „ireală” a cererii noastre înțelese de oameni dar aparent nu de generatorii noștri. Tot ce este nevoie este o schimbare subtilă a cererii pentru a obține rezultate complet diferite.

Deci, cu propoziția „un oraș fantastic care plutește pe un cer înnorat” obținem de data aceasta:

1. Imagini mult mai imaginative de la DALL-E

2. Orașe foarte frumoase din Stable Diffusion, care totuși omite complet partea „plutind într-un cer înnorat”

3. Câteva scene care ar putea fi luate dintr-un joc video (Minecraft sau Lego Worlds de exemplu) de către Canva

Aici putem acorda un punct pentru DALL-E și Canva care au reușit amândoi, printr-una sau alta dintre solicitările noastre, să facă orașul nostru să plutească în nori.

Dar atunci, ce viitor pentru generația de imagini?

În fața unei soluții care funcționează destul de bine în general, ne întrebăm care ar putea fi viitoarele utilizări ale generării de imagini prin inteligența artificială. Bineînțeles că este tentant să citez aici crearea de eșecuri pe internet, nu ezitați să veniți postați pe nostru forum pe care s-ar putea să le fi întâlnit deja online.

Dar ne putem imagina și utilizări mai serioase. Astfel, rezultatele obținute prin solicitarea instrumentului Canva să creeze o imagine a unui „copac care este de fapt o casă” ar putea oferi cu ușurință idei unui arhitect responsabil cu crearea de habitate care să se integreze în natură!

Dar atunci, care dintre cele 3 generatoare de imagini ale noastre face cel mai bine?

Pentru bradul care ar fi si casa, acordam usor cate un punct fiecarui instrument!

Exemple de imagini propuse respectiv de DALL-E, Stable Diffusion apoi instrumentul Canva

Mașina cu aripi de pasăre a provocat toate AI-urile noastre, dar mașina care poate zbura a permis lui Canva și Stable Diffusion să iasă în evidență prin niște randări futuriste destul de realiste:

Respectiv Difuziune stabilă în partea de sus și Canva în partea de jos.

În cele din urmă, DALL-E sa dovedit a fi destul de eficient cu el clădire în formă de dragon (care rămâne însă în construcție), iar Canva a reușit cel mai bine să răspundă solicitării unui portret pe care o modificasem oarecum prin înlocuirea celebrității cu „o persoană din imaginația IA”.

În ciuda unor elemente care sugerează generația de imagini din spatele celor două portrete Canva, realismul este încă izbitor.

În numărul final, acestea sunt așadar DALL-E și instrumentul Canva care câștigă câte 5 puncte fiecare.

În general, aceștia sunt capabili să ofere rezultate în conformitate cu majoritatea solicitărilor utilizatorilor.

Canva se remarcă prin realism în timp ce DALL-E pare mai relevant de îndată ce cererea necesită imaginație sau domeniul picturii.

Cu toate acestea, în ciuda a doar 2 puncte, Stable Diffusion nu dă greș în calitatea imaginii pe care o poate oferi! Dezavantajul constă în înțelegerea lui cu privire la solicitările utilizatorilor, deoarece adesea tinde să rămână foarte cu picioarele pe pământ. Cu toate acestea, rămâne și foarte interesant de descoperit.

Oricum, ne putem aștepta, în anii următori, să vedem inteligența artificială revoluționând multe sectoare de activitate. Și cu siguranță mai rapid decât cred unii de atunci cărțile scrise, parțial sau integral, de AI sunt deja în vânzare pe Amazon...Acest scurt reportaj video de la BFMTV a vorbit despre asta acum câteva zile: