Ghidul tău unic despre Deepfake-uri și cum să le creezi simplu cu Faceswap.
Inteligența Artificială nu mai este un concept îndepărtat. A ajuns să ne fie periculos de aproape, nouă, oamenilor.
Poate să sugereze idei, să scrie, să creeze artă, iar acum chiar arată și vorbește ca o persoană vie.
Aceasta este una dintre cele mai recente inovații din acest domeniu, pe care ar trebui să o explorăm. Totodată, este și un domeniu de care trebuie să ne ferim.
Ce sunt Deepfake-urile?
Termenul Deepfake este un amestec între „deep learning” (învățare profundă) și „fake” (fals). Simplu spus, este vorba de o înregistrare media manipulată cu mare pricepere, profund contrafăcută.
Conform Wikipedia, este cunoscută și ca media sintetică, în care o imagine, un sunet sau un videoclip existent este modificat astfel încât să prezinte o altă persoană.
De obicei, deepfake-urile fac ca figuri publice să pară că spun lucruri pe care nu le-ar afirma în mod normal.
În funcție de abilitatea creatorului său, poate fi extrem de dificil să discerni dacă un deepfake este autentic sau nu.
Cum Funcționează Deepfake-urile?
Într-un mod simplificat, o porțiune a unui videoclip real (de exemplu, un chip) este înlocuită cu un chip fals, dar foarte similar. Acest proces este denumit și „schimb de chipuri”, după cum se poate observa într-un videoclip cu „Obama”.
Însă, tehnologia nu se limitează doar la video, existând și imagini și fișiere audio deepfake (și, cine știe, poate în viitorul apropiat vom avea și avatare VR deepfake).
Sursa: Disney
Mecanismul din spatele acestor trucaje depinde în principal de aplicația folosită și de algoritmul de bază.
Potrivit unui studiu Disney, există diverse metode, printre care codificatoare-decodificatoare, rețele generative adversariale (GAN), deepfake-uri bazate pe geometrie etc.
Următoarele secțiuni vor analiza în detaliu modul în care funcționează Faceawap. Acesta este un program Deepfake gratuit și open-source, care permite utilizarea mai multor algoritmi pentru a genera rezultatul dorit.
Procesul de generare a unui deepfake implică trei etape majore: extracția, antrenarea și conversia.
#1. Extracția
Această etapă constă în detectarea și prelevarea subiectului relevant din materialele media, atât din înregistrarea originală, cât și din cea destinată schimbului.
În funcție de capacitățile hardware, se pot folosi mai mulți algoritmi pentru o detectare eficientă.
Spre exemplu, Faceswap are diverse opțiuni pentru extracție, aliniere și mascare, bazate pe performanța procesorului (CPU) sau a plăcii grafice (GPU).
Extracția identifică fața în cadrul videoclipului. Alinierea localizează punctele cheie ale feței (ochi, nas, bărbie, etc.). În final, mascarea blochează restul elementelor din imagine, exceptând zona de interes.
Timpul necesar pentru generarea rezultatului este un factor important în alegerea opțiunilor, deoarece algoritmii care solicită multe resurse pe un hardware slab pot duce la eșec sau la un timp foarte lung de așteptare.
Pe lângă hardware, alegerea depinde și de parametri cum ar fi obstrucțiile faciale din videoclip, de exemplu mișcările mâinilor sau ochelarii.
Un aspect crucial este curățarea (detaliată ulterior) a rezultatului, deoarece extracțiile vor include și unele elemente false pozitive.
În cele din urmă, procesul de extracție este repetat atât pentru videoclipul original, cât și pentru cel fals (folosit pentru înlocuire).
#2. Antrenarea
Aceasta este esența creării de deepfake-uri.
Antrenarea se referă la rețeaua neuronală, care include un codificator și un decodor. Aici, algoritmii sunt alimentați cu datele extrase pentru a crea un model care va fi folosit la conversie.
Codificatorul transformă datele de intrare într-o reprezentare vectorială, pentru a învăța algoritmul să recreeze fețele din vectori, iar decodorul realizează această recreare.
Ulterior, rețeaua neuronală evaluează rezultatele și le compară cu originalul, atribuind un scor de pierdere. Această valoare se diminuează în timp, pe măsură ce algoritmul continuă să se repete, iar procesul se oprește când rezultatele sunt satisfăcătoare.
Antrenarea este un proces care necesită timp, iar calitatea rezultatelor se îmbunătățește în general în funcție de numărul de iterații și de calitatea datelor de intrare.
De exemplu, Faceawap sugerează un minim de 500 de imagini, atât originale, cât și pentru înlocuire. Mai mult, imaginile ar trebui să difere semnificativ între ele, acoperind toate unghiurile posibile și diverse condiții de iluminare, pentru o recreare optimă.
Având în vedere durata antrenamentului, unele programe (precum Faceswap) permit oprirea antrenamentului la jumătate sau continuarea acestuia mai târziu.
Calitatea fotorealismului rezultat depinde, de asemenea, de eficiența algoritmului și de calitatea datelor de intrare, fiind limitată și de capacitatea hardware.
#3. Conversia
Aceasta este etapa finală a creației deepfake. Algoritmii de conversie au nevoie de videoclipul sursă, de modelul antrenat și de fișierul de aliniere sursă.
Ulterior, se pot modifica câteva setări, referitoare la corectarea culorilor, tipul de mască, formatul de ieșire dorit etc.
După ce aceste opțiuni sunt configurate, trebuie doar să așteptăm randarea finală.
După cum am menționat, Faceswap oferă compatibilitatea cu o gamă variată de algoritmi, permițând adaptarea procesului în funcție de preferințele și scopul dorit.
Asta e tot?
Nu!
Până acum am discutat doar despre schimbarea chipului, o ramură a tehnologiei deepfake. Schimbarea chipului, conform denumirii, înlocuiește doar o porțiune a feței, dând o idee vagă despre ceea ce pot realiza deepfake-urile.
Pentru o înlocuire autentică, poate fi necesară și imitarea sunetului (clonarea vocii) și a întregului corp, incluzând tot ce se află în cadru, așa cum vedem în exemplul următor:
Așadar, ce s-a întâmplat aici?
Cel mai probabil, autorul deepfake-ului a înregistrat un videoclip cu sine (așa cum s-a observat în ultimele secunde), a sincronizat mișcarea buzelor cu o voce sintetică a lui Morgan Freeman și a adăugat în locul feței sale, fața actorului.

În concluzie, deepfake-ul nu constă doar în înlocuirea feței, ci și a întregului cadru, inclusiv audio.
Pe YouTube se pot găsi numeroase deepfake-uri, devenind uneori înfricoșător din cauza dificultății de a discerne autenticul de fals. Tot ce este necesar este un calculator performant, echipat cu o placă grafică puternică, pentru a începe creația.
Totuși, perfecțiunea este greu de obținut, mai ales în cazul deepfake-urilor.
Un deepfake convingător, care să poată înșela sau impresiona publicul, necesită abilități și de la câteva zile la săptămâni de procesare, pentru un videoclip de doar un minut sau două.
Este fascinant cât de avansați au devenit acești algoritmi. Totuși, viitorul, inclusiv potențialul acestor aplicații pe hardware de ultimă generație, este un subiect care a stârnit preocuparea guvernelor.
În loc să ne aprofundăm în efectele viitoare, vom verifica cum putem crea un deepfake, pentru a ne distra puțin.
Crearea de Videoclipuri Deepfake (De Bază).
Există numeroase aplicații deepfake, pe care le puteți verifica din această listă, pentru a crea meme-uri.
Una dintre acestea este Faceswap, pe care o vom utiliza.
Înainte de a continua, trebuie să ne asigurăm de câteva lucruri. În primul rând, vom avea nevoie de un videoclip de calitate cu ținta, care să ilustreze diferite emoții. Apoi, vom avea nevoie de un videoclip sursă, pe care îl vom înlocui cu chipul țintei.
De asemenea, înainte de a utiliza Faceswap, trebuie să închidem toate programele care solicită intensiv placa grafică, cum ar fi browserele sau jocurile. Această precauție este esențială mai ales dacă aveți mai puțin de 2GB de VRAM (memorie video).
Pasul 1: Extragerea Fețelor
Primul pas este extragerea fețelor din videoclip. Pentru aceasta, trebuie să selectăm videoclipul țintă la Input Dir și să specificăm un Output Dir pentru datele extrase.

Există și câteva opțiuni, inclusiv detector, aliniere, mascare, etc. Explicațiile fiecăreia se găsesc în Întrebările frecvente Faceawap, iar repetarea informațiilor aici ar fi inutilă.
Sursa: Întrebări frecvente Faceswap
În general, este indicat să consultați documentația pentru o mai bună înțelegere și pentru a obține un rezultat decent. De asemenea, Faceswap oferă texte utile, accesibile prin trecerea cu mouse-ul peste opțiunile individuale.

Pe scurt, nu există o soluție universală și trebuie să începem cu cei mai performanți algoritmi și să diminuăm succesiv setările, pentru a obține un deepfake convingător.
Pentru a oferi un exemplu, am folosit Mtcnn (detector), Fan (aligner) și Bisenet-Fp (masker), păstrând toate celelalte opțiuni implicite.
Inițial, am încercat cu S3Fd (cel mai bun detector) și diverse măști combinate. Însă, placa mea grafică Nvidia GeForce GTX 750Ti de 2GB nu a putut face față, iar procesul a eșuat în mod repetat.
În cele din urmă, am redus așteptările și setările pentru a obține un rezultat.
Pe lângă selectarea detectorului, mascătorilor etc., mai există câteva opțiuni în Setări > Configurare setări, care permit ajustarea suplimentară a setărilor, pentru a asista hardware-ul.

Simplu spus, selectați cea mai mică dimensiune posibilă a lotului, dimensiunea de intrare și dimensiunea de ieșire, și bifați opțiunea LowMem etc. Aceste opțiuni nu sunt disponibile universal, fiind specifice anumitor secțiuni. În plus, textele de ajutor oferă informații utile în selectarea celor mai potrivite opțiuni.
Deși programul realizează o treabă excelentă la extragerea fețelor, este posibil ca datele de ieșire să conțină mult mai mult decât este necesar pentru antrenarea modelului (detalii în continuare). Spre exemplu, vor fi incluse toate fețele (dacă videoclipul are mai multe), precum și unele detectări incorecte, care nu conțin fața țintă.
Acest lucru impune curățarea setului de date. Utilizatorii pot verifica folderul de ieșire și pot șterge manual elementele nedorite, sau pot folosi funcția de sortare Faceswap, pentru a obține asistență.

Folosind instrumentul menționat, se pot aranja diferitele fețe în succesiune, permițând combinarea celor necesare într-un singur folder și ștergerea restului.
Reamintim că trebuie să repetăm extragerea și pentru videoclipul sursă.
Pasul 2: Antrenarea Modelului
Acesta este cel mai lung proces în crearea unui deepfake. În acest context, intrarea A se referă la fața țintă, iar intrarea B se referă la fața sursă. De asemenea, Model Dir este locul unde vor fi salvate fișierele de antrenament.

Cea mai importantă opțiune de aici este Trainer. Există o mulțime de opțiuni de scalare individuale, însă, pentru hardware-ul meu, am obținut rezultate bune cu Dfl-H128 și antrenamente ușoare, cu cele mai mici setări de configurare.
Urmează dimensiunea lotului. O dimensiune mai mare a lotului reduce timpul total de antrenament, însă consumă mai multă VRAM. Numărul iterațiilor nu are un efect fix asupra rezultatului și ar trebui să setați o valoare suficient de mare și să opriți antrenamentul odată ce rezultatele previzualizate sunt acceptabile.
Există și alte setări, inclusiv crearea unui timelapse la intervale prestabilite, însă am antrenat modelul cu minimul necesar.
Pasul 3: Înlocuirea în Videoclipul Original
Aceasta este ultima etapă a creației deepfake.
În general, această etapă nu necesită mult timp, iar utilizatorii se pot juca cu diferite opțiuni pentru a obține rapid rezultatul dorit.

În imaginea de mai sus sunt prezentate câteva opțiuni pe care trebuie să le selectați pentru a începe conversia.
Majoritatea opțiunilor au fost deja discutate, cum ar fi directorul de intrare și ieșire, directorul modelului etc. Un aspect crucial este opțiunea Aliniere, care se referă la fișierul de aliniere (.fsa) al videoclipului țintă. Acest fișier este creat în directorul de intrare, în timpul extragerii.
Câmpul Alinieri poate fi lăsat necompletat dacă fișierul nu a fost mutat. În caz contrar, se poate selecta fișierul și se poate trece la celelalte opțiuni. Nu uitați să curățați fișierul de aliniere, dacă ați curățat extracțiile mai devreme.
Pentru aceasta, acest mini-instrument se află în Instrumente > Alinieri.
Începeți prin a selecta Eliminare fețe, din secțiunea Lucrări, selectați fișierul de aliniere original și folderul cu fețele țintă curățate și faceți clic pe Alinieri, în dreapta jos.

Această operațiune va crea un fișier de aliniere modificat, care se potrivește cu folderul cu fețele optimizate. Acest fișier este necesar pentru videoclipul țintă, în care dorim să realizăm înlocuirea.
Alte setări includ ajustarea culorilor și tipul de mască. Ajustarea culorii determină modul în care se combină masca, fiind recomandată testarea mai multor opțiuni și selectarea celei optime.
Tipul de mască este foarte important. Acesta depinde de așteptări și de hardware-ul disponibil. De obicei, trebuie să țineți cont și de caracteristicile videoclipului de intrare. De exemplu, Vgg-Clear funcționează bine cu fețele frontale, fără obstacole, în timp ce Vgg-Obstructed poate gestiona și obstacole precum gesturi cu mâinile, ochelari etc.
Apoi, Writer prezintă câteva opțiuni, în funcție de rezultatul dorit. Spre exemplu, selectați Ffmpeg pentru o redare video.
În general, cheia succesului unui deepfake este testarea mai multor rezultate și optimizarea setărilor în funcție de timpul disponibil și capacitatea hardware-ului.
Aplicații Deepfake
Deepfake-urile au aplicații bune, rele și periculoase.
Aplicațiile pozitive includ recrearea unor momente istorice de către persoanele care au fost prezente, pentru a crește implicarea publicului.
În plus, deepfake-urile sunt folosite de platformele de învățare online pentru a genera videoclipuri din texte.
Unul dintre cei mai mari beneficiari va fi industria cinematografică. Va fi ușor de imaginat actorii reali interpretând scene periculoase, chiar dacă acestea sunt realizate de cascadori. De asemenea, realizarea de filme în mai multe limbi va fi mai ușoară ca niciodată.
Din păcate, aplicațiile negative sunt numeroase. Cel mai frecvent caz de utilizare a deepfake-urilor este în industria pornografică (96%, conform acestui raport Deeptrace), pentru a înlocui fețele unor celebrități cu cele ale actorilor pornografici.
Mai mult, deepfake-urile sunt folosite și împotriva femeilor „obișnuite”, care nu sunt celebre. Aceste victime au, de obicei, fotografii sau videoclipuri de înaltă calitate pe rețelele sociale, care sunt utilizate pentru a crea deepfake-uri.
O altă aplicație înfricoșătoare este vishing, adică phishing-ul vocal. Într-un astfel de caz, directorul unei companii din Marea Britanie a transferat 243.000 de dolari, la ordinul „directorului” companiei-mamă din Germania, pentru a afla ulterior că fusese un apel telefonic fals.
Ceea ce este și mai periculos este ca un deepfake să provoace războaie sau să solicite capitularea. În cea mai recentă încercare, președintele ucrainean, Volodimir Zelenski, a cerut forțelor și cetățenilor să se predea, în războiul în curs de desfășurare. Însă, în acest caz, falsul a fost demascat de calitatea video inferioară.
În concluzie, există numeroase aplicații deepfake, iar abia începem să le descoperim.
Acest lucru ne aduce la întrebarea esențială…
Deepfake-urile sunt legale?
Acest aspect depinde în mare măsură de legislația locală. Încă nu s-au definitivat legile în acest sens, incluzând ce este permis și ce este interzis.
Este evident că legalitatea deepfake-urilor depinde de scopul utilizării. Nu este aproape niciun prejudiciu dacă intenția este de a distra sau educa, fără a afecta ținta înlocuirii.
Pe de altă parte, utilizările dăunătoare ar trebui pedepsite prin lege, indiferent de jurisdicție. Un alt domeniu problematic este încălcarea drepturilor de autor, care necesită o atenție corespunzătoare.
Reamintim că este important să verificați legislația locală referitoare la utilizarea legală a deepfake-urilor.
Fiți Prudenți!
Deepfake-urile folosesc inteligența artificială pentru a determina pe oricine să spună orice.
Să nu avem încredere în tot ce vedem pe internet este primul sfat pe care trebuie să îl luăm în considerare. Există o mulțime de dezinformare, iar eficacitatea ei este în continuă creștere.
Deoarece crearea acestora va deveni tot mai ușoară, este important să învățăm cum să identificăm deepfake-urile.