Cum să descărcați și să instalați Llama 2 local

Meta a lansat Llama 2 în vara anului 2023. Noua versiune de Llama este ajustată cu 40% mai multe jetoane decât modelul original Llama, dublându-și lungimea contextului și depășind semnificativ alte modele open-source disponibile. Cea mai rapidă și mai ușoară modalitate de a accesa Llama 2 este printr-un API printr-o platformă online. Cu toate acestea, dacă doriți cea mai bună experiență, cel mai bine este să instalați și să încărcați Llama 2 direct pe computer.

Având în vedere acest lucru, am creat un ghid pas cu pas despre cum să utilizați Text-Generation-WebUI pentru a încărca un LLM Llama 2 cuantificat local pe computer.

De ce să instalați Llama 2 local

Există multe motive pentru care oamenii aleg să ruleze Llama 2 direct. Unii o fac din motive de confidențialitate, alții pentru personalizare și alții pentru capabilități offline. Dacă cercetați, ajustați sau integrați Llama 2 pentru proiectele dvs., atunci accesarea Llama 2 prin API ar putea să nu fie pentru dvs. Scopul rulării unui LLM local pe computerul dvs. este să reduceți dependența de instrumentele AI terțe și să utilizați AI oricând și oriunde, fără a vă face griji cu privire la scurgerea de date potențial sensibile către companii și alte organizații.

Acestea fiind spuse, să începem cu ghidul pas cu pas pentru instalarea locală a Llama 2.

Pentru a simplifica lucrurile, vom folosi un program de instalare cu un singur clic pentru Text-Generation-WebUI (programul folosit pentru a încărca Llama 2 cu GUI). Cu toate acestea, pentru ca acest program de instalare să funcționeze, trebuie să descărcați instrumentul de compilare Visual Studio 2019 și să instalați resursele necesare.

Descarca: Visual Studio 2019 (Gratuit)

  • Continuați și descărcați ediția comunitară a software-ului.
  • Acum instalați Visual Studio 2019, apoi deschideți software-ul. Odată deschis, bifați caseta pentru Dezvoltare desktop cu C++ și apăsați Instalare.
  • Acum că aveți instalat dezvoltarea desktop cu C++, este timpul să descărcați programul de instalare Text-Generation-WebUI cu un singur clic.

    Pasul 2: Instalați Text-Generation-WebUI

    Programul de instalare cu un singur clic Text-Generation-WebUI este un script care creează automat folderele necesare și configurează mediul Conda și toate cerințele necesare pentru a rula un model AI.

    Pentru a instala scriptul, descărcați programul de instalare cu un singur clic făcând clic pe Cod > Descărcați ZIP.

    Descarca: Text-Generation-WebUI Installer (Gratuit)

  • Odată descărcat, extrageți fișierul ZIP în locația preferată, apoi deschideți folderul extras.
  • În dosar, derulați în jos și căutați programul de pornire adecvat pentru sistemul dvs. de operare. Rulați programele făcând dublu clic pe scriptul corespunzător.
    • Dacă sunteți pe Windows, selectați fișierul batch start_windows
    • pentru MacOS, selectați start_macos shell scrip
    • pentru Linux, start_linux script shell.
  • Antivirusul dvs. poate crea o alertă; este în regulă. Solicitarea este doar un antivirus fals pozitiv pentru rularea unui fișier batch sau script. Faceți clic pe Run oricum.
  • Se va deschide un terminal și va începe configurarea. La început, configurarea se va întrerupe și vă va întreba ce GPU utilizați. Selectați tipul adecvat de GPU instalat pe computer și apăsați Enter. Pentru cei care nu au o placă grafică dedicată, selectați None (Vreau să rulez modele în modul CPU). Rețineți că rularea în modul CPU este mult mai lentă în comparație cu rularea modelului cu un GPU dedicat.
  • Odată finalizată configurarea, acum puteți lansa Text-Generation-WebUI local. Puteți face acest lucru deschizând browserul web preferat și introducând adresa IP furnizată pe adresa URL.
  • WebUI este acum gata de utilizare.
  • Cu toate acestea, programul este doar un încărcător de modele. Să descarcăm Llama 2 pentru a lansa încărcătorul de modele.

    Pasul 3: Descărcați modelul Llama 2

    Există destul de multe lucruri de luat în considerare atunci când decideți ce iterație a Llama 2 aveți nevoie. Acestea includ parametrii, cuantizarea, optimizarea hardware, dimensiunea și utilizarea. Toate aceste informații vor fi găsite notate în numele modelului.

    • Parametri: numărul de parametri utilizați pentru a antrena modelul. Parametrii mai mari fac modele mai capabile, dar cu prețul performanței.
    • Utilizare: poate fi fie standard, fie prin chat. Un model de chat este optimizat pentru a fi utilizat ca un chatbot precum ChatGPT, în timp ce standardul este modelul implicit.
    • Optimizare hardware: se referă la ce hardware rulează cel mai bine modelul. GPTQ înseamnă că modelul este optimizat pentru a rula pe un GPU dedicat, în timp ce GGML este optimizat pentru a rula pe un procesor.
    • Cuantizare: denotă precizia greutăților și activărilor dintr-un model. Pentru deducere, o precizie de q4 este optimă.
    • Dimensiune: Se referă la mărimea modelului specific.

    Rețineți că unele modele pot fi aranjate diferit și este posibil să nu aibă afișate aceleași tipuri de informații. Cu toate acestea, acest tip de convenție de denumire este destul de comună în biblioteca HuggingFace Model, așa că merită totuși înțeles.

    În acest exemplu, modelul poate fi identificat ca un model Llama 2 de dimensiuni medii antrenat pe 13 miliarde de parametri optimizați pentru inferența prin chat folosind un procesor dedicat.

    Pentru cei care rulează pe un GPU dedicat, alegeți un model GPTQ, în timp ce pentru cei care folosesc un procesor, alegeți GGML. Dacă doriți să discutați cu modelul așa cum ați face cu ChatGPT, alegeți chat, dar dacă doriți să experimentați modelul cu capabilitățile sale complete, utilizați modelul standard. În ceea ce privește parametrii, știți că utilizarea modelelor mai mari va oferi rezultate mai bune în detrimentul performanței. Personal, aș recomanda să începeți cu un model 7B. În ceea ce privește cuantificarea, utilizați q4, deoarece este doar pentru inferență.

    Descarca: GGML (Gratuit)

    Descarca: GPTQ (Gratuit)

    Acum că știți ce iterație a Llama 2 aveți nevoie, mergeți mai departe și descărcați modelul dorit.

    În cazul meu, deoarece rulez asta pe un ultrabook, voi folosi un model GGML reglat fin pentru chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.

    După ce descărcarea este terminată, plasați modelul în text-generation-webui-main > modele.

    Acum că ați descărcat modelul și plasat în folderul model, este timpul să configurați încărcătorul de modele.

    Pasul 4: Configurați Text-Generation-WebUI

    Acum, să începem faza de configurare.

  • Încă o dată, deschideți Text-Generation-WebUI rulând fișierul start_(OS) (consultați pașii anteriori de mai sus).
  • În filele situate deasupra GUI, faceți clic pe Model. Faceți clic pe butonul de reîmprospătare din meniul derulant al modelului și selectați modelul dvs.
  • Acum faceți clic pe meniul derulant al încărctorului de modele și selectați AutoGPTQ pentru cei care folosesc un model GTPQ și ctransformatori pentru cei care folosesc un model GGML. În cele din urmă, faceți clic pe Încărcare pentru a vă încărca modelul.
  • Pentru a utiliza modelul, deschideți fila Chat și începeți să testați modelul.
  • Felicitări, ați încărcat cu succes Llama2 pe computerul local!

    Încercați alte LLM-uri

    Acum că știți cum să rulați Llama 2 direct pe computer folosind Text-Generation-WebUI, ar trebui să puteți rula și alte LLM-uri în afară de Llama. Nu uitați decât convențiile de denumire a modelelor și că numai versiunile cuantificate ale modelelor (de obicei cu precizie Q4) pot fi încărcate pe computerele obișnuite. Multe LLM cuantificate sunt disponibile pe HuggingFace. Dacă doriți să explorați alte modele, căutați TheBloke în biblioteca de modele HuggingFace și ar trebui să găsiți multe modele disponibile.