Meta a lansat Llama 2 în vara anului 2023. Noua versiune de Llama este ajustată cu 40% mai multe jetoane decât modelul original Llama, dublându-și lungimea contextului și depășind semnificativ alte modele open-source disponibile. Cea mai rapidă și mai ușoară modalitate de a accesa Llama 2 este printr-un API printr-o platformă online. Cu toate acestea, dacă doriți cea mai bună experiență, cel mai bine este să instalați și să încărcați Llama 2 direct pe computer.
Având în vedere acest lucru, am creat un ghid pas cu pas despre cum să utilizați Text-Generation-WebUI pentru a încărca un LLM Llama 2 cuantificat local pe computer.
Cuprins
De ce să instalați Llama 2 local
Există multe motive pentru care oamenii aleg să ruleze Llama 2 direct. Unii o fac din motive de confidențialitate, alții pentru personalizare și alții pentru capabilități offline. Dacă cercetați, ajustați sau integrați Llama 2 pentru proiectele dvs., atunci accesarea Llama 2 prin API ar putea să nu fie pentru dvs. Scopul rulării unui LLM local pe computerul dvs. este să reduceți dependența de instrumentele AI terțe și să utilizați AI oricând și oriunde, fără a vă face griji cu privire la scurgerea de date potențial sensibile către companii și alte organizații.
Acestea fiind spuse, să începem cu ghidul pas cu pas pentru instalarea locală a Llama 2.
Pentru a simplifica lucrurile, vom folosi un program de instalare cu un singur clic pentru Text-Generation-WebUI (programul folosit pentru a încărca Llama 2 cu GUI). Cu toate acestea, pentru ca acest program de instalare să funcționeze, trebuie să descărcați instrumentul de compilare Visual Studio 2019 și să instalați resursele necesare.
Descarca: Visual Studio 2019 (Gratuit)
Acum că aveți instalat dezvoltarea desktop cu C++, este timpul să descărcați programul de instalare Text-Generation-WebUI cu un singur clic.
Pasul 2: Instalați Text-Generation-WebUI
Programul de instalare cu un singur clic Text-Generation-WebUI este un script care creează automat folderele necesare și configurează mediul Conda și toate cerințele necesare pentru a rula un model AI.
Pentru a instala scriptul, descărcați programul de instalare cu un singur clic făcând clic pe Cod > Descărcați ZIP.
Descarca: Text-Generation-WebUI Installer (Gratuit)
- Dacă sunteți pe Windows, selectați fișierul batch start_windows
- pentru MacOS, selectați start_macos shell scrip
- pentru Linux, start_linux script shell.
Cu toate acestea, programul este doar un încărcător de modele. Să descarcăm Llama 2 pentru a lansa încărcătorul de modele.
Pasul 3: Descărcați modelul Llama 2
Există destul de multe lucruri de luat în considerare atunci când decideți ce iterație a Llama 2 aveți nevoie. Acestea includ parametrii, cuantizarea, optimizarea hardware, dimensiunea și utilizarea. Toate aceste informații vor fi găsite notate în numele modelului.
- Parametri: numărul de parametri utilizați pentru a antrena modelul. Parametrii mai mari fac modele mai capabile, dar cu prețul performanței.
- Utilizare: poate fi fie standard, fie prin chat. Un model de chat este optimizat pentru a fi utilizat ca un chatbot precum ChatGPT, în timp ce standardul este modelul implicit.
- Optimizare hardware: se referă la ce hardware rulează cel mai bine modelul. GPTQ înseamnă că modelul este optimizat pentru a rula pe un GPU dedicat, în timp ce GGML este optimizat pentru a rula pe un procesor.
- Cuantizare: denotă precizia greutăților și activărilor dintr-un model. Pentru deducere, o precizie de q4 este optimă.
- Dimensiune: Se referă la mărimea modelului specific.
Rețineți că unele modele pot fi aranjate diferit și este posibil să nu aibă afișate aceleași tipuri de informații. Cu toate acestea, acest tip de convenție de denumire este destul de comună în biblioteca HuggingFace Model, așa că merită totuși înțeles.
În acest exemplu, modelul poate fi identificat ca un model Llama 2 de dimensiuni medii antrenat pe 13 miliarde de parametri optimizați pentru inferența prin chat folosind un procesor dedicat.
Pentru cei care rulează pe un GPU dedicat, alegeți un model GPTQ, în timp ce pentru cei care folosesc un procesor, alegeți GGML. Dacă doriți să discutați cu modelul așa cum ați face cu ChatGPT, alegeți chat, dar dacă doriți să experimentați modelul cu capabilitățile sale complete, utilizați modelul standard. În ceea ce privește parametrii, știți că utilizarea modelelor mai mari va oferi rezultate mai bune în detrimentul performanței. Personal, aș recomanda să începeți cu un model 7B. În ceea ce privește cuantificarea, utilizați q4, deoarece este doar pentru inferență.
Descarca: GGML (Gratuit)
Descarca: GPTQ (Gratuit)
Acum că știți ce iterație a Llama 2 aveți nevoie, mergeți mai departe și descărcați modelul dorit.
În cazul meu, deoarece rulez asta pe un ultrabook, voi folosi un model GGML reglat fin pentru chat, llama-2-7b-chat-ggmlv3.q4_K_S.bin.
După ce descărcarea este terminată, plasați modelul în text-generation-webui-main > modele.
Acum că ați descărcat modelul și plasat în folderul model, este timpul să configurați încărcătorul de modele.
Pasul 4: Configurați Text-Generation-WebUI
Acum, să începem faza de configurare.
Felicitări, ați încărcat cu succes Llama2 pe computerul local!
Încercați alte LLM-uri
Acum că știți cum să rulați Llama 2 direct pe computer folosind Text-Generation-WebUI, ar trebui să puteți rula și alte LLM-uri în afară de Llama. Nu uitați decât convențiile de denumire a modelelor și că numai versiunile cuantificate ale modelelor (de obicei cu precizie Q4) pot fi încărcate pe computerele obișnuite. Multe LLM cuantificate sunt disponibile pe HuggingFace. Dacă doriți să explorați alte modele, căutați TheBloke în biblioteca de modele HuggingFace și ar trebui să găsiți multe modele disponibile.