Cum mi-am instalat un AI propriu pe calculator și de ce să faci asta

În ultima săptămână un agent AI mi-a fost secretar. Mi-a adăugat evenimente singur în calendar și mi-a fost un asistent. Totul de pe calculatorul meu. Cum?

Instrumentele AI cu care majoritatea oamenilor sunt familiarizați, precum GPT, rulează de obicei în cloud, deoarece rularea unui Model Lingvistic Extins (LLM) precum GPT-4 necesită o putere de calcul imensă, vorbind de clustere de GPU-uri care lucrează în paralel.

Cu toate acestea, există o tendință crescândă de a rula AI local pe mașinile personale sau în rețeaua locală. Această evoluție recentă, care permite utilizatorilor să folosească agenți AI și LLM-uri direct pe PC-urile lor RTX AI, este accelerată de instrumente precum AnythingLLM și Ollama, care fac accesul facil la AI pentru oricine.

Ce este un AI local și cum poți să începi

AI-ul local se referă la rularea aplicațiilor de inteligență artificială direct pe mașinile personale sau în cadrul rețelei locale. Această abordare oferă avantaje semnificative:

  • Confidențialitate sporită: Ai un control mai mare asupra datelor tale.
  • Viteză mai mare: Rularea locală este mult mai rapidă.
  • Costuri mai mici: Poate fi semnificativ mai ieftin decât soluțiile bazate pe cloud.
  • Pentru a începe cu AI local, poți utiliza instrumente open-source populare. O modalitate simplă este cu Ollama, un instrument open-source care oferă o interfață simplă pentru rularea și interacționarea cu LLM-uri. Ollama oferă acces la LLM-uri pe care le poți descărca și rula local.

    Un alt instrument esențial este AnythingLLM, o aplicație desktop "all-in-one" care le permite utilizatorilor să ruleze LLM-uri locale și sisteme de generare augmentată prin recuperare (RAG). AnythingLLM este complet gratuit și este conceput pentru a menține totul local pe mașina ta în mod implicit—inclusiv documentele și chaturile. AnythingLLM permite descărcarea și rularea unui LLM cu instalare și configurare minimă.

    Cum poți folosi un LLM pe calculator offline și de ce?

    Deși modelele mari de limbaj (LLM-uri) necesită de obicei o putere de calcul extremă, noile modele open-weight, cum ar fi versiunile comprimate ale Ollama (de exemplu, modelul Llama 3.1 8B) sau modelele gpt-oss de la OpenAI, pot fi rulate direct pe PC-uri cu plăci video NVIDIA, oferind rezultate bune.

    Poți folosi un LLM offline pe calculatorul tău prin intermediul aplicațiilor optimizate pentru aceasta:

    • Ollama: Permite generarea de răspunsuri dintr-un simplu prompt text. De asemenea, suportă funcții precum drag-and-drop de fișiere PDF direct în prompturi și fluxuri de lucru conversaționale.
    • AnythingLLM: Poate fi utilizat ca o interfață de chat (UI) pentru a interfața cu modelul dorit. Acesta permite utilizatorilor să construiască asistenți AI personalizați, încărcând documente, creând baze de cunoștințe personalizate și având interfețe conversaționale.
    • LM Studio: Oferă o interfață prietenoasă, bazată pe framework-ul popular llama.cpp, permițând utilizatorilor să încarce diferite LLM-uri și să discute cu ele în timp real.

    Motivația principală pentru a rula LLM-uri local și offline include:

    • Confidențialitate: Datele tale, chaturile și documentele sunt stocate local, fără cont asociat.
    • Fără restricții: Se elimină restricțiile privind numărul de fișiere care pot fi încărcate sau durata lor de disponibilitate, permițând conversații conștiente de context pe perioade mai lungi.
    • Economii: Nu ai costuri de abonament sau limite de utilizare.
    De ce fel de PC ai nevoie pentru a rula programe AI

    Pentru a rula LLM-uri local, chiar și cele comprimate, este necesară o cantitate decentă de putere de procesare, deoarece LLM-urile trebuie să efectueze multiplicări masive de matrice și să proceseze seturi de date extrem de complexe în mod eficient.

    Vei avea nevoie cu siguranță de un GPU rapid pentru a rula LLM-uri local. Eu am rulat toate aceste AI-uri pe PC-ul meu de acasă care are o placă video NVIDIA GeForce RTX 5080, un procesor Ryzen 9 7900 și 32 GB memorie RAM.

    Plăcile video perfecte pentru rularea LLM-urilor sunt GPU-urile GeForce RTX de la Nvidia. Motivul pentru care GPU-urile Nvidia sunt atât de bune este că acestea includ Tensor Cores, care sunt proiectate special pentru a gestiona sarcinile complexe pe care le necesită AI-ul. Hardware-ul găsit în GPU-urile GeForce RTX, cum ar fi seria RTX 40 sau seria RTX 50, este adaptat pentru aplicațiile și procesele AI de ultimă oră.

    Nvidia a lucrat pentru a optimiza principalele aplicații LLM pentru PC-urile GeForce RTX, extrăgând performanța maximă a Tensor Cores. De exemplu, au îmbunătățit performanța Ollama și au colaborat cu llama.cpp (folosit de LM Studio și AnythingLLM) pentru a optimiza performanța pe GPU-urile GeForce RTX, incluzând optimizări precum Flash Attention activată implicit (oferind o îmbunătățire a performanței de până la 20%).

    Dacă dorești să rulezi eficient LLM-uri local, este esențial să ai o placă video bună. Pentru modele mai mari, cum ar fi gpt-oss, este recomandat un GPU cu cel puțin 24 GB de VRAM pentru cea mai ușoară experiență prin aplicația Ollama, deși unele aplicații pot funcționa și cu 16 GB VRAM.

    Cum am folosit AnythingLLM și Ollama pentru a rula diferite LLM-uri 

    Am setat AnythingLLM (care nu necesită un cont) și m-am conectat la propria instanță LLM locală.

    Am selectat Ollama ca furnizor LLM local, deoarece rularea locală oferă confidențialitate, eficiență și costuri reduse. Ca model, am ales modelul Llama 3.1 8B, însă am folosit și Gemini, Deepseek, Anthropic și altele.

    După conectarea cu succes, AnythingLLM a servit ca interfață de chat pentru instanța locală Ollama.

    Am putut adresa întrebări direct prin interfața AnythingLLM despre tot felul de lucruri. La fel cum o fac zilnic pentru muncă. Dacă vreau să știu diferența dintre două gadgeturi pot să întreb AI-ul. Însă am devenit obișnuit să verific informații pentru că AI-ul mai poate da erori. De asemenea, în unele scenarii LLM-ul nu caută pe internet și nu știe de cel mai recent model de telefon, de exemplu. 

    Folosind AnythingLLM pe un PC GeForce RTX, studenții pot crea un tutore personalizat, bazat pe AI generativ, încărcând materiale de studiu (pdf-uri, cărți, notițe, manuale). AnythingLLM suportă încărcarea de documente, baze de cunoștințe personalizate și interfețe conversaționale.

    Astfel cu un AI ai putea face:

    • Generarea de cartonașe din sursele încărcate.
    • Să pui întrebări contextuale legate de materialele încărcate.
    • Crearea și notarea de teste pentru pregătirea examenelor.
    Nvidia NIM: metodă optimizată pentru a rula LLM-uri pe PC

    NIM înseamnă NVIDIA Inference Microservice. Acestea sunt modele de inteligență artificială generativă preambalate și optimizate pentru performanță, care facilitează începerea fluxurilor de lucru AI pe PC-urile RTX AI, utilizând o API simplificată.

    NIM-urile sunt esențiale deoarece adună modelul AI complet, toate dependențele software și instrumentele standard din industrie într-un singur container. Acest lucru elimină coșmarul asociat în mod tradițional cu rularea modelelor puternice local, care necesită versiuni corecte de Cuda, Python și biblioteci Transformers compatibile. Pe site-ul build.nvidia.com găsești foarte multe NIMs pe care le poți folosi pe calculatorul tău de la traducere, la generare de imagini și extragere de tabele din imagini. Nu trebuie să fii programator să le folosești, dar trebuie să ai puțin knowhow în zona asta și să instalezi anumite programe și soft-uri care să te ajute să rulezi aceste module AI. 

    Cum l-am folosit:

    AnythingLLM a adăugat recent suport pentru microserviciile NVIDIA NIM. 

    În AnythingLLM, am selectat furnizorul NVIDIA Nim. Instalatorul se ocupă automat de configurarea mediului necesar (cum ar fi WSL pe Windows).

    Odată ce instalatorul este finalizat, poți importa NIM-uri de la Nvidia. Modelele disponibile includ versiuni complete (fără cuantificare sau compresie) ale LLM-urilor populare, cum ar fi Llama 3.1 8B și DeepSeek R1 llama 8B distillation.

    Începerea rulării unui NIM este simplă și necesită doar un clic pe butonul "Start" în AnythingLLM. Modelul va aloca VRAM pe GPU. Apoi în interfața de tip chat poți începe să pui întrebi și să îi dai documente și așa mai departe. Însă te poți duce mai departe. Poți chiar să faci agenți AI. 

    Ce este un agent AI și de ce e important

    Dacă un chatbot bazat pe AI generativ răspunde la o întrebare odată ce este întrebat, agenții AI pot fi priviți ca mici lucrători care merg și fac ceva cu informațiile generate.

    Agenții AI sunt importanți deoarece pot efectua sarcini complexe, bazate pe prompturi, inclusiv:

    • Web Scraping: căutarea informațiilor de pe site-uri.
    • Stocare: Preluarea datelor și stocarea lor într-o bază de date vectorială (memorie pe termen lung).
    • Acțiuni complexe: Scrierea de lucrări sau documente și salvarea lor local pe PC.
    • Utilizarea uneltelor (Skills): AnythingLLM le permite dezvoltatorilor să construiască, să personalizeze și să implementeze skills (abilități) specifice pentru agenți AI, adăugând capabilități precum căutarea pe web, rezumarea documentelor sau generarea de ciorne de email.

    Agenții AI deblochează posibilități nelimitate și sunt considerați următoarea și cea mai cool evoluție în AI.

    Cum am folosit un agent AI cu AnythingLLM

    Am configurat un agent în AnythingLLM prin setările spațiului de lucru. Am folosit instanța locală Ollama ca furnizor LLM pentru agent. Am activat următoarele abilități (skills) ale agentului:

    • RAG (Generare Augmentată prin Recuperare) și Memorie pe termen lung.
    • Web Scraping/Web Search (necesită o cheie API Google - pe care o poți obține ușor cu câteva clickuri după o căutare pe Google).
    • Calendar Event și BBC News Feed (descărcate din Community Hub-ul AnythingLLM).

    Eu nu am făcut nimic complicat cu agentul AI și m-am folosit de skillurile create de comunitatea AnythingLLM pentru a ruga AI-ul să-mi adauge meetinguri în calendarul Google sau pentru a îmi afișa cele mai recente știri de pe site-ul BBC. 

    Poți face chestii mult mai complexe și-l poți ruga să ia informații de pe un site, apoi să-ți genereze un text și să facă un draft de email în care tu să-i contactezi și să-ți oferi serviciile de copywriting, de exemplu. 

    Agenții AI pot automatiza tot felul de sarcini de cercetare, analiză și comunicare.

    Evoluția AI-ului local, accelerată de instrumente precum AnythingLLM și Ollama, permite utilizatorilor să ruleze modele puternice în mod privat și eficient. GPU-urile NVIDIA RTX, optimizate prin Tensor Cores și suport pentru framework-uri cheie (llama.cpp, GGML), oferă performanța necesară pentru a face ca această experiență să fie rapidă și fluidă.

    Introducerea microserviciilor NVIDIA NIM simplifică și mai mult procesul, oferind modele complete și optimizate, rulând cu o viteză mare pe hardware-ul pe care îl deții deja.

    În cele din urmă, utilizarea agenților AI prin AnythingLLM transformă LLM-urile din simple chatbot-uri în „lucrători” capabili să efectueze acțiuni complexe, cum ar fi web scraping-ul, stocarea în memorie pe termen lung și redactarea de documente, deblocând un potențial imens pentru îmbunătățirea fluxurilor de lucru personale și profesionale. 



    Citeste si