Modelul, numit s1, atinge performanțe similare cu modele de ultimă generație, precum o1 alde la OpenAI și R1 de la DeepSeek, în teste care evaluează abilități matematice și de programare.

Modelul s1 este disponibil pe GitHub, împreună cu datele și codul utilizate pentru antrenare, conform TechCrunch.

Cum a fost creat modelul AI s1

Echipa din spatele s1 a început cu un model de bază disponibil gratuit, pe care l-a perfecționat prin distillation (distilare), un proces prin care capacitățile de raționament ale unui alt model AI sunt extrase pentru a antrena noul model pe baza răspunsurilor date.

Cercetătorii afirmă că s1 a folosit distilarea cu unul dintre modelele Google, Gemini 2.0 Flash Thinking Experimental. Aceeași tehnică a fost folosită luna trecută de cercetătorii de la Berkeley pentru a crea un model de raționament AI cu aproximativ 450 de dolari.

Dezvoltare s1 prin comanda ”așteaptă”

Cercetătorii din spatele s1 au încercat să găsească cea mai simplă metodă de a obține performanțe bune de ”scalare în timpul testării”, adică capacitatea unui model AI de a ”gândi” mai mult înainte de a răspunde la o întrebare, pentru a asigura un răspuns mai complex și corect.

Studiul despre s1 sugerează că modelele AI raționale pot fi distilate cu un set de date relativ mic folosind un proces numit ”fine-tuning supravegheat” (SFT), în care un model AI este instruit să imite explicit anumite comportamente dintr-un set de date.

SFT este mai ieftin decât metoda de învățare prin consolidare la scară largă pe care DeepSeek, spre exemplu, a folosit-o pentru a antrena modelul său R1.

Antrenarea lui s1 a durat mai puțin de 30 de minute, folosind 16 unități GPU Nvidia H100.

Acesta este bazat pe un model AI de mici dimensiuni, dezvoltat de laboratorul chinez Qwen, deținut de Alibaba, și disponibil gratuit pentru descărcare. Pentru a antrena s1, cercetătorii au creat un set de date cu doar 1.000 de întrebări, împreună cu răspunsurile acestora și procesul de ”gândire” asociat fiecărui răspuns, obținut de la Gemini 2.0 Flash Thinking Experimental al Google.

Cercetătorii au folosit un truc pentru a determina s1 să-și verifice propriile răspunsuri și să își prelungească timpul de gândire: i-au spus să aștepte. Adăugarea cuvântului ”așteaptă” în raționamentul lui s1 l-a ajutat să ofere răspunsuri ușor mai precise, spune studiul publicat de aceștia.