Abonează-te pe YouTube
Fii primul care vede review-urile și cele mai interesante noutăți din domeniul tehnologiei și inovației.
Vezi în avanpremieră
Potrivit 9to5Mac, FS-DFM atinge această eficiență reducând numărul de pași și crescând rafinarea la fiecare etapă.
Cum funcționează FS-DFM și ce aduce nou
Modelul FS-DFM se bazează pe principiile modelelor de difuzie, dar elimină procesul iterativ clasic. În loc să genereze text token cu token, algoritmul prezice simultan mai multe tokenuri și le rafinează de-a lungul a opt runde.
Cercetătorii explică trei pași esențiali pentru performanța obținută:
- modelul este antrenat să funcționeze pe bugete diferite de iterații;
- un „teacher model” ghidează actualizările mai ample fără a compromite acuratețea;
- schema de actualizare a fiecărei iterații este modificată pentru a asigura o convergență eficientă.
Comparativ cu modele precum Dream (7 miliarde de parametri) și LLaDA (8 miliarde de parametri), versiunile FS-DFM cu 1,7, 1,3 și 0,17 miliarde de parametri au înregistrat o perplexitate mai mică și o entropie (n. red. rată de erori) mai stabilă în toate testele efectuate.
Echipa Apple și Ohio State a anunțat că va publica în curând codul sursă și fișierele de tip „checkpoint”, pentru a permite reproducerea rezultatelor și extinderea cercetării.
Impactul pentru ecosistemul AI și aplicațiile practice
Prin reducerea semnificativă a timpului necesar pentru generarea textului, Apple aduce o inovație importantă în competiția dintre modelele lingvistice. Deși soluții precum ChatGPT folosesc arhitecturi autoregresive performante, FS-DFM ar putea deveni atractiv pentru aplicații ce necesită latență scăzută, precum asistenți virtuali sau sisteme de completare rapidă a textului.
Modelul promite eficiență crescută și un consum redus de resurse, însă introducerea lui în producție la scară largă va depinde de performanțele de generalizare, de costurile de inferență și de compatibilitatea cu infrastructurile AI existente.