L’intelligenza artificiale cinese DeepSeek scuote il mondo della tecnologia con modelli AI efficienti e competitivi

L’azienda cinese di intelligenza artificiale DeepSeek ha provocato una vera e propria onda d’urto nella comunità tecnologica con la diffusione di modelli AI estremamente efficienti, in grado di competere con i prodotti all’avanguardia di aziende statunitensi come OpenAI e Anthropic.

Fondata nel 2023, DeepSeek ha raggiunto questi risultati utilizzando una frazione delle risorse finanziarie e della potenza di calcolo dei suoi concorrenti.

Il modello R1, specializzato nel “ragionamento” e lanciato la scorsa settimana, ha suscitato entusiasmo tra i ricercatori, sconcerto tra gli investitori e reazioni da parte dei giganti dell’AI. Il 28 gennaio, l’azienda ha replicato con un modello in grado di elaborare sia immagini che testo.

Ma cosa ha fatto esattamente DeepSeek, e come ci è riuscita?

Cosa ha fatto DeepSeek

A dicembre, DeepSeek ha presentato il suo modello V3, un potente “large language model” (LLM) standard che performa a livelli simili a GPT-4o di OpenAI e Claude 3.5 di Anthropic. Sebbene questi modelli siano soggetti a errori e talvolta inventino fatti, sono in grado di svolgere compiti come rispondere a domande, scrivere saggi e generare codici informatici. In alcuni test di problem solving e ragionamento matematico, ottengono risultati migliori rispetto alla media degli esseri umani.

Il modello V3 è stato addestrato con un costo stimato di circa 5,58 milioni di dollari, una cifra drasticamente inferiore rispetto ai 100 milioni di dollari spesi per sviluppare GPT-4. Inoltre, DeepSeek afferma di aver addestrato V3 utilizzando circa 2.000 chip specializzati, in particolare GPU H800 di NVIDIA, rispetto ai 16.000 chip H100 (più potenti) utilizzati da altre aziende.

Il 20 gennaio, DeepSeek ha presentato un altro modello, chiamato R1, definito “di ragionamento”. Questo modello cerca di risolvere problemi complessi passo dopo passo, dimostrandosi più efficace in compiti che richiedono contesto e hanno molteplici parti interconnesse, come la comprensione del testo e la pianificazione strategica.

Il modello R1 è una versione ottimizzata del V3, modificata attraverso una tecnica chiamata "apprendimento per rinforzo". R1 sembra funzionare a un livello simile a o1 di OpenAI, uscito lo scorso anno.

DeepSeek ha utilizzato la stessa tecnica per creare versioni "ragionanti" di piccoli modelli open-source, capaci di funzionare su computer domestici.

Questa novità ha scatenato un'enorme ondata di interesse per DeepSeek, aumentando la popolarità della sua app chatbot basata su V3 e innescando un crollo significativo delle azioni tecnologiche, poiché gli investitori stanno riconsiderando l'intero settore dell'IA. In pochissimi giorni, il produttore di chip NVIDIA ha perso circa 600 miliardi di dollari di valore in borsa.

Come DeepSeek ci è riuscita

I progressi di DeepSeek si basano su una maggiore efficienza: ottenere risultati di qualità utilizzando meno risorse. In particolare, gli sviluppatori di DeepSeek hanno introdotto due tecniche innovative che potrebbero essere adottate più ampiamente dai ricercatori di intelligenza artificiale.

La prima riguarda un concetto matematico chiamato “sparsità”. I modelli di intelligenza artificiale hanno un numero enorme di parametri che determinano le risposte agli input (il modello V3 ne ha circa 671 miliardi), ma solo una piccola parte di questi viene effettivamente utilizzata per un determinato input.

Prevedere quali parametri saranno necessari, tuttavia, non è semplice. DeepSeek ha sviluppato una nuova tecnica per identificarli e ha addestrato solo quei parametri. Questo ha permesso ai suoi modelli di richiedere molto meno addestramento rispetto a un approccio convenzionale.

Il secondo trucco riguarda il modo in cui V3 memorizza le informazioni nella memoria del computer. DeepSeek ha trovato un modo ingegnoso per comprimere i dati rilevanti, rendendoli più facili da archiviare, e accedere rapidamente.

Il significato

I modelli e le tecniche di DeepSeek sono stati rilasciati sotto la licenza libera MIT, il che significa che chiunque può scaricarli e modificarli.

Se da un lato questa potrebbe essere una cattiva notizia per alcune aziende di intelligenza artificiale – i cui profitti potrebbero essere compromessi dall’esistenza di modelli potenti e gratuiti – dall’altro rappresenta un'ottima notizia per la comunità di ricerca sull’IA.

Al momento, gran parte della ricerca sull’intelligenza artificiale richiede l’accesso a enormi quantità di risorse computazionali. Ricercatori che operano presso università o al di fuori delle grandi aziende tecnologiche, hanno spesso risorse limitate per condurre test ed esperimenti. Modelli e tecniche più efficienti cambiano le carte in tavola. La sperimentazione e lo sviluppo potrebbero ora diventare significativamente più accessibili per questi ultimi.

Per i consumatori, l'accesso all'IA potrebbe diventare anche più economico. Un numero crescente di modelli di intelligenza artificiale potrebbe essere eseguito direttamente sui dispositivi degli utenti, come laptop o smartphone, anziché "nel cloud" tramite un abbonamento a pagamento.

Per i ricercatori che dispongono già di molte risorse, l'incremento di efficienza potrebbe avere un impatto minore. Non è ancora chiaro se l'approccio di DeepSeek contribuirà a creare modelli con prestazioni complessivamente migliori o semplicemente modelli più efficienti.

 

di Tongliang Liu

Fonte: The Conversation

Pin It

Altrenotizie.org - testata giornalistica registrata presso il Tribunale civile di Roma. Autorizzazione n.476 del 13/12/2006.
Direttore responsabile: Fabrizio Casari - f.casari@altrenotizie.org
Web Master Alessandro Iacuelli
Progetto e realizzazione testata Sergio Carravetta - chef@lagrille.net
Tutti gli articoli sono sotto licenza Creative Commons, pertanto posso essere riportati a condizione di citare l'autore e la fonte.
Privacy Policy | Cookie Policy