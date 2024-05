L’esecuzione di modelli linguistici di grandi dimensioni (LLM) a livello locale può essere estremamente utile, sia che tu voglia provare e testare gli LLM o integrarli in delle app. Ma configurare il tuo ambiente di lavoro e far funzionare i LLM sul tuo computer non è banale. Quindi, come è possibile eseguire LLM localmente senza problemi? È qui che entra in gioco Ollama, una piattaforma che rende lo sviluppo locale con modelli linguistici di grandi dimensioni open source un gioco da ragazzi.

Ollama è uno strumento basato su riga di comando (esistono strumenti per avere una UI semplice e piacevole in stile ChatGPT) per il download e l’esecuzione di LLM open source come Llama 3, Phi-3, Mistral, Google Gemma e altri. Semplifica la gestione i pesi dei modelli, le configurazioni e i set di dati in un unico pacchetto controllato da un Modelfile. Tutto quello che devi fare è eseguire alcuni comandi per installare i LLM open source supportati sul tuo sistema e utilizzarli.

Ollama stesso è open source e consente una perfetta integrazione con un modello linguistico localmente o dal tuo server. Ollama funziona perfettamente su Windows, Mac e Linux. Chiaramente, in base al modello LLM che si sceglie, necessita di una potenza hardware differente (i modelli da 7B possono essere eseguito anche con una iGPU AMD 780M e 8 GB di RAM).



Scaricare Ollama

Come primo passo, devi scaricare Ollama sul tuo computer.

Per eseguire il download, puoi visitare il repository GitHub ufficiale e seguire i collegamenti per il download. Oppure visita il sito Web ufficiale e scarica il programma di installazione se utilizzi un computer Mac o Windows. In alternativa, su Linux puoi usare il terminale e digitare il seguente comando:

curl -fsSL https://ollama.com/install.sh | sh

Il processo di installazione richiede in genere alcuni minuti. Durante il processo di installazione, qualsiasi GPU NVIDIA/AMD verrà rilevata automaticamente, così come le NPU ufficialmente supportate nei processori Intel e AMD.

Scaricare e usare i modelli LLM

Successivamente, puoi visitare la libreria dei modelli per controllare l’elenco di tutti gli LLM attualmente supportati. Il modello predefinito scaricato è quello con il tag latest . Nella pagina di ciascun modello è possibile ottenere maggiori informazioni come la dimensione e la quantizzazione utilizzata.

Puoi cercare nell’elenco dei tag per individuare il modello che desideri eseguire. Per ciascuna famiglia di modelli, in genere esistono modelli fondamentali di diverse dimensioni e varianti ottimizzate per le istruzioni. Uno dei modelli più popolari scaricati in questo momento è Llama 3 di Meta.

Per scaricare effettivamente il modello, devi aprire il terminale (CMD su Windows) ed eseguirlo utilizzando il comando ollama run "nomemodello" . La prima volta che lo esegui verrà inizializzato il download prima di poter iniziare a interagire direttamente con il modello.

Modelli Parametri Dimensioni Comando Llama 3 8B 4.7GB ollama run llama3 Llama 3 70B 40GB ollama run llama3:70b Phi-3 3.8B 2.3GB ollama run phi3 Mistral 7B 4.1GB ollama run mistral Neural Chat 7B 4.1GB ollama run neural-chat Starling 7B 4.1GB ollama run starling-lm Code Llama 7B 3.8GB ollama run codellama Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored LLaVA 7B 4.5GB ollama run llava Gemma 2B 1.4GB ollama run gemma:2b Gemma 7B 4.8GB ollama run gemma:7b Solar 10.7B 6.1GB ollama run solar

L’utilizzo base avviene attraverso il terminale. Basta digitare il prompt e attendere che il modello LLM dia una risposta.

In una prossima guida vi mostrerò come utilizzare un server web per eliminare la necessità del terminale e sfruttare una UI molto semplice e pulita derivata da quella di ChatGPT.