Clodino — AI privata & sovrana

Lo stack

Open-source maturo, nessun lock-in proprietario.

Dodici tecnologie che insieme coprono l'intero ciclo: serving, RAG, vector storage, observability, guardrail. Scegli quello che serve — sostituibile in qualsiasi momento.

Serving · GPU

vLLM

Server LLM ad alto throughput: PagedAttention, continuous batching, tensor parallel, API OpenAI-compatibile.

PagedAttentionCUDA · ROCmOpenAI API

Serving · easy

Ollama · TGI

Ollama per dev/PoC rapidi, TGI di HuggingFace per produzione enterprise. Entrambi girano su GPU commodity.

Llama.cppTGIgguf · awq

Modelli open-weights

Llama · Mistral · Qwen

Llama 3.3 70B per IT/EN, Mistral 8x22B per ragionamento, Qwen 2.5 32B per codice, Phi-4 per edge. Tutti open-weights, deployabili on-prem.

Llama 3.3MistralQwen 2.5Phi-4

Vector store

Qdrant · Weaviate · pgvector

Qdrant per ANN su larga scala, Weaviate per ricerca ibrida, pgvector quando Postgres c'è già. Filtered search + ACL nativo.

HNSWACLencrypted

Embeddings

BGE-M3 · mxbai · E5

Modelli embedding multilingua (IT/EN/multi) sullo stesso GPU pool. Mai una chiamata a OpenAI text-embedding-3.

BGE-M3mxbai-lmultilingual-e5

Orchestrazione

LangChain · LlamaIndex

Composizione pipeline per RAG, agenti, tool-use. LlamaIndex brilla su document understanding, LangChain su agent loops.

LangGraphLlamaParseDSPy

Guardrail · safety

Guardrails · NeMo · Presidio

PII redaction in ingestione, filtri anti prompt-injection, validazione schema output, policy di rifiuto. Compliance-grade.

PresidioNeMo GuardrailsLlama Guard

LLM observability

Langfuse · OpenLLMetry

Trace di ogni prompt, retrieval, completion. Dashboard costo e latenza, dataset di eval, versioning prompt. Self-hosted.

LangfuseOTelPhoenix

RAG, spiegato

Il modello non conosce la tua azienda. RAG glielo insegna — query per query.

Retrieval-Augmented Generation: invece di stipare la conoscenza dentro il modello (costoso, opaco, soggetto a leak), recuperiamo i passaggi giusti al momento della query e lasciamo che l'LLM sintetizzi una risposta ancorata a fonti citabili.

La pipeline a cinque stadi

01

Ingestion & chunking

I documenti vengono parsati (OCR per scansioni), spezzati in chunk da 512–1024 token con overlap semantico. PII redatte, ACL taggate.

02

Embedding

Ogni chunk diventa un vettore 1024-d via BGE-M3. Stesso modello in query: i vettori sono direttamente confrontabili.

03

Retrieval

In query, la domanda viene embeddata, il vector DB restituisce top-K (tipicamente 20). Hybrid search unisce BM25 keyword + ANN semantico.

04

Reranking

Un cross-encoder (bge-reranker-v2) ri-valuta i top-20 contro la query. Top-5 raggiungono l'LLM. Taglia drasticamente le allucinazioni.

05

Generazione con citazioni

L'LLM riceve domanda + top-5 passaggi + prompt rigoroso: rispondere solo dalle fonti, citare ogni affermazione. Il guardrail valida il formato di citazione.

Perché RAG batte il fine-tuning sulla conoscenza aziendale

Aggiornamento in secondi. Aggiungi un documento, lo re-embeddi, è interrogabile. Il fine-tuning richiede ore e GPU.
Tracciabile. Ogni risposta arriva con le fonti. Auditabile, difendibile davanti a un DPO o un giudice.
Permission-aware. I tag ACL si propagano al retrieval: HR vede HR, finanza vede finanza. Un modello fine-tuned mischia tutto.
Nessun rischio di esfiltrazione. Il modello non memorizza i tuoi dati — li vede solo in inferenza, poi li dimentica.
Più economico. Fine-tunare un 70B costa 5-50k€ a run. L'ingestion RAG costa 100€ di GPU-ore.

“Il fine-tuning ha il suo posto — per tono, formato, ragionamenti molto specifici. Per la conoscenza aziendale: RAG. Sempre.”

Dove gira

Tre modelli di deployment. Tu scegli il livello di sovranità.

Stesso stack software — stessa pipeline RAG, stessi modelli — diversi confini operativi. Spostarsi tra le opzioni senza riscrivere codice.

01 / 03 On-prem · DC tuo

Server GPU nel tuo datacenter.

Sovranità massima. Il dato non esce mai dal tuo firewall. Progettiamo, forniamo, installiamo e operiamo il nodo GPU — oppure consegniamo runbook e SLA.

Dell PowerEdge R760xa · 2× L40S (48GB) o 4× L40S
Supporta modelli 8B–70B con quantizzazione INT4
Install air-gap supportato · zero egress internet
Lifecycle hw gestito · firmware · stack CUDA

Sovranità100 %

02 / 03 Clodino Cloud · sovrano IT

GPU as a service, dalle nostre region italiane.

Pool GPU gestito da noi, in MI / MO / RM. Pagamento per token o per ora-GPU. Legge italiana, DPO italiano, audit a richiesta. CapEx più basso dell'on-prem, stessa postura privacy.

Pool NVIDIA L40S / H100 · tenant isolato o condiviso
Region MI / MO / RM · società IT, datacenter IT
Whitelist egress · zero traffico verso cloud USA
GDPR · NIS2 · ISO 27001 · DORA-ready

Sovranità100 % · IT

03 / 03 Public cloud europeo

OVH · Scaleway · IONOS · Hetzner · Open Telekom.

Quando serve elasticità oltre la capacità on-prem, ma vuoi mantenere la giurisdizione europea. Provider scelti per postura GDPR, zero esposizione al Cloud Act, data plane solo EU.

Provider GAIA-X / SecNumCloud certificati
Società madre EU · nessuna esposizione al Cloud Act
Stesso codice Terraform · failover multi-region
Billing GPU orario · scale-to-zero a riposo

Sovranità100 % · EU

I non negoziabili

Sei cose che garantiamo. Contrattualmente.

Le garanzie privacy che scriviamo in ogni SoW. Se non possiamo onorarne una, lo diciamo prima di firmare.

Zero dati verso API USA

Nessuna chiamata a OpenAI, Anthropic, Google. Modelli, embeddings, reranker — tutto sulle GPU che controlli tu.

Cifratura ovunque

At-rest (LUKS / Ceph), in-transit (mTLS), at-vector (snapshot Qdrant cifrati). Chiavi in HashiCorp Vault, mai nel codice.

Retrieval ACL-aware

I documenti portano i permessi fino in fondo. Un utente recupera solo quello che ha titolo di vedere — anche se il documento è nell'indice.

Audit log completo

Ogni query, retrieval, completion loggato con utente, prompt, fonti, modello, latenza. Esportabile per compliance.

Data residency EU

Giurisdizione italiana o EU by design. Zero esposizione Cloud Act, zero rischio di subpoena extraterritoriale. DC e rack nominabili a richiesta.

Diritto all'oblio

Cancella un documento e i suoi embedding spariscono dall'indice in secondi. GDPR Art. 17 implementato come codice, non come policy.

Quando ha senso

Probabilmente ti serve se…

Hai dati riservati (legale, sanitario, finanziario, PA).
Vuoi comunque AI generativa, ma non puoi usare i provider USA.
Vuoi un assistente che conosca davvero la tua azienda, non internet.
Hai requisiti GDPR, NIS2, AI Act da soddisfare in modo dimostrabile.

Cosa facciamo

Concretamente, questo è quello che consegniamo.

Deployment LLM open-weights su GPU dedicate.
Pipeline RAG sui tuoi documenti (ingestion, chunking, retrieval).
Raccolta e curazione dati per fine-tuning specialistico.
Esecuzione su Clodino Cloud o cloud europei GDPR-compliant.
Valutazione, sicurezza prompt, guardrail, observability LLM.

In pratica

Com’è alla tastiera.

rag · query~/clodino

› retrieve("normativa antiriciclaggio interna 2025")
› hits = 14 · top score 0.91
› documents:
  - circolare-AML-2025-03.pdf  · §4.2
  - procedura-KYC-rev17.docx   · §1
  - manuale-compliance-3.pdf   · cap. 7

› generate(model="llama-3.1-70b-instruct",
           context=retrieved,
           guardrails="strict-citations")
› tokens: 412 · ttf 0.4s · GPU L40S · in EU-IT-MO

Output tipico

Quello che ti porti a casa.

Un modello che parla del tuo dominio, non di Wikipedia.
Un’infrastruttura che il tuo DPO può firmare ad occhi chiusi.
Costi GPU prevedibili, indipendenti dal numero di prompt.

“Non ti consegniamo una scatola nera. O prendi tu le operations, o le teniamo noi — ma sai sempre come è fatta.”

PROSSIMO SERVIZIO — 06 / 06

Clodino Cloud

Parla di AI privata & sovrana Continua →