Home / Servizi / AI privata & sovrana
Servizio 06 di 07

AI privata & sovrana

LLM e RAG nei tuoi confini. Nessun dato spedito oltreoceano. Specializzati sulla tua conoscenza aziendale.

vLLMOllamaTGILangChainLlamaIndexQdrantWeaviateLlama 3.3MistralQwen 2.5Phi-4NVIDIA L40S
RAG · privato e sovrano RAG · private and sovereign DATA SOVEREIGNTY BOUNDARY · EU / IT SORGENTI SOURCES SharePoint · Confluence CRM · ERP · ticketing PDF · contratti · email DB Postgres · MySQL S3 · NAS · file share INGESTION PIPELINE crawl · OCR · parse chunk · 512–1024 tok PII redact · ACL tag spaCy · Presidio · regex embed · bge-m3 multilingual · IT/EN delta sync · webhook · cron Qdrant vector store 10M+ chunks · HNSW filtered search · ACL encrypted at rest RAG orchestrator LangChain · LlamaIndex rerank · CrossEncoder prompt · guardrail citation enforce PRIVATE LLM RUNTIME vLLM · TGI · Ollama Llama 3.3 70B · Mistral 8x7B Qwen 2.5 · Phi-4 · Mixtral GPU pool · NVIDIA L40S · H100 tensor parallel · paged attn quantization GPTQ · AWQ embeddings · bge-m3 / mxbai reranker · bge-reranker-v2 App utente · chat · API · plugin User app · chat · API · plugin SSO Keycloak · audit log · rate limit · observability GDPR · NIS2 · AI Act · ISO 27001 · ZERO DATA → OpenAI / Anthropic / Google
Lo stack

Open-source maturo, nessun lock-in proprietario.

Dodici tecnologie che insieme coprono l'intero ciclo: serving, RAG, vector storage, observability, guardrail. Scegli quello che serve — sostituibile in qualsiasi momento.

Serving · GPU

vLLM

Server LLM ad alto throughput: PagedAttention, continuous batching, tensor parallel, API OpenAI-compatibile.

PagedAttentionCUDA · ROCmOpenAI API
Serving · easy

Ollama · TGI

Ollama per dev/PoC rapidi, TGI di HuggingFace per produzione enterprise. Entrambi girano su GPU commodity.

Llama.cppTGIgguf · awq
Modelli open-weights

Llama · Mistral · Qwen

Llama 3.3 70B per IT/EN, Mistral 8x22B per ragionamento, Qwen 2.5 32B per codice, Phi-4 per edge. Tutti open-weights, deployabili on-prem.

Llama 3.3MistralQwen 2.5Phi-4
Vector store

Qdrant · Weaviate · pgvector

Qdrant per ANN su larga scala, Weaviate per ricerca ibrida, pgvector quando Postgres c'è già. Filtered search + ACL nativo.

HNSWACLencrypted
Embeddings

BGE-M3 · mxbai · E5

Modelli embedding multilingua (IT/EN/multi) sullo stesso GPU pool. Mai una chiamata a OpenAI text-embedding-3.

BGE-M3mxbai-lmultilingual-e5
Orchestrazione

LangChain · LlamaIndex

Composizione pipeline per RAG, agenti, tool-use. LlamaIndex brilla su document understanding, LangChain su agent loops.

LangGraphLlamaParseDSPy
Guardrail · safety

Guardrails · NeMo · Presidio

PII redaction in ingestione, filtri anti prompt-injection, validazione schema output, policy di rifiuto. Compliance-grade.

PresidioNeMo GuardrailsLlama Guard
LLM observability

Langfuse · OpenLLMetry

Trace di ogni prompt, retrieval, completion. Dashboard costo e latenza, dataset di eval, versioning prompt. Self-hosted.

LangfuseOTelPhoenix
RAG, spiegato

Il modello non conosce la tua azienda. RAG glielo insegna — query per query.

Retrieval-Augmented Generation: invece di stipare la conoscenza dentro il modello (costoso, opaco, soggetto a leak), recuperiamo i passaggi giusti al momento della query e lasciamo che l'LLM sintetizzi una risposta ancorata a fonti citabili.

La pipeline a cinque stadi

01
Ingestion & chunking

I documenti vengono parsati (OCR per scansioni), spezzati in chunk da 512–1024 token con overlap semantico. PII redatte, ACL taggate.

02
Embedding

Ogni chunk diventa un vettore 1024-d via BGE-M3. Stesso modello in query: i vettori sono direttamente confrontabili.

03
Retrieval

In query, la domanda viene embeddata, il vector DB restituisce top-K (tipicamente 20). Hybrid search unisce BM25 keyword + ANN semantico.

04
Reranking

Un cross-encoder (bge-reranker-v2) ri-valuta i top-20 contro la query. Top-5 raggiungono l'LLM. Taglia drasticamente le allucinazioni.

05
Generazione con citazioni

L'LLM riceve domanda + top-5 passaggi + prompt rigoroso: rispondere solo dalle fonti, citare ogni affermazione. Il guardrail valida il formato di citazione.

Perché RAG batte il fine-tuning sulla conoscenza aziendale

  • Aggiornamento in secondi. Aggiungi un documento, lo re-embeddi, è interrogabile. Il fine-tuning richiede ore e GPU.
  • Tracciabile. Ogni risposta arriva con le fonti. Auditabile, difendibile davanti a un DPO o un giudice.
  • Permission-aware. I tag ACL si propagano al retrieval: HR vede HR, finanza vede finanza. Un modello fine-tuned mischia tutto.
  • Nessun rischio di esfiltrazione. Il modello non memorizza i tuoi dati — li vede solo in inferenza, poi li dimentica.
  • Più economico. Fine-tunare un 70B costa 5-50k€ a run. L'ingestion RAG costa 100€ di GPU-ore.
“Il fine-tuning ha il suo posto — per tono, formato, ragionamenti molto specifici. Per la conoscenza aziendale: RAG. Sempre.”
Dove gira

Tre modelli di deployment. Tu scegli il livello di sovranità.

Stesso stack software — stessa pipeline RAG, stessi modelli — diversi confini operativi. Spostarsi tra le opzioni senza riscrivere codice.

01 / 03 On-prem · DC tuo

Server GPU nel tuo datacenter.

Sovranità massima. Il dato non esce mai dal tuo firewall. Progettiamo, forniamo, installiamo e operiamo il nodo GPU — oppure consegniamo runbook e SLA.

  • Dell PowerEdge R760xa · 2× L40S (48GB) o 4× L40S
  • Supporta modelli 8B–70B con quantizzazione INT4
  • Install air-gap supportato · zero egress internet
  • Lifecycle hw gestito · firmware · stack CUDA
Sovranità100 %
03 / 03 Public cloud europeo

OVH · Scaleway · IONOS · Hetzner · Open Telekom.

Quando serve elasticità oltre la capacità on-prem, ma vuoi mantenere la giurisdizione europea. Provider scelti per postura GDPR, zero esposizione al Cloud Act, data plane solo EU.

  • Provider GAIA-X / SecNumCloud certificati
  • Società madre EU · nessuna esposizione al Cloud Act
  • Stesso codice Terraform · failover multi-region
  • Billing GPU orario · scale-to-zero a riposo
Sovranità100 % · EU
I non negoziabili

Sei cose che garantiamo. Contrattualmente.

Le garanzie privacy che scriviamo in ogni SoW. Se non possiamo onorarne una, lo diciamo prima di firmare.

Zero dati verso API USA

Nessuna chiamata a OpenAI, Anthropic, Google. Modelli, embeddings, reranker — tutto sulle GPU che controlli tu.

Cifratura ovunque

At-rest (LUKS / Ceph), in-transit (mTLS), at-vector (snapshot Qdrant cifrati). Chiavi in HashiCorp Vault, mai nel codice.

Retrieval ACL-aware

I documenti portano i permessi fino in fondo. Un utente recupera solo quello che ha titolo di vedere — anche se il documento è nell'indice.

Audit log completo

Ogni query, retrieval, completion loggato con utente, prompt, fonti, modello, latenza. Esportabile per compliance.

Data residency EU

Giurisdizione italiana o EU by design. Zero esposizione Cloud Act, zero rischio di subpoena extraterritoriale. DC e rack nominabili a richiesta.

Diritto all'oblio

Cancella un documento e i suoi embedding spariscono dall'indice in secondi. GDPR Art. 17 implementato come codice, non come policy.

Quando ha senso

Probabilmente ti serve se…

  • Hai dati riservati (legale, sanitario, finanziario, PA).
  • Vuoi comunque AI generativa, ma non puoi usare i provider USA.
  • Vuoi un assistente che conosca davvero la tua azienda, non internet.
  • Hai requisiti GDPR, NIS2, AI Act da soddisfare in modo dimostrabile.

Cosa facciamo

Concretamente, questo è quello che consegniamo.

  • Deployment LLM open-weights su GPU dedicate.
  • Pipeline RAG sui tuoi documenti (ingestion, chunking, retrieval).
  • Raccolta e curazione dati per fine-tuning specialistico.
  • Esecuzione su Clodino Cloud o cloud europei GDPR-compliant.
  • Valutazione, sicurezza prompt, guardrail, observability LLM.

In pratica

Com’è alla tastiera.

rag · query~/clodino
 retrieve("normativa antiriciclaggio interna 2025")
 hits = 14 · top score 0.91
 documents:
  - circolare-AML-2025-03.pdf  · §4.2
  - procedura-KYC-rev17.docx   · §1
  - manuale-compliance-3.pdf   · cap. 7

 generate(model="llama-3.1-70b-instruct",
           context=retrieved,
           guardrails="strict-citations")
 tokens: 412 · ttf 0.4s · GPU L40S · in EU-IT-MO

Output tipico

Quello che ti porti a casa.

  • Un modello che parla del tuo dominio, non di Wikipedia.
  • Un’infrastruttura che il tuo DPO può firmare ad occhi chiusi.
  • Costi GPU prevedibili, indipendenti dal numero di prompt.
“Non ti consegniamo una scatola nera. O prendi tu le operations, o le teniamo noi — ma sai sempre come è fatta.”
PROSSIMO SERVIZIO — 06 / 06

Clodino Cloud

Parla di AI privata & sovrana Continua →