Dodici tecnologie che insieme coprono l'intero ciclo: serving, RAG, vector storage, observability, guardrail. Scegli quello che serve — sostituibile in qualsiasi momento.
Server LLM ad alto throughput: PagedAttention, continuous batching, tensor parallel, API OpenAI-compatibile.
Ollama per dev/PoC rapidi, TGI di HuggingFace per produzione enterprise. Entrambi girano su GPU commodity.
Llama 3.3 70B per IT/EN, Mistral 8x22B per ragionamento, Qwen 2.5 32B per codice, Phi-4 per edge. Tutti open-weights, deployabili on-prem.
Qdrant per ANN su larga scala, Weaviate per ricerca ibrida, pgvector quando Postgres c'è già. Filtered search + ACL nativo.
Modelli embedding multilingua (IT/EN/multi) sullo stesso GPU pool. Mai una chiamata a OpenAI text-embedding-3.
Composizione pipeline per RAG, agenti, tool-use. LlamaIndex brilla su document understanding, LangChain su agent loops.
PII redaction in ingestione, filtri anti prompt-injection, validazione schema output, policy di rifiuto. Compliance-grade.
Trace di ogni prompt, retrieval, completion. Dashboard costo e latenza, dataset di eval, versioning prompt. Self-hosted.
Retrieval-Augmented Generation: invece di stipare la conoscenza dentro il modello (costoso, opaco, soggetto a leak), recuperiamo i passaggi giusti al momento della query e lasciamo che l'LLM sintetizzi una risposta ancorata a fonti citabili.
I documenti vengono parsati (OCR per scansioni), spezzati in chunk da 512–1024 token con overlap semantico. PII redatte, ACL taggate.
Ogni chunk diventa un vettore 1024-d via BGE-M3. Stesso modello in query: i vettori sono direttamente confrontabili.
In query, la domanda viene embeddata, il vector DB restituisce top-K (tipicamente 20). Hybrid search unisce BM25 keyword + ANN semantico.
Un cross-encoder (bge-reranker-v2) ri-valuta i top-20 contro la query. Top-5 raggiungono l'LLM. Taglia drasticamente le allucinazioni.
L'LLM riceve domanda + top-5 passaggi + prompt rigoroso: rispondere solo dalle fonti, citare ogni affermazione. Il guardrail valida il formato di citazione.
Stesso stack software — stessa pipeline RAG, stessi modelli — diversi confini operativi. Spostarsi tra le opzioni senza riscrivere codice.
Sovranità massima. Il dato non esce mai dal tuo firewall. Progettiamo, forniamo, installiamo e operiamo il nodo GPU — oppure consegniamo runbook e SLA.
Pool GPU gestito da noi, in MI / MO / RM. Pagamento per token o per ora-GPU. Legge italiana, DPO italiano, audit a richiesta. CapEx più basso dell'on-prem, stessa postura privacy.
Quando serve elasticità oltre la capacità on-prem, ma vuoi mantenere la giurisdizione europea. Provider scelti per postura GDPR, zero esposizione al Cloud Act, data plane solo EU.
Le garanzie privacy che scriviamo in ogni SoW. Se non possiamo onorarne una, lo diciamo prima di firmare.
Nessuna chiamata a OpenAI, Anthropic, Google. Modelli, embeddings, reranker — tutto sulle GPU che controlli tu.
At-rest (LUKS / Ceph), in-transit (mTLS), at-vector (snapshot Qdrant cifrati). Chiavi in HashiCorp Vault, mai nel codice.
I documenti portano i permessi fino in fondo. Un utente recupera solo quello che ha titolo di vedere — anche se il documento è nell'indice.
Ogni query, retrieval, completion loggato con utente, prompt, fonti, modello, latenza. Esportabile per compliance.
Giurisdizione italiana o EU by design. Zero esposizione Cloud Act, zero rischio di subpoena extraterritoriale. DC e rack nominabili a richiesta.
Cancella un documento e i suoi embedding spariscono dall'indice in secondi. GDPR Art. 17 implementato come codice, non come policy.
› retrieve("normativa antiriciclaggio interna 2025") › hits = 14 · top score 0.91 › documents: - circolare-AML-2025-03.pdf · §4.2 - procedura-KYC-rev17.docx · §1 - manuale-compliance-3.pdf · cap. 7 › generate(model="llama-3.1-70b-instruct", context=retrieved, guardrails="strict-citations") › tokens: 412 · ttf 0.4s · GPU L40S · in EU-IT-MO