La latence n'est pas qu'un indicateur technique. C'est l'expérience utilisateur, la productivité des équipes, et souvent la faisabilité même de certains cas d'usage. Une étude récente révèle que dans un système RAG typique, la composante réseau représente 41 à 47 % de la latence totale avant la génération du premier token. arXiv Éliminer cette composante par un déploiement local ne double pas la performance — mais dans certaines configurations, cela s'en approche.

Comprendre où se situent les goulots d'étranglement d'un système RAG permet de prendre des décisions d'architecture éclairées. Ce n'est pas toujours le local qui gagne. Mais quand il gagne, l'avantage est souvent décisif.

Décomposition de la latence RAG

Un système RAG exécute trois étapes principales : vectorisation de la requête, recherche dans la base vectorielle, et génération de la réponse par le LLM. Chaque étape contribue à la latence finale.

La vectorisation de la requête utilisateur prend typiquement 10 à 50 millisecondes, selon le modèle d'embeddings utilisé. Cette étape est rarement le goulot d'étranglement.

La recherche vectorielle dépend de la taille de la base, de l'algorithme d'indexation, et du matériel. Avec un algorithme HNSW correctement configuré, on atteint 95 % de rappel à 1 200 requêtes par seconde pour des embeddings de 768 dimensions. Medium La latence P99 d'une requête Qdrant sur une base de taille moyenne reste sous la milliseconde. Medium

La génération LLM constitue généralement le poste dominant. Le temps jusqu'au premier token (TTFT) varie considérablement selon les modèles et les modes de déploiement. En cloud, GPT-4.1 affiche un TTFT d'environ 500 ms ; Claude 3 Opus atteint 1,17 seconde. AIMultiple En local sur un A100 avec TensorRT-LLM, Mistral 7B génère son premier token en moins de 100 ms.

Benchmarks cloud vs local : les chiffres réels

Les performances des API cloud ont progressé, mais restent structurellement limitées par la latence réseau. Un aller-retour typique entre un client européen et les serveurs OpenAI ou Anthropic ajoute 50 à 200 ms avant même le début du traitement.

ConfigurationTokens/secondeTTFTNotesGPT-4o (API cloud)80-90~500 msVariable selon chargeClaude 3 Opus (API cloud)~50-70~1 170 msModèle raisonnementMistral 7B (A100, TensorRT-LLM)93,6<100 msLocal optimiséMistral 7B (RTX 4090, GGUF Q4)82<50 msConsumer GPULLaMA 3.3 70B (H100, vLLM)~150<200 msMulti-GPU local

Le débit brut (tokens par seconde) des solutions locales optimisées rivalise désormais avec les API cloud. Mais c'est sur le TTFT que l'avantage local devient flagrant : la suppression de la latence réseau permet d'atteindre des temps de réponse 2 à 10 fois plus rapides pour le premier token.

L'effet composé dans les architectures RAG avancées

Les systèmes RAG modernes ne font pas qu'une seule requête au LLM. Le re-ranking neuronal, la génération augmentée multi-documents, ou les agents conversationnels impliquent souvent trois à dix appels LLM pour une seule interaction utilisateur.

Prenons un assistant de recherche documentaire qui récupère 20 documents, les re-rank via un modèle cross-encoder, extrait les passages pertinents, puis génère une synthèse. Avec une latence cloud de 500 ms par appel, le temps total dépasse facilement 3 à 5 secondes. En local, la même chaîne s'exécute en moins d'une seconde.

Une recherche publiée en décembre 2024 (arXiv 2412.11854) montre que les stratégies de re-retrieval agressif peuvent pousser la latence RAG jusqu'à 30 secondes en configuration cloud. Les composants spécifiques au RAG (retrieval + préfill) représentent alors 97 % du temps total. L'optimisation locale de ces composants devient critique.

Techniques d'optimisation : quantification et inférence

Les progrès en optimisation d'inférence ont démocratisé le déploiement local. Trois techniques méritent attention.

La quantification réduit la précision des poids du modèle pour diminuer l'empreinte mémoire et accélérer l'inférence. CoralogixScaleway Les formats GPTQ et AWQ (4 bits) réduisent la consommation VRAM de 75 % avec une perte de qualité minime — environ 4 % sur les benchmarks de raisonnement. LessWrong Le format GGUF, optimisé pour les CPU, permet de faire tourner des modèles 7B sur du matériel grand public. Medium

Les moteurs d'inférence spécialisés font une différence majeure. vLLM 0.6.0 atteint 4 741 tokens par seconde à 100 utilisateurs concurrents, soit 2,7× plus que la version précédente. TensorRT-LLM de NVIDIA offre les meilleures performances brutes sur matériel propriétaire. Northflank LMDeploy excelle en génération continue.

MoteurPoints fortsPerformance @100 usersvLLMMeilleur TTFT, scalabilité4 741 tok/sTensorRT-LLMPerformance brute maximaleOptimal batch=1SGLangLatence stable460 tok/s @batch 64LMDeployGénération continue700 tok/s

La mise en cache sémantique constitue la troisième optimisation majeure. Redis ou les caches intégrés aux bases vectorielles permettent de servir des requêtes similaires sans réinvoquer le LLM. Coralogix Les systèmes de production bien optimisés atteignent des taux de cache de 20 à 40 %, réduisant d'autant la charge d'inférence.

Performances des bases vectorielles : le sous-évalué

La base vectorielle est souvent le parent pauvre de l'optimisation RAG. Pourtant, les écarts de performance entre solutions sont considérables.

Qdrant domine les benchmarks récents avec 626 requêtes par seconde à 99,5 % de rappel, et une latence P99 sous la milliseconde pour les bases de taille moyenne. Sa gestion des filtres de métadonnées n'impose que 10 % de surcoût en latence, contre 30 à 50 % pour les concurrents.

Milvus excelle sur les très grands volumes (100+ millions de vecteurs) avec une latence constante sous les 2 ms.

pgvectorscale, extension PostgreSQL, offre un compromis intéressant : 1,5× le débit de Pinecone à 1,4× moins de latence, pour les organisations déjà équipées en PostgreSQL.

ChromaDB, populaire pour le prototypage, voit ses performances s'effondrer au-delà du million de vecteurs — à éviter en production.


Les limites réelles du déploiement local

L'honnêteté impose de reconnaître les contraintes du local. La taille des modèles accessibles dépend directement de la VRAM disponible. Un modèle 70B en FP16 requiert 140 Go de VRAM — soit deux H100 à 80 Go ou une configuration multi-GPU coûteuse. La quantification permet de réduire à 35-40 Go, mais avec une légère dégradation qualitative.

Le délai d'accès aux nouveaux modèles pénalise le local. GPT-4o était disponible en API des mois avant que des équivalents open source n'atteignent des performances comparables. Pour les entreprises dont l'avantage concurrentiel repose sur les capacités de pointe, ce décalage peut être rédhibitoire.

La scalabilité horizontale exige une expertise significative. Orchestrer plusieurs serveurs d'inférence via Kubernetes, gérer le load balancing, maintenir la cohérence des modèles déployés : ces tâches sont triviales en cloud, complexes en local.

Enfin, la maintenance opérationnelle consomme des ressources. TensorRT-LLM, performant mais complexe, peut nécessiter des semaines d'optimisation par un expert. Ollama, à l'opposé, s'installe en une commande mais n'offre pas les mêmes performances.

Quand le local s'impose, quand le cloud reste pertinent

Le déploiement local est techniquement optimal dans trois scénarios :

  1. Applications temps réel exigeant moins de 100 ms de latence totale — chatbots intégrés dans des processus métier, assistants de travail, interfaces vocales.
  2. Charges prévisibles et soutenues de plus de 10 000 requêtes quotidiennes avec des patterns réguliers — l'économie d'échelle justifie l'investissement.
  3. Contraintes de bande passante dans des environnements déconnectés ou à connectivité limitée — sites industriels, navires, zones rurales.

Le cloud conserve l'avantage pour les charges variables (pics imprévisibles), les phases d'expérimentation (tester rapidement différents modèles), et les organisations sans expertise MLOps interne.

Recommandation stratégique

La performance locale n'est pas automatique — elle s'obtient par une architecture soignée, des choix technologiques informés, et une optimisation continue. Une RTX 4090 mal configurée sera plus lente qu'une API GPT-4o bien utilisée.

Mais pour les entreprises prêtes à investir dans les compétences et l'infrastructure, le gain potentiel est substantiel : latence divisée par deux à dix, coûts maîtrisés, et capacité à optimiser chaque composant de la chaîne. Dans un monde où l'IA devient un avantage concurrentiel, cette maîtrise technique peut faire la différence.