Faire tourner des LLM en local : quel serveur GPU bare metal choisir en 2026 ?

Pourquoi faire tourner des modèles en local ?

L'écosystème des modèles ouverts a atteint un point de bascule. Avec la sortie de Gemma 4 sous licence Apache 2.0, de Mistral Small et de Llama 4, les modèles ouverts rivalisent désormais avec les API propriétaires sur la plupart des tâches. La question n'est plus "est-ce que ces modèles sont assez bons ?" mais "combien coûte l'infrastructure pour les faire tourner soi-même ?"

Trois raisons poussent de plus en plus d'équipes à quitter les API cloud :

Souveraineté des données. Certaines données ne doivent pas quitter votre infrastructure. Juridique, médical, défense, données clients en RGPD strict -- l'auto-hébergement est parfois la seule option.
Coût à l'échelle. Au-delà de quelques milliers de requêtes par jour, un serveur dédié revient moins cher que le pricing au token des API.
Latence et contrôle. Pas de rate limiting, pas de dépendance à un fournisseur tiers, pas de changement de modèle imposé.

De combien de VRAM avez-vous besoin ?

Le facteur limitant, c'est la VRAM. Un modèle doit tenir intégralement en mémoire GPU pour une inférence fluide. La quantisation permet de réduire cette empreinte au prix d'une légère dégradation.

Modèle	Paramètres	VRAM Q4	VRAM Q8	VRAM bf16
Gemma 4 E4B	~9B (4B actifs)	5 Go	-	15 Go
Mistral Small 24B	24B	14 Go	26 Go	48 Go
Gemma 4 26B MoE	26B (3,8B actifs)	18 Go	28 Go	-
Gemma 4 31B Dense	31B	20 Go	34 Go	62 Go
Mixtral 8x22B	141B (39B actifs)	73 Go	-	250 Go

En pratique : un GPU avec 20-24 Go de VRAM suffit pour les modèles 24-31B en Q4. Pour du bf16 (qualité maximale) ou des modèles plus gros, il faut 48 Go minimum, idéalement 80-96 Go.

Le comparatif : qui propose quoi, à quel prix ?

J'ai passé en revue les principaux fournisseurs de serveurs GPU dédiés accessibles en Europe. Voici ce qui ressort en avril 2026.

Tier 1 - Expérimentation (moins de 300 euros par mois)

Le Hetzner GEX44 est le point d'entrée imbattable.

	Détail
GPU	NVIDIA RTX 4000 SFF Ada
VRAM	20 Go GDDR6 ECC
CPU	Intel Core i5-13500 (14 coeurs)
RAM	64 Go DDR4
Stockage	2 x 1,92 To NVMe Gen3
Réseau	1 Gbit/s illimité
Prix	184 euros par mois (setup 79 euros)
Localisation	Allemagne (Nuremberg, Falkenstein), Finlande (Helsinki)

Pour 184 euros par mois, vous faites tourner Gemma 4 31B en Q4, Mistral Small 24B, ou n'importe quel modèle de moins de 20 Go. C'est le serveur GPU dédié le moins cher du marché, et il suffit pour la majorité des cas d'usage.

Tier 2 - Production (800 à 1 700 euros par mois)

Fournisseur	GPU	VRAM	Prix mensuel	Facturation
Hetzner GEX131	RTX PRO 6000 Blackwell Max-Q	96 Go GDDR7 ECC	889 euros	Horaire possible (1,42 euros/hr)
Cherry Servers	A100	80 Go HBM2e	~1 050 euros	Horaire (1,44 dollars/hr)
Scaleway GPU Instance	L40S	48 Go	~1 022 euros	Horaire (1,40 euros/hr)
Linode/Akamai GPU VM	RTX PRO 6000 Blackwell	96 Go	~1 530 euros	Horaire ou mensuel

Le Hetzner GEX131 est le sweet spot de cette catégorie. Pour 889 euros par mois, vous obtenez 96 Go de VRAM sur une carte Blackwell, ce qui permet de charger Mixtral 8x22B quantisé, Gemma 4 31B en bf16, ou plusieurs modèles en parallèle. La facturation horaire sans frais de setup est un avantage si vous n'avez pas besoin du serveur en continu.

Cherry Servers (Lituanie) est une alternative intéressante pour l'A100, avec un pricing transparent et du vrai bare metal.

Tier 3 - Multi-GPU et gros modèles (plus de 2 000 euros par mois)

Fournisseur	GPU	VRAM	Prix mensuel
OVHcloud HGR-AI-2	4 x L40S	4 x 48 Go (192 Go)	~2 970 euros
OVHcloud Public Cloud	H100 PCIe	80 Go	~2 044 euros (2,80 euros/hr)
Scaleway GPU Instance	H100 SXM	80 Go	~1 991 euros (2,73 euros/hr)
Lambda Labs	H100 SXM	80 Go	~1 940 euros (2,89 dollars/hr)

Pour les modèles massifs comme Mistral Large 3 (675B paramètres, 41B actifs par requête), il faut du multi-GPU H100 ou H200. Le budget démarre à 4 000-8 000 euros par mois. À ce niveau, l'API Mistral est souvent plus pragmatique -- sauf si la souveraineté l'interdit.

Plateformes spot et marketplace

Plateforme	GPU	On-demand	Spot
Vast.ai	H100	~2,00 dollars/hr	< 1,50 dollars/hr
RunPod	H100	1,99 dollars/hr	~0,99 dollars/hr
Voltage Park	H100	~2,10 dollars/hr	-
HOSTKEY	A100/H100	à partir de 1,53 euros/hr	-

Ces plateformes offrent les prix les plus bas du marché, mais avec des compromis : machines partagées ou interruptibles (spot), localisation géographique variable, et aucune garantie de souveraineté des données. Adaptées pour de l'expérimentation, du fine-tuning ponctuel ou du batch processing.

Souveraineté : les options françaises

Pour les organisations qui doivent garder leurs données en France, deux fournisseurs se distinguent :

Scaleway : instances GPU L40S et H100 dans des datacenters parisiens. Facturation horaire, intégration avec l'écosystème Scaleway (Object Storage, Kubernetes Kapsule).
OVHcloud : serveurs bare metal HGR-AI-2 avec L40S à Gravelines et Roubaix. Infrastructure certifiée SecNumCloud sur certaines offres.

Le surcout par rapport à Hetzner est significatif (facteur 5 à 15 pour une capacité comparable), mais c'est le prix de la conformité.

Cas d'usage concrets

Développement logiciel : un Copilot privé

Un serveur GEX44 avec Gemma 4 31B Q4 ou Mistral Small 24B peut servir de backend pour un assistant de code interne. Branché sur Continue.dev ou Tabby, il offre une complétion et un chat contextualisé sans envoyer votre code source à un tiers. Coût : 184 euros par mois pour une équipe de 5 à 10 développeurs. À comparer avec 19 dollars par utilisateur par mois pour GitHub Copilot, soit 950 à 1 900 dollars par mois pour la même équipe.

Création artistique : génération d'images et de texte

Les modèles multimodaux comme Gemma 4 comprennent les images en entrée. Combinés à des pipelines de diffusion locale (Stable Diffusion, Flux), un serveur GPU dédié devient un studio créatif autonome. Un photographe, un studio de design ou une agence peut :

Générer des variantes de concepts visuels sans envoyer ses assets sur un cloud tiers
Automatiser le traitement de descriptions et métadonnées pour des catalogues produits
Produire des textes marketing en lot, dans un style cohérent fine-tuné sur ses propres contenus

Le GEX131 avec ses 96 Go VRAM peut faire tourner un LLM pour le texte et un modèle de diffusion pour l'image simultanément.

Marketing et e-commerce : personnalisation à l'échelle

Un modèle local fine-tuné sur les données produits d'un e-commerce peut générer des fiches produit, répondre aux questions clients, et produire des emails personnalisés -- le tout sans fuite de données commerciales vers une API tierce. Exemples :

Génération automatique de descriptions SEO pour un catalogue de 50 000 références
Chatbot interne entraîné sur la base de connaissances du support client
Analyse de sentiment sur les avis clients en batch, sans limites de rate

RAG interne : exploiter sa documentation

Le cas d'usage le plus immédiatement rentable. Un modèle 24-31B couplé à une base vectorielle (Qdrant, Milvus, pgvector) permet de construire un RAG sur sa documentation interne, ses contrats, ses procédures. Les réponses sont sourcées, auditables, et les données ne quittent jamais l'infrastructure.

Recommandations

Développeur individuel ou petite équipe en expérimentation : Le Hetzner GEX44 à 184 euros par mois. Suffisant pour Gemma 4 31B Q4, Mistral Small 24B, et la majorité des modèles ouverts actuels. Le meilleur ratio qualité/prix du marché.

Équipe de 10-20 personnes, usage production : Le Hetzner GEX131 à 889 euros par mois. 96 Go VRAM Blackwell, facturation horaire, pas de setup fee. Assez pour Mixtral 8x22B quantisé ou plusieurs modèles en parallèle.

Contrainte de souveraineté française : Scaleway L40S (1 022 euros par mois) pour un bon compromis. OVHcloud HGR-AI-2 (2 970 euros par mois) si vous avez besoin de multi-GPU ou de la qualification SecNumCloud.

Usage ponctuel, fine-tuning, expérimentation : RunPod spot H100 à 0,99 dollar par heure. Prix imbattable, mais pas de garantie de disponibilité ni de localisation.

Conclusion

Le marché des serveurs GPU dédiés s'est considérablement démocratisé. Les prix des H100 ont chuté de 65 à 75 pour cent depuis fin 2024, et l'arrivée de cartes comme la RTX PRO 6000 Blackwell chez des hébergeurs généralistes comme Hetzner rend l'inférence locale accessible à partir de 184 euros par mois.

Pour la plupart des cas d'usage -- assistant de code privé, RAG sur documentation interne, génération de contenu -- un modèle 24 à 31B paramètres en Q4 sur un GPU 20-24 Go suffit. Les modèles ouverts comme Gemma 4 et Mistral Small ont atteint un niveau de qualité qui rend cette approche viable en production, pas seulement en expérimentation.

Le vrai coût n'est pas le serveur. C'est le temps d'ingénierie pour mettre en place le pipeline de serving (vLLM, Ollama, llama.cpp), le monitoring, et le fine-tuning. Mais ce sont des compétences qui se capitalisent, contrairement à une facture d'API qui ne fait que croître.