Lokal vs. Cloud KI-Inferenz
Lohnt sich ein eigener GPU-Server für dein Open-Source-LLM oder ist die Cloud‑API günstiger? Dieser Rechner zeigt dir den ehrlichen Vergleich inklusive Anschaffung, Strom, Wartung und Break-Even — speziell für den deutschen Mittelstand.
1. Modell & Workload
2. Wann brauchst du das System?
Wähle ein Szenario oder passe die Werte rechts manuell an. „Auslastung" = wie hoch ist der GPU während der aktiven Zeit belastet (Idle vs. Volllast).
3. Strom & Amortisation
💻 Lokal hosten
☁️ Cloud-API
4. Kostenverlauf (kumuliert)
X-Achse: Monate ab Inbetriebnahme. Y-Achse: Aufgelaufene Gesamtkosten in EUR.
5. Kosten-Aufschlüsselung
| Lokal | Cloud | Differenz |
|---|
Annahmen: Chassis je Form-Factor (Workstation 4–8 k$ · PCIe-Server 10–25 k$ · SXM/HGX 40–110 k$). Installation & Setup einmalig (Rack-Einbau, OS + Treiber + vLLM/TGI, Monitoring, Last-Test) — Lead-Time je nach Form-Factor 2–20 Wochen. Wartung 7 % p. a. on-prem (eigener Serverraum) bzw. 10 % p. a. im Rechenzentrum (Rack-Miete, Kühlung, Support). Strom auslastungsgewichtet: 12 % der TDP idle, 85 % aktiv, plus 150 W Server-Overhead — Idle-Strom geht nicht auf Null. Cloud-Preise live aus /preise.
Lokal vs. Cloud — wann lohnt sich was?
Open-Source-LLMs wie Llama 3.3 70B, Qwen3 32B, DeepSeek R1 oder gpt-oss-120b kann man heute auf eigener Hardware laufen lassen. Klingt erstmal verlockend: Datenschutz bleibt im Haus, keine API-Limits, keine variablen Kosten pro Token. Aber: ein einzelner NVIDIA H100 PCIe kostet rund $24 000, läuft mit 350 W Dauerleistung und braucht ein Server-Chassis, Datacenter-Strom, Kühlung und regelmäßige Wartung.
Für den deutschen Mittelstand mit typischen Bürozeit-Workloads (Mo–Fr 9–18, ca. 45 h/Woche) gewinnt fast immer die Cloud. Der Rechner oben zeigt dir warum: bei realer Auslastung von 15–25 % über 24/7 zahlst du in der Cloud nur für das, was du wirklich verbrauchst. Eine lokale GPU-Investition von 50–100 k € amortisiert sich erst nach 30–60 Monaten — oder gar nie, wenn die Auslastung niedrig bleibt.
Cloud-Inferenz auf AWS Bedrock, Azure AI Foundry, Google Vertex AI oder europäischen Anbietern wie STACKIT und IONOS kostet für Llama 3.3 70B typisch $0,72 / 1 Mio Tokens. Bei 45 h × 70 % Auslastung und einem realistischen Workload (60 k Tokens/min Input, 15 k Tokens/min Output) bedeutet das ca. $260 pro Monat. Ein lokales Setup mit 2× H100 PCIe kommt im selben Szenario auf rund $2 000/Monat (Strom + Wartung + Amortisation).
Wann lohnt sich lokal trotzdem?
- Sehr hohe Auslastung (24/7, ≥ 70 %): bei reiner Datacenter-Last gewinnt lokal nach ca. 12–18 Monaten.
- Strenge Datenschutzanforderungen: DSGVO-Air-Gap, vertrauliche Daten, Kritische Infrastruktur — hier ist Cloud regulatorisch oft keine Option.
- Sehr große Modelle in hoher Frequenz: DeepSeek R1 671B oder Llama 3.1 405B können in der Cloud bei sehr hohen Volumina teurer werden als der eigene Server.
- Latenz unter 50 ms: Cloud-API hat ~100–300 ms Netzwerk-Overhead. Lokal: einstellige ms.
Hybrid-Setup als Mittelweg: kleinere Modelle (8B–32B) lokal auf einer einzelnen RTX 6000 PRO Blackwell für sensible Daten, größere Modelle (70B+) in der Cloud abrufen. Die GPU-Investition bleibt überschaubar, die Cloud-Kosten reduziert. Für die meisten Mittelständler ist genau das der beste Kompromiss.
Mehr Hintergrund: vollständiger KI-Preiskatalog · Cloud-only Kostenrechner · Über AI-FinOps und Token-Abrechnung.