Lokal vs. Cloud KI-Inferenz

Lohnt sich ein eigener GPU-Server für dein Open-Source-LLM oder ist die Cloud‑API günstiger? Dieser Rechner zeigt dir den ehrlichen Vergleich inklusive Anschaffung, Strom, Wartung und Break-Even — speziell für den deutschen Mittelstand.

1. Modell & Workload

2. Wann brauchst du das System?

Wähle ein Szenario oder passe die Werte rechts manuell an. „Auslastung" = wie hoch ist der GPU während der aktiven Zeit belastet (Idle vs. Volllast).

3. Strom & Amortisation

💻 Lokal hosten

☁️ Cloud-API

4. Kostenverlauf (kumuliert)

X-Achse: Monate ab Inbetriebnahme. Y-Achse: Aufgelaufene Gesamtkosten in EUR.

5. Kosten-Aufschlüsselung

LokalCloudDifferenz

Annahmen: Chassis je Form-Factor (Workstation 4–8 k$ · PCIe-Server 10–25 k$ · SXM/HGX 40–110 k$). Installation & Setup einmalig (Rack-Einbau, OS + Treiber + vLLM/TGI, Monitoring, Last-Test) — Lead-Time je nach Form-Factor 2–20 Wochen. Wartung 7 % p. a. on-prem (eigener Serverraum) bzw. 10 % p. a. im Rechenzentrum (Rack-Miete, Kühlung, Support). Strom auslastungsgewichtet: 12 % der TDP idle, 85 % aktiv, plus 150 W Server-Overhead — Idle-Strom geht nicht auf Null. Cloud-Preise live aus /preise.

Lokal vs. Cloud — wann lohnt sich was?

Open-Source-LLMs wie Llama 3.3 70B, Qwen3 32B, DeepSeek R1 oder gpt-oss-120b kann man heute auf eigener Hardware laufen lassen. Klingt erstmal verlockend: Datenschutz bleibt im Haus, keine API-Limits, keine variablen Kosten pro Token. Aber: ein einzelner NVIDIA H100 PCIe kostet rund $24 000, läuft mit 350 W Dauerleistung und braucht ein Server-Chassis, Datacenter-Strom, Kühlung und regelmäßige Wartung.

Für den deutschen Mittelstand mit typischen Bürozeit-Workloads (Mo–Fr 9–18, ca. 45 h/Woche) gewinnt fast immer die Cloud. Der Rechner oben zeigt dir warum: bei realer Auslastung von 15–25 % über 24/7 zahlst du in der Cloud nur für das, was du wirklich verbrauchst. Eine lokale GPU-Investition von 50–100 k € amortisiert sich erst nach 30–60 Monaten — oder gar nie, wenn die Auslastung niedrig bleibt.

Cloud-Inferenz auf AWS Bedrock, Azure AI Foundry, Google Vertex AI oder europäischen Anbietern wie STACKIT und IONOS kostet für Llama 3.3 70B typisch $0,72 / 1 Mio Tokens. Bei 45 h × 70 % Auslastung und einem realistischen Workload (60 k Tokens/min Input, 15 k Tokens/min Output) bedeutet das ca. $260 pro Monat. Ein lokales Setup mit 2× H100 PCIe kommt im selben Szenario auf rund $2 000/Monat (Strom + Wartung + Amortisation).

Wann lohnt sich lokal trotzdem?

Hybrid-Setup als Mittelweg: kleinere Modelle (8B–32B) lokal auf einer einzelnen RTX 6000 PRO Blackwell für sensible Daten, größere Modelle (70B+) in der Cloud abrufen. Die GPU-Investition bleibt überschaubar, die Cloud-Kosten reduziert. Für die meisten Mittelständler ist genau das der beste Kompromiss.

Mehr Hintergrund: vollständiger KI-Preiskatalog · Cloud-only Kostenrechner · Über AI-FinOps und Token-Abrechnung.