Lokal vs. Cloud KI-Inferenz

Lohnt sich ein eigener GPU-Server für dein Open-Source-LLM oder ist die Cloud‑API günstiger? Dieser Rechner zeigt dir den ehrlichen Vergleich inklusive Anschaffung, Strom, Wartung und Break-Even — speziell für den deutschen Mittelstand.

1. Modell & Workload

Open-Source-Modell Llama, Qwen, DeepSeek & Co. — Benchmark-Werte rechts in der Karte. Quantisierung FP8 ist der Standard für Production-Inferenz; INT4 für Edge-Setups.

Token/Minute Input Mittelwert über die aktive Zeit. 20 k = mittlere Auslastung mit ein paar parallelen Sessions. Token/Minute Output Output ist meist 25–50 % vom Input. 5 k = ~83 tok/s sustained (GPU-relevanter Wert).

Deployment On-Prem: Tower/PCIe-Server für Büro/Serverraum. RZ: SXM-Karten (B200, H200, MI300X) mit Flüssigkühlung & HGX-Baseboard. GPU (Advanced) Erzwinge eine bestimmte Karte (z. B. „lieber 1× RTX PRO 6000 statt 2× RTX 5090"). Bei Auswahl wird die Anzahl automatisch auf das Minimum für VRAM + Durchsatz hochgerechnet — passt nicht alles, zeigt der Rechner ⚠.

2. Wann brauchst du das System?

Wähle ein Szenario oder passe die Werte rechts manuell an. „Auslastung" = wie hoch ist der GPU während der aktiven Zeit belastet (Idle vs. Volllast).

Stunden pro Woche aktiv Von 168 Wochenstunden — restliche Zeit ist GPU idle. Auslastung während aktiver Zeit In Prozent — Mittelstand-Default 70 %.

3. Strom & Amortisation

Strompreis (ct/kWh) Mittelstand DE 2026: ~27 ct. Energie-intensiv: 5–18 ct. Haushalt: 35 ct. Amortisationsdauer (Jahre) GPU-Hardware hält typisch 3–5 Jahre vor Replacement.

💻 Lokal hosten

☁️ Cloud-API

Anbieter

4. Kostenverlauf (kumuliert)

X-Achse: Monate ab Inbetriebnahme. Y-Achse: Aufgelaufene Gesamtkosten in EUR.

5. Kosten-Aufschlüsselung

	Lokal	Cloud	Differenz

Annahmen: Chassis je Form-Factor (Workstation 4–8 k$ · PCIe-Server 10–25 k$ · SXM/HGX 40–110 k$). Installation & Setup einmalig (Rack-Einbau, OS + Treiber + vLLM/TGI, Monitoring, Last-Test) — Lead-Time je nach Form-Factor 2–20 Wochen. Wartung 7 % p. a. on-prem (eigener Serverraum) bzw. 10 % p. a. im Rechenzentrum (Rack-Miete, Kühlung, Support). Strom auslastungsgewichtet: 12 % der TDP idle, 85 % aktiv, plus 150 W Server-Overhead — Idle-Strom geht nicht auf Null. Cloud-Preise live aus /preise.

Lokal vs. Cloud — wann lohnt sich was?

Open-Source-LLMs wie Llama 3.3 70B, Qwen3 32B, DeepSeek R1 oder gpt-oss-120b kann man heute auf eigener Hardware laufen lassen. Klingt erstmal verlockend: Datenschutz bleibt im Haus, keine API-Limits, keine variablen Kosten pro Token. Aber: ein einzelner NVIDIA H100 PCIe kostet rund $24 000, läuft mit 350 W Dauerleistung und braucht ein Server-Chassis, Datacenter-Strom, Kühlung und regelmäßige Wartung.

Für den deutschen Mittelstand mit typischen Bürozeit-Workloads (Mo–Fr 9–18, ca. 45 h/Woche) gewinnt fast immer die Cloud. Der Rechner oben zeigt dir warum: bei realer Auslastung von 15–25 % über 24/7 zahlst du in der Cloud nur für das, was du wirklich verbrauchst. Eine lokale GPU-Investition von 50–100 k € amortisiert sich erst nach 30–60 Monaten — oder gar nie, wenn die Auslastung niedrig bleibt.

Cloud-Inferenz auf AWS Bedrock, Azure AI Foundry, Google Vertex AI oder europäischen Anbietern wie STACKIT und IONOS kostet für Llama 3.3 70B typisch $0,72 / 1 Mio Tokens. Bei 45 h × 70 % Auslastung und einem realistischen Workload (60 k Tokens/min Input, 15 k Tokens/min Output) bedeutet das ca. $260 pro Monat. Ein lokales Setup mit 2× H100 PCIe kommt im selben Szenario auf rund $2 000/Monat (Strom + Wartung + Amortisation).

Wann lohnt sich lokal trotzdem?

Sehr hohe Auslastung (24/7, ≥ 70 %): bei reiner Datacenter-Last gewinnt lokal nach ca. 12–18 Monaten.
Strenge Datenschutzanforderungen: DSGVO-Air-Gap, vertrauliche Daten, Kritische Infrastruktur — hier ist Cloud regulatorisch oft keine Option.
Sehr große Modelle in hoher Frequenz: DeepSeek R1 671B oder Llama 3.1 405B können in der Cloud bei sehr hohen Volumina teurer werden als der eigene Server.
Latenz unter 50 ms: Cloud-API hat ~100–300 ms Netzwerk-Overhead. Lokal: einstellige ms.

Hybrid-Setup als Mittelweg: kleinere Modelle (8B–32B) lokal auf einer einzelnen RTX 6000 PRO Blackwell für sensible Daten, größere Modelle (70B+) in der Cloud abrufen. Die GPU-Investition bleibt überschaubar, die Cloud-Kosten reduziert. Für die meisten Mittelständler ist genau das der beste Kompromiss.

Mehr Hintergrund: vollständiger KI-Preiskatalog · Cloud-only Kostenrechner · Über AI-FinOps und Token-Abrechnung.