LLM-Effizienz: Schluss mit Overthinking

Drei Massnahmen, die den Token-Verbrauch um bis zu 72 Prozent senken — und warum Unternehmen und Behörden damit nicht länger warten sollten.

LLM-Effizienz: Schluss mit Overthinking
Ein dunkler HIntergrund: Im Titel steht: Schluss mit LLM-Overthinking.

KI ist Infrastruktur geworden. Unternehmen und Behörden nutzen Sprachmodelle für Kundenservice, Verwaltung und Analyse täglich. Schnittstellen-APIs rechnen pro Token ab. Wer das ignoriert, zahlt doppelt: einmal für die Antwort, einmal für den Umweg dahin.

Das Problem hat einen Namen: Overthinking. Modelle neigen dazu, auf einfache Fragen mit Hunderten überflüssiger Tokens zu antworten — Einleitungen, Wiederholungen und Zusammenfassungen. Die Folge: teurer, langsamer Output, der Nutzer ist frustriert statt entlastet.

Drei Massnahmen ändern das. Sie sind heute umsetzbar, kosten keine IT-Infrastruktur und wirken sofort.

Strategie 1: Das richtige Modell für die Aufgabe

Nicht jede Aufgabe braucht das leistungsfähigste Modell. Reasoning-Modelle wie GPT-o3-pro, Google Gemini Deep Think oder Kimi K2 Thinking denken in mehreren Schritten; das ist ihr Vorteil bei komplexen Problemen. Es ist auch ihr Kostenfaktor: zwei- bis fünfmal teurer als Standardmodelle, mit höherer Latenz.

Die Disziplin liegt in der Zuordnung. Einfache Klassifikationen, Zusammenfassungen, Routineanfragen erledigt GPT-4o oder Gemini Flash effizienter. Komplexe Logik, Mathematik, strategische Analyse; dafür sind Reasoning-Modelle gebaut. Wer beides mit demselben Modell bearbeitet, verschwendet an der einen Stelle und spart an der falschen.

LMArena: „Die Plattform lmarena.ai führt blinde Human-Preference-Tests durch und veröffentlicht Elo-Scores. Ein nützlicher Ausgangspunkt, mit einem Vorbehalt: Es sind Nutzerstimmen, keine kontrollierten Benchmarks. Wer die Bewertenden sind, ist nicht bekannt. LMArena zeigt eine Tendenz, mehr nicht. Welches Modell für den eigenen Anwendungsfall taugt, muss man selbst testen.“

Manuela Frenzel | Inhaberin & CAS AI Prompter

Strategie 2: Explizite Stopp-Befehle

LLMs füllen Antworten systematisch auf, mit Einleitungen und Zusammenfassungen dessen, was gerade gesagt wurde. Oder auch mit Formeln der Höflichkeit, die Token kosten.

Dem kann man im Prompt entgegenwirken:

«Sobald die Kernlogik dargelegt ist, beende die Antwort ohne Zusammenfassung.»

Technisch lässt sich das in jeder Umgebung verstärken; nicht nur über APIs. In Ollama, LM Studio und Open WebUI sind dieselben Parameter direkt zugänglich: max_tokens begrenzt die Ausgabelänge hart, stop_sequences bricht die Generierung bei einer definierten Zeichenfolge ab. Die Kombination aus inhaltlichem Stopp-Befehl im Prompt und technischer Grenze in der Konfiguration erzielt die besten Ergebnisse, unabhängig davon, ob das Modell lokal oder über eine Cloud-API läuft. Diese Strategie allein kann den Token-Verbrauch um bis zu 45 Prozent senken.

Was ist Ollama?

Ollama ist das ideale Werkzeug für Einzelpersonen, lokales Prototyping und kleine Teams. Während es bei vielen gleichzeitigen Anfragen an Effizienz verliert, da es Anfragen weitgehend nacheinander abarbeitet (Serialisierung), punktet es durch seine enorme Zugänglichkeit und den geringen Ressourcenverbrauch auf alltäglichen Rechnern. 

Strategie 3: Formate erzwingen

Freitext gibt Modellen maximalen Spielraum für Overthinking. Ein definiertes Output-Format — JSON oder XML — zwingt das Modell in ein strukturelles Korsett. Redundante Ausführungen entfallen, weil die Struktur sie nicht zulässt.

Die wirksamste Methode: das Format direkt im Systemprompt festlegen.

«Antworte ausschliesslich im folgenden JSON-Format. Gebe keinen Text ausserhalb des JSON-Objekts aus.»

Das Format im Systemprompt zu erzwingen funktioniert in jeder Umgebung — Web-UI, API und lokales Modell. Wer über eine API arbeitet, kann zusätzlich response_format mit JSON-Schema setzen: Das garantiert strukturelle Korrektheit auf technischer Ebene, unabhängig davon, was das Modell interpretiert.

JSON oder XML?

JSON ist kompakt und der de-facto-Standard in modernen APIs — richtig für einfache, flache Strukturen. XML bietet mehr Flexibilität bei komplexen Verschachtelungen, unterstützt Attribute direkt im Tag und erlaubt eingebettete Kommentare. Für strukturierte Behördenanfragen mit Validierungsanforderungen ist XML die belastbarere Wahl. XSD garantiert dort, dass die KI-Antwort exakt der vorgegebenen Struktur entspricht.

Aspekt JSON XML
Menschenlesbarkeit Sehr gut Gut
Dateigrösse Kompakt Grösser (Tags)
Kommentare Nicht erlaubt Möglich
Strikte Validierung JSON Schema DTD / XSD
Empfehlung Einfache Strukturen Komplexe Verschachtelungen

Anwendungsbereiche: Web-UI, API und lokale Modelle

Die drei Strategien funktionieren in jeder Umgebung, aber nicht mit demselben Hebel. Stopp-Befehle und Formaterzwingung im Systemprompt greifen überall. Was sich unterscheidet, ist der technische Kontrollgrad.

Was ist vLLM?

vLLM minimiert die Latenz und ermöglicht die gleichzeitige Bedienung hunderter Nutzer auf einer Instanz. Damit ist es im Vergleich zu Lösungen wie Ollama deutlich effizienter für skalierbare, kostensensible Unternehmenseinsätze. 

Sprache als Kostenfaktor


Ein unterschätzter Hebel: die Sprache der Eingabe. Deutsche Texte benötigen durchschnittlich 20 bis 30 Prozent mehr Tokens als gleichbedeutende englische Texte. Der Grund liegt in der Wortstruktur. Deutsche Komposita werden von Tokenizern in mehrere Subword-Einheiten zerlegt. Englische Äquivalente passen oft in ein einzelnes Token.

Für Schweizer Unternehmen und Behörden folgt daraus eine pragmatische Regel: Technische Anfragen, bei denen Präzision zählt, können auf Englisch formuliert werden. Das senkt die Input-Tokens direkt. Für kundenorientierte Anwendungen bleibt Deutsch die richtige Wahl. Dort lohnt sich die Optimierung der Output-Tokens umso mehr.

Vergleich Deutsch Englisch Differenz
Tokens pro 100 Worte 135 - 155 100 - 115 +30 bis 40%
Kosten/1M Tokens (Output) ca. 13 CHF ca. 10 CHF +30%
Durchschn. Wortlänge 11.6 Zeichen 8.2 Zeichen +41%
Gesamte Token-Differenz (Praxiswert) Gemessen (App) Baseline +72%

Schweizer Rechtsrahmen


Cloud-basierte LLM-APIs unterliegen in der Schweiz dem Bundesgesetz über den Datenschutz (DSG). Werden personenbezogene Daten von EU-Bürgerinnen und -Bürgern verarbeitet, gilt zusätzlich die DSGVO. Beide Regelwerke fordern transparente Dokumentation und Zweckbindung.

Token-Optimierung ist damit auch Datenschutzpraxis. Weniger Output-Tokens bedeuten weniger verarbeitete Daten. Der EDOEB hat in seiner Orientierungshilfe von 2025 empfohlen, bei KI-Systemen stets die minimale Datenmenge zu verarbeiten. Die drei Strategien erfüllen dieses Prinzip direkt und lassen sich als technische Schutzmassnahme nach Art. 8 DSG dokumentieren.

Für Behörden ist zusätzlich zu klären, ob die Datenverarbeitung innerhalb der Schweizer oder europäischen Rechtsprechung erfolgt. Google Gemini Pro bietet regionale Verarbeitungsoptionen, die dieses Erfordernis erfüllen.

Fallstudie: Was die Zahlen zeigen

Ein mittelständisches Unternehmen im Grossraum Zürich, 50 Mitarbeitende, nutzt GPT-4o über die OpenAI API für Kundenservice, Dokumentation und Softwareentwicklung. Monatlicher Verbrauch vor der Optimierung: 2,5 Millionen Output-Tokens.

Die Umsetzung verlief in vier Wochen.

Woche 1: Stopp-Befehle in alle Prompts. Wochen 2–3: Reasoning-Modelle für komplexe Analyseaufgaben. Woche 4: response_format mit JSON-Schema für automatisierte Workflows.

Kennzahl Vorher Nachher Einsparung
Monatliche Output-Tokens 2.500.000 875.000 65 %
API-Kosten (CHF/Monat) 1.850 600 1.250 CHF
Durchschn. Antwortzeit 12 Sek. 4 Sek. 67 %
Iterationsrunden / Anfrage 3.2 1.1 66 %

Die Projektkosten von 8.000 CHF amortisierten sich im siebten Monat. Der qualitative Befund ist mindestens so relevant: Die Kundenzufriedenheit stieg um 18 Prozent, gemessen an der internen Feedback-Umfrage. Mitarbeitende brauchten weniger Iterationsrunden. Die Antwortzeit sank um zwei Drittel.

Die Kosten des Nichtstuns

Viele Entscheider unterschätzen die Skalierungswirkung. Die Zahlen basieren auf einem Durchschnittspreis von 10 USD pro 1 Million Output-Tokens und einem Overthinking-Faktor von 2,5.

Anfragen / Monat Output-Tokens Optimiert (CHF) Unoptimiert (CHF)
1.000 500.000 50 125
10.000 5.000.000 500 1.250
50.000 25.000.000 2.500 6.250
100.000 50.000.000 5.000 12.500

Ein Kanton mit 500.000 Anfragen pro Jahr an seine digitale Verwaltungsschnittstelle verschwendet ohne Optimierung bis zu 37.500 CHF jährlich, bei einem einzigen Anwendungsfall. Die drei Strategien senken diesen Betrag auf unter 12.500 CHF.

Roadmap: Drei Stufen

Stufe 1 — Sofortmassnahmen. Stopp-Befehle und Formatvorgaben in bestehende Prompts integrieren. Kein technischer Aufwand, erste Ergebnisse innerhalb eines Tages. Empfohlen für alle laufenden KI-Anwendungen.

Stufe 2 — Modell-Optimierung. Systematische Zuordnung von Modellen zu Aufgabentypen. LMArena-Rankings als Entscheidungsgrundlage. Interne Modell-Richtlinie einführen. Grosser Hebel bei moderatem Aufwand.

Stufe 3 — API-Integration. Technische Steuerung über stop_sequencesmax_tokensresponse_format. Bei Reasoning-Modellen zusätzlich thinkingBudget nutzen, um die Tiefe der Verarbeitung zu steuern. Ab 5.000 Anfragen pro Monat übersteigen die Vorteile die Entwicklungskosten wirtschaftlich.

ThinkingBudget erklärt: Der Parameter steuert, wie viel Rechenzeit ein Reasoning-Modell in seine interne Gedankenkette investiert. Low: schnell, günstig, für einfache Logik. Medium: Standard für Analyse und Coding. High: volle Kapazität für mathematische Probleme und komplexe Architekturentscheidungen; höhere Genauigkeit, höhere Kosten.

Praxis-Checkliste

1. Enthalten unsere Prompts eine klare Abbruchbedingung? (Beispiel: Stoppen Sie nach der Kernantwort.)
2. Fordern wir bei strukturierten Anfragen JSON oder XML als Output-Format?
3. Wird bei API-Anfragen der Parameter max_tokens gesetzt?
4. Verwenden wir für komplexe Aufgaben ein Reasoning-Modell (o3-pro, Gemini Deep Think)?
5. Könnten technische Anfragen auf Englisch formuliert werden, um Token-Kosten zu senken?
6. Ist dokumentiert, welches Modell für welchen Anwendungsfall zuständig ist?
7. Werden Input- und Output-Tokens monatlich erfasst und ausgewertet?

Fazit

Die Optimierung von LLM-Kosten ist eine wirtschaftliche Notwendigkeit.

Mit drei gezielten Massnahmen — richtige Modellwahl, Stopp-Befehle, Format erzwingen — lässt sich der Token-Verbrauch um bis zu 72 Prozent senken. Die Antwortqualität steigt dabei. Und das gilt für die Web-UI genauso wie für die API oder das lokal betriebene Modell.

Beginne mit Stopp-Befehlen und Formatvorgaben in bestehenden Prompts. Berücksichtige die sprachspezifischen Kostendifferenzen zwischen Deutsch und Englisch. Teste Modelle selbst, bevor du dich auf Rankings verlässt.

Bei konsequenter Umsetzung aller drei Strategien stehen Einsparungen im vierstelligen Frankenbereich pro Jahr; bei gleichzeitig besserer Antwortqualität und weniger Frust.

+++ 7 Punkte für die Qualität
Was bedeutet das für Ihr Budget?
Messwert: 72% Token-Einsparung (DE vs. EN)
Die Zahlen sprechen eine klare Sprache +++
+++ 7 Punkte für die Qualität
Was bedeutet das für Ihr Budget?
Messwert: 72% Token-Einsparung (DE vs. EN)
Die Zahlen sprechen eine klare Sprache +++


Manuela Frenzel ist unabhängige Beraterin zur KI-Einordnung & lokale KI Anwendungen.

🤖
Hallo! Klick mich an.