Der schwächste Hebel. Ein Artikel für alle, die das KI-Budget verantworten

Wenn du in deinem Haus für das KI-Budget geradestehst, kennst du dieses Gefühl. Die Stückkosten sinken, und trotzdem klopft die Finanzabteilung an deine Tür.

Uber hat sein KI-Budget für das ganze Jahr in den ersten vier Monaten verbrannt. Dann kam der Deckel, fünfzehnhundert Dollar pro Kopf und Monat. Das ist keine Ausnahme. Es ist das Muster.

Dein Preis pro Token ist in einem Jahr von rund zehn auf zweieinhalb Dollar je Million gefallen gleichzeitig ist deine KI-Rechnung im selben Zeitraum explodiert.

Es lohnt sich, einen Moment innezuhalten, bevor du am naheliegendsten Regler ziehst. Denn der naheliegendste Regler könnte der schwächste sein.

Zwei Schleifen, ein Knoten

Wenn Token billiger werden, lohnen sich auf einmal Anwendungen, die sich vorher nie gerechnet hätten. Also nutzt ihr mehr davon. Aus der Nutzung wächst ein Wert, aus dem Wert wächst Vertrauen in die Technologie und neue Ideen. Und daraus erwächst noch mehr Nutzung. Diest ein ein Motor. Genau deshalb wächst der Verbrauch nicht trotz der billigen Token, sondern wegen ihnen. Die Zahlen in der LLM Nutzung sind drastisch: Der Stückpreis für Tokens fiel in den letzten zwei Jahren etwa um das Zehnfache, der Verbrauch stieg um ein Vielhundertfaches an.

Der zweite Kreislauf ist eine Bremse. Mehr Nutzung treibt die Monatsrechnung. Die Rechnung sprengt das Budget. Es kommen Limits und Deckel. Die Nutzung sinkt wieder. Das ist die Uber-Geschichte.

Beide Schleifen treffen sich an einem einzigen Punkt: an der genutzten Menge. Nicht am Preis. Merk dir diesen Knoten. Dort wird das Budget entschieden, nicht auf der Preisliste deines Anbieters.

Und nun… der schwächste Hebel

Die Systemdenkerin Donella Meadows hat einmal die Orte sortiert, an denen man ein System verändern kann, vom schwächsten zum stärksten. Ganz unten, am schwächsten, stehen die nackten Zahlen. Steuersätze, Preise, einzelne Parameter. Ganz oben stehen die Struktur des Systems, sein Ziel und vor allem das Denken dahinter.

Der Tokenpreis ist genau so eine nackte Zahl. Wer auf ihn starrt, drückt am schwächsten Punkt des ganzen Systems und produziert viel Widerstand. Es fühlt sich an wie Handeln, und es bewegt am wenigsten.

Lass mich das mit einer bewussten Übertreibung zuspitzen, einer Provokation (Provocational Operation) zum Weiterdenken.

PO: Die billigsten Tokens erzeugt die höchste Rechnung.

Halt kurz inne und stell dir solch eine Situation einmal vor. Das klingt verkehrt. Und es führt geradewegs zum Kern. Je günstiger das einzelne Token, desto eher wirft jeder im Haus jede Aufgabe Tokens hinterher. Agenten rufen Agenten auf, Kontext wird mit aller multimodalität genutzt und jeder Schritt frisst Kontext, Hintergrundprozesse laufen rund um die Uhr im Minutentakt. Trotz dass der Stückpreis sinkt, explodiert die Menge und so steigt auch die Rechnung. Die Bewegung aus dieser Provokation ist klar: Steuere die Menge, nicht den Preis. Der Preis ist der laute Regler und die Menge als Ankerpunkt der wirksame.

Wo die starken Hebel liegen

Wenn die Zahl der schwächste Hebel ist, wo sind dann die starken? In der Struktur und in dem, was du misst. Drei davon kannst du heute anfassen. Der erste ist die Architektur. Hier hilft wieder eine Provokation.

PO: Verbiete deinen Teams das beste Modell.

Unsinnig, auf den ersten Blick. Wird massiven Widerstand produzieren. Doch der Reflex, für jede simpele Aufgabe automatisch das stärkste Modell zu nehmen, ist die teuerste Gewohnheit im ganzen Haus. Die meisten Aufgaben brauchen keinen Hochleistungsdenker, sie brauchen ein solides Arbeitspferd (was prinzipiell solgar lokal auf deinem Rechner alufen könnte).

Routing: Anfragen an eine KI werden je nach schwierigkeit und Ziel der zu lösenden Aufgabe an das dazu passende KI-Modell weitergeletet.

Wer nach Komplexität routet, die schweren Fragen an die teuren Modelle, die vielen leichten an die kleinen, zahlt im Schnitt einen Bruchteil. Aus rund 30 Euro je Million Tokens werden gut zwei Euro. Ein Arbeitspferd kostet oft dreißig- bis sechzigmal weniger als das Spitzenmodell, bei einer Qualitätslücke von zehn, fünfzehn Prozent auf vielen Aufgaben. Die Idee in dieser Provokation: Nicht das beste Modell ist die kluge Vorgabe, sondern das passende.

Der zweite starke Hebel ist die Steuergröße. Woran misst du Erfolg? An der Geschwindigkeit? An der Zahl erledigter Aufgaben?

PO: Bezahle nicht für Token, bezahle für richtige Antworten.

Forscher in Stanford nennen das die “Kosten pro korrektem Ergebnis”. Also nicht: Was kostet das Token? Sondern: Was kostet eine Antwort, die stimmt und trägt? Eine teure, richtige Antwort schlägt unter Umständen drei billige, falsche.

Sobald du so rechnest, kippt die ganze Debatte. Ein Modell, das öfter danebenliegt und mehr halluziniert, ist auch dann zu teuer, wenn sein Token billig ist, denn die versteckten Kosten der Menschlichen Nacharbeit und Vertrauensverlust zahlst du oben drauf. Die Idee in dieser Provokation: Setz die richtige Antwort ins Zentrum deiner Kennzahl, nicht den Verbrauch.

Der dritte Hebel ist die Governance.

PO: Stell jemanden ein, oder bestimmte jemanden, dessen einziger Job es ist, KI-Nutzung zu verhindern.

Auch das eine Provokation. Aber genau diese Rolle entsteht gerade überall. Vor einem Jahr kümmerte sich nur ein Drittel der Kostenwächter um KI-Ausgaben, heute fast alle. Denn es wird mehr genutzt und taucht so in den Budgets auf. Die Bewegung dahinter ist nicht Verbot, sondern bewusste Reibung. Jemand, der fragt, ob dieser Agent wirklich rund um die Uhr mit dem teuersten Modell laufen muss. Reibung an der richtigen Stelle ist keine Bremse für den Fortschritt, sie ist seine Voraussetzung.

Die Schere und das Auslaufen

Üblicherweise gehören zwei Dinge in jede ehrliche Budgetplanung und beide haben mit dem Preis zu tun… und beide ändern die Wette nicht.

Das eine ist die Schere. Du vergleichst den KI-Preis niemals mit null. Du vergleichst ihn mit der Geschwindigkeit und Preis von Facharbeit. Was kostet mich eine neue Fachkraft in dem Bereicht gegen. wie viel mehr kann eine bereist eingestellte Fachkraft erledigen. Mitarbeitende werden teurer, Jahr für Jahr, weil z.B. Fachkräfte fehlen. Selbst wenn dein Tokenpreis steigt, kann z.B. aus dem Markdurck heraus der Wert von KI zur einer menschlichen Alternative wachsen.

Das andere ist das Auslaufen der Subvention. Die heutigen Preise werden zu einem erheblichen Teil unter Kosten verkauft, um Marktanteile abzugreifen. Dieser Rabatt endet langsam, die privaten Hersteller gehen an die Börse und müssen jetzt für Aktionäre kostendeckend arbeiten. Wir können mit einer Normalisierung nach oben rechnen und es sind dreißig bis fünfzig Prozent erhöhung im Gespräch, damit Hersteller diesen “Break Even” ereichen. Dass sollte man berücksichtigen.

Wichtig ist: Verwechsle es nicht mit dem Ende der “billigen” KI. Die Preis-Grundlinie sinkt weiter. Hardware und Algorithmen werden rapide besser. Was du gerade als Aufschlag und gekürzte Limits spürst, ist in wirklichkeit der Rabatt, der ausläuft, nicht die Technik, die teurer wird.

Die eine Zahl, die zählt

Halten wir es zusammen. Der Preis ist eine Zahl und der schwächste Hebel für den wertschöpfenden Einsatz von KI bei dir. Der eigentliche Fokuspunkt ist die Menge. Auch Architektur, die Steuergröße und die Governance sind starke Hebel. Allerdings ganz oben und am stärksten von allen, steht das Denken dahinter.

Hier liegt die unbequemste Erkenntnis für jeden, der ein Budget verantwortet. Eine hohe Rechnung bei niedrigem Wert ist kein Preisproblem. Sie ist ein Kompetenzproblem. Wer nur Zugang zu Diensten einkauft und die Teams einfach loslegen lässt, bekommt den vollen Verbrauch und einen Bruchteil des Nutzens die solche Dienste liefern könnten. Wer KI Anfragen routet und Aufgaben den richtigen Modellen zuordnen kann, Wirksamkeit misst, und steuert, der reduziert Verschwendung. Klug eingesetzt kommt aus demselben Werkzeug ein Vielfaches an Wert heraus. Der Unterschied steht nicht auf der Preisliste. Er steht in den Köpfen deinen Menschen.

Deshalb sollte die richtige Frage für dich nicht: “Was kostet das Token?” heißen, sondern: “Was kostet uns eine richtige Antwort? Bauen wir gerade die Fähigkeit auf, klug zu routen, sauber zu urteilen und bewusst zu steuern?”

Über den Preis entscheiden andere, über deine Hebel, an dem du ziehst, entscheidest du.

Quellen

Tokenpreis-Verfall bei zugleich steigenden Gesamtrechnungen (das zentrale Paradox)

„The AI Token Pricing Crisis Behind OpenAI and Anthropic’s Revenue Race” (Mai 2026), Preis pro Million Token rund 10 auf 2,50 Dollar in einem Jahr: https://www.investing.com/analysis/the-ai-token-pricing-crisis-behind-openai-and-anthropics-revenue-race-200680777
„AI Inference Cost Crisis 2026″, durchschnittliches KI-Budget 1,2 auf 7 Mio. Dollar, Inferenz 85 Prozent des KI-Budgets, erwartete Preis-Normalisierung 30 bis 50 Prozent: https://oplexa.com/ai-inference-cost-crisis-2026/
„AI Token Costs and How They Might Wreck Your Budget”, Mischkosten 18,40 auf 6,07 Dollar je Million (minus 67 Prozent im Jahr), 73 Prozent der Unternehmen über Budget, FinOps-Zuständigkeit für KI von 31 auf 98 Prozent: https://optimumpartners.com/insight/ai-token-costs-and-how-they-might-wreck-your-budget/

Der Uber-Fall (Jahresbudget in vier Monaten verbraucht, Deckel von 1.500 Dollar pro Kopf und Monat)

„Microsoft reports are exposing AI’s real cost problem” (Mai 2026): https://fortune.com/2026/05/22/microsoft-ai-cost-problem-tokens-agents/
„Their goal was: use as much AI as possible. Now some companies are pulling back” (Juni 2026): https://www.cbc.ca/news/business/ai-spending-ending-tokenmaxxing-tokenomics-9.7237680

Die Jevons-Dynamik (Stückpreis sinkt, Verbrauch steigt überproportional)

„How Inference Economics Reshaped Enterprise AI Buying”, Verbrauch über 100-fach gestiegen bei rund zehnfach gefallenem Stückpreis, Begriff „Jevons paradox applied to AI” (Anindo Sengupta, Nutanix): https://authoritytech.io/curated/inference-economics-changed-enterprise-ai-buying

Routing und Modellwahl (Arbeitspferd statt Frontier-Default)

„AI Implementation Cost 2026″, Arbeitspferd-Modelle 30 bis 60 mal günstiger bei 10 bis 15 Prozent Qualitätslücke, komplexitätsbasiertes Routing senkt API-Rechnungen bis zu 96 Prozent: https://teamvoy.com/blog/cost-of-ai-implementation/
Mischkosten 2,31 Dollar je Million bei getierter Architektur gegenüber 18,40 Dollar bei reiner Frontier-Nutzung.

Kosten pro korrektem Ergebnis (Cost-of-Pass, Stanford)

Mehmet Hamza Erol, Batu El, Mirac Suzgun, Mert Yüksekgönül, James Zou (Stanford University, 2025), „Cost-of-Pass: An Economic Framework for Evaluating Language Models”, arXiv:2504.13359: https://arxiv.org/abs/2504.13359

Hebelpunkte (warum eine bloße Zahl der schwächste Hebel ist)

Donella H. Meadows (1999), „Leverage Points: Places to Intervene in a System”, The Sustainability Institute, Parameter und Zahlen als schwächster, Ziel und Denkmodell als stärkster Hebel: https://donellameadows.org/archives/leverage-points-places-to-intervene-in-a-system/
Vertieft in: Donella H. Meadows (2008), „Thinking in Systems: A Primer”, Chelsea Green Publishing.

Gesamtkosten jenseits des Tokens (zur Einordnung fürs Budget)

„Agentic AI Enterprise Token Cost” (2026), Token als sichtbarste, aber nicht einzige Kostenposition, Plädoyer für Agentic FinOps: https://www.ey.com/en_us/insights/ai/agentic-ai-token-costs

_{Dieser Artikel wurde erstellt mit unterstützung von Claude Opus 4.8. Bilder Recraft AI}