Cloud Intelligence™Cloud Intelligence™

Cloud Intelligence™

Warum wir Attribute™ launchen

By Vadim SoloveyJul 1, 20266 min read

Diese Seite ist auch in English, Español, Français, Italiano, 日本語 und Português verfügbar.

Sie sehen Ihre AI-Rechnung. Sie können sie sogar grob erklären. Aber Sie können diese Ausgaben nicht Ihren Kunden, Teams oder Nutzern zuordnen. Damit lässt sich auch nicht seriös sagen, ob Sie Ihre Produkte mit gesunden Margen bepreisen. Genau diese Lücke - zwischen dem, was Sie ausgeben, und dem, was Sie belegen können - schließen wir mit Attribute™.

Die Zuordnung von Cloud-Kosten war noch nie einfach, gerade bei geteilten Ressourcen. Wir helfen seit fünfzehn Jahren mehr als 4.000 Kunden dabei, geteilte Infrastruktur zu entwirren, Tagging-Richtlinien durchzusetzen und Chargeback-Modelle aufzubauen, die einer Prüfung standhalten. Es war immer schon ein hartes Problem. AI hat es zusätzlich verschärft.

Die Infrastruktur, auf der AI läuft, wurde auf Geschwindigkeit und Skalierung ausgelegt – nicht auf Attribution. Die Attributionsansätze, mit denen sich die Branche in der Cloud eingerichtet hat (Tags), lassen sich hier nicht übertragen. Das ist eine architektonische Realität - und sie verlangt nach einer anderen Antwort.

Die Instrumentierungsfalle

Die Standardantwort auf Kostenattribution lautete schon immer: Instrumentierung. Ressourcen taggen. API-Aufrufe in ein SDK kapseln. Namenskonventionen durchsetzen. Eine Pipeline aufbauen, die diese Signale in einem Dashboard zusammenführt.

Für klassische Cloud-Infrastruktur funktioniert dieser Ansatz – wenn auch nicht perfekt. Die zugrunde liegende geteilte Infrastruktur ist relativ statisch. Das Ownership-Modell ist relativ klar. Mit ein paar Zugeständnissen erreicht man ein "gut genug".

AI-Infrastruktur bricht jede Annahme, auf der dieser Ansatz beruht.

Ein einzelnes Managed Model bedient mehrere Kunden gleichzeitig. Ein geteilter GPU-Cluster führt Modelle für mehrere Produkte parallel aus. Ein LLM-Gateway bündelt Anfragen von Agenten, Harnesses und Menschen in einem einzigen ausgehenden Stream. Und ein agentic Workload kann Sub-Agenten spawnen, die Infrastrukturkosten auslösen – ohne erkennbaren Bezug zu der Rechnungsposition in der AI-Abrechnung, aus der sie hervorgegangen sind.

Es gibt kein SDK, das man um eine geteilte GPU legen kann. Es gibt kein Tag, das den Weg durch einen LLM-Proxy übersteht. Und AI-Workloads bewegen sich in einem Tempo, mit dem Instrumentierung schlicht nicht Schritt hält. Ein Agent kann über Nacht tausend Sub-Agenten spawnen. Bis Sie die neuen Aufrufmuster in ein SDK gekapselt und das Update ausgerollt haben, liegt die Rechnung längst auf dem Tisch.

Die Attributionslücke bei AI-Ausgaben ist kein Prozessproblem, aus dem Sie sich mit Instrumentierung herausarbeiten können. Sie ist eine architektonische Realität der Funktionsweise von AI-Infrastruktur.

"Die Attributionslücke bei AI-Ausgaben ist kein Prozessproblem, aus dem Sie sich mit Instrumentierung herausarbeiten können. Sie ist eine architektonische Realität der Funktionsweise von AI-Infrastruktur."

Genau diese Erkenntnis hat uns zu Attribute™ geführt. Wenn die Architektur von AI-Workloads Instrumentierung schon per Design aushebelt, dann ist Instrumentierung die falsche Antwort. Sie müssen auf einer Ebene messen, die alles sieht - vor jeder Abstraktion, vor jedem Proxy, vor jeder Ownership-Grenze. Sie müssen am O/S-Kernel messen.

Ein anderer Ansatz

Attribute™ setzt einen eBPF-Sensor ein, der innerhalb des Betriebssystems arbeitet. Er beobachtet den tatsächlichen Verbrauch - jeden Token, jeden Model-Request, jeden GPU-Zyklus - in dem Moment, in dem er entsteht, und ordnet jede Einheit dem verantwortlichen Prozess, Container, Pod und Request zu. Anschließend verknüpft er diese Daten mit den Provider-Abrechnungen von Anthropic, OpenAI, Google Gemini und AWS Bedrock und schlüsselt Cached Tokens, Reasoning Tokens, Input Tokens und Output Tokens automatisch auf.

Das Ergebnis: Token-Ökonomie pro Kunde, pro Feature, pro Agent – kontinuierlich erzeugt, ohne Instrumentierung, ohne Tagging, ohne Code-Änderungen.

Die heute verfügbaren Tools (und es gibt durchaus solide) lassen sich in zwei Lager einteilen: 1. solche, bei denen Engineers die Allokationslogik im Code definieren müssen, und 2. solche, die per Metadaten-Inferenz automatisch virtuelle Tags vorschlagen.

Beides sind spürbare Verbesserungen gegenüber manuellem Tagging. Aber keiner dieser Ansätze kann in eine geteilte GPU hineinschauen. Keiner kann einen Token durch ein LLM-Gateway zurück zu dem Kunden oder Nutzer verfolgen, der ihn ausgelöst hat. Das Problem ist nicht das Tool. Das Problem ist die Methode.

Jeder Ansatz, der auf Metadaten setzt, um Attribution zu rekonstruieren, läuft gegen dieselbe Wand – denn auf der Ebene, auf der der Verbrauch tatsächlich stattfindet, existieren diese Metadaten nicht.

Messung auf Kernel-Ebene ist kein technisches Detail. Es ist die einzige Architektur, die vollständige Attribution über die gesamte Fläche moderner AI-Infrastruktur hinweg liefert.

Warum Tokenomics der richtige Rahmen ist

Mit diesem neuen Ansatz treiben wir aktiv die Kategorie Tokenomics voran – und das meint etwas ganz Bestimmtes. Es geht nicht um AI-Kostenmanagement - dieser Diskurs ist in der Branche allgegenwärtig, und meist ist er nichts anderes als Cloud-FinOps-Vokabular, angewendet auf eine neue Rechnungsposition.

Tokenomics ist die Disziplin, zu verstehen, was jeder einzelne Token für Ihr Geschäft tatsächlich wert ist: Wer hat ihn verbraucht, was hat er produziert, und war die Ausgabe durch das Ergebnis gerechtfertigt?

Das erfordert Attribution auf Token-Ebene. Nicht auf Account-Ebene. Nicht auf Team-Ebene. Auf Token-Ebene. Sie müssen wissen, dass eine bestimmte Kunden-Session 47.000 Tokens über drei Modelle hinweg verbraucht hat, dass 31.000 davon in ein Feature geflossen sind, das 80 % der Verlängerungswahrscheinlichkeit treibt, und dass die restlichen 16.000 in ein experimentelles Feature gingen, das noch gar nicht in Produktion ist. Das sind die Daten, mit denen Sie fundiert entscheiden, wo Sie investieren und wo Sie zurückfahren.

Über Tagging kommen Sie an diese Daten nicht heran. Über SDKs auch nicht. Sie kommen nur dann heran, wenn Sie auf der Ebene messen, auf der der tatsächliche Verbrauch entsteht.

Die Linux Foundation hat kürzlich angekündigt, gemeinsam mit der FinOps Foundation die Tokenomics Foundation zu launchen, um offene Industriestandards für AI-Token-Ökonomie zu etablieren. JR Storment, Executive Director der FinOps Foundation und enger DoiT-Partner, hat es unmissverständlich formuliert: Das Problem zu benennen, heißt noch nicht, es zu lösen.

Genau so ist es. Die Kategorie hat jetzt einen Namen und ein institutionelles Zuhause. Attribute™ ist die Messebene, die sie operativ nutzbar macht.

Warum DoiT, und warum jetzt?

DoiT hat für 4.500 Kunden in 27 Ländern über 20 Milliarden US-Dollar an Cloud-Ausgaben gemanagt. Wir haben jede große Cloud-Kostenkategorie entstehen sehen: Compute-Optimierung, Commitment-Management, Kubernetes-Kostenallokation. Teams, die früh das richtige Messfundament legen, treffen jede spätere Entscheidung besser. Teams, die Attribution vertagen, bis die Rechnungen bereits groß sind, verbringen Jahre damit, Kontext zu rekonstruieren, den sie vom ersten Tag an hätten haben können.

AI-Ausgaben wachsen schneller als jede Kostenkategorie zuvor. Unsere eigene Studie - eine Befragung von 500 Finance-Führungskräften - zeigt, dass 79 % der Unternehmen bereits AI-Kostenüberschreitungen erlebt haben und nur 15 % nach eigener Aussage den AI-ROI ohne erhebliche Reibungsverluste präzise berechnen können. Das Zeitfenster, das richtige Toolset zu etablieren, ist jetzt – nicht nach der nächsten bösen Überraschung auf der Rechnung.

Es gibt ein zweites Signal, das der Erwähnung wert ist. Wenn AI von der Experimentierphase in Produktionsinfrastruktur übergeht, ändern sich die Fragen. Es geht nicht mehr um "Was geben wir aus" - es geht um "Was kostet es, jeden einzelnen Kunden zu bedienen", "Welche AI-Features drücken unsere Margen" und "Welche Agenten verbrennen Budget, ohne dass etwas Zählbares dabei herauskommt". Ihr Board stellt diese Fragen. Ihr CFO stellt sie. Ausgabendaten auf Account-Ebene liefern Antworten auf Account-Ebene. Attribution auf Kernel-Ebene - pro Kunde, pro Agent, pro Feature - liefert die Art von Antworten, die Entscheidungen tatsächlich verändern.

Deshalb haben wir Attribute™ gebaut. Und deshalb bringen wir es jetzt zu DoiT.

Über Attribute™
Fünfzehn Minuten bis zur Installation. Keine Instrumentierung nötig. Token-Ökonomie bis zum Feierabend. Wenn Sie sehen möchten, wie Attribute™ in Ihrer eigenen Umgebung aussieht, buchen Sie hier eine Demo.