Das Internet ist riesig und wächst unaufhörlich weiter. Mitte 2025 hostet es mehr als 1,25 Milliarden Websites und produziert jährlich rund 149 Zettabyte an Daten. Mehr als die Hälfte des gesamten Traffics geht inzwischen auf das Konto von Bots – viele davon mit bösartigen Absichten. Vor diesem Hintergrund war es nie wichtiger, Unternehmen beim Schutz ihres digitalen Fußabdrucks zu unterstützen.
Bei DoiT haben wir gemeinsam mit einem Kunden, der auf Attack Surface Management (ASM) spezialisiert ist, ausgelotet, wie moderne KI Teile dieses Prozesses automatisieren und skalieren kann. Das Ziel: ein Agent, der das Web durchsucht, die exponierten Assets eines Kunden analysiert und potenzielle Schwachstellen identifiziert – und das alles auf AWS.

Die Lösung im Entwurf
Wir haben ein System auf Basis von Amazon Bedrock und Strands Agents konzipiert, das Reasoning-Modelle, Browser-Automatisierung, Retrieval-Augmented Generation und vollständige Observability für den Produktivbetrieb vereint.
Die zentralen AWS-Komponenten:
| Komponente | Service | Rolle |
| -------------------------- | ------------------------------------ | -------------------------------------------------------------- |
| **Foundation Model** | Amazon Bedrock mit Claude | Serverless-Zugriff auf moderne LLMs über eine einheitliche API |
| **Agent Framework** | Strands Agents | SDK zum Aufbau und zur Orchestrierung von Agenten |
| **Tooling Layer** | Model Context Protocol (MCP) | Schnittstelle zwischen Agent und externen Tools |
| **Retrieval** | Bedrock Knowledge Bases + OpenSearch | Vektor-Store für Grounding und RAG |
| **Runtime** | AWS Fargate & Bedrock AgentCore | Vollständig verwaltete Ausführungsumgebungen |
| **Observability** | CloudWatch & LangFuse | Tracing, Logging und Metriken. |
| **Infrastructure as Code** | AWS CDK | Deployment-Automatisierung |
Und so greifen sie ineinander:

Schauen wir uns die einzelnen Bausteine in den nächsten Abschnitten genauer an.
Reasoning-Modelle und Agent Framework
Beginnen wir beim Fundament: dem "Denken" des Agenten. AWS Bedrock bietet einfachen Zugriff auf leistungsfähige Reasoning-Modelle wie Amazons Nova-Familie, die Claude-Modelle von Anthropic sowie zahlreiche Open-Source-Modelle wie Mistral, DeepSeek oder Llama. Diese Modelle unterstützen bereits Chain-of-Thought-Reasoning, sodass der Agent Zwischenschritte explizit "durchdenken" kann, bevor er Schlüsse zieht und Aktionen auslöst. Diese Fähigkeit ist entscheidend, denn jede Browsing-Aktion und jede Beobachtung baut auf der vorherigen auf.
Für die Orchestrierung liefern Strands Agents eine elegante Abstraktion über die Agent-Schleife: im Kern ein Zyklus aus Reasoning, Tool-Nutzung und Antwortgenerierung. Strands integriert sich nahtlos mit Bedrock-Modellen und bietet produktionsreife Primitiven für Session-State, Multi-Agent-Koordination und Kontextmanagement.
Ein kleines Codebeispiel aus dem Agenten zeigt, wie unkompliziert die Entwicklung mit Strands ist:
all_tools = [retrieve]
with playwright_mcp_client, filesystem_mcp_client:
playwright_tools = playwright_mcp_client.list_tools_sync()
filesystem_tools = filesystem_mcp_client.list_tools_sync()
all_tools.extend(playwright_tools + filesystem_tools)
agent = Agent(
model=bedrock_model,
system_prompt=system_prompt,
tools=all_tools,
)
Diese Schleife ermöglicht es dem Agenten, autonom zu browsen, die Ergebnisse zu interpretieren und seinen Zustand über die einzelnen Schritte hinweg zu erhalten.
Aktionen über Tools und MCP
Reasoning allein reicht jedoch nicht – der Agent muss auch mit der Außenwelt interagieren.
Realisiert wurde das Tooling über das Model Context Protocol (MCP), einen offenen Standard, der LLMs mit externen Systemen verbindet. Jeder MCP-Server stellt einen Katalog von "Tools" mit klaren Definitionen und Schemata bereit, die der Agent zur Laufzeit dynamisch aufrufen kann.
Für unseren Anwendungsfall haben wir drei Tool-Quellen kombiniert:
retrieve: für die semantische Abfrage der Schwachstellendatenbank.- Playwright MCP: für Web-Browsing und Website-Interaktionen.
- Filesystem MCP: für einfache persistente Speicherung und Logging.
Während der Entwicklung führte AWS im August 2025 AgentCore ein, inklusive eines eigenen Browser Tools. Damit entfiel die Notwendigkeit, eine eigene Playwright-Infrastruktur zu betreiben. Es bietet eine vollständig verwaltete, isolierte Browser-Umgebung mit IAM-Integration und CloudTrail-Observability – und ließ sich elegant in den bestehenden Code einklinken:
from strands_tools.browser.agent_core_browser import AgentCoreBrowser
all_tools = [retrieve, AgentCoreBrowser().browser]
Dank der Modularität von Strands war der Wechsel vom selbst gehosteten Browser-Tooling zu einem sichereren und besser skalierbaren Managed Service ein Kinderspiel.
Grounding mit Bedrock Knowledge Bases
Damit der Agent auf Basis realer Daten argumentieren kann, haben wir ihn an die CVE™ Program-Datenbank angebunden – ein Repository bekannter Schwachstellen.
Mit Amazon Bedrock Knowledge Bases haben wir den CVE-Datensatz hochgeladen, den AWS automatisch in Chunks zerlegt, mit Embeddings versehen und in OpenSearch Serverless indexiert hat – bereit für Abfragen.
Über das retrieve-Tool konnte der Agent diesen Vektor-Store zur Laufzeit abfragen und so jederzeit auf aktuelles Wissen zu Schwachstellen zugreifen, die für das jeweils analysierte Kunden-Asset relevant sind. Die verwaltete Ingest- und Retrieval-Pipeline der Bedrock Knowledge Bases ersparte uns gegenüber einem komplett selbst gebauten RAG-Flow erheblichen Engineering-Aufwand.
Den Agenten auf AWS deployen
Nach erfolgreicher lokaler Validierung des Prototyps haben wir die Lösung mit zwei Managed Runtimes in Produktion gebracht:
1. AWS Fargate
Ein containerisiertes Deployment, per Docker paketiert und mit AWS CDK orchestriert. Dieses Setup gab uns die volle Kontrolle über Skalierung und Netzwerk – ideal, wenn man mehr Steuerung benötigt oder spezialisierte Abhängigkeiten hat (etwa die MCP-Server).
2. Amazon Bedrock AgentCore
AgentCore bietet eine noch höhere Abstraktionsebene: Sie definieren den Agenten und seine Konfiguration, AWS übernimmt den Betrieb.
Mit wenigen Code-Anpassungen – im Wesentlichen ein Wechsel von der Filesystem-Speicherung zum State-System von Strands – lief derselbe Agent vollständig verwaltet, ganz ohne CDK- oder VPC-Konfiguration, einfach via agentcore configure und agentcore launch aus dem AgentCore Starter Kit. Für schnelle Iterationen und minimalen operativen Aufwand war dieser Ansatz unschlagbar.
Observability und Evaluation
Das Verhalten eines Agenten zu überwachen ist mindestens so wichtig wie sein Design.
Für Teams, die externe Analytics bevorzugen, ließ sich LangFuse mühelos über OpenTelemetry anbinden und lieferte eine fein granulare Timeline von Loops, Modellaufrufen und Tool-Invocations. Das gibt einen exzellenten Schritt-für-Schritt-Einblick, was der Agent "denkt" und welche Tools er auswählt – essenziell für Debugging und kontinuierliche Verbesserung.
Mit dem Launch von AgentCore wurde auch AgentCore Observability verfügbar und integriert sich nahtlos mit CloudWatch, das inzwischen ein GenAI-Observability-Dashboard mitbringt und Traces, Metriken und Logs über jeden Aufruf hinweg erfasst. Entwickler können Token-Verbrauch und Fehlerraten visualisieren sowie Sessions im Detail nachvollziehen – aus der Blackbox des LLM-Reasonings werden so messbare Daten.
Die Kosten Ihres Agenten im Blick mit DoiT Cloud Intelligence
Eng verknüpft mit Observability gehört auch der Kosten-Impact bereits vor dem Produktiv-Deployment ganz oben auf die Agenda.
Bei DoiT haben wir die GenAI Lens als Teil unserer DoiT Cloud Intelligence™-Plattform gelauncht, mit der Sie die Ausgabenmuster generativer KI-Workloads analysieren.
Sie integriert sich direkt mit Amazon Bedrock sowie mit Anthropic und OpenAI und macht transparent, welche Modelle und Workloads Ihre Kosten treiben.
Für tiefergehende Analysen erlaubt DataHub, die Datenerfassung direkt in Ihre Anwendung einzubetten. Mit Labels und individuellen Dashboards lassen sich Kosten pro Domain oder Kunde nachverfolgen – bis hin zu einem Cost per Vulnerability Found. So werden Security-Insights zu messbarem ROI.
Ausblick
Von der Datenerfassung über Reasoning bis zur Observability – das AWS-Ökosystem stellte alle Bausteine bereit, um diesen autonomen ASM-Agenten zum Leben zu erwecken: sicher, skalierbar und mit minimalem Infrastrukturmanagement, insbesondere jetzt, da AgentCore allgemein verfügbar ist.
Wir haben Tests auf testphp.vulnweb.com durchgeführt und gezeigt, dass unser System SQL Injection, Reflected und Stored XSS, Authentication Bypass und sogar Szenarien einer aktiven Site-Kompromittierung erkennen kann. Diese Ergebnisse belegten, dass der Agent autonom Web-Flows durchlaufen, Payloads einschleusen, Ausführungs-Evidenz interpretieren und Resultate gegen die CVE-Datenbank korrelieren kann – und das mit minimaler menschlicher Aufsicht. Über die rein technische Genauigkeit hinaus zeigte sich der Mehrwert der Kombination aus autonomem Reasoning, Echtzeit-Retrieval und Observability: Aus rohen Schwachstellen-Scans wird strukturierte, erklärbare Intelligenz.
Es bleibt viel Spielraum: das Reporting verfeinern, die Performance gegen bekannte Benchmarks evaluieren und weitere Schwachstellendatenbanken anbinden. Doch schon in der jetzigen Form zeigt dieses Projekt, wie sich mit AWS Bedrock + Strands Agents das Versprechen generativer KI in operativen Mehrwert für die Cybersicherheit überführen lässt.
Der gesamte Quellcode und alle Implementierungsdetails sind auf GitHub verfügbar; eine ausführliche Langfassung finden Sie hier.
—
Machen wir Ihren FinOps-Weg gemeinsam einfacher: Sprechen Sie mit uns über doit.com/services!