Cloud Intelligence™

Die Vorteile des Black-Box-Ansatzes von Vizier

By Joshua FoxAug 7, 20234 min read

Diese Seite ist auch in English, Español, Français, Italiano, 日本語 und Português verfügbar.

Nur ein Berater

"Vizier" ist der Titel für den Berater eines Königs, abgeleitet vom arabischen وزير wazīr über das Persische und Türkische. Der Vizier berät die königliche Politik, entscheidet aber nicht selbst. Genau so funktioniert auch die Black-Box-Optimierung von Vizier: Sie führt die Optimierungs-Trials nicht selbst für Sie durch. Die Hyperparameter-Tuner-Dienste von GCP und AWS hingegen erledigen alles für Sie. Sie geben einen Bereich von Hyperparametern vor – etwa die Lernrate kontinuierlich von 0 bis 1 oder das minimale Child Weight als Integer-Parameter von 1 bis 3. Sie erstellen den Hyperparameter-Tuner-Client und rufen dann nach dem Fire-and-Forget-Prinzip eine Funktion wie fit() auf. Diese Funktion läuft eine Weile, vielleicht ein paar Stunden, und führt intern mehrere Trainingsiterationen aus, wobei sie unterschiedliche Hyperparameter wählt. Am Ende liefert der Tuner das beste Modell, das er finden konnte.

Der Black-Box-Optimierungsprozess entzieht sich Ihrer Kontrolle und ist für Sie nicht einsehbar. (Zumindest aus Sicht der API – in der Regel sind Monitoring-Systeme im Einsatz.)

Hinweis: "Black Box" bedeutet, dass Ihre Trials für Vizier unsichtbar sind. Vizier weiß nichts über das ML-Training oder den A/B-Test. Es weiß nichts über die Gradienten, die Hochs und Tiefs der Funktion, die innerhalb jedes Trials optimiert wird.

Für Sie hingegen sind diese Trials komplett "White Box" – Sie haben das Steuer in der Hand.

Vorteile

Ein Hyperparameter-Tuner-Dienst wirkt auf den ersten Blick einfacher als Vizier, und tatsächlich hat Google sowohl Vertex AI AutoML als auch die Hyperparameter-Tuner der AI Platform (der älteren Markenbezeichnung) auf einer Vizier-basierten Engine aufgebaut. Doch der Black-Box-Ansatz, bei dem Sie direkt mit Vizier interagieren, hat seine Vorzüge.

Kontrolle

Mit Black-Box-Optimierung gewinnen Sie mehr Kontrolle.

Die Trials liegen in der Regel in Ihrem Fachgebiet. Ihre Web-Entwickler kennen die Eigenheiten Ihrer Website in- und auswendig; Ihre Data Scientists verstehen die Details der ML-Algorithmik. Sie haben sich gründlich überlegt, wie Sie das Beste aus Ihren Systemen zu möglichst geringen Kosten herausholen. Mit Vizier behalten Sie die volle Kontrolle über das eigentliche ML-Training: welche Infrastruktur oder APIs zum Einsatz kommen, wie viele und welche GPUs oder TPUs verwendet werden und so weiter.

Sie können die Vorschläge von Vizier sogar ignorieren und eigene Parameter verwenden. Üblicherweise werden Sie die Vorschläge natürlich übernehmen – schließlich rufen Sie Vizier genau deshalb auf. Aber wenn Sie etwa über einen neuen Algorithmus für Ihr ML lesen oder Ihre Product Manager eine neue Variante ausprobieren wollen, die im A/B-Test der Website nicht enthalten war, können Sie das problemlos tun. Selbst wenn Sie den Trial mit eigenen Parametern fahren, können Sie die Parameter und Metriken weiterhin in Vizier einspeisen – und Vizier lernt daraus, genauso wie bei den selbst vorgeschlagenen Parametern.

Skalierbarkeit

Vizier übernimmt nur den "einfachen" Teil der Optimierung über mehrere Trials hinweg. Die Schwerstarbeit des ML, die viel spezialisierte Hardware erfordern kann, leistet es nicht. Ebenso wenig übernimmt es die Schwerstarbeit beim A/B-Testing einer Website oder beim Betrieb einer Fabrik. Genau das macht es skalierbar: Sie kümmern sich um das eigentliche Training oder den anderen zu optimierenden Prozess – also den intensivsten Teil des gesamten Workflows – und können dabei die Best Practices anwenden, die am besten zu Ihrem konkreten Setup passen. (In Abbildung 1 unten sind Ihre Trainingsmaschinen die "Evaluation Workers" unterhalb der Vizier REST API.)

Vizier selbst startet wiederum skalierbar Worker, die Vorschläge generieren oder einen geeigneten Stopp-Zeitpunkt empfehlen. Da der Zustand in einer Datenbank gespeichert wird und nicht im Kontext eines einzelnen Optimierungslaufs, kann Vizier sich von Ausfällen erholen. Und weil die Suggestion-Worker ausschließlich Hyperoptimierung betreiben und nicht Ihre "Schwerstarbeit" übernehmen, lassen sich diese Worker effizient hochskalieren.

Abbildung 1. Architekturdiagramm (basierend auf dem Diagramm aus dem Forschungspapier.)

Multi-Objective

Die meisten Optimierungsprozesse und die meisten Hyperparameter-Tuner sind darauf ausgelegt, eine einzige Metrik zu maximieren. Das ist auch der häufigste Anwendungsfall von Vertex AI Vizier. Manchmal wollen Sie aber mehrere Metriken gleichzeitig optimieren. In einem A/B-Test für eine Website wollen Sie vielleicht sowohl den Umsatz als auch die Verweildauer maximieren. Oder Sie haben einen zweiseitigen Markt und möchten, dass Käufer gute Angebote bekommen – gleichzeitig aber auch, dass die Verkäufer ihre Gewinne maximieren.

Als einfaches Beispiel zur Veranschaulichung des Konzepts können Sie sich dieses Beispiel-Notebook von Google ansehen, das zwei trigonometrische Funktionen derselben beiden Eingabeparameter maximiert.

Abbildung 2. Es gibt keinen einzelnen optimalen Punkt für beide Funktionen.

Offensichtlich gibt es keinen einzelnen Punkt, an dem beide Metriken maximiert werden. Vertex AI Vizier ermittelt deshalb die Pareto-Front – eine Linie, jenseits derer Sie eine Metrik nicht mehr verbessern können, ohne die andere zu verschlechtern. Das Optimum ist also kein einzelner Punkt, sondern eine Grenze.

Als Nächstes: Flexibilität und einige der ersten Vizier-ML-Notebooks

Vizier ist ein unkompliziertes System, und Sie können (und sollten in der Regel) es mit den Standardeinstellungen verwenden. Sie können seine Fähigkeiten aber auch weiter feinjustieren. Im nächsten Artikel zeigen wir Ihnen, wie das geht, und stellen außerdem einige Code-Beispiele bereit.