Unter Multi-Agents im Kontext von Generativer KI versteht man automatisiertes Prompt-Engineering. Oder die optimierte Abfrage von Large Language Models wie ChatGPT.
Voraussetzungen
KI-”Agenten” sind für Fortgeschrittene: Man muss mit No-Code oder Python erste KI-Anwendungsfälle umgesetzt haben, um die Potenz von Agenten zu begreifen. Um sie auszuführen, braucht man eine Entwicklungsumgebung.
Unter “Agenten” versteht man im KI-Jargon Programme, die selbständig Abläufe planen und Aufgaben ausführen.
Abfrage-Prinzipien für Large Language Models
Large Language Models (LLMs) wie ChatGPT kann man auf verschiedene Arten befragen: Typischerweise stellt man eine Frage und bekommt eine recht gute Antwort zurück.
Um noch bessere Resultate zu erzielen, kann man folgendermassen optimieren:
- Input-Output prompting oder “Single Agent” oder “Zero Shot”
Einfache Anfrage an ein LLM wie ChatGPT mit einer recht guten Antwort, wenn auch meist etwas generisch. - Chain of Thought Prompting
“Denk Schritt für Schritt” Anweisung an ein LLM. Auf diese Weise erzielt man hochwertigere Resultate. - Self Consistency with Chain of Thought Prompting
Schritt für Schritt Erarbeitung von Aussagen entlang mehrerer Lösungswege. Am Schluss wird über den besten Output abgestimmt. - Tree of Thoughts
Entlang mehrerer Lösungswege wird pro Schritt die beste Lösung evaluiert und weiter verfeinert.
Beispielhafte Qualitätsverbesserung von GPT durch Multi-Agents
Heute verwenden wir LLMs meist im Zero-Shot-Modus, d. h. wir stellen im Chat eine Anfrage und lassen die endgültige Ausgabe in einem Zug erzeugen, ohne sie in Zwischenschritten zu optimieren.
Meist ist das Resultat von Generativer KI erstaunlich gut. Bei manuellem Prompt-Engineering gehen wir auf das Resultat ein und ändern unsere Anfrage, um präziser zu fragen und dadurch noch bessere Resultate zu erhalten. Im KI-Jargon wird dies “Few-Shot Prompting” genannt.
Dieser Verbesserungsprozess kann mit sogenannten “Agenten” automatisiert werden: Gibt man einem LLM die zusätzliche Anfrage, seine eigene Ausgabe zu hinterfragen und Schritt für Schritt zu optimieren, so resultieren noch viel bessere Resultate: Mit dieser Schritt-für-Schritt Technik erreicht GPT 3.5 fast gleich gute Resultate wie das viel aufwändigere GPT 4.0.
In folgendem Benchmarking lag GPT-3.5 («Zero Shot») zu 48% richtig.
GPT-4 (Zero Shot) schneidet mit 67% Richtigkeit erwartungsgemäss besser ab.
Die Verbesserung von GPT-3.5 zu GPT-4 wird jedoch durch die Einbindung eines iterativen Agenten-Workflows in den Schatten gestellt: In einer Agentenschleife erreicht GPT-3.5 sogar bis zu 95% Richtigkeit.
Funktionskomponenten von KI-Agenten
Folgendes sind relevante Komponenten für das Aufsetzen von Agenten-Workflows:
- Reflexion
Das LLM prüft seine eigene Arbeit, um Wege zur Verbesserung zu finden. - Verwendung von Werkzeugen
Dem LLM werden Tools zur Verfügung gestellt, wie z. B. Websuche, Code-Ausführung, API-Zugriffe oder andere Funktionen, die helfen, Informationen zu sammeln, Massnahmen zu ergreifen oder Daten zu verarbeiten. - Planung
Das LLM erarbeitet einen mehrstufigen Plan und führt ihn aus, um ein Ziel zu erreichen (z. B. eine Gliederung für einen Blogartikel schreiben, dann Online-Recherche betreiben, dann einen Entwurf schreiben, usw.). - Zusammenarbeit mit mehreren Agenten
Mehrere KI-Agenten arbeiten zusammen, teilen sich Aufgaben auf und diskutieren und debattieren Ideen, um bessere Lösungen zu finden als ein einzelner Agent. - Kurzzeit- und Langzeitspeicher
Für uns Menschen ist es selbstverständlich, uns an den vorangehenden Gesprächsverlauf zu erinnern. Generativer KI muss man diesen Zusammenhang auf die Nase binden. Hier ein interessanter Beitrag über die Wichtigkeit von Kurzzeit-Memory im Gegensatz zum Langzeit-Gedächtnis RAG (Retrieval Augmented Generation)
Multi-Agenten Tools
Damit man diese Komponenten nicht manuell von Hand konfigurieren muss, stehen zahlreiche Werkzeuge zur Verfügung.
Teilweise bieten sie graphische Benutzeroberflächen, teilweise muss man den als Open Source verfügbaren Code selber installieren und konfigurieren.
Als technische Basis eignet sich dafür die Open Source Plattform Anaconda, wie ich sie hier beschreibe. Auch Google Colab sowie Microsofts Databricks bieten vergleichbare Plattformen.
Je nach Anwendungsfall und technischer Expertise sollte man sich die folgenden Multi-Agent Tools ansehen:
Microsoft - AutoGen Studio 2.0
AutoGen ist verfügbar auf Python Code-Basis oder mittels graphischer Benutzeroberfläche AutoGen Studio 2.0.
Es gibt viele für Google Colab verfügbare Beispiele. Die kann man in seinen eigenen Google Drive kopieren.
Installiert man AutoGen Studio 2.0 auf dem eigenen PC, z.B. mittels Anaconda Entwicklungsumgebung, können die Daten lokal ausgewertet ausgewertet werden.
Hier ist ein AutoGen Multi-Agent Beispiel verfügbar, editierbar in Google Colab:
- Mittels Apify Scraper werden Web-Inhalte eingelesen
- Von Multi-Agents nach relevanten Inhalten analysiert
- Änderungsempfehlungen entlang von definierbaren Kriterien ausgegeben
Google - Vertex AI Agent Builder
Googles Vertex AI Agent Builder ist eine No-Code-Konsole zur Erstellung von Agenten, die mit Hilfe von Eingabeaufforderungen oder Open-Source-Angeboten wie LangChain auf Vertex AI erstellt werden.
Coral / Cohere
Coral von Cohere.
Zapier Central
Auch das auf Automatisierung und Schnittstellen spezialisierte Zapier bietet Multi-Agent Anwendungen.
FlowiseAI
Das Low-Code Tool FlowiseAI vereinfacht die Erstellung von fortgeschrittenen LLM-basierten Anwendungen durch seine intuitive Drag-and-Drop-Benutzeroberfläche.
AutoGPT
Auto-GPT hat Ähnlichkeiten mit ChatGPT, zeichnet sich aber durch die Automatisierung von Aufgaben aus, um schnellere Ergebnisse zu erzielen.
Es ist nahtlos in das Internet integriert und ermöglicht den Zugriff auf Echtzeitdaten.
Allerdings muss man sich hier mit der Installation und dem Betrieb von Code befassen.
Llama Lab
Llama Lab ist eine Code-Basis für die Implementierung von Multi-Agents.
AgentGPT
Die Hauptstärke von AgentGPT liegt in realen und kontextbezogenen Gesprächen, die dynamische Diskussionen hervorbringen und gleichzeitig aus einem umfangreichen Datensatz lernen.
AgentGPT erkennt Absichten von Nutzern und reagiert auf bemerkenswert menschliche Weise.
HiveGPT
HiveGPT ist eine Multi-Agent Plattform speziell für B2B Marketing.
Hier weitere Start-ups, die einen Multi-Agenten-Ansatz zur Lösung von Aufgaben verwenden: Sie planen und führen Anweisungen aus in Zusammenarbeit mit mehreren Agenten, um die Aufgabenstellung zu bewältigen.
- Fixie.ai
Eine Plattform für den Aufbau konversierender KI-Agenten, die darauf ausgelegt sind, Fragen zu beantworten, Massnahmen zu ergreifen und direkt neben einer Anwendung zu leben. - Lindy.ai
Aufbau eines Teams von KI-Mitarbeitern, die zusammenarbeiten, um beliebige Aufgaben zu erledigen. - Adept.ai
Ein KI-Teamkollege für alle. Adept entwickelt eine völlig neue Art, Dinge zu erledigen. Adept.ai setzt deine Ziele in einfacher Sprache in Aktionen in der Software um, die du täglich nutzt.
Und wie immer gilt: Als Knowledge-Worker, wie gehst du mit der Chance und der Bedrohung durch Generative Künstliche Intelligenz um?
Für den Einstieg ins Thema Generative AI empfehle ich dir meinen Beitrag «Wie der Einstieg in Generative KI gelingt»