Die Zukunft ist (LLM-) Agenten-basiert

Sven Wilms
15. Jan.
3 Min. Lesezeit

Aktualisiert: 24. Jan.

Seit der Einführung von ChatGPT im Herbst 2022 haben generative KI (GenAI) und große Sprachmodelle (Large Language Models, LLMs) die Geschäfts- wie auch die Privat-Welt im Sturm erobert. Die Anwendungen reichen vom Servicemanagement, dem Aufbau von Chatbots, der Zusammenfassung bestehender Unternehmensdokumente bis hin zur Erstellung von Marketinginhalten oder technischer Dokumente. Ein wichtiger Beitrag von LLM-basierten GenAI-Chatbots besteht darin, die Hürden für die Erstellung von Inhalte (Text, Bilder, Audio, Video, Code usw.) durch natürlichsprachliche Eingabe drastisch zu senken und neue Möglichkeiten der Mensch-Maschine-Interaktion für die breite Öffentlichkeit durch eine einfache Benutzeroberfläche zu eröffnen.

Die meisten Menschen, die bereits mit ChatGPT intensiver interagiert haben, haben allerdings bald bemerkt, dass der herkömmliche LLM-Arbeitsfluss limitiert ist, sobald die Aufgabe eine gewisse Komplexität erreicht. Selbst wenn man die besten Techniken der Eingabe-Optimierung (‘Prompt Engineering’) verwendet, endet man mit einer zunehmend längeren Eingabe. Je länger die Eingabe, desto höher die Wahrscheinlichkeit, dass das LLM nicht alle Anweisungsdetails verstehen oder befolgen wird und die im Prompt bereitgestellten Informationen verloren gehen. Ein weiteres Problem ist, dass anspruchsvollere Aufgaben oft erfordern, dass der Chatbot Sub-Prozesse wie zum Beispiel Internetsuche, Suche nach relevanten internen Unternehmensdokumenten (über ‘Retrieval Augmented Generation’, RAG), mathematische Fähigkeiten, etc. integrieren muss, um eine gesamtheitliche Bearbeitung zu gewährleisten.

Hier kommen agentenbasierte Workflows und Multi-Agenten-Systeme (MAS) bzw. Agenten-Teams ins Spiel. MAS sind äußerst nützlich bei der Lösung komplexer Aufgaben und bieten dennoch eine einfache, intuitive und natürlichsprachliche Schnittstelle. Diese LLM-basierten Agenten können autonom handeln, um Ziele basierend auf ihren Instruktionen und Fähigkeiten zu erreichen. LLM-basierte Agenten können natürlichsprachliche Eingaben verarbeiten anstatt Softwareentwicklungsexpertise zu erfordern, was die Interaktion mit ihnen für menschliche Nutzer so viel einfacher macht.

Es gibt mehrere wichtige Designmuster, die agentenbasierte Workflows sehr attraktiv machen und auf die wir im Folgenden näher eingehen möchten. Ein solches Konzept, auf das wir bereits oben hingewiesen haben, sind die Sub-Prozess-Nutzung. LLMs basieren auf der Grundlage des Prinzips der ‘Nächstes-Wort-Vorhersage‘, und liefern aufgrund des Trainings mit riesigen Datenmengen und Milliarden von Modellparametern erstaunliche Ergebnisse. Dennoch ist bekannt, dass dieser Typ des ‘statistischen Denkens’ Schwächen aufweist, wenn es zum Beispiel um Faktentreue (Halluzinationen), logisches Denken und Mathematik geht. Durch die Nutzung von Sub-Prozessen könnten Ihre LLM-Agenten solche Probleme lösen, indem sie tatsächlich Sub-Prozesse verwenden, die Mathematik betreiben oder codieren oder im Web suchen oder Bilder generieren oder jeden anderen Sub-Prozess integrieren, den Sie mit den Agenten verbinden möchten. Wenn ein Agent mehrere Sub-Proozesse zur Verfügung hat, kann er sogar selbst entscheiden, wie er die Benutzeraufgabe löst, z. B. indem er einen Funktionsaufruf an ein Web-Suchwerkzeug durchführt, seine eigene Wissensdatenbank abruft, einen spezialisierten Excel-Agenten aufruft usw. Mit anderen Worten: Das Prinzip der ‘Nächstes-Wort-Vorhersage‘, auf dem LLMs basieren, muss nicht mehr zur Lösung aller Aufgaben verwendet werden. Stattdessen können LLM-Agenten selbst entscheiden, welcher Sub-Prozess am besten geeignet ist, ein gegebenes Problem zu lösen. Dies entspricht auch dem Konzept der Modularisierung. Modularisierung bedeutet, dass verschiedene Teile eines Problems in Untereinheiten aufgeteilt werden können, die miteinander interagieren, vergleichbar Spezialisten, die spezifische Aspekte eines Problems lösen.

Neben der Integration von Sub-Prozessen und der Modularisierung bezieht sich das Flow-Engineering auf den Prozess der Optimierung des Arbeitsflusses zwischen Agenten. Eine solche Optimierung könnte beispielsweise darin bestehen, Prozesse zu parallelisieren, wie das Durchsuchen verschiedener Dokumentendatenbanken oder das Erstellen verschiedener Code-Teile oder separater Tests, was im Vergleich zu sequenziellen Single-LLM-Applikationen enorme Zeitersparnisse bringt.

Die Liste der potenziellen Anwendungsfälle von Multi-Agenten-Systemen ist schier grenzenlos. Natürlich bringt die Entwicklung und Nutzung von Multi-Agenten-Systemen auch Herausforderungen und Risiken mit sich. Insbesondere führt die zunehmende Komplexität von MAS typischerweise zu höheren Antwortlatenzen und API-Kosten, was für viele Anwendungen problematisch sein kann. Es gibt jedoch aufkommende Entwicklungen, die versprechen, diese Effekte zu beheben. Dazu gehören kleinere, spezialisierte und schnellere Modelle, günstigere API-Kosten pro Token oder neue Hardware wie die sogenannten Language Processing Units (LPUs).

Die Entwicklung von Multi-Agenten-Systemen bietet aufregende neue Anwendungsfelder für LLMs. LLMs werden generell immer besser darin, unsere Aufforderungen zu verstehen, was das Prompt-Engineering verbessern und erleichtern wird. Agentenbasierte Workflows werden diesen Prozess noch weiter erleichtern und die Interaktion zwischen Mensch und Maschine noch effizienter und benutzerfreundlicher gestalten, Die Firma Kauz aus Düsseldorf ist bereits weit fortgeschritten bei der Implementierung von LLM-Agenten in ihren KI-Assistenten und Chatbots.

Nehmen Sie auch an unserem Webinar zu diesem Thema am 13. März teil! Informationen finden Sie auf unserer Homepage.

Die Zukunft ist (LLM-) Agenten-basiert

Aktuelle Beiträge

Kommentare