»Vision Language Models heben die Interaktion auf eine neue Stufe«

Wie Künstliche Intelligenz mit neuen Sinnesmodalitäten den Menschen in verschiedenen Aufgaben und Situationen noch besser unterstützen kann

Dr. Voit, seit über einem Jahr machen KI-Chatbots Furore – welche Rolle spielt das für Sie im Geschäftsfeld KI und Autonome Systeme?

Michael Voit: Die Basis von ChatGPT und anderen generativen Sprach-KIs sind die sogenannten Large Language Models. Deren Entwicklung und Einsatzmöglichkeiten für unsere Anwendungsdomänen verfolgen wir natürlich genau. Für uns als Institut im Bereich der Bildverarbeitung ist aber besonders interessant, gleich einen Schritt weiter zu gehen und Vision Language Models (VLM) zu betrachten – also KI-Systeme, die sich nicht auf die Modalität Sprache beschränken, sondern visuellen Input mitverarbeiten. Wir beschäftigen uns also, bildlich gesprochen, lieber mit »Chatbots mit Augen« als mit reinen Sprach-Chatbots. Eine solche KI kann Situationen ganzheitlicher erfassen, ähnlich wie ein Mensch verschiedene Sinneseindrücke zu einem holistischen Konzept verbindet. Für uns bietet das die Chance, Assistenzsysteme und ihre Interaktion mit dem Menschen auf eine neue Stufe zu heben.

Welche Anwendungspotenziale haben Sie dabei im Blick?

Voit: In unseren verschiedenen Fachabteilungen erforschen wir ganz unterschiedliche Use Cases für VLM: Im eLearning-Bereich möchten wir unsere semantische Suchmaschine für Lerninhalte zukünftig auch mit Bildern füttern. Dann könnte man nach dem Motto suchen: »Diese Abbildung verstehe ich nicht – welches Lernmaterial kann mir weiterhelfen?« Im Bereich der militärischen Aufklärung ist das Ziel, die Bildauswertung und nachfolgende Erstellung von Berichten zu automatisieren. Und fürs Auto möchten wir Sprachassistenten entwickeln, die eben auch berücksichtigen was sie sehen. Dann könnte der Assistent etwa erkennen, wenn ein Insasse mit Motion Sickness kämpft, und Tipps geben – und nicht erst dann reagieren, wenn der Betroffene sein Problem ausspricht. 

Wie gehen Sie vor, um entsprechende VLMs zu bekommen?

Voit: Wir können als Institut aus Ressourcengründen kein eigenes großes VLM schaffen, aber Anpassungen bestehender Modelle sind vergleichsweise aufwandsarm per few-shot learning möglich, also mit wenigen Trainingsdaten. Wir kennen und testen deshalb die verfügbaren Modelle, evaluieren sie im Hinblick auf unsere Anwendungsdomänen und Use Cases und optimieren die geeigneten Kandidaten. Auch die Kopplung bestehender großer Modelle mit eigenen, spezialisierten Systemen ist ein erfolgversprechender Ansatz. So nutzen wir im Automotive-Bereich etwa unser Occupant Monitoring System, das auf Posen- und Aktivitätserkennung anhand von Bildern optimiert ist, und speisen dessen Output in ein Sprachmodell ein. Denkbar wäre hier sogar, noch weitere Modalitäten hinzuzufügen und das System etwa um Beschleunigungssensoren zu ergänzen.

 

Dipl.-Ing. Michael Voit ist Sprecher des Geschäftsfelds Künstliche Intelligenz und Autonome Systeme und Leiter der Abteilung Human-AI Interaction (HAI).

Digital technologies for productivity, sustainability, and security

Das obenstehende Interview ist dem Tätigkeitsbericht 2023/2024 des Fraunhofer IOSB entnommen.

 

Künstliche Intelligenz und Autonome Systeme

Erfahren Sie hier mehr über die Anwendungsfelder und Technologien unseres Geschäftsfelds Künstliche Intelligenz und Autonome Systeme.