Dr. Voit, seit über einem Jahr machen KI-Chatbots Furore – welche Rolle spielt das für Sie im Geschäftsfeld KI und Autonome Systeme?
Michael Voit: Die Basis von ChatGPT und anderen generativen Sprach-KIs sind die sogenannten Large Language Models. Deren Entwicklung und Einsatzmöglichkeiten für unsere Anwendungsdomänen verfolgen wir natürlich genau. Für uns als Institut im Bereich der Bildverarbeitung ist aber besonders interessant, gleich einen Schritt weiter zu gehen und Vision Language Models (VLM) zu betrachten – also KI-Systeme, die sich nicht auf die Modalität Sprache beschränken, sondern visuellen Input mitverarbeiten. Wir beschäftigen uns also, bildlich gesprochen, lieber mit »Chatbots mit Augen« als mit reinen Sprach-Chatbots. Eine solche KI kann Situationen ganzheitlicher erfassen, ähnlich wie ein Mensch verschiedene Sinneseindrücke zu einem holistischen Konzept verbindet. Für uns bietet das die Chance, Assistenzsysteme und ihre Interaktion mit dem Menschen auf eine neue Stufe zu heben.