Gefährdungsanalyse durch Detektion und 3D-Bewegungsverfolgung von Personen

Problemstellung

Das automatische Erfassen und Beobachten von Personen durch technische Systeme kann genutzt werden, um potenziell gefährliche Situationen zu erkennen und um anschließend geeignet auf diese zu reagieren. Dies ist eine unerlässliche Funktion z. B. für Fahrerassistenzsysteme, für autonomes Fahren aber auch zur automatischen Überwachung einer Umgebung. Für derartige Aufgaben sind verschiedenartige Sensoren geeignet. LiDAR-Sensoren haben dabei den Vorteil, dass sie auf direktem Weg dreidimensionale Umgebungs- und Objektmerkmale liefern. Dies erleichtert die Separierung von Vorder- und Hintergrund und liefert eine genaue Ortsbestimmung erkannter Objekte. LiDAR-Sensoren sind dazu in der Lage, die Umgebung ausreichend schnell zu erfassen um in den Daten Personen rechtzeitig erkennen zu können. Sie liefern aber im Vergleich zu Kameras eine verhältnismäßig geringe lokale Datendichte: Während eine handelsübliche Kamera mehrere Millionen Pixel in einem klar begrenzten Sichtbereich liefert, generiert ein typischer 360°-Laserscanner Punktwolken die je Umdrehung (d. h. je 360°-Scan) z. B. 100.000 Punkte umfassen. Die Herausforderung besteht darin, trotz geringer Datendichte von den genannten Vorteilen der LiDAR-Sensorik zu profitieren.

 

Lösungskonzepte und Forschungsthemen

Im Rahmen der geschilderten Anwendungsfälle kann der Einsatz eines Multisensorsystems die Vorteile der Einzelsensoren kombinieren und deren evtl. vorhandenen Nachteile ausgleichen. Derzeit wird ein Systemdemonstrator zur fahrzeugbasierten Personendetektion entwickelt, bei dem primär 3D-Daten von LiDAR-Sensoren ausgewertet werden, im Bedarfsfall ergänzt um zusätzliche Sensoren wie z. B. Kameras. Zunächst werden für das gesamte Fahrzeugumfeld 3D-Daten gesammelt und ausgewertet, wobei die Methodik in der Verwendung eines stimmbasierten Verfahrens besteht. In diesem wird nach einer Merkmalsextraktion für mögliche Positionen von Personen abgestimmt, basierend auf einem zuvor trainierten Wörterbuch mit geometrischen Wörtern (Bag-of-Words bzw. Implicit-Shape Model). In dem daraus resultierenden Stimmraum werden dann Schwerpunkte ausfindig gemacht, wovon jeder für eine detektierte Person steht.

 

Abb. 1: Personendetektion in 3D-Punktwolken. Links: Verarbeitete Punktwolken von zwei Sensoren und Detektionsergebnisse. Rechts: Dieselben Detektionen eingeblendet in ein Kamerabild des Sensorsystems.

 

Neben der Detektion von Personen ist die Bewegungsverfolgung (Tracking) von bereits detektierten Personen für die genannten Anwendungen sinnvoll. Hierdurch lassen sich Informationen über das Bewegungsverhalten der Personen ableiten. Diese Informationen wiederum können Hinweise auf mögliche Gefährdungssituationen liefern. Zusätzlich kann ein Trackingverfahren auch zukünftige Positionen von Personen extrapolieren, sodass diese Vorhersagen in den Stimmraum der Personendetektion als zusätzliche Stimmen integriert werden können um die Detektionsleistung zu verbessern. Dies ist z. B. dann angebracht, wenn eine Person vorübergehend den Erfassungsbereich der Sensoren verlässt.

Eine weitere Informationsquelle, die Rückschlüsse auf das Verhalten von Personen erlaubt, ist deren Körperhaltung, d. h. die Relativpositionen einzelner Körperteile. Auch können durch ein Erkennen des Gesichts Rückschlüsse auf die Blickrichtung einer Person gewonnen werden. Hierbei kommen 360°-scannende LiDAR-Sensoren an ihre Grenzen: Die geringe Datendichte erschwert das Erkennen kleinerer Körperpartien und für eine Gesichtserkennung sind die Daten aufgrund der geringen Auflösung kaum geeignet. Kameras und speziell Infrarotkameras stellen eine sinnvolle Ergänzung dar. Sie helfen bei der Detektion von Körperteilen und ermöglichen eine Gesichtserkennung. Zwei Vorgehensweisen sind denkbar: Zum einen können Kameras gezielt auf bereits detektierte Personen ausgerichtet werden bzw. nur die Bildausschnitte analysiert werden, in deren Richtung Personen detektiert wurden. Zum anderen können für die Kameras parallel zu den LiDAR-Sensoren eigene Detektionsprozesse ablaufen. Deren Ergebnisse lassen sich dann als Vektoren entsprechend der Abbildungsgeometrie ebenfalls in den Stimmraum der LiDAR-basierten Detektionsverfahren überführen.

Die eigentliche Gefährdungserkennung ist Gegenstand zukünftiger Arbeiten und soll basierend auf den Messdaten aller Sensorsystemkomponenten erfolgen. Zum Sensorsystem zählen neben bildgebenden Sensoren auch solche zur Bestimmung der Eigenbewegung (IMU/GNSS). Die eigene Trajektorie kann, ergänzt um die ermittelte Bewegungsrichtung einer Person, Hinweise darauf liefern, ob eine Kollision mit der Person zu befürchten steht. Diese Gefährdungsbeurteilung kann noch stichhaltiger werden, wenn z. B. aus der Blickrichtung oder dem Blickverhalten einer Person Rückschlüsse auf deren Aufmerksamkeit gezogen werden können (z.B. Umschauen vor dem Überqueren der Straße).

 

Veröffentlichungen

  • Borgmann, B., Hebel, M., Arens, M., Stilla, U., 2020. Pedestrian detection and tracking in sparse MLS point clouds using a neural network and voting-based approach. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume V-2-2020, pp. 187-194. [doi: 10.5194/isprs-annals-V-2-2020-187-2020]
  • Borgmann, B., Hebel, M., Arens, M., Stilla, U., 2018. Fußgängerbezogene Informationsgewinnung zur Situationsanalyse mit einem mobilen Multisensorsystem. 38. Wissenschaftlich-Technische Jahrestagung der DGPF. Publikationen der Deutschen Gesellschaft für Photogrammetrie, Fernerkundung und Geoinformation e.V., Band 27, ISSN: 0942-2870, S. 363-375. [pdf]
  • Borgmann, B., Hebel, M., Arens, M., Stilla, U., 2017. Detection of persons in MLS point clouds using implicit shape models. LS2017: ISPRS Workshop Laser Scanning 2017. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci., XLII-2-W7, pp. 203-210. [doi: 10.5194/isprs-archives-XLII-2-W7-203-2017]