Vision-Systeme mit KI Intelligente Kameras

Von Philip Hörmandinger, Patrick Roth, Dr. Jürg M. Stettbacher Lesedauer: 4 min

Anbieter zum Thema

Im Zusammenhang mit Künstlicher Intelligenz (KI) sind Kameras wichtige Sensoren. Zwar kann KI auch in anderen Sensorsignalen Muster oder Ereignisse erkennen und bewerten, aber aufgrund der 2D- oder sogar 3D-Eigenschaft von Bildern sind die Möglichkeiten hier besonders gross und vielfältig. Nimmt man noch den Zeitaspekt dazu, so erschliesst sich zudem die ganze Welt der Dynamik und zwar – durch die Verwandtschaft zum menschlichen Sehsinn – oft in einer sehr intuitiven Art und Weise.

Bild 1: Einsatz der Stereo-Kamera unter Wasser
Bild 1: Einsatz der Stereo-Kamera unter Wasser
(Bild: SSP)

Die Stettbacher Signal Processing AG (SSP) in Dübendorf hat als Dienstleister für technische und industrielle Entwicklungen in den vergangenen Jahren viel in den Bereich Machine Vision und KI investiert und eigene industrielle Produkte dafür entwickelt. Nebst sehr viel Software sind dabei verschiedene Kameras entstanden: Am Anfang war es die O-3000-Familie von verschiedenen kompakten Industriekameras. SSP legte die Treiber für diese Kameras offen, sodass sie sehr leicht integriert werden konnten, insbesondere in Embedded-Systemen. Stettbachers neueste Produkte zielen aber klar in die Welt der Künstlichen Intelligenz: Die Kameras sind ausgestattet mit sehr leistungsfähigen Rechnern, die beispielsweise neuronale Netzwerke für die Erkennung von Mustern oder Objekten (Detection) in Echtzeit verarbeiten, Objekte verfolgen (Tracking) und Vorhersagen treffen können (Prediction). Die bestehende Anbindung für ROS2 (Robot Operating System 2) erlaubt die schnelle Integration der Kamera in autonome Systeme.

3D-Kameras

Bereits verfügbar bei Stettbacher Signal Processing AG ist eine Stereo-Kamera für 3D-Vision. Sie ist lieferbar im staub- und wasserdichten Gehäuse (IP69K, siehe Bild 1) und verfügt über einen Rechner NVIDIA Jetson Xavier NX mit mehr als 380 GPU-Cores. Eine Mono-Version davon folgt in Kürze.

Bildergalerie

Viele herkömmliche Stereo-Kameras arbeiten mit sog. Structured-Light. Das heisst, sie projizieren bestimmte Muster in den Raum oder auf die zu vermessenden Objekte. Aus der Verzerrung dieser Muster kann hochgenau auf die Geometrie rückgeschlossen werden, sodass Punktwolken in Farbe mit einer Genauigkeit im Millimeter-Bereich geliefert werden können. Durch die aktive Belichtung funktioniert das Verfahren zwar auch im Dunkeln oder bei Oberflächen mit wenig Textur. Problematisch ist hingegen der zusätzliche Aufwand für den Projektor und die Anwendung im Freien, falls starke Sonnen­einstrahlung die Qualität der projizierten Muster beeinflusst. Zudem ist die Reichweite oftmals auf wenige Meter eingeschränkt.

SSP setzt für die Stereo-Vision auf Block-Matching-Algorithmen. Dazu ist die Kamera mit zwei hochauflösenden 5-MPixel-global-Shutter-Bildsensoren ausgestattet, die in Hardware synchronisiert sind. In gleichzeitig aufgenommenen Bildern werden entsprechende Bildbereiche gesucht, um dann die sogenannte Disparität zu ermitteln. Mittels Triangulation können aus der Disparität und der jeweiligen Bildkoordination dann direkt die zugehörigen Punkte in Weltkoordinaten berechnet und eine Punktwolke erzeugt werden. Diese Zuordnungsverfahren haben Mühe mit Bildausschnitten, welche eine unzureichende Textur aufweisen. Dies wäre zum Beispiel bei einer weissen Wand der Fall. Es gibt allerdings Ansätze, wie mit neuronalen Netzwerken direkt aus einem Bildpaar die Tiefenkarte gewonnen werden kann. Dazu wird SSP in einem späteren Artikel noch berichten.

Objektverfolgung in 3D

Bei der Objektverfolgung ist es nicht primär wichtig, die gesamte Umgebung aufzunehmen und als Punktwolke darzustellen. Vielmehr soll das interessierende Objekt zuverlässig gefunden und im Raum trianguliert werden. Dazu muss das Objekt natürlich von beiden Sensoren der Stereo-Kamera erfasst werden. Bild 2 zeigt das Blockschaltbild mit den wesentlichen Verarbeitungsschritten für die Objektverfolgung. Im ersten Schritt wird ein Bildpaar von den zwei in Hardware synchronisierten Bildsensoren erzeugt. Die Linsen auf den Bildsensoren bewirken dabei einen Verzerrungseffekt. Im zweiten Schritt wird das Bildpaar daher entzerrt und zudem ausgerichtet (rektifiziert). Beim Rektifizieren werden die bereits entzerrten Bilder derart transformiert, dass die Epipolarlinien beider Bilder parallel zueinander verlaufen. Somit ist garantiert, dass ein Objekt, welches im linken Bild in einer bestimmten Bildzeile vorhanden ist, auch im rechten Bild in ein- und derselben Bildzeile erscheint.

In Schritt 3 kommt ein eigens trainiertes neuronales Netzwerk (YOLOv4) zum Einsatz, welches die interessierenden Objekte in beiden Bildern findet, ihre Position durch Rechtecke beschreibt (Region of Interest, ROI) und diese an einen Tracker weiterleitet. Der Tracker (Schritt 4) verfolgt resp. schätzt die Bewegung der erkannten Objekte, wenn nötig mit einer erhöhten Abtastrate.

Schliesslich muss noch die Tiefeninformation für jedes Objekt berechnet werden. Dazu wird das Objekt vom sekundären Bild ins primäre Bild kopiert und anschliessend entlang der Epipolarlinien, also horizontal, verschoben. Dort, wo nun die Korrelation zwischen den Bildern am grössten ist, befindet sich das Objekt im primären Bild. Es kann nun die horizontale Pixeldifferenz (Disparität) des Objekts zwischen dem linken und rechten Bild ausgerechnet werden. Die Entfernung des Objekts von der Kamera, also die Tiefe oder die z-Koordinate, ist indirekt proportional zur Disparität und kann unter Berücksichtigung des Basisabstands (zwischen den Bildsensoren) berechnet werden. Sobald zu einem Pixel die Tiefeninformation vorliegt, ist es trivial, auch die x- und y-Koordinaten des Punktes auszurechnen.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Nachdem das Objekt erfolgreich trianguliert wurde, können die Bilder in ein gängiges Video-Format verpackt werden (etwa H.264, H.265 usw.) und zusammen mit den ermittelten Objektinformationen effizient z. B. per UDP an einen externen Server übertragen werden.

Fazit

Die Stereo-Kamera von SSP ist ein sehr mächtiges und vielseitiges Werkzeug für verschiedenste Aufgaben in den Bereichen Vision, Vermessung, Objekt-Erkennung, Objekt-Lokalisierung, Objekt-Tracking für die Anwendungen in allen Industrie-Bereichen, beispielsweise im autonomen Fahren, in der Überwachung von Prozessen, im Bereich Sicherheit usw.

(ID:49326227)