Im Zusammenhang mit Künstlicher Intelligenz (KI) sind Kameras wichtige Sensoren. Zwar kann KI auch in anderen Sensorsignalen Muster oder Ereignisse erkennen und bewerten, aber aufgrund der 2D- oder sogar 3D-Eigenschaft von Bildern sind die Möglichkeiten hier besonders gross und vielfältig. Nimmt man noch den Zeitaspekt dazu, so erschliesst sich zudem die ganze Welt der Dynamik und zwar – durch die Verwandtschaft zum menschlichen Sehsinn – oft in einer sehr intuitiven Art und Weise.
Bild 1: Einsatz der Stereo-Kamera unter Wasser
(Bild: SSP)
Die Stettbacher Signal Processing AG (SSP) in Dübendorf hat als Dienstleister für technische und industrielle Entwicklungen in den vergangenen Jahren viel in den Bereich Machine Vision und KI investiert und eigene industrielle Produkte dafür entwickelt. Nebst sehr viel Software sind dabei verschiedene Kameras entstanden: Am Anfang war es die O-3000-Familie von verschiedenen kompakten Industriekameras. SSP legte die Treiber für diese Kameras offen, sodass sie sehr leicht integriert werden konnten, insbesondere in Embedded-Systemen. Stettbachers neueste Produkte zielen aber klar in die Welt der Künstlichen Intelligenz: Die Kameras sind ausgestattet mit sehr leistungsfähigen Rechnern, die beispielsweise neuronale Netzwerke für die Erkennung von Mustern oder Objekten (Detection) in Echtzeit verarbeiten, Objekte verfolgen (Tracking) und Vorhersagen treffen können (Prediction). Die bestehende Anbindung für ROS2 (Robot Operating System 2) erlaubt die schnelle Integration der Kamera in autonome Systeme.
3D-Kameras
Bereits verfügbar bei Stettbacher Signal Processing AG ist eine Stereo-Kamera für 3D-Vision. Sie ist lieferbar im staub- und wasserdichten Gehäuse (IP69K, siehe Bild 1) und verfügt über einen Rechner NVIDIA Jetson Xavier NX mit mehr als 380 GPU-Cores. Eine Mono-Version davon folgt in Kürze.
Bildergalerie
Viele herkömmliche Stereo-Kameras arbeiten mit sog. Structured-Light. Das heisst, sie projizieren bestimmte Muster in den Raum oder auf die zu vermessenden Objekte. Aus der Verzerrung dieser Muster kann hochgenau auf die Geometrie rückgeschlossen werden, sodass Punktwolken in Farbe mit einer Genauigkeit im Millimeter-Bereich geliefert werden können. Durch die aktive Belichtung funktioniert das Verfahren zwar auch im Dunkeln oder bei Oberflächen mit wenig Textur. Problematisch ist hingegen der zusätzliche Aufwand für den Projektor und die Anwendung im Freien, falls starke Sonneneinstrahlung die Qualität der projizierten Muster beeinflusst. Zudem ist die Reichweite oftmals auf wenige Meter eingeschränkt.
SSP setzt für die Stereo-Vision auf Block-Matching-Algorithmen. Dazu ist die Kamera mit zwei hochauflösenden 5-MPixel-global-Shutter-Bildsensoren ausgestattet, die in Hardware synchronisiert sind. In gleichzeitig aufgenommenen Bildern werden entsprechende Bildbereiche gesucht, um dann die sogenannte Disparität zu ermitteln. Mittels Triangulation können aus der Disparität und der jeweiligen Bildkoordination dann direkt die zugehörigen Punkte in Weltkoordinaten berechnet und eine Punktwolke erzeugt werden. Diese Zuordnungsverfahren haben Mühe mit Bildausschnitten, welche eine unzureichende Textur aufweisen. Dies wäre zum Beispiel bei einer weissen Wand der Fall. Es gibt allerdings Ansätze, wie mit neuronalen Netzwerken direkt aus einem Bildpaar die Tiefenkarte gewonnen werden kann. Dazu wird SSP in einem späteren Artikel noch berichten.
Objektverfolgung in 3D
Bei der Objektverfolgung ist es nicht primär wichtig, die gesamte Umgebung aufzunehmen und als Punktwolke darzustellen. Vielmehr soll das interessierende Objekt zuverlässig gefunden und im Raum trianguliert werden. Dazu muss das Objekt natürlich von beiden Sensoren der Stereo-Kamera erfasst werden. Bild 2 zeigt das Blockschaltbild mit den wesentlichen Verarbeitungsschritten für die Objektverfolgung. Im ersten Schritt wird ein Bildpaar von den zwei in Hardware synchronisierten Bildsensoren erzeugt. Die Linsen auf den Bildsensoren bewirken dabei einen Verzerrungseffekt. Im zweiten Schritt wird das Bildpaar daher entzerrt und zudem ausgerichtet (rektifiziert). Beim Rektifizieren werden die bereits entzerrten Bilder derart transformiert, dass die Epipolarlinien beider Bilder parallel zueinander verlaufen. Somit ist garantiert, dass ein Objekt, welches im linken Bild in einer bestimmten Bildzeile vorhanden ist, auch im rechten Bild in ein- und derselben Bildzeile erscheint.
In Schritt 3 kommt ein eigens trainiertes neuronales Netzwerk (YOLOv4) zum Einsatz, welches die interessierenden Objekte in beiden Bildern findet, ihre Position durch Rechtecke beschreibt (Region of Interest, ROI) und diese an einen Tracker weiterleitet. Der Tracker (Schritt 4) verfolgt resp. schätzt die Bewegung der erkannten Objekte, wenn nötig mit einer erhöhten Abtastrate.
Schliesslich muss noch die Tiefeninformation für jedes Objekt berechnet werden. Dazu wird das Objekt vom sekundären Bild ins primäre Bild kopiert und anschliessend entlang der Epipolarlinien, also horizontal, verschoben. Dort, wo nun die Korrelation zwischen den Bildern am grössten ist, befindet sich das Objekt im primären Bild. Es kann nun die horizontale Pixeldifferenz (Disparität) des Objekts zwischen dem linken und rechten Bild ausgerechnet werden. Die Entfernung des Objekts von der Kamera, also die Tiefe oder die z-Koordinate, ist indirekt proportional zur Disparität und kann unter Berücksichtigung des Basisabstands (zwischen den Bildsensoren) berechnet werden. Sobald zu einem Pixel die Tiefeninformation vorliegt, ist es trivial, auch die x- und y-Koordinaten des Punktes auszurechnen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Nachdem das Objekt erfolgreich trianguliert wurde, können die Bilder in ein gängiges Video-Format verpackt werden (etwa H.264, H.265 usw.) und zusammen mit den ermittelten Objektinformationen effizient z. B. per UDP an einen externen Server übertragen werden.
Fazit
Die Stereo-Kamera von SSP ist ein sehr mächtiges und vielseitiges Werkzeug für verschiedenste Aufgaben in den Bereichen Vision, Vermessung, Objekt-Erkennung, Objekt-Lokalisierung, Objekt-Tracking für die Anwendungen in allen Industrie-Bereichen, beispielsweise im autonomen Fahren, in der Überwachung von Prozessen, im Bereich Sicherheit usw.