Wird der Traum von uns, dass Roboter zu Hause die Wäsche bügeln, den Müll hinaustragen oder die Geschirrspülmaschine ausräumen schon in absehbarer Zeit Realität? Um diese und weitere Fragen zu humanoiden Robotern zu beantworten, braucht es mehr als populistisches Halbwissen. Die at – aktuelle technik sprach zu diesem Thema mit Prof. Dr. Yulia Sandamirskaya, einer wahren Expertin für Robotik vom Institut für Computational Life Sciences der ZHAW.
«Das Ziel unserer Forschungsarbeit ist, dass sich Roboter auch in der Nähe von Menschen agil und sicher bewegen können. Dazu müssen diese Roboter die Umgehung in Echtzeit sehen und verstehen.»
(Bild: Thomas Entzeroth)
Ich begegnete im März Yulia Sandamirskaya am International Humanoid Forum in Biel. Sie hielt ein enorm spannendes Referat über die Zukunft der Robotik im Allgemeinen und speziell über humanoide Roboter, Themen die für at – aktuelle technik exzellent passen. Seien Sie auch so fasziniert wie ich über die Ausführungen von Yulia in diesem Interview.
at – aktuelle technik: Yulia, im Laufe deiner beruflichen Karriere hast du schon einige spannende Projekte begleitet und abgeschlossen. Kannst du einen kurzen Überblick geben, worum es dabei jeweils ging? Was war deine Motivation, auf diesen Gebieten zu forschen, diese Projekte anzugehen?
Yulia: Meine erste Arbeit auf dem Gebiet der Robotik war im Jahr 2005, ein Verbundprojekt, welches meine Doktorarbeit finanzierte. Es handelte sich um ein Forschungsprojekt zusammen mit mehreren Industriepartnern, das vom BMBF (Bundesministerium für Bildung und Forschung) finanziell unterstützt wurde. Insgesamt waren 17 Partner dabei, darunter Schunk, Kuka, DLR sowie grosse Universitäten. Das Ziel bestand darin, einen Assistenzroboter für ältere Leute für die Haushaltshilfe zu bauen. Unsere Vision war, einen halb-humanoiden Roboter dafür zu bauen. Er fuhr auf Rädern und besass zwei Arme. Er konnte die Umgebung erfassen, von A nach B kommen, Objekte erkennen und greifen, dem Menschen folgen. Also kleine Aufgaben im Haushalt erledigen, um ältere Leute zu unterstützen. Das war lange bevor neuronale Netzwerke in der Software für humanoide Roboter eingesetzt wurden. Ich war im Team für die Perzeption, also für die Wahrnehmung des Roboters. Die Firma One Identity war auch dabei. Als erste Firma weltweit, entwickelte und kommerzialisierte sie die Gesichtserkennung. Meine Aufgabe war es menschliche Gesten zu interpretieren, insbesondere die Zeigegesten. Dabei ginge es nicht nur um die Erkennung und Klassifikation, sondern um die Schätzung der Zeigerichtung. Eine weitere Gruppe befasste sich mit der Objekterkennung. Diese Objekte wurden dem System eingelernt.
Dieses erste Projekt hat mich für die Zukunft enorm geprägt. Ich bekam sehr grossen Respekt vor der Robotik. Das Zusammenführen der verschiedenen Disziplinen wie Hardware, Software, Simulation sowie Mensch-Maschine-Interaktion faszinierten mich. Ich war ursprünglich Physikerin, befasste mich mit Spektroskopie sowie mit der Simulation von Molekulardynamik. Eine Software auf dem Niveau der Robotik zu programmieren war für mich neu, das musste ich erlernen.
Bei meiner Doktorarbeit ging es um drei Gebiete, die man normalerweise nicht vereint. Als erstes befassten wir uns mit Neurowissenschaften. Wir bauten Modelle, die erklären sollen, wie Prozesse in biologischen Nervensystemen und Gehirnen das Verhalten steuern. Dies machten wir im Rahmen von ‘Dynamic Field Theory’ -- ein theoretisches Framework, mit welcher man diese Prozesse als selbst-stabilisierende dynamische Systeme modelliert. Des Weiteren arbeiteten wir eng mit Kollegen aus der Kognitionswissenschaft zusammen. In ihren Experimenten untersuchten sie das menschliche Verhalten, zum Beispiel versuchte man herauszufinden, wie unser Gedächtnis und unsere Wahrnehmung funktionieren. Mit einem Team wollten wir dieselben Modelle, die neuronale Prozesse erklären und auch auf diese Verhaltensexperimente zu nutzen. Schlussendlich ging es darum, diese Erkenntnisse auf die Robotik anzuwenden. Wir wollten anhand dieser Modelle herausfinden, wie man ‘Embodied Cognitive Systems’ baut, also robotische intelligente Systeme, bei welchen – ähnlich wie bei Menschen und Tieren – die neuronalen Dynamiken das Verhalten ansteuern.
Das Problem dieser neuronalen Netzmodelle war, dass sie für GPUs (Graphics Processing Units), welche damals von anderen Kollegen mit Begeisterung in Betrieb genommen wurden, nicht gut geeignet waren. Hoffnung für eine Alternative entdeckten wir auf einem Forschungsgebiet, das sich Neuromorphic Computing nennt. Es wurde dabei bereits in den 80er-Jahren versucht, Hardware-Systeme zu bauen, die von unserer Hirnstruktur inspiriert sind. Diese Technologie schien für unsere Anwendungen zu passen. Im Jahre 2007 besuchte ich einen Workshop in den USA, den «Telluride Workshop for Neuromorphic Engineering». Dort lernte ich die Community kennen, welche diese Technologie erforschte. 2015 zog ich nach Zürich als Postdoc und später Gruppenleiterin ins Institut für Neuroinformatik. Hier wurde bereits Hardware für Neuromorphic Computing seit Jahren entwickelt. Ich gewann einige Forschungsprojekte und formte eine Gruppe, welche sich ‘Neuromorphic Cognitive Robots’ nannte. Wir implementierten unsere kognitiven Modelle auf die Neuromorphic-Chips und anschliessend integrierten wir diese Systeme in die Roboter. Es handelte sich seinerzeit um sehr kleine, analoge Chips mit gerade mal 256 Neuronen. Anhand von relativ einfachen Proof-of-Concept-Beispielen, konnten wir aufzeigen, wie man mit so einem Chip einen Roboter steuern kann. Wir bauten kleine Vehikel, die den Hindernissen ausweichen konnten und Ziele anfahren, ähnlich einem autonomen Staubsauger für zu Hause.
Nach einigen Jahren traf ich ein Team des Neuromorphic Computing Lab von Intel. Sie verfügten bereits über einen Neuromorphic-Prozessor, der sehr einfach zu bedienen und dennoch wesentlich leistungsfähiger war, als derjenige mit dem wir an der Uni arbeiteten. Ich war fasziniert und schloss mich dem Team an. Wir zeigten auf, wie viel energieeffizienter und in vielen Fällen auch schneller man mit diesen Chips Roboter steuern konnte. Ich war der Ansicht, dass sich diese Prozessoren bestens für die Robotik eignen. Leider glaubte man zu dieser Zeit bei Intel nicht so richtig an die Robotik. So bin ich wieder zurück in die Forschung, zur ZHAW gekommen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
An der ZHAW arbeiten wir von zwei Seiten her. Einerseits entwickeln wir die Technologie für die Robotik weiter, inspiriert von biologischen Nervensystemen. Andererseits versuchen wir die Anwendungen für die Robotik besser zu verstehen, vor allem in der Pflege. An Orten, wo der Mensch im Zentrum steht und nicht 'wegoptimiert' werden kann. In einem Spital oder Pflegeheim gibt es weiterhin viele repetitive sowie schwere Logistik- und Service-Aufgaben, Botengänge Diese kleinen Dienste rauben Zeit von den eigentlichen Pflegeaufgaben. Solche repetitiven Aufgaben kann man automatisieren, aber wenn der Mensch dabei in der Nähe des Roboters bleiben sollte muss der Roboter anders agieren als in einer vollautomatisierten Werkstatt. Bei solchen Anwendungen hat die Sicherheit eine massiv höhere Bedeutung. Auch wie agil, flexibel und wahrnehmungsorientiert der Roboter ist, unterscheidet sich von den Industrieprojekten.
Bei deinem Keynote-Referat anlässlich des International Humanoid Forum in Biel stelltest du verschiedene Möglichkeiten vor, wie mithilfe von KI humanoide Roboter besser und effizienter ‘lernen’. Momentan werden humanoide Roboter praktisch von Mensch zu Roboter trainiert. Mich beeindruckte das Bild, auf dem gefühlte 100 Studenten den Robotern die Bewegungen trainieren. Das wird hoffentlich in der Zukunft nicht mehr so arbeitsintensiv sein. In welcher Phase von den Möglichkeiten her sind wir, dass Roboter selbstständig lernen?
Yulia: Der Status Quo ist folgender: Die heutige KI ist so aufgebaut, dass sie für das Trainieren von neuronalen Netzen eine grosse Datenmenge benötigt. Dieses Training funktioniert ganz anders als bei biologischen Nervensystemen der Menschen oder Tieren. Diese sind völlig anders aufgebaut. Wir lernen nicht sehr oft und viel, aber wir können sehr schnell lernen. Ich zeige einem Kind ein Beispiel ein Bild von einer Katze, und das Kind kapiert rasch, worum es geht. Mit ‘Lernen’ benutzen wir ein Wort, dass für uns mehrere Bedeutungen hat. Das, was die neuronalen Netze machen, ist kein ‘Lernen’ im eigentlichen Sinn, sondern ein Trainieren oder eine Optimierung der Approximation von Funktionen. Es handelt sich dabei um einen sehr trägen Prozess, bei dem enorm viele, speziell aufbereitete Daten in das System eingegeben werden. Ich gebe dazu ein Beispiel, welches die problematische Seite davon aufzeigen soll: Es nennt sich ‘Catastrophic Forgetting’. Wenn ich diesem System einige Objekte beibringen will, zum Beispiel ein Apfel, eine Pflaume und ein Auto. Ich kann nicht zuerst dem System 10’000 Bildern von Äpfeln, danach 10’000 von Pflaumen und anschliessend 10’000 von Autos zeigen. Weil dann das System die Äpfel bereits bei den Pflaumen vergessen hat. Die Bilder müssen vermischt sein. Das System lernt iterativ in kleinen Schritten des Optimierungsprozesses. Ab einem gewissen Zeitpunkt kann das System die Objekte unterscheiden. Dieser Ablauf ist ganz anders als bei Menschen, auch wenn sie aus anderen Gründen manchmal an ‘Catastrophic Forgetting’ leiden.
Wir Menschen lernen offensichtlich anders, zuerst die verschiedenen Früchte und anschliessend die verschiedenen Automarken. Wir versuchen neuronale Systeme so zu bauen, dass sie schnell und kontinuierlich lernen können. Damit das funktioniert, können wir nicht einfach mit so einem zufällig aufgesetzten, leeren neuronalen Netz beginnen. Wir versuchen, die für uns durch die Evolution gegebenen Lernstrukturen, in die KI-Systeme einzubauen. Nur dann wird ein Roboter so schnell lernen können, damit ich ihm einfach zeigen kann, wie ich eine Geschirrspülmaschine ein- und ausräume.
Wenn ich das richtig verstanden habe, geht es bei deiner Forschungsarbeit darum, dass in Zukunft ein Roboter aus seiner Umgebung selber lernen soll? Wie beim Beispiel mit einem Kind. Du gehst mit ihm durch den Garten und sagst ihm: Das ist eine Tulpe, das ist eine Rose. Meinst du diese Wahrnehmung?
Yulia: Lass es mich folgendermassen erklären: Wenn ich einen Roboter für mich zu Hause kaufe, braucht er nicht die Welt zu kennen. Er soll lernen, wie es bei mir zu Hause aussieht, nicht in einem Haus in Afrika oder Asien und auch nicht wie bei meinem Nachbarn. Am Ende muss der Roboter genau wissen, welche Gegenstände bei mir zu Hause wichtig sind, wie meine Abläufe sind und er soll dies auch nicht weitererzählen (lacht). Umgekehrt muss er nicht wissen, wie die Abläufe bei meinem Nachbarn aussehen. Er muss wissen, wie man den Geschirrspüler ein- und ausräumt und nicht wie man Fahrrad fährt. Er muss wissen, dass es sich bei dieser Vase um ein Erbstück von meiner Oma handelt und er sie auf keinen Fall zerstören darf. Dazu braucht er nicht die Vasen der ganzen Welt zu kennen, sondern nur diejenigen, die in meiner Wohnung stehen. Es besteht ein Unterschied darin, ob ein Roboter alles weiss oder präzise auf meine Umgebung abgestimmt ist.
Einen Roboter auf meine Umgebung abzustimmen ist ein völlig anderer Prozess. In diesem Fall geht es eher darum, sein Gedächtnis zu bilden. Er soll sich merken welche Objekte bei mir zu Hause herumstehen, wie sie aussehen und wie er mit ihnen umzugehen hat. Das ist jedoch kein Klassifizierungsproblem. Die KI, wie wir sie kennen, klassifiziert. Der Roboter soll sich mittels intelligenter 3D-Sensorik die Eigenschaften des Objekts merken können, ihm einen Namen geben und wissen, wie damit umzugehen ist. Es ist unmöglich, einem solchen Roboter unsere gesamte physikalische Welt beizubringen. Diesbezüglich besteht zu den klassischen neuronalen Netzwerken eine gewisse Diskrepanz.
Beleuchten wir doch nochmals das Training von neuronalen Netzwerken. Dass ihr in eurem Forschungsteam wisst, wie man die Systeme trainieren muss, das ist mir bewusst. Wie sieht das jedoch aus, wenn das der Laie tut? Besteht nicht die Gefahr, dass durch irreführendes oder klügeres Handeln ein System schlechter oder besser trainiert wird?
Yulia: Meine Antwort ist jetzt möglicherweise etwas provokativ. Es existieren Meinungen, dass das Lernen, auch bei biologischen Systemen, überbewertet wird. Wir sagen zwar ‘Lernen’, meinen aber oftmals entweder Entwicklung oder Adaptation ohne Änderung von Hirnstrukturen. Viele Strukturen im Nervensystem und im Gehirn werden nicht durch Interaktion mit der Umgebung geformt, sondern es handelt sich eher um die Entfaltung von bereits existierenden genetischen Programmen. Bei einem Neugeborenen ist ja bereits vieles vorhanden. Die komplexe Struktur einer Hand oder des Gehirns sind bereits gegeben. Manche Tierarten können kurz nach der Geburt sofort laufen. Sie müssen das nicht zuerst lernen. Das Lernen von etwas Neuem ist eher etwas Spezielles. Das gibt es, jedoch eher in Ausnahmefällen – nach einem grossen ‘Aha’ Erlebnis oder einer Überraschung. Oft reden wir von Lernen, meinen aber Stärkung oder Schärfung von existierenden Strukturen. Bei den Robotern muss man mit lernen eher vorsichtig umgehen. Vor allem Robotern, die an Menschen arbeiten, denn diese müssen sicher, geprüft und zertifiziert sein. Lernen – wie einlernen von den Objekten bei mir im Haus – darf nur in vorgegebenen Strukturen passieren, welche gewisse funktionale Anforderungen erfüllen und nur begrenzt durch Einlernen re-parametrisiert werden.
Deshalb kann der Nutzer dem Roboter nur spezifische Aufgaben ‘beibringen’. Ich kann dem Roboter beibringen, dass es ein Objekt greifen und transportieren soll. Der Entwickler des Roboters muss jedoch gewährleisten, dass das Objekt auf keinen Fall losgelassen werden darf, denn in diesem Fall stellt er möglicherweise eine Gefahr dar. Das Greifen muss über gewisse Qualitäten verfügen, die sichergestellt werden müssen. Eben zum Beispiel, dass ein Objekt nicht losgelassen werden darf. Dafür werden Kraftprofile erstellt. Diese Verantwortung kann man allerdings nicht dem User überlassen. Er darf dem Roboter mitteilen, wo er ein Objekt ablegen soll. Je nach Raum muss sogar diese Möglichkeit eventuell eingrenzbar sein.
Wenn ein Roboter Körperkontakt zu einer Person hat, könnten diesbezüglich nicht grosse Schwierigkeiten auftreten?
Yulia: Körperkontakt von Robotern ist in der Tat ein schwieriges Thema. Wir konzentrieren uns bei den Forschungen auf Serviceanwendungen, bei denen kein Körperkontakt mit dem Roboter stattfinden soll. Obwohl es durchaus möglich wäre, die Kräfte des Roboterarms präzise zu steuern. Als Entwickler müssen wir dabei garantieren, dass auch bei dem schlimmsten Ausfall aller Steuerungssysteme, dem Nutzer keinen Schaden zugefügt wird.
Wenn wir gerade beim Thema Mensch sind: Bei deinem Vortrag in Biel zeigtest du ein Bild mit Hollywood-Robotern, die eher bedrohlich wirken. Ich stelle jedoch fest, dass wenn irgendwo humanoide Roboter zu Präsentationszwecken zum Einsatz kommen, verleiht man Ihnen eine Art freundliches, menschliches Antlitz. Glaubst du, dass dieses sympathische Aussehen für die Psyche und die gesellschaftliche Akzeptanz für humanoide Roboter eine Rolle spielt?
Yulia: Ob ein freundliches Aussehen bei einem Roboter heisst, dass er dem Menschen ähneln muss, stelle ich etwas infrage. Wie Menschen reagieren unterschiedlich auf humanoide Roboter, manche fühlen sich eher bedroht. Einen Staubsauger-Roboter muss ja nicht wie ein Mensch aussehen. Er soll seinen Job machen. Die humanoide Form des Roboters erzeugt einen gewisser Hype, weil es ‘cool’ aussieht, wirkt aber auch oft befremdlich. Ich glaube, die Angst spielt eine grosse Rolle. Gerade diese Hollywood-Roboter, die ich bei meinem Vortrag zeigte, erzeugen genau diese Ängste. Diese sind jedoch eher kontraproduktiv, denn sie verzögern möglicherweise Entwicklungen, die wirklich notwendig sind. Es gibt körperliche Arbeiten, welche die heutigen jungen Leute oder auch Zugewanderte nicht mehr ausführen möchten. Diese Arbeiten zu automatisieren ist gar nicht so einfach. Es gibt inzwischen etliche Unternehmen, die bauen humanoide Roboter und verschwenden dabei enorme Ressourcen, um die Investoren zu beeindrucken. Sie fokussieren sich oftmals leider zu wenig auf das Problem, welches zu lösen wäre und auch nicht auf den Kunden. Grundsätzlich sollte die Frage gestellt werden: Braucht es für diese Anwendung einen humanoiden Roboter oder wäre eine einfachere Lösung besser geeignet? Wenn ein Unternehmen nur humanoide Roboter baut, damit sie Geld von den Investoren erhält, wird es falsch laufen.
Fokussieren wir uns auf die Technik. Du hast bei deinem Vortrag auch einiges über die Wahl der Prozessoren berichtet, beziehungsweise welche Art der Prozessoren für die humanoiden Roboter in Zukunft besser geeignet sind.
Yulia: Ich finde es in diesem Zusammenhang spannend, kurz auf die Entwicklung der Prozessoren in der Vergangenheit einzugehen. Die Architektur der meisten Prozessoren, die wir heute zum Beispiel in unseren Smartphones benutzen, stammt aus den 1940er Jahren. Sie verfügen über eine Recheneinheit, einen Speicher für die Daten und das Programm. Diese Art von Prozessoren arbeitet das Programm sequenziell ab. Die heutigen Prozessoren geschieht das sehr schnell, da auch die Taktfrequenz im Laufe der Zeit immer weiter erhöht werden konnte.
Zu einem gewissen Zeitpunkt erkannte man, dass diese Art der Verarbeitung sich nicht mehr als geeignet erwies, in erster Linie für Grafik beim Gaming. Dazu benötigte man eine neue, andere Architektur für Prozessoren, die sogenannten Graphical Processing Units (GPU). Diese sind so ausgelegt, dass sie die Pixel auf dem Bildschirm mit parallel bearbeitenden Daten ansteuern können. Die Daten werden verteilt und auf den Prozessoren parallel berechnet und abgearbeitet.
NVIDIA machte etwa Anfang 2000 einen cleveren Schritt. Sie besassen ein sehr gutes Software-Framework, das den Ingenieuren erlaubte, mit dieser Art Prozessen zu experimentieren. Dabei erkannte man, dass eine bestimmte Art von neuronalen Netzwerken sich sehr gut für diese Art von Prozessoren eignet. Diese neuronalen Netzwerke stammen von der Bildverarbeitung, zum Beispiel für Gesichts- oder Zeichenerkennung. Dazu existierte mit dem ‘Convolutional Neural Network’ von Yann LeCun eine dafür geeignete Netzwerkarchitektur. Diese passte sehr gut auf die GPUs und wurde deshalb immer häufiger benutzt. Alle anderen Arten von neuronalen Netzen, die weniger auf eine GPU passten, verloren an Bedeutung. Man findet sie ab und zu noch in der Forschung. Nicht weil diese etwa schlechter sind, sondern weil sich die ‘Feedforward Neural Networks’ (FNNs) am besten für die Hardware-Architektur und die sich rasch für das etablierte Software-Ecosystem eigneten. Man konnte damit bessere Ergebnisse auf Konferenzen und anhand anerkannten Benchmarks zeigen, auch wenn es sich meistens um Bruchteile eines Prozents an Verbesserung zu vorheriger Version handelte.
Ich persönlich bin der Meinung, dass neue Hardware-Architekturen auf den Markt kommen sollten, die auch andere neuronalen Netzalgorithmen unterstützen. Es ist allerdings nicht so einfach ein neues Hardware-Produkt auf einen Markt zu bringen, der schon ziemlich gesättigt und konsolidiert ist. Zumal sich die Entwickler an die bestehende Architektur gewöhnt haben und ungern wechseln. Es bestehen bereits sehr viele Compiler und Software-Levels, sowie Produktionsstätten, welche diese Chips herstellen. Auch die dadurch entstehenden Kosten darf man nicht unterschätzen. Um andere neuronale Netzwerke zu verwenden, brauchen wir schlicht und einfach neue Hardwarestrukturen. Eine neue Prozessor-Architektur würde dabei schon sehr stark helfen, den Energieverbrauch von KI-Systemen sowie die Latenzzeiten zu reduzieren. Auch das kontinuierliche Lernen könnte dadurch verbessert werden.
Bei deiner neuesten Forschungsarbeit ‘Neuromorphic Technologie für Embodied KI’ untersuchst du mit einem Team die Möglichkeiten von modernen Bildverarbeitungssystemen mit Echtzeit-3D-Sehsensor zusammen mit Robotern. Was ist das genaue Ziel der Untersuchungen und wie ist der momentane Stand der Erkenntnisse?
Yulia: Das Ziel dieser Forschungsarbeit ist, dass sich Roboter auch in der Nähe von Menschen agil und selbstständig bewegen können. Dazu müssen diese Roboter die Umgehung in Echtzeit sehen und verstehen. Wie erfasst und versteht ein heutiger Roboter mit aktueller KI im Moment seine Umgebung? Er erstellt ein Bild, dazu braucht es circa 30 ms. Danach werden die Daten einem Rechner übermittelt, auch dieser Vorgang benötigt einige Millisekunden. Für Auswertung des Bildes wird wieder circa 100 ms gebraucht und dieses Ergebnis wird dann zurückgesandt. Anhand dieser Informationen bewegt sich der Roboter fort. Innerhalb dieser Berechnungszeit kann allerdings sehr viel passieren. Weil sich die Kamera im Roboter auch bewegt, kann dadurch zudem ein verschwommenes Bild entstehen und Qualität der Bildanalyse senken.
Mit der heutigen KI gehen wir aus meiner Sicht in die falsche Richtung, wenn sich ein Roboter sehr nahe beim Menschen bewegen soll. Wir brauchen visuelle Wahrnehmungssysteme, welche reaktiv und effizient sind, sodass die Berechnung auf dem Roboter laufen können und nicht auf einem Server. Um dies zu erreichen, kombinieren wir verschiedene Arten von Sensoren und effiziente neuronale Netze, die von biologischen Systemen inspiriert sind. Unser menschliches Auge leistet erstaunliches. Es gibt keinen Sensor, der dies nachahmen kann, aber man die wichtigen Prinzipien ableiten und nachbauen. Unsere Lösung sieht in etwa so aus: Der eine Sensor kann uns die Entfernung angeben, ein anderer Sensor die Semantik. Letzterer gibt den Objekten einen Namen wie: Das ist eine Hand, das ein Gesicht, das ist ein Fernseher, das ist der Tisch. Ein dritter Sensor trackt die Objekte, die sich bewegen und ermöglicht Updates zur wahrgenommen Szene in Echtzeit, auch bei einer sich schnell bewegenden Kamera oder Objekt. Die zwei ersten Sensoren erfassen die Umgebung eher langsam, während das Tracking sehr schnell sein muss. Auf diese Weise erzeugen wir wie eine Art Karte von der Umgebung. Diese Karte wird sehr schnell aktualisiert und kann so direkt mit der Steuerung des Roboters kommunizieren.
Priorisiert der Sensor diese Information schon innerhalb des Systems oder muss das auf dem Prozessor 'ausprogrammiert' werden?
Yulia: Unsere Kamera kombiniert diese verschiedenen Sensoren und nutzt Algorithmen, um diese Informationen so zu kombinieren und um die Steuerungskommandos für den Roboter in Echtzeit zu berechnen. Die Robotersteuerung bekommt die Information wie von einem einzigen Sensor, die diese für die Erstellung von Bewegungskommandos verwenden kann. Es soll damit erreicht werden, dass der Roboter den Menschen nie zu nahekommt, wenn es nicht erwünscht ist. Diese visuelle Wahrnehmung erachten wir als sehr wichtig und wollen diese in die sicherheitsrelevanten Teile der Steuerungssysteme einbauen.
Unsere heutigen neuronalen Netze sind für die Bildverarbeitung geschaffen. Diese Bildverarbeitung ist kognitiv und benennt die Objekte. Unser menschliches visuelles System wird während der Bewegung genutzt, ohne die Objekte zu benennen. Wenn ich zum Beispiel eine Treppe heruntergehe, mache ich das ungern mit geschlossen Augen, obwohl ich bereits des Öfteren diese Treppe gesehen habe. Wir erfassen mit unserem Auge zum Beispiel Kanten sehr schnell und automatisiert. Unser Sensor modelliert genau dieses visuelle System.
Zum Schluss noch der Blick in die Glaskugel: Welche Arbeiten werden humanoiden Roboter in 10 Jahren für uns verrichten? Die Frage bezieht sich sowohl auf die Arbeitswelt als auch auf das private Umfeld.
Yulia: Das ist für mich eine wichtige Frage und genau deshalb haben wir mit unserer Forschungsgruppe das besagte Projekt gestartet. Wir gründeten eine Firma, die diese Technologie auf den Markt bringen wird. Wir glauben, dass diese Technologie relativ bald zur Verfügung steht. Dadurch bekommen wir in absehbarer Zeit Roboter, die für gewisse Arbeiten, zum Beispiel zu Hause, hilfreich sein können. Meine Vorhersage ist allerdings die, dass dies nicht zwingend humanoide Roboter sind. Sie sehen vielleicht eher aus wie R2-D2 aus Star Wars. Wie ein grösserer Staubsauger mit einigen Armen, der zu Hause Routinearbeiten erledigen kann, wie den Müll entsorgen, sich um die Wäsche kümmern, kochen etc. Diese Arbeiten sind zeitaufwändig, müssen jedoch erledigt werden.
Es gibt auch viele Aufgaben in der Gesellschaft, die wir nicht unbedingt wahrnehmen, jedoch erledigt werden müssen. Es gibt eine Menge Arbeiten, die körperlich anstrengend sind oder in Schichten erledigt werden müssen. Das betrifft viele Branchen des Gewerbes und der Industrie.
Bleiben wir noch beim Thema Industrie und nehmen als Beispiel die Logistik. Es würde doch Sinn ergeben, wenn es hier Unterstützung gäbe? Es existieren Exoskelette, die das Personal für schwere Arbeiten unterstützen könnten. Grössere Unternehmen, setzen diese bereits ein. Ist es aus deiner Sicht das Ziel, dass es am Ende den Menschen dafür gar nicht mehr braucht?
Yulia: Das kommt etwas darauf an. Es gibt Arbeiten, für die ist es schwierig sie mit autonomen Robotern zu erledigen. Hier wäre es tatsächlich hilfreich, die Arbeiter zu unterstützen, um die Arbeit einfacher und erträglicher zu machen. Für andere wäre es klug, diese zu automatisieren. Es wächst jetzt eine Generation heran, die solche Aufgaben nicht mehr erledigen möchte. Sie wollen nicht mehr acht Stunden am Tag in einem Raum ohne Tageslicht arbeiten. Sie stellen sich das Leben anders vor und ich bin der Meinung, dass sich die Menschen auch anderweitig beschäftigen können.
Wir haben, gerade was die Forschung und Entwicklung betrifft, sehr viel zu tun. Es muss noch sehr vieles für die Zukunft verbessert werden. Das betrifft zum Beispiel die Energieerzeugung und Batterien. Oder bessere, schnellere Verbindungen, bessere Sensoren und effizientere KI. Wir haben als Gesellschaft noch einiges zu erledigen. Es wäre gut, wenn mehr Personen in diesen kreativen Berufen produktiv tätig sein könnten. Die Denkarbeit wird entscheidend sein, um uns eine bessere Zukunft für unsere Welt zu erschaffen. Das wäre dazu meine optimistische Sichtweise.
In unseren Studiengängen ‘Bachelor und Master of Computational Life Sciences’ bauen wir quasi eine Brücke zwischen den Wissenschaften Biologie, Umwelt, Gesundheitswesen und der Technologie und KI. Das Studium beinhaltet mathematischen Modellierung, Programmierung und auch Robotik. Einerseits geht es um die Frage, wie können wir unser Technologiewissen in biologischen Wissenschaften anwenden. Zum Beispiel, um die Umwelt besser zu beobachten und erhalten oder wie lässt es sich im Gesundheitswesen oder in Biotechnologie anwenden. Und andererseits, welche Schlüsse lassen sich von den biologischen Systemen für die Zukunft der Technologie ziehen. Zusammengefasst, es werden Technologie und biologisches Wissen vereint.