Mit Simulationen schneller zur Anwendung

Kilian Kleeberger, Marco Huber und Andreas Wolf

Eine individualisierte Produktion erfordert es, kleine Losgrößen wirtschaftlich zu fertigen. Maschinelles Lernen bietet hierfür eine Lösung: Roboterprogrammierung und Bildverarbeitung können damit deutlich vereinfacht und zugleich leistungsfähiger werden. Um diese Vorteile ausspielen zu können, benötigt maschinelles Lernen viele Beispieldaten. Mittels realistischer Simulationen lassen sich diese Daten schnell erzeugen und so anspruchsvolle Anwendungen effizienter umsetzen.

Das Greifen und Manipulieren von Objekten ist das Kerngeschäft vieler Roboter. Etwa die Hälfte der 2017 eingesetzten Systeme führte diese Aufgabe aus. Auch wenn es für Außenstehende nicht so wirken mag, sind rund vier Fünftel dieser Roboter ˝blind˝: Sie nutzen keine Sensorik, um Objekte selbst wahrnehmen und daraufhin eine Aktion planen zu können. Stattdessen sind die Prozesse dahingehend starr, dass die zu greifenden Objekte immer in einer definierten Position und Orientierung zur Aufnahme bereitliegen.

Das ist zwar effektiv, aber nicht flexibel. Denn die Einrichtung eines solchen Robotersystems erfordert Expertenwissen und ist mit Zeitaufwand verbunden. Dies lohnt sich, wenn ein Produktionsablauf lange gleichbleibt. Der Trend und die Anforderungen des Marktes gehen jedoch in eine andere Richtung: Produktionen müssen zunehmend kleinere Losgrößen bei gleichzeitig steigender Variantenzahl wirtschaftlich fertigen. Deshalb wird es wichtiger, Einrichtungs- und Umrüstaufwände im Sinne von ˝Plug & Produce˝ zu minimieren.

Bild 1: Maschinelles Lernen optimiert die Bildverarbeitung
für Anwendungen wie zum Beispiel den Griff-in-die-Kiste.
(Quelle: Fraunhofer IPA/Foto: Rainer Bez)


Sehende Roboter

Überdies gibt es weitere Einsatzmöglichkeiten für Robotersysteme, die Objekte greifen können sollen, für die aber keine strukturierte Umgebung beziehungsweise kein strukturierter Prozess vorhanden sind. Ein Beispiel ist der Griff-in-die-Kiste, bei dem ein Roboter chaotisch gelagerte Objekte aus einem Werkstückträger entnimmt.

Schon lange wird die Anwendung optimiert und an der Lösung von noch bestehenden Schwierigkeiten gearbeitet. Dazu gehört das Greifen von Objekten, die in den Ecken oder am Kistenboden liegen, damit die Kiste vollständig entleert wird – ein wichtiges Qualitätsmerkmal. Andere Anwendungen, bei denen Roboter Objekte greifen können sollen, finden sich im Kontext der Logistik in Lagerhallen oder Umschlagzentren. Hier wird sofort ersichtlich, dass die Zahl möglicher zu greifender Objekte riesig und eine starre Roboterprogrammierung im Vorfeld für deren individuelle Erkennung und Handhabung nicht möglich ist.

Der Schlüssel zu diesen genannten Herausforderungen sind mit Sensoren ausgestattete Robotersysteme und eine intelligente Bildverarbeitung zur Objektlageschätzung. Die Systeme sind nicht mehr ˝blind˝, sondern können Objekte eigenständig erkennen, ihre Lage – also Position und Orientierung – berechnen und weitere Aktionen, wie passende Greifpunkte und die Bahn für den Roboterarm, planen. Bedingung hierfür ist bisher, dass dem System die zu erkennenden Objekte bekannt sind, diese also beispielsweise anhand eines CAD-Modells einmal eingelernt wurden und ein Experte die Parameter zum Beispiel für das Greifen eines Werkstücks aus einer Kiste einstellt.


Datenbasiertes Lernen

Neue Möglichkeiten für die Bildverarbeitung bieten Technologien des maschinellen Lernens (ML). ML ist eine Teildisziplin der künstlichen Intelligenz (KI) und zeichnet sich dadurch aus, dass die Algorithmen datenbasiert lernen. Prinzipiell gilt: Je mehr Daten die Algorithmen zum Lernen haben, umso performanter werden sie. Ein Mensch benötigt nur wenige Beispiele, um ein Objekt zu klassifizieren und wiederzuerkennen. Dagegen braucht ein tiefes neuronales Netz Unmengen an Beispielbildern zum Training, um gute Ausgaben liefern  zu können.

Bild 2: In einer Simulationsumgebung werden Algorithmen
trainiert und das Gelernte dann auf die reale Anwendung
übertragen. (Quelle: Fraunhofer IPA/Kilian Kleeberger)

Damit diese Art des Lernens funktioniert, müssen die Bilder bereits annotiert sein. Soll ein Algorithmus beispielsweise Katzen in Bildern erkennen können, benötigt er zunächst tausende Bilder, die bereits als Katze klassifiziert sind, um zu generalisieren und auch im Training nicht gesehene Bilder korrekt klassifizieren zu können. Wenn hier nicht auf bestehende große Datensätze, wie beispielsweise ImageNet, zurückgegriffen werden kann, ist dieses Annotieren der Trainingsdaten sehr kosten- und zeitintensiv.

Reinforcement Learning ist ein Bereich des ML, welches sich am Prinzip des menschlichen Lernens von Versuch und Irrtum orientiert. So wird ein Robotersystem für den Griff-in-die-Kiste beispielsweise für einen erfolgreichen Griff ˝belohnt˝, für einen gescheiterten jedoch nicht. Über eine Vielzahl an Greifversuchen verbessert sich das System so laufend selbst.


Training in Simulationsumgebungen

Möchte man die genannten ML-Technologien in Produktionen einsetzen, stellt sich die Frage, wie ein solch daten- und zeitintensives Training der Algorithmen in der realen Welt funktionieren soll. Die Lösung hierfür ist, ML mit einem digitalen Abbild der Anwendung sowie leistungsfähigen Simulatoren zu kombinieren. So können Handlungen bereits virtuell erlernt und optimiert werden. Und dies schneller als in Echtzeit. Das Gelernte lässt sich unter Verwendung spezieller Techniken auf reale Anwendungen übertragen. Beispielsweise kann auf simulierte Bilder künstliches Rauschen aufaddiert und Hintergrund, Licht- und Farbnuancen können variiert werden, um auf Basis der vielen simulierten Varianten eine Generalisierung in der realen Welt zu erreichen.

Im Forschungsprojekt „DeepGrasping“ wurde eine solche Simulationsumgebung für den Griff-in-die-Kiste entwickelt. Anhand von tausenden Beispielen mit Befüllungen von Kisten lernt die Software zu verallgemeinern und beliebig gelagerte Objekte zu segmentieren, klassifizieren und deren Lage zu schätzen. Für eine robuste Objektlageschätzung ist es zudem nützlich, Werkstücke von der Umgebung zu trennen, um mehr und genauere Ergebnisse liefern zu können. Insbesondere bei den letzten Teilen in einer Kiste – beispielsweise dünnen Blechteilen, die mit ihrer Umgebung verschmelzen – ist dies von Bedeutung [1].


Vollständig annotierter Datensatz

Während das Training der Algorithmen durch die Simulationsumgebung umsetzbar ist, stellt sich als weitere Frage, woher ML-Experten und -Anwender ausreichend große annotierte Datensätze von Objekten bekommen, um ihren Algorithmus zu perfektionieren. Hier tut sich in der Forschung gerade viel. So hat das Fraunhofer IPA einen Datensatz von rund 200 Gigabyte generiert, mit dem Algorithmen das Lokalisieren von Objekten trainieren können. Hierfür wurden die Datensätze von acht bereits in der Forschung verbreiteten Objekten nachgebildet und erweitert und zudem Datensätze für zwei ganz neue Objekte – eine Ringschraube und eine Getriebewelle – erstellt [2].

Mit 500 Punktewolken und passenden Tiefenbildern realer Szenarien sowie 206.000 simulierten Szenarien ist der Datensatz sehr groß, zudem vollständig annotiert und einfach erweiterbar. Gerade die Erstellung und Annotation der Realdaten ist aufwendig, denn auf jedem Bild eines Werkstückträgers muss manuell die Lage jedes darin enthaltenen Objekts erfasst werden. In der Simulation dagegen ist diese immer bekannt. Was den IPA-Datensatz nicht zuletzt von bestehenden abhebt, ist seine Industrietauglichkeit. Das wichtigste Kriterium hierfür ist die Draufsicht der Sensoren auf das Griff-in-die-Kiste-Szenario. Es gibt lediglich einen weiteren Datensatz in der Forschung, der dies bietet. Er umfasst allerdings nur 2.000 simulierte Szenarien und ist daher zu klein, um tiefe neuronale Netze zu trainieren.

Besondere Beachtung wird der IPA-Datensatz auf der diesjährigen „IEEE/RSJ International Conference on Intelligent Robots and Systems“ (IROS 2019) finden. Die IPA-Wissenschaftler sind dort mit der „Object Pose Estimation Challenge for Bin-Picking“ vertreten, bei der Objekte in einer Kiste in 3D lokalisiert werden müssen. Forscher können den Datensatz vor der Competition herunterladen [3] und mit diesen annotierten Daten eigene Algorithmen zur Objektlageschätzung trainieren. Auch die Teilnahme mit klassischen Verfahren ist gewünscht. Während der Competition erhalten die Teilnehmer nicht annotierte Testdaten, auf denen sie ihre Algorithmen evaluieren. Gewinner ist, wer die Lage der meisten Objekte am genauesten bestimmt. Ziel der Competition ist, Ansätze für die Objektlageschätzung zu vergleichen und die Entwicklung neuer Methoden voranzutreiben.

Bild 1: Maschinelles Lernen optimiert die Bildverarbeitung
für Anwendungen wie zum Beispiel den Griff-in-die-Kiste.
(Quelle: Fraunhofer IPA/Foto: Rainer Bez)


Forschungsergebnisse für die Praxis

Die Arbeiten des IPA am genannten Datensatz und zur verbesserten Objektlageschätzung mit ML für industrielle und gewerbliche Anwendungen sind praxisorientiert. Eine wichtige Funktion hat hier das 2018 in Stuttgart eröffnete Zentrum für Cyber Cognitive Intelligence (CCI, [4]), in dessen Rahmen unter anderem Arbeiten für einen optimierten Griff-in-die-Kiste stattfinden. Das Zentrum berät insbesondere kleine und mittelständische Unternehmen zu allen ML-Fragen für die Produktion und bietet verschiedenste Projektformate für die Zusammenarbeit. Unternehmen aus Baden-Württemberg erhalten Fördermöglichkeiten aus Landesmitteln.

Eine verbesserte Objektlageschätzung ist eine regelmäßig wiederkehrende Fragestellung, um industrielle Anwendungen optimieren oder ihren Automatisierungsgrad erhöhen zu können. Beispielhaft zeigt dies die Fragestellung der Firma robomotion. Die Firma bewarb sich beim CCI, um die Objektlageschätzung für Supermarktszenarien zu verbessern und hierfür die Eignung von ML-Technologien prüfen zu lassen. Es geht darum, dass ein Handhabungsroboter mit spezieller Greiftechnik Gebinde von Paletten entnehmen soll. Damit die Bildverarbeitungssoftware die Lage der Kartons erkennt, muss ein Experte diese bisher manuell einlernen. Mithilfe von ML soll die Software lernen, zu generalisieren und nach dem Training die Lage neuer, bisher nicht speziell eingelernter Kartons berechnen können.

Entscheidend für robomotion ist eine robuste Lösung. Denn die Objekte liegen oft nah beieinander und es gibt nicht immer ideale Sensordaten. Auch neue Aufdrucke auf bereits eingelernten Kartons sowie kleinere Beschädigungen bereiten Probleme. Innerhalb einer Machbarkeitsstudie hat das CCI einen Lösungsansatz auf der Grundlage von ML-Verfahren für diese Herausforderungen entworfen. Mit diesem Ansatz konnte sich robomotion erfolgreich für ein weiteres Förderformat des CCI bewerben. Nun gilt es, die Leistungsfähigkeit des Lösungsansatzes zu erproben, indem das CCI das Anwendungsszenario in einer Simulationsumgebung umsetzt und die vorgeschlagenen ML-Verfahren mit qualitativ heterogenen Sensordaten trainiert. Zum Ende der Gesamtförderphase soll ein leistungsfähiger und praktikabler Prototyp entstehen, den robomotion übernehmen kann.

Das CCI wird vom Ministerium für Wirtschaft, Arbeit und Wohnungsbau des Landes Baden-Württemberg unter dem Förderkennzeichen 017-192996 gefördert.
Das Forschungsprojekt „DeepGrasping“ wurde von der Baden-Württemberg Stiftung gGmbH unter dem Förderkennzeichen NEU016/1 gefördert.

Schlüsselwörter:

Maschinelles Lernen, Griff-in-die-Kiste, Simulation, Bildverarbeitung

Literatur:

[1] Muhammad Usman Khalid, Janik M. Hager, Werner Kraus, Marco F. Huber und Marc Toussaint: „Deep Workpiece Region Segmentation for Bin Picking“, International Conference on Automation Science and Engineering (CASE), 2019.
[2] Kilian Kleeberger, Christian Landgraf und Marco F. Huber: „Large-scale 6D Object Pose Estimation Dataset for Industrial Bin-Picking“, IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2019.
[3] http://www.bin-picking.ai (aufgerufen am 20.05.2019)
[4] http://www.cyber-cognitive-intelligence.de (aufgerufen am 20.05.2019)