Sony launcht weltweit erste Intelligent-Vision-Sensoren mit KI-Verarbeitung

Mit den Intelligent-Vision-Sensoren werden neue Möglichkeiten eröffnet, KI-fähiger Kameras zu entwickeln. Diese können eine Vielzahl von Anwendungen im Einzelhandel und Industrieausrüstungssektor unterstützen und den Aufbau optimaler, mit der Cloud verbundener Systeme erleichtern. Hierbei werden also Technologien aus der Fotografie verwendet, um daraus Lösungen für den Handel und die Industrie zu kreieren.

Im nachfolgenden Artikel geht es primär weniger um Fotografie, sondern um Hightech, die Fototechnik mit moderner IT zusammenführt, weswegen der Text dementsprechend eher für die technikinteressierten Leserinnen und Leser interessant ist.

Die Integration der KI-Verarbeitungsfunktion direkt in den Bildsensor bedeutet, dass die Daten über Edge-AI in Hochgeschwindigkeit verarbeitet werden können und nur die erforderlichen Daten extrahiert werden. Dadurch können bei der Nutzung von Cloud-Diensten die Latenzen bei der Datenübertragung verkürzt, Datenschutzvorgaben eingehalten und der Energieverbrauch sowie die Kommunikationskosten gesenkt werden.

Modellname	Auslieferung ab	Preisangabe (ohne Steuer)
IMX500, Intelligent Vision Sensor, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Megapixel (bare chip product)	April 2020	10.000 JPY
IMX501, Intelligent Vision Sensor, Typ 1/2.3 (7,857 mm diagonal), ca. 12,3 effektive Megapixel (package product)	Juni 2020 (geplant)	20.000 JPY

Mit dem Aufstieg des „Internet of Things“ (IoT) werden Geräte aller Art mit der Cloud verbunden. So ist heute der Einsatz von Informationsverarbeitungssystemen gang und gäbe, bei denen die Daten, die diese Geräte liefern, mit künstlicher Intelligenz in der Cloud verarbeitet werden. Die zunehmende Datenverarbeitung in der Cloud wirft allerdings auch eine Reihe von Problemen auf: höhere Latenzen bei der Datenübertragung, welche die Informationsverarbeitung in Echtzeit behindern; Sicherheitsbedenken seitens der Nutzer, wenn personenbezogene Daten in der Cloud gespeichert werden und weitere Probleme, wie etwa der erhöhte Energieverbrauch und die Kommunikationskosten, die Cloud-Dienste mit sich bringen.Die neuen Sensoren sind gestapelt („stacked“) aufgebaut und bestehen aus einem Pixelchip und einem Logikchip. Es sind die weltweit ersten Bildsensoren, bei denen künstliche Intelligenz (KI) zur Bildanalyse und Bildverarbeitung in den Logikchip integriert ist. Das Signal, das der Pixelchip erfasst, wird durch KI auf dem Sensor verarbeitet, sodass keine Hochleistungsprozessoren oder externen Speicher benötigt werden. Dies ermöglicht die Entwicklung von Edge-AI-Systemen. Der Sensor gibt anstelle von Bildinformationen Metadaten aus (d. h. semantische Informationen zu den Bilddaten), was die Datenmengen reduziert und Datenschutzbedenken Rechnung trägt. Darüber hinaus ermöglicht die KI-Fähigkeit die Bereitstellung vielfältiger Funktionen für ein breites Spektrum von Anwendungen, wie etwa Echtzeit-Objektverfolgung mit KI-Verarbeitung in Hochgeschwindigkeit. Nutzer können auch andere KI-Modelle wählen: Dazu wird der interne Speicher entsprechend den jeweiligen Anforderungen oder den Bedingungen am Einsatzort des Systems neu beschrieben.

Die wichtigsten Merkmale

Weltweit erster Bildsensor mit KI-Verarbeitungsfunktion

Der Pixelchip ist hintergrundbeleuchtet und verfügt über ca. 12,3 effektive Megapixel zur Erfassung von Informationen über einen weiten Betrachtungswinkel. Neben der herkömmlichen Bildsensor-Betriebsschaltung ist der Logikchip mit DSP (Digital Signal Processor) von Sony für die KI-Signalverarbeitung und einem Speicher für das KI-Modell ausgestattet. Diese Bauweise macht den Einsatz von Hochleistungsprozessoren oder externen Speichern überflüssig und eignet sich daher ideal für Edge-AI-Systeme.

Metadatenausgabe

Die vom Pixelchip erfassten Signale werden durch einen ISP (Bildsignalprozessor) geleitet. Die KI-Verarbeitung erfolgt in der Prozessstufe auf dem Logikchip, und die extrahierten Informationen werden als Metadaten ausgegeben, was das Datenvolumen reduziert. Da keine Bildinformationen ausgegeben werden, werden Sicherheitsrisiken verringert und dem Datenschutz so Rechnung getragen. Zusätzlich zu dem Bild, das der konventionelle Bildsensor aufzeichnet, können Nutzer je nach individuellen Anforderungen und Einsatzzwecken auch andere Datenausgabeformate wählen. Dazu zählen die Ausgabe von Bildern im ISP-Format (YUV/RGB) und die Ausgabe bestimmter ROI (Region of Interest)-Bildbereiche.

Das Datenausgabeformat ist wählbar, um unterschiedlichen Anforderungen gerecht zu werden. (c) Sony

KI-Verarbeitung in Hochgeschwindigkeit

Wenn ein Video mit einem herkömmlichen Bildsensor aufgezeichnet wird, müssen die Daten für jedes einzelne Ausgabebild an die KI-Verarbeitung gesendet werden. So müssen große Datenmengen übertragen werden, und es wird schwer, Echtzeitleistung zu erreichen. Die neuen Sensoren von Sony führen die ISP-Verarbeitung und die Highspeed-KI-Verarbeitung (3,1 Millisekunden Verarbeitungszeit für MobileNet V1) auf dem Logikchip aus und schließen den gesamten Prozess in einem einzigen Videobild ab. Dieses Design ermöglicht eine hochpräzise Echtzeitverfolgung von Objekten bei Videoaufnahmen.

Beispiel für Echtzeit-Tracking mit Produkt und Aufgabe an einer Kasse. (c) Sony

Wählbares KI-Modell

Nutzer können die KI-Modelle ihrer Wahl in den eingebetteten Speicher schreiben und sie je nach ihren Anforderungen oder den Bedingungen am Einsatzort des Systems auch neu schreiben und aktualisieren. Wenn beispielsweise mehrere Kameras, die diesen Sensor nutzen, in einem Ladengeschäft installiert sind, lassen sich mit einem einzigen Kameratyp verschiedene Standorte, Gegebenheiten, Zeiten oder Zwecke abdecken. Wird die Kamera im Eingangsbereich installiert, so kann damit die Anzahl der Besucher gezählt werden, die das Geschäft betreten. An einem Regal angebracht erkennt sie, wo Ware fehlt. Wird sie an der Decke installiert, so kann sie zur Erstellung von Wärmebildern genutzt werden – um Bereiche zu orten, in denen viele Ladenbesucher zusammentreffen uvm. Darüber hinaus kann das KI-Modell in einer Kamera neu geschrieben werden, sodass beispielsweise aus einem Modell zur Erkennung von Wärmebildern ein Modell zur Ermittlung des Kundenverhaltens wird.