Die Erfassung von Bildern in großen Stückzahlen ist nach wie vor eine mühevolle und sehr zeitaufwändige Handarbeit, da automatische Scan-Systeme bislang kein adäquater Ersatz für die manuelle Erkennung von Bildinhalten waren. Ein einfaches Scannen des Bildmaterials ist nur der erste Schritt und vergleichbar mit dem Sehen des Bildes.
Bislang ließen sich Bilddatenbanken nur nach Stichworten kategorisieren und durchsuchen. Diese Möglichkeiten werden durch die neuartige Software um die Sortierung nach Bildkategorien erweitert. Erstmals können Bilder somit automatisch anhand ihres Inhaltes, ihres Motivs, indiziert werden. Das Programm erkennt verschiedenste Bildmotive, die anschließend entsprechend sortiert in Dokumenten- und Content-Managementsysteme einfließen können. Der gesamte Vorgang dauert lediglich ungefähr zwei Sekunden pro Bild. Die neue Technologie ist somit vor allem für Anwender interessant, die große Mengen von Bildmaterial speichern und verwalten müssen. Die Trefferquote der Software liegt dabei je nach Bildkategorie zwischen 80 und 99 Prozent.
Die Funktionsweise besteht aus vier Schritten. Im ersten Schritt sucht die Software nach markanten Punkten und Elementen, den so genannten «Keypatches». Dann werden die einzelnen Patches mit einem visuellen Wörterbuch verglichen - daraus resultieren «visuelle Worte», die zentralen Elemente des einzelnen Bildes. Bei der Aufnahme eines Autos sind das beispielsweise Räder und Scheinwerfer. Im dritten Schritt zählt das Programm, wie häufig die einzelnen visuellen Worte erscheinen. Abschließend werden die so entstehenden Histogramme in vordefinierte Bildkategorien klassifiziert. Dabei lässt sich die Software auch nicht durch ungewöhnliche Blickwinkel oder Komplikationen wie die Präsenz mehrerer Bildkategorien in einem einzelnen Bild verunsichern - sämtliche Kategorien werden zuverlässig erkannt, ebenso wie teilweise verdeckte Motive.
Derzeit arbeiten die Forscher an einer Vergrößerung des visuellen Wörterbuchs, um die Software zur Marktreife zu bringen. Für die Zukunft hat sich das Team am XRCE ehrgeizige Ziele gesetzt: Die Kategorisierungstechnologie soll für bewegte Bilder und damit für die Kategorisierung von Video-Material nutzbar gemacht werden.
Weitere Informationen dazu unter www.xerox.com/innovation.