Thursday, 14. February 2008

Wie Computer lernen, Video-Szenen selbstständig zu interpretieren

Eine Überwachungskamera in einer Bankfiliale kann bisher nicht unterscheiden, ob ein Bankräuber zum Tresor geht oder nur ein Angestellter. Sie zeichnet lediglich auf und kann nicht wie ein Mensch urteilen, der auf den Bildern sofort die bedrohliche Situation erkennt. Wissenschaftler arbeiten jedoch daran, dass künftig auch Computer solche Video-Szenen selbstständig interpretieren können. Dabei versucht man, die Methoden der Logik, die in der klassischen Künstlichen Intelligenz-Forschung eingesetzt werden, mit der Wahrscheinlichkeitstheorie zu verknüpfen. Wie das funktionieren könnte, diskutieren internationale Wissenschaftler bei einer Tagung vom 24. bis 29. Februar 2008 im Leibniz-Zentrum für Informatik auf Schloss Dagstuhl.

 

In der digitalen Welt werden heute Unmengen von Bildern und Bildfolgen automatisch erfasst. So zum Beispiel durch Überwachungskameras an Bahnhöfen, in Banken, Schwimmbädern oder auch in der industriellen Produktion. Künftig sollen außerdem Autos mit Kameras ausgestattet werden, um den Fahrer vor Gefahren zu warnen, etwa wenn ein Kind auf die Straße rennt. Für den Computer sind die erfassten Video-Sequenzen jedoch zuerst nur viele bunte Bildpunkte, die er nicht wie das menschliche Auge erfassen und sinnvoll interpretieren kann. Zur Analyse benötigt er wie der Mensch Hintergrundwissen, muss also vermuten können, dass der Mann mit Kapuzenmaske ein Bankräuber ist oder dass dem Ball, der vor das Auto rollt, noch ein Kind folgen kann.

 

Um Szenen automatisch zu interpretieren, stößt die klassische Forschung der Künstlichen Intelligenz an Grenzen, denn viele Abläufe in der Natur können nicht einfach in Regeln gepackt und mit Hilfe der Logik analysiert werden. Sie sind außerdem zu komplex, um von Ingenieuren einfach wie am Reißbrett modelliert zu werden. Hier sollen Modelle aus der Stochastik weiterhelfen, die unscharfe Interpretationen zulassen und von verschiedenen Möglichkeiten ausgehen. Außerdem werden Methoden des Maschinellen Lernens eingesetzt, damit der Computer kontinuierlich dazu lernt, um etwa ähnliche Szenen noch besser zu verstehen. Das Ziel der Tagung in Dagstuhl ist es, die theoretischen Grundlagen für eine Kombination von wahrscheinlichkeitsbasierten und logischen Verfahren zu verbessern, um neue Anwendungen überhaupt erst zu ermöglichen, zum Beispiel die Überwachung des Bodenverkehrs am Flughafen von Toulouse oder die Gewalt-Prophylaxe an U-Bahnstationen in Frankreich.

 

Die internationale Tagung in Dagstuhl bringt dafür Wissenschaftler aus ganz unterschiedlichen Forschungsrichtungen wie der Logik, Künstlichen Intelligenz, Kognitionswissenschaft und Wahrscheinlichkeitstheorie zusammen. Die Organisation haben die Wissenschaftler Anthony G. Cohn und David C. Hogg von der University of Leeds (Großbritannien) sowie Ralf Möller von der Technischen Universität Hamburg-Harburg und Bernd Neumann von der Universität Hamburg übernommen.

 

Nähere Informationen zu dem Dagstuhl-Seminar "Logic and Probability for Scene Interpretation" und den Teilnehmern unter http://www.dagstuhl.de/08091