Was sehe ich da?

Vorlesen

Es wäre praktisch, wenn ein Computer als unsichtbarer Helfer und Wächter für allein lebende ältere Menschen fungieren könnte. Damit er allerdings selbstständig anhand von Videoaufnahmen erkennen kann, ob ein Mensch gestürzt ist oder sich nur mal eben bückt, müsste der Computer allerdings erst einmal einen Sturz von anderen Bewegungen unterscheiden können.

laufender Mann — Ob dieser Mann zum Spaß läuft oder flüchtet, erkennen wir an Merkmalen wie dem Gesichtsausdruck, dem Kontext oder der Kleidung. Das muss auch ein Computer erst lernen.© DjelicS/ Getty images

Aufwändiges Training

Das ist jedoch schwieriger als die Identifizierung von Gesichtern und Objekten auf Fotos. Denn das Computertraining mit Videos ist aufwändiger, alleine schon wegen der riesigen Datenmengen, die dafür verarbeitet werden müssen. 50 bis 100 Video-Einzelbilder (Frames) sind nötig, damit eine Bewegung sichtbar wird – also die 50- bis 100- fache Datenmenge eines Fotos.

Zudem trainieren Computer klassischerweise mit Texten, die beschreiben, was auf Fotos oder Videosequenzen zu sehen ist. Solche Verschlagwortungen, Annotationen genannt, werden von Menschen gemacht, die die Bilder ansehen und beschreiben. Auf diese Weise lernt der Computer, was zum Beispiel eine Tasse ist, wenn er sehr viele Bilder sieht, die mit der Annotation „Tasse“ versehen sind. Bei Videos ist es viel zeitaufwändiger, Annotationen zu erstellen und so genug Trainingsmaterial zu erhalten, alleine wegen der großen Datenmengen und der längeren Zeitspannen, die für Videos veranschlagt werden müssen.

Auf den Kontext kommt es an

Dazu kommen zwei weitere Probleme: Zum einen gibt es für dieselbe Bewegung oft unterschiedliche Begriffe, die auch davon abhängen, wie lange eine Bewegung beobachtet werden kann. Kühne: „Wenn ich jemandem nur drei Sekunden zusehe, kann ich zum Beispiel sagen ‚er rennt‘ oder ‚er läuft‘. Wenn ich ihn 20 Sekunden beobachte, weiß ich ‚er sprintet‘ oder ‚er joggt‘. Sehe ich noch mehr von dem Video, und es taucht ein Hund auf oder eine Bushaltestelle, erkenne ich: ‚Er flüchtet vor dem Hund‘ oder ‚er hastet zur Bushaltestelle‘. Die Aufgabe, Bewegungen zu erkennen, ist daher schlecht definierbar, für Mensch und Computer.“

Das zweite Problem liegt darin, wie Menschen den Datenstrom verarbeiten, den sie über Augen und Ohren empfangen. Wir nehmen Bewegungen nicht als etwas Kontinuierliches wahr, sondern unterteilen sie in kleinere Abschnitte, um sie uns zu merken. Im Gehirn werden diese Abschnitte dann wieder zu einem kontinuierlichen Bewegungsablauf zusammengefügt.

Wie viele einzelne Abschnitte wahrgenommen werden, hängt dabei von den individuellen Erfahrungen und Fähigkeiten jedes Betrachters ab. Hilde Kühne nennt als Beispiel das Kunstturnen bei Olympia: „Die geschulten Wertungsrichter können den Bewegungsablauf einer Kür genau analysieren. Ich als Laie sehe dieselbe Abfolge, kann aber die einzelnen Elemente kaum unterscheiden.“