Videos mit natürlicher Sprache beschreiben

Anna Rohrbach & Marcus Rohrbach

Videos mit natürlicher Sprache beschreiben

Für automatische Systeme ist es wichtig, Menschen zu kommunizieren, was sie erkennen oder „sehen“. Derzeitige Ansätze zur Bilderkennung konzentrieren sich typischerweise auf die Generierung von isolierten Attributen (z. B. „Schneiden“, „Gurke“, „Teller“), die nicht gut für die Kommunikation mit dem Menschen geeignet sind. Daher untersuchen wir, wie man natürliche Sprache zur Beschreibung von Videos erzeugen kann. Ein entsprechender Satz für das obige Beispiel könnte sein: „Jemand schneidet die Gurke auf dem Teller“. Das Beschreiben von Videos mit natürlicher Sprache ist wichtig, z. B. für die automatische Untertitelung von Web- Videos, für die Mensch-Roboter-Interaktion, oder für die Unterstützung von Sehbehinderten. In unserer Arbeit betrachten wir zwei Szenarien. Einerseits erzeugen wir Beschreibungen für Kochvideos. Andererseits untersuchen wir das Problem der Erzeugung von Audiobeschreibungen für Filme, damit blinde Menschen einen Film auch verfolgen können, ohne ihn zu sehen.

Automatische Beschreibung von Kochvideos

Um das Problem der automatischen Video-Beschreibung genauer zu untersuchen, lernen wir, wie man Video-Schnipsel in einen natürlichsprachlichen Satz „übersetzen“ kann. Dafür nutzen wir Techniken aus der statistischen maschinellen Übersetzung für ein Sprachenpaar z. B. Englisch und Französisch. Für das Trainieren unseres Übersetzungsansatzes benötigt man Paare aus Videos und Sätze. Für Kochaktivitäten wie „eine Dose öffnen“ oder „Nudeln umrühren“ haben wir diese in großem Umfang gesammelt.

Im Gegensatz zu anderen Arbeiten können wir nicht nur einen kurzen Videoausschnitt mit einem einzigen Satz beschreiben, sondern auch ein langes Video mit mehreren Sätzen. Um sicherzustellen, dass wir eine konsistente Beschreibung erzeugen, stellt unser Modell sicher, dass die einzelnen Sätze das gleiche Thema haben. In unserem Küchenszenario ist das Thema das jeweilige gekochte Gericht.

Während vorhergende Arbeiten sich nur auf die Beschreibung von Videos auf einem festen Niveau der Abstraktion konzentriert haben, erforschen wir, wie man Videos mit unterschiedlichem Detailliertheitsgrad beschreiben kann. Unser System kann für Kochvideos detaillierte, kurze oder Ein-Satz Beschreibungen generieren [Abbildung 1].

 

Abbildung 1: Eine Ausgabe unseres Systems: eine automatisch generierte detaillierte, kurze und Ein-Satz Beschreibung eines Videos.

Detailed: A man took a cutting board and knife from the drawer. He took out an orange from the refrigerator. Then, he took a knife from the drawer. He juiced one half of the orange. Next, he opened the refrigerator. He cut the orange with the knife. The man threw away the skin. He got a glass from the cabinet. Then, he poured the juice into the glass. Finally, he placed the orange in the sink.
Short: A man juiced the orange. Next, he cut the orange in half. Finally, he poured the juice into a glass.
One sentence: A man juiced the orange.

Filmbeschreibung

Bestehende Videobeschreibungsdatensätze konzentrieren sich auf kurze Videoschnipsel, sind nicht groß genug oder auf das Kochszenario beschränkt. Um diese Einschränkungen zu überwinden, haben wir einen neuen Datensatz erstellt. Dieser enthält Filme mit den zugehörigen Textbeschreibungen. Wir nutzen zwei Quellen von Textdaten, Drehbücher und Audio-Beschreibungen, die für viele DVDs und Blu-rays verfügbar sind. Audio-Beschreibungen liefern sprachliche Beschreibungen von Filmen und ermöglichen es Sehbehinderten, einen Film zu verfolgen. Der gesammelte Datensatz ermöglicht in großem Umfang, Abläufe und Geschichten über mehrere Sätze hinweg zu untersuchen [Abbildung 2].

AD: Abby gets in the basket.
Script: After a moment a frazzled Abby pops up in his place.

AD: Mike leans over and sees how high they are.
Script:
Mike looks down to see – they are now fifteen feet above the ground.

AD: Abby clasps her hands around his face and kisses him passionately.
Script: For the first time in her life, she stops thinking and grabs Mike and kisses the hell out of him.

Abbildung 2: Beispiel Textbeschreibungen aus unserem Datensatz, oben mit Audiodeskription (AD), unten mit Drehbüchern (Skript).

 

Anna Rohrbach

DEPT. 2 Computer Vision and Multimodal Computing
Phone +49 681 9325-2111
Email arohrbach@mpi-inf.mpg.de

Marcus Rohrbach

DEPT. 2 Computer Vision and Multimodal ComputingPhone +49 681 9325-2111Email rohrbach@mpi-inf.mpg.de