STICS – Suche und Analyse mit Wörtern, Dingen und Kategorien

Johannes Hoffart & Dragan Milchevski & Gerhard Weikum

STICS – Suche und Analyse mit Wörtern, Dingen und Kategorien

„Things, not Strings“ ist Googles Motto seit der Vorstellung des Knowledge Graphs und der Einführung von Entitäten in Googles Suchmaschine. Seitdem zeigt Google bei der Eingabe von beispielsweise „Klitschko“ als Suchbegriff nicht mehr nur Webseiten und Nachrichten an, sondern auch explizit Entitäten wie Wladimir Klitschko und seinen Bruder Vitali (mit strukturierten Fakten wie Geburtsdatum, Beruf sowie Beziehungen zu anderen Entitäten, alle aus dem Knowledge Graph). Darüber hinaus wird bei den Vervollständigungsvorschlägen beim Tippen zusätzlich angezeigt, dass einer der beiden aktiver Boxer ist, der andere Politiker.

Googles Ansatz hat jedoch noch Einschränkungen. Erstens scheint es, als würden nur prominente Entitäten angezeigt und vorgeschlagen werden. Im Gegensatz zum Klitschko-Beispiel wird bei der Suche nach der ukrainischen Popsängerin „Iryna Bilyk“ keine Entität vorgeschlagen (weder bei der Vervollständigung noch in den Suchergebnissen). Zweitens scheint Google nur einzelne Entitäten zu kennen, aber keine Gruppen, die mit einer Kategorie bezeichnet werden. Beispielsweise haben Suchen nach „Ukrainische Prominente“ oder „Osteuropäische Politiker“ nur die üblichen zehn blauen Links zum Ergebnis: Webseiten, welche die gesuchte Phrase beinhalten. Die Suchmaschine versteht die Absicht der Nutzer nach einer Auflistung von Personen in dieser Kategorie und Webseiten über diese nicht.

STICS, kurz für „Search with Strings, Things, and Cats“, zu Deutsch „Suche mit Wörtern, Dingen und Kategorien“, ist eine neue Suchmaschine, welche die Verwendbarkeit von Entitäten bei der Web- und Nachrichtensuche erweitert, da sie sowohl die Suche nach unbekannteren Entitäten erlaubt, als auch kategorieähnliche Phrasen versteht. STICS unterstützt die Nutzer hierbei nahtlos und bequem. Wenn die Suche beispielsweise „Merkel Ukrainische Opposition“ lautet, wird die oder der Suchende mit Hilfe einer automatischen Vervollständigung zur Entität ‚Angela_ Merkel‘ und der Kategorie ‚Ukrainische_Oppositionelle‘ geführt. Letztere wird automatisch zu ‚Vitali_Klitschko‘, ‚Arseniy_Yatsenyuk‘, etc. erweitert. Die Suchergebnisse enthalten auch Seiten, die darüber berichten, dass „die deutsche Kanzlerin den ukrainischen Oppositionsführer und früheren Schwergewichtschampion traf“, obwohl diese Texte weder „Angela Merkel“ noch „Vitali Klitschko“ enthalten. STICS ermöglicht dies mit Hilfe des Namenserkennungs- und Verknüpfungssystems AIDA, das mehrdeutige Wörter mit Entitäten in YAGO verbindet, welches wiederum die Kategorien der Entitäten enthält. Die genaue Funktionsweise von AIDA ist in „AIDA – Wer zum Kuckuck ist Müller?“, beschrieben.

Die gleiche Technologie kann auch die Analyse von großen Archiven verbessern. Ein Beispiel ist die Visualisierung von Trends in der Ukraine-Krise, die am Maidan ihren Anfang nahm, dem Platz in Kiew auf dem Tausende Ukrainer Anfang 2014 protestierten. Bei einer Suche nach „Maidan“ wird schnell offensichtlich, dass der Name sehr mehrdeutig ist, da er nicht nur auf Ukrainisch, sondern auch auf Arabisch und Hindi „Platz“ bedeutet. Zählt man nun einfach die Artikel, in denen „Maidan“ vorkommt, zählt man eine große Menge irrelevanter Ergebnisse mit, was die Analyse verwässert. Spezifi ziert man stattdessen die Entität ‚Maidan_Nezalezhnosti‘, werden nicht nur die falschen Ergebnisse ignoriert, sondern auch Artikel gefunden, die den Maidan nur unter dem deutschen Namen „Unabhängigkeitsplatz“ aufführen. Somit ist die mit STICS mögliche entitätsbasierte Analyse die einzige Möglichkeit, akkurate Zahlen zu erhalten.

Die strukturierte Wissensbasis, mit der alle Texte verknüpft sind, eröffnet weitere Möglichkeiten. In allen Wissensbasen sind Entitäten in einer Kategorienhierarchie geordnet, beispielsweise ist ‚Greenpeace‘ eine ‚Umweltorganisation‘, die wiederum einer Unterkategorie einer generellen ‚Organisation‘ ist. Diese Kategorienhierarchie erlaubt die Analyse ganzer Entitätsgruppen, beispielsweise kann man ‚Umweltorganisationen‘ und ‚Energiekonzerne‘ in Nachrichten verschiedener Kontinente vergleichen, und ein Bild davon erhalten, wie sich deren Medienpräsenz über die Zeit ändert.

Johannes Hoffart

DEPT. 5 Databases and Information Systems
Phone
+49 681 9325-5004
Email jhoffart (at) mpi-inf.mpg.de

Dragan Milchevski

DEPT. 5 Databases and Information Systems
Phone
+49 681 9325-5013
Email dmilchev (at) mpi-inf.mpg.de

Gerhard Weikum

DEPT. 5 Databases and Information Systems
Phone
+49 681 9325-5000
Email weikum (at) mpi-inf.mpg.de