AIDA – wer zum Kuckuck ist Müller?

Johannes Hoffart & Gerhard Weikum & Mohamed Amir Yosef

AIDA – wer zum Kuckuck ist Müller?

Haben Sie schon einmal nach Ihrem eigenen Namen gegoogelt um herauszufi nden, was das Web über Sie weiß ? Diese Suche wird dadurch erschwert, dass Sie aller Wahrscheinlichkeit nach nicht die einzige Person mit Ihrem Namen sind. Webseiten mit Informationen über Sie sind zwischen vielen anderen versteckt – es sei denn, Sie sind wirklich berühmt! Dieses Szenario ist aber natürlich nicht das einzige, bei dem die Namensmehrdeutigkeit das Leben erschwert. Auch beim Lesen der Tageszeitung fällt auf, dass die meisten Namen mehrdeutig sind. Als Mensch gehen wir mit dieser Mehrdeutigkeit beinahe unmerklich um, die richtige Bedeutung erscheint uns offensichtlich. Nur in schwierigen Fällen – beispielsweise in dem Satz „Müller ist Torschützenkönig.“ – fällt es uns auf. Ohne weitere Kontextinformationen können wir nicht sagen, wer mit „Müller“ gemeint ist: Gerd Müller, Bomber der Nation und Weltmeister von ‘74, oder Thomas Müller, Torschützenkönig der WM 2010? Wenn nun Namen im Web – oder auch in jedem beliebigen Text – den eindeutigen Personen (oder Organisationen, Orten, Filmen, Musiktiteln, usw.) zugeordnet sind, ergeben sich daraus viele mögliche Anwendungen. Bisher konnten Suchmaschinen nur nach einer Buchstabenfolge suchen, jetzt kann dies der Nutzer wesentlich spezifi scher tun. Sucht man beispielsweise nach der Firma Müller erscheinen keine Fußballergebnisse mehr. Auch für Forscher ergeben sich neue Möglichkeiten: Medienforscher können nun ganz einfach alle Artikel zu Gerd und Thomas Müller ausfi ndig machen, etwa um quantitative Vergleiche durchzuführen, ohne einen einzigen Artikel selbst gesehen zu haben.

Unsere AIDA-Methode löst die Mehrdeutigkeit von Namen auf, indem die Namen mit einer kanonischen Entitäten-Repräsentation einer Wissensbasis verknüpft werden. Solch eine Wissensbasis ist beispielsweise YAGO. Hier werden fast 10 Millionen solcher Entitäten gespeichert, darunter 1 Million Personen, aber auch Orte, Organisationen, Produkte und Ereignisse – ausführlichere Informationen zu diesem Thema fi nden Sie im Artikel „YAGO – eine digitale Wissensammlung“ des vorliegenden Jahresberichts. Um einen gegebenen mehrdeutigen Namen korrekt aufzulösen, ermittelt AIDA aus verschiedenen Daten über die möglichen Entitäten Hinweise auf die vermutlich zutreffende Entität. Die richtige Kombination aller Hinweise identifi ziert schließlich die korrekte Entität.

Die wichtigsten Bestandteile für eine korrekte Namensaufl ösung sind die Folgenden: Wahrscheinlich wird ein Name mit seiner prominentesten Bedeutung verwendet. Wenn „Paris“ in einem Text steht, dann ist meist die französische Hauptstadt gemeint. Es muss starke Hinweise im Kontext geben, dass dies nicht der Fall ist. Im Beispielsatz „Paris raubte Helena ihrem Mann, dem König von Sparta.“ weisen die Wörter im Kontext von Paris darauf hin, dass es sich um eine Person der griechischen Mythologie handelt. Diese Art der kontextbezogenen Hinweise ist der zweite Bestandteil unseres Systems. Jede Entität in unserer Wissensbasis ist mit einer textuellen Beschreibung in Form von Schlüsselwörtern versehen, die mit der Umgebung des Namens im Text verglichen werden. Je besser die Schlüsselwörter einer Entität zum Kontext passen, desto größer ist die Indikation für diese. In einigen Fällen jedoch sind die Kontexthinweise nicht genug, insbesondere wenn der Kontext sehr kurz ist. Um diese Fälle korrekt zu behandeln, löst unsere Methode alle Namen im Text zusammen auf und bevorzugt Entitäten, die gut zueinander passen. Im Beispielsatz „Paris traf Helena“ sind Paris und Helena von Troja bessere Kandidaten als Paris Hilton und Helena Rubinstein.

Die Güte von AIDA wurde auf einer Sammlung von Nachrichtentexten getestet, AIDA erzielt bessere Ergebnisse als alle bisher bekannten Ansätze zur Disambiguierung von Namen. Das von AIDA bereitgestellte Wissen um die Entitäten eines Textes ermöglicht sowohl eine einfachere Suche in Texten als auch die Gewinnung von neuem Wissen aus diesen Texten, beispielsweise über Beziehungen zwischen Entitäten.