
Sneha Singhania nach der erfolgreichen Verteidigung ihrer Dissertation.. Photo: MPI-INF/Bertram Somieski
Am Dienstag, den 24. Februar 2026, verteidigte Sneha Singhania ihre Dissertation mit dem Titel: „High-coverage Information Extraction from Web and Narrative Texts” (Informationsgewinnung mit hoher Abdeckung aus Web- und narrativen Texten). Seit Februar 2020 war sie Doktorandin der Informatik am Saarland Informatics Campus in Saarbrücken und am Max-Planck-Institut für Informatik unter der Betreuung von Dr. Simon Razniewski und Prof. Gerhard Weikum, Leiter der Abteilung „Databases and Information Systems”. Der Doktorgrad wird von der Universität des Saarlandes verliehen.
Zusammenfassung der Dissertationsschrift:
Die Informationsextraktion (IE) wandelt unstrukturierten Text in strukturierte Darstellungen um, beispielsweise in Subjekt-Prädikat-Objekt-Tripletts. Während bisherige IE-Methoden vor allem auf Präzision ausgerichtet waren, erfordern viele wissensintensive Anwendungen eine hohe Trefferquote. Diese Dissertation entwickelt Methoden für eine IE mit hoher Trefferquote in drei Bereichen. Erstens führen wir für Dokumente im Web die Aufgabe der Vorhersage der Informationsabdeckung auf Dokumentebene für die Relationsextraktion ein und schlagen einen ressourcenschonenden Klassifikator vor, der unter Budgetbeschränkungen Dokumente mit hoher Trefferquote priorisiert. Darüber hinaus stellen wir einen Rahmen vor, um zeitlich fundierte OpenIE-Aussagen aus sich entwickelnden Dokumenten zu extrahieren und sie in die suchgestützte Generierung zu integrieren. Zweitens untersuchen wir für parametrisches LLM-Wissen die mehrwertige Slot-Filling-Aufgabe und formulieren die Extraktion als eine Rangfolge-und-Auswahl-Aufgabe unter Verwendung prädikatspezifischer Eingabeaufforderungen. Drittens führen wir für lange narrative Texte ein zweistufiges Framework ein, das eine auf Trefferquote ausgerichtete Generierung mit einer auf Präzision ausgerichteten Überprüfung kombiniert, um lange Objektlisten zu extrahieren. Insgesamt treibt diese Arbeit durch die Neubetrachtung des Zusammenspiels zwischen Retrieval und Extraktion den Stand der IE mit hoher Recall-Rate voran.