Skalierbare Themenanalyse von Web-Dokumenten
Projektleiter:
Finanzierung:
Industrie;
In der Kooperation wurde 2011 der Associtation-Branch-and-Chain-Ansatz entwickelt. Erste Tests auf Unister-News-Daten zeigten, dass mit dem Ansatz unterschiedliche Bedeutungen von Wörtern durch Herausarbeitung des Kontexts identifiziert werden können. Zum Beispiel wurde für den Term Golf in den News-Daten die Kontexte VW-Golf, Vergleich von VW-Golf mit anderen Autos, Öl-Katastrophe im Golf von Mexiko, Golf von Aden und somalische Piraten gefunden. Dies wurde durch Aufbau und Zusammenfassen von Assoziationsketten bzw. Assoziationsverzweigungen bestimmt. Assoziationsketten und -verzweigungen sind Teil einer größeren Datenstruktur, die wir Assoziationsgraph nennen, die viele, zum großen Teil bisher nicht untersuchte statistische Zusammenhänge zwischen Wörtern in Dokumentsammlungen repräsentiert. Der Assoziationsgraph ist ein gerichteter, geordneter und gewichteter azyklischer Graph, dessen Knoten mit den Wörtern des Vokabulars der Dokumentsammlung beschriftet sind. Die bisher entwickelten Algorithmen berechnen nur kleine spezielle Teile des Assoziationsgraphen isoliert, nämlich Assoziationsketten und -verzweigungen. Ziel des neuen Projektes ist es, den Assoziationsgraphen bzw. große Teile davon berechnen in einem Schritt zu können. Damit soll der Gesamtberechnungsaufwand gegenüber der isolierten Berechnung sinken, die nur einzelne Teil berechnet und dabei Zwischenergebnisse mehrfach erzeugt. Mit Hilfe des Assoziationsgraphen sollen anwendungsrelevante Fragestellungen gelöst werden:
- Finden von mehrdeutigen Wörtern in Dokumentsammlungen
- Explorative Erweiterungsvorschläge für Suchanfragen
- Vorschlagen von Kategorien für Texte
- Skalierbare Themenanalyse von Dokumentsammlungen
Kontakt

PD Dr. Alexander Hinneburg
Martin-Luther-Universität Halle-Wittenberg
Naturwissenschaftliche Fakultät III
Von-Seckendorff-Platz 1
06099
Halle (Saale)
Tel.:+49 345 5524732
weitere Projekte
Die Daten werden geladen ...