« Projekte
Sie verwenden einen sehr veralteten Browser und können Funktionen dieser Seite nur sehr eingeschränkt nutzen. Bitte aktualisieren Sie Ihren Browser. http://www.browser-update.org/de/update.html
Skalierbare Themenanalyse von Web-Dokumenten
Finanzierung:
Industrie;
In der Kooperation wurde 2011 der Associtation-Branch-and-Chain-Ansatz entwickelt. Erste Tests auf Unister-News-Daten zeigten, dass mit dem Ansatz unterschiedliche Bedeutungen von Wörtern durch Herausarbeitung des Kontexts identifiziert werden können. Zum Beispiel wurde für den Term Golf in den News-Daten die Kontexte VW-Golf, Vergleich von VW-Golf mit anderen Autos, Öl-Katastrophe im Golf von Mexiko, Golf von Aden und somalische Piraten gefunden. Dies wurde durch Aufbau und Zusammenfassen von Assoziationsketten bzw. Assoziationsverzweigungen bestimmt. Assoziationsketten und -verzweigungen sind Teil einer größeren Datenstruktur, die wir Assoziationsgraph nennen, die viele, zum großen Teil bisher nicht untersuchte statistische Zusammenhänge zwischen Wörtern in Dokumentsammlungen repräsentiert. Der Assoziationsgraph ist ein gerichteter, geordneter und gewichteter azyklischer Graph, dessen Knoten mit den Wörtern des Vokabulars der Dokumentsammlung beschriftet sind. Die bisher entwickelten Algorithmen berechnen nur kleine spezielle Teile des Assoziationsgraphen isoliert, nämlich Assoziationsketten und -verzweigungen. Ziel des neuen Projektes ist es, den Assoziationsgraphen bzw. große Teile davon berechnen in einem Schritt zu können. Damit soll der Gesamtberechnungsaufwand gegenüber der isolierten Berechnung sinken, die nur einzelne Teil berechnet und dabei Zwischenergebnisse mehrfach erzeugt. Mit Hilfe des Assoziationsgraphen sollen anwendungsrelevante Fragestellungen gelöst werden:
  • Finden von mehrdeutigen Wörtern in Dokumentsammlungen
  • Explorative Erweiterungsvorschläge für Suchanfragen
  • Vorschlagen von Kategorien für Texte
  • Skalierbare Themenanalyse von Dokumentsammlungen
Das Entwickeln von innovativen Fragestellungen mit zugehörigen Testszenarien, die mit Hilfe des Assoziationsgraphen bearbeitet werden können, ist ebenfalls Teil der Aufgabenstellung.
Kontakt
PD Dr. Alexander Hinneburg

PD Dr. Alexander Hinneburg

Martin-Luther-Universität Halle-Wittenberg

Naturwissenschaftliche Fakultät III

Institut für Informatik

Von-Seckendorff-Platz 1

06099

Halle (Saale)

Tel.:+49 345 5524732

hinneburg(at)informatik.uni-halle.de

weitere Projekte

Die Daten werden geladen ...