« Projekte
Linguistische Analysen für die semantische Auszeichnung natürlichsprachlicher Dokumente
Projektbearbeiter:
Dr.-Ing. Manuela Kunze
Finanzierung:
Haushalt;
Auch im Informationszeitalter stellt die natürliche Sprache das zentraleMittel zur zwischenmenschlicher Kommunikation dar, ob nun in gesprocheneroder geschriebener Form.Die Anzahl von Dokumenten, sei es als Emails, Besprechungsnotizen,Firmendokumente etc. wächst von Jahr zu Jahr. Die Suche nach Informationenin diesen Dokumentenbeständen ist manuell kaum noch zu bewältigen.Systeme, des Informationen Retrieval und der Informationsextraktion werdeneingesetzt, um den Nutzer bei der Suche zu unterstützen.Die Grundlage für diese Systeme bildet die Auswertung des Inhalts einesDokumentes. Dazu werden die Dokumente z.B. nach phrasalen Musterndurchsucht oder eine tiefergehende Analyse der vorkommenden Wörter undlinguistischen Strukturen vorgenommen.Die vorliegende Arbeit beschäftigt sich mit Verfahren, die die semantischeAnreicherung von Dokumenten unterstützen.Anhand von exemplarischen Implementierungen werden Verfahren vorgestellt,die für die Auszeichnung einfacher (token-basierter) Konzepte sowie auchkomplexerer Sachverhalte genutzt werden können. In der Arbeit wird dieAuszeichnung von benannten Entitäten und ein lexikonbasierter semantischerTagger vorgestellt. Des weiteren wird eine Kasusrahmenanalyse und einVerfahren zur semantischen Interpretationen von spezifischen syntaktischenStrukturen beschrieben. Eingesetzt wurden diese Verfahren, umObduktionsprotokolle und Verkehrsunfallberichte auszuwerten.Das Ergebnis der Verfahren sind Informationen, die dafür genutzt werdenkönnen, um Dokumente mit semantischen Informationen anzureichern oder umInhalte der Dokumente mittels Topic Maps und OWL (Web Ontology Language)zu beschreiben.Die Qualität der in dieser Dissertation vorgestellten Verfahren wird imstarken Maße durch die Güte bzw. Abdeckung der verwendeten Ressourcenbeeinflusst. Die Erstellung dieser Ressourcen ist sehr zeitaufwändig, sodass es notwendig ist, zu prüfen inwieweit bestehende Ressourceneingebunden und ggf. erweitert werden können. Neben der Analyse vonDokumenten werden in dieser Arbeit auch Methoden vorgestellt, die zurgebietsspezifischen Erweiterung des lexikalischen Wortnetzes GermaNetgenutzt werden.In der Dissertation wird kurz auch auf Verfahren eingegangen, die imVorfeld einer semantischen Analyse von Dokumenten erforderlich sind. Eshandelt sich dabei um die Erkennung und Behandlung von Schreibfehlern undTrunkationen (Augenober- und -unterlid) sowie die Extraktion vonrelevanten Strukturen für die Analyse (Satzstrukturen).

Schlagworte

Computerlinguistik, Dokumentanalyse, Korpora, Ontologien, semantische Analyse
Kontakt

weitere Projekte

Die Daten werden geladen ...