Erweiterungen von Ontologien strukturierter Entitäten
Projektleiter:
Projektbearbeiter:
Simon Flügel
Finanzierung:
Referenzontologien spielen eine wesentliche Rolle bei der Organisation von Wissen in den Biowissenschaften und anderen Bereichen. Da sie in einem aufwändigen Prozess manuell erstellt werden, decken sie oft nur einen kleinen Teil ihrer Domäne ab. Unser Ziel ist es, eine automatische Erweiterung des Abdeckungsgrades einer Referenzontologie zu ermöglichen. Dies geschieht, indem diese automatisch um Klassen erweitert wird, die noch nicht manuell hinzugefügt wurden. Diese Erweiterung soll den (oft impliziten) Designentscheidungen der Entwickler der Referenzontologie treu bleiben.
Während es sich hierbei um ein allgemeines Problem handelt, fokussieren wir uns auf die Chemical Entities of Biological Interest (ChEBI) als Anwendungsgebiet. In unserem Ansatz werden die Blattklassen der manuell kuratierten Referenzontologie verwendet, um ein System zur Vorhersage von Unterklassenbeziehungen zwischen Klassen mittlerer Ebene und neuen Klassen zu trainieren. Wir verwenden also Techniken des maschinellen Lernens, sind aber nicht auf Textkorpora als Input angewiesen, sondern nutzen den Inhalt der Ontologie selbst. Eine Schlüsselrolle spielen dabei Annotationen von Klassen, die Informationen liefern, die für die Klassifizierung einer bestimmten Entität innerhalb der Ontologie relevant sind. Im Fall von ChEBI sind dies z. B. die Struktur chemischer Entitäten (z. B. Moleküle und funktionelle Gruppen).
Darüber hinaus werden die Axiome der Ontologie als logische neuronale Netze dargestellt. Somit bietet unser Ansatz eine Art neuro-symbolische Integration. In Vorarbeiten haben wir die Machbarkeit des Ansatzes durch den Vergleich der Leistung einer Reihe von maschinellen Lernansätzen nachgewiesen. Trotz der Einschränkungen der Vorarbeiten ist die Leistung einiger unserer Modelle im Vergleich zu ClassyFire positiv. ClassyFire ist ein regelbasiertes System, das den Stand der Technik für diese Aufgabe darstellt und bei der Entwicklung von ChEBI eingesetzt wird. Darüber hinaus zeigen unsere Ergebnisse, dass verschiedene Ansätze des maschinellen Lernens für unterschiedliche Arten von chemischen Entitäten geeignet sind. Daher planen wir, in unserem Projekt einen Ensemble-Ansatz zu verwenden.
Die Ergebnisse dieses Projektes werden sein: (a) ein Benchmark-Trainingssatz für das Trainieren von Modellen zur Erweiterung der chemischen Ontologie und (b) ein System, das - wenn es eine Reihe neuer chemischer Entitäten als Eingabe erhält - automatisch eine neue Ontologie generiert, die ChEBI um diese Entitäten erweitert. Der Nutzen dieser Arbeit besteht in einer neuartigen Methodik zur Erweiterung des Abdeckungsgrads bestehender Referenzontologien. Wenn sie angenommen wird, wird sie eine verbesserte Interoperabilität und Wissensintegration für die Gebiete ermöglichen, in denen diese Referenzontologien verwendet werden. Ein weiteres Ergebnis ist eine neuartige neuronal- symbolische Architektur, die neuronale Graphennetze, Transformer und logische neuronale Netze integriert.
Das Projekt ist ein Kooperationsprojekt mit Prof. Dr. Janna Hastings (Universität Zürich) im Rahmen des Weave Lead Agency-Verfahrens der DFG.
Während es sich hierbei um ein allgemeines Problem handelt, fokussieren wir uns auf die Chemical Entities of Biological Interest (ChEBI) als Anwendungsgebiet. In unserem Ansatz werden die Blattklassen der manuell kuratierten Referenzontologie verwendet, um ein System zur Vorhersage von Unterklassenbeziehungen zwischen Klassen mittlerer Ebene und neuen Klassen zu trainieren. Wir verwenden also Techniken des maschinellen Lernens, sind aber nicht auf Textkorpora als Input angewiesen, sondern nutzen den Inhalt der Ontologie selbst. Eine Schlüsselrolle spielen dabei Annotationen von Klassen, die Informationen liefern, die für die Klassifizierung einer bestimmten Entität innerhalb der Ontologie relevant sind. Im Fall von ChEBI sind dies z. B. die Struktur chemischer Entitäten (z. B. Moleküle und funktionelle Gruppen).
Darüber hinaus werden die Axiome der Ontologie als logische neuronale Netze dargestellt. Somit bietet unser Ansatz eine Art neuro-symbolische Integration. In Vorarbeiten haben wir die Machbarkeit des Ansatzes durch den Vergleich der Leistung einer Reihe von maschinellen Lernansätzen nachgewiesen. Trotz der Einschränkungen der Vorarbeiten ist die Leistung einiger unserer Modelle im Vergleich zu ClassyFire positiv. ClassyFire ist ein regelbasiertes System, das den Stand der Technik für diese Aufgabe darstellt und bei der Entwicklung von ChEBI eingesetzt wird. Darüber hinaus zeigen unsere Ergebnisse, dass verschiedene Ansätze des maschinellen Lernens für unterschiedliche Arten von chemischen Entitäten geeignet sind. Daher planen wir, in unserem Projekt einen Ensemble-Ansatz zu verwenden.
Die Ergebnisse dieses Projektes werden sein: (a) ein Benchmark-Trainingssatz für das Trainieren von Modellen zur Erweiterung der chemischen Ontologie und (b) ein System, das - wenn es eine Reihe neuer chemischer Entitäten als Eingabe erhält - automatisch eine neue Ontologie generiert, die ChEBI um diese Entitäten erweitert. Der Nutzen dieser Arbeit besteht in einer neuartigen Methodik zur Erweiterung des Abdeckungsgrads bestehender Referenzontologien. Wenn sie angenommen wird, wird sie eine verbesserte Interoperabilität und Wissensintegration für die Gebiete ermöglichen, in denen diese Referenzontologien verwendet werden. Ein weiteres Ergebnis ist eine neuartige neuronal- symbolische Architektur, die neuronale Graphennetze, Transformer und logische neuronale Netze integriert.
Das Projekt ist ein Kooperationsprojekt mit Prof. Dr. Janna Hastings (Universität Zürich) im Rahmen des Weave Lead Agency-Verfahrens der DFG.
Kontakt
Prof. Dr.-Ing. habil. Till Mossakowski
Otto-von-Guericke-Universität Magdeburg
Institut für Intelligente Kooperierende Systeme
Universitätsplatz 2
39106
Magdeburg
Tel.:+49 391 6754985
weitere Projekte
Die Daten werden geladen ...