« Projekte

Bitte aktivieren Sie JavaScript in Ihren Browsereinstellungen, um das Forschungsportal nutzen zu können.

Sie verwenden einen sehr veralteten Browser und können Funktionen dieser Seite nur sehr eingeschränkt nutzen. Bitte aktualisieren Sie Ihren Browser. http://www.browser-update.org/de/update.html

Optimizing graph databases focussing on data processing and integration of machine learning for large clinical and biological datasets

Projektleiter:

Prof. Dr. Gunter Saake , Dr.-Ing. Robert Heyer

Projektbearbeiter:

Daniel Walke

Finanzierung:

Deutsche Forschungsgemeinschaft (DFG) ; 01.12.2021 bis 30.04.2025

Graphdatenbanken stellen eine effiziente Technik zur Speicherung und zum Zugriff auf hochgradig
verknüpfte Daten unter Verwendung einer Graphstruktur dar, wie z.B. Verbindungen zwischen Messdaten zu Umweltparametern oder klinischen Patientendaten. Die flexible Knotenstruktur macht es einfach, die Ergebnisse verschiedener Untersuchungen hinzuzufügen. Dies reicht von einfachen Blutdruckmessungen über die neuesten CT- und MRT-Scans bis hin zu hochauflösenden Omics-Analysen (z.B. von Tumorbiopsien, Darmmikrobiom-Proben). Allerdings wird das volle Potenzial der Datenverarbeitung und -analyse mittels Graphdatenbanken in biologischen und klinischen Anwendungsfällen noch nicht vollständig ausgeschöpft. Insbesondere die riesige Menge an miteinander verbundenen Daten, die geladen, verarbeitet und analysiert werden müssen, führt zu zu langen Verarbeitungszeiten, um in klinische Arbeitsabläufe integriert werden zu können. Um dieses Ziel zu erreichen sind neuartige Optimierungen von Graph-Operatoren sowie eine geeignete Integration von Analyseansätzen notwendig.
Dieses Projekt zielt darauf ab, die oben genannten Probleme in zwei Richtungen zu lösen: (i) Vorschlag geeigneter Optimierungen für Graphdatenbank-Operationen, auch unter Einsatz moderner Hardware, und(ii) Integration von Algorithmen des maschinellen Lernens für eine einfachere und schnellere Analyse der biologischen Daten. Für die erste Richtung untersuchen wir den Stand der Technik von Graphdatenbanksystemenund deren Speicherung sowie ihr Verarbeitungsmodell. Anschließend schlagen wir Optimierungen für effiziente
operationale und analytische Operatoren vor. Für die zweite Richtung stellen wir uns vor, Algorithmen des maschinellen Lernens näher an ihre Datenlieferanten - die Graphdatenbanken - heranzubringen. Zu diesem Zweck füttern wir in einem ersten Schritt die Algorithmen des maschinellen Lernens direkt mit dem Graphen als Eingabe, indem wir geeignete Graphenoperatoren entwerfen. In einem zweiten Schritt integrieren wir das maschinelle Lernen direkt in die Graphdatenbank, indem wir spezielle Knoten hinzufügen, die das Modell des Algorithmus für maschinelles Lernen repräsentieren.
Die Ergebnisse unseres Projekts sind verbesserte Operatoren, die sowohl moderne Hardware als auch Integrationskonzepte für Algorithmen des maschinellen Lernens nutzen. Unsere allgemein entwickelten Ansätze werden das Verarbeiten und Analysieren riesiger Graphen in einer Fülle von Anwendungsfällen über unseren angestrebten Anwendungsfall der biologischen und klinischen Datenanalyse hinaus vorantreiben.

Graph databases are an efficient technique for storing and accessing highly linked data using a graph structure
linked data using a graph structure, such as links between measurement data on environmental parameters or clinical patient data. The flexible node structure makes it easy to add the results of different examinations. This ranges from simple blood pressure measurements to the latest CT and MRI scans to high-resolution omics analyses (e.g. of tumor biopsies, gut microbiome samples). However, the full potential of data processing and analysis using graph databases in biological and clinical applications is not yet fully exploited. In particular, the huge amount of interconnected data that needs to be loaded, processed and analyzed leads to processing times that are too long to be integrated into clinical workflows. To achieve this goal, novel optimizations of graph operators as well as a suitable integration of analysis approaches are necessary.
This project aims to solve the above problems in two directions: (i) proposing suitable optimizations for graph database operations, also using modern hardware, and(ii) integrating machine learning algorithms for easier and faster analysis of biological data. For the first direction, we investigate the state of the art of graph database systems and their storage as well as their processing model. We then propose optimizations for efficient operational and
operational and analytical operators. For the second direction, we envision bringing machine learning algorithms closer to their data providers - the graph databases. For this purpose, in a first step, we feed the machine learning algorithms directly with the graph as input by designing suitable graph operators. In a second step, we integrate the machine learning directly into the graph database by adding special nodes that represent the model of the machine learning algorithm.
The results of our project are improved operators that utilize both modern hardware and integration concepts for machine learning algorithms. Our generally developed approaches will advance the processing and analysis of huge graphs in a plethora of use cases beyond our targeted use case of biological and clinical data analysis.

UN Nachhaltigkeitsziele

weitere Informationen zu den UN Nachhaltigkeitszielen

Kontakt

Prof. Dr. Gunter Saake

Otto-von-Guericke-Universität Magdeburg

Fakultät für Informatik

Institut für Technische und Betriebliche Informationssysteme

Universitätsplatz 2

39106

Magdeburg

Tel.:+49 391 6758800

saake(at)iti.cs.uni-magdeburg.de

weitere Projekte

Die Daten werden geladen ...