Optimizing graph databases focussing on data processing and integration of machine learning for large clinical and biological datasets
Projektleiter:
Projektbearbeiter:
Daniel Walke
Finanzierung:
Graphdatenbanken stellen eine effiziente Technik zur Speicherung und zum Zugriff auf hochgradig
verknüpfte Daten unter Verwendung einer Graphstruktur dar, wie z.B. Verbindungen zwischen Messdaten zu Umweltparametern oder klinischen Patientendaten. Die flexible Knotenstruktur macht es einfach, die Ergebnisse verschiedener Untersuchungen hinzuzufügen. Dies reicht von einfachen Blutdruckmessungen über die neuesten CT- und MRT-Scans bis hin zu hochauflösenden Omics-Analysen (z.B. von Tumorbiopsien, Darmmikrobiom-Proben). Allerdings wird das volle Potenzial der Datenverarbeitung und -analyse mittels Graphdatenbanken in biologischen und klinischen Anwendungsfällen noch nicht vollständig ausgeschöpft. Insbesondere die riesige Menge an miteinander verbundenen Daten, die geladen, verarbeitet und analysiert werden müssen, führt zu zu langen Verarbeitungszeiten, um in klinische Arbeitsabläufe integriert werden zu können. Um dieses Ziel zu erreichen sind neuartige Optimierungen von Graph-Operatoren sowie eine geeignete Integration von Analyseansätzen notwendig.
Dieses Projekt zielt darauf ab, die oben genannten Probleme in zwei Richtungen zu lösen: (i) Vorschlag geeigneter Optimierungen für Graphdatenbank-Operationen, auch unter Einsatz moderner Hardware, und(ii) Integration von Algorithmen des maschinellen Lernens für eine einfachere und schnellere Analyse der biologischen Daten. Für die erste Richtung untersuchen wir den Stand der Technik von Graphdatenbanksystemenund deren Speicherung sowie ihr Verarbeitungsmodell. Anschließend schlagen wir Optimierungen für effiziente
operationale und analytische Operatoren vor. Für die zweite Richtung stellen wir uns vor, Algorithmen des maschinellen Lernens näher an ihre Datenlieferanten - die Graphdatenbanken - heranzubringen. Zu diesem Zweck füttern wir in einem ersten Schritt die Algorithmen des maschinellen Lernens direkt mit dem Graphen als Eingabe, indem wir geeignete Graphenoperatoren entwerfen. In einem zweiten Schritt integrieren wir das maschinelle Lernen direkt in die Graphdatenbank, indem wir spezielle Knoten hinzufügen, die das Modell des Algorithmus für maschinelles Lernen repräsentieren.
Die Ergebnisse unseres Projekts sind verbesserte Operatoren, die sowohl moderne Hardware als auch Integrationskonzepte für Algorithmen des maschinellen Lernens nutzen. Unsere allgemein entwickelten Ansätze werden das Verarbeiten und Analysieren riesiger Graphen in einer Fülle von Anwendungsfällen über unseren angestrebten Anwendungsfall der biologischen und klinischen Datenanalyse hinaus vorantreiben.
verknüpfte Daten unter Verwendung einer Graphstruktur dar, wie z.B. Verbindungen zwischen Messdaten zu Umweltparametern oder klinischen Patientendaten. Die flexible Knotenstruktur macht es einfach, die Ergebnisse verschiedener Untersuchungen hinzuzufügen. Dies reicht von einfachen Blutdruckmessungen über die neuesten CT- und MRT-Scans bis hin zu hochauflösenden Omics-Analysen (z.B. von Tumorbiopsien, Darmmikrobiom-Proben). Allerdings wird das volle Potenzial der Datenverarbeitung und -analyse mittels Graphdatenbanken in biologischen und klinischen Anwendungsfällen noch nicht vollständig ausgeschöpft. Insbesondere die riesige Menge an miteinander verbundenen Daten, die geladen, verarbeitet und analysiert werden müssen, führt zu zu langen Verarbeitungszeiten, um in klinische Arbeitsabläufe integriert werden zu können. Um dieses Ziel zu erreichen sind neuartige Optimierungen von Graph-Operatoren sowie eine geeignete Integration von Analyseansätzen notwendig.
Dieses Projekt zielt darauf ab, die oben genannten Probleme in zwei Richtungen zu lösen: (i) Vorschlag geeigneter Optimierungen für Graphdatenbank-Operationen, auch unter Einsatz moderner Hardware, und(ii) Integration von Algorithmen des maschinellen Lernens für eine einfachere und schnellere Analyse der biologischen Daten. Für die erste Richtung untersuchen wir den Stand der Technik von Graphdatenbanksystemenund deren Speicherung sowie ihr Verarbeitungsmodell. Anschließend schlagen wir Optimierungen für effiziente
operationale und analytische Operatoren vor. Für die zweite Richtung stellen wir uns vor, Algorithmen des maschinellen Lernens näher an ihre Datenlieferanten - die Graphdatenbanken - heranzubringen. Zu diesem Zweck füttern wir in einem ersten Schritt die Algorithmen des maschinellen Lernens direkt mit dem Graphen als Eingabe, indem wir geeignete Graphenoperatoren entwerfen. In einem zweiten Schritt integrieren wir das maschinelle Lernen direkt in die Graphdatenbank, indem wir spezielle Knoten hinzufügen, die das Modell des Algorithmus für maschinelles Lernen repräsentieren.
Die Ergebnisse unseres Projekts sind verbesserte Operatoren, die sowohl moderne Hardware als auch Integrationskonzepte für Algorithmen des maschinellen Lernens nutzen. Unsere allgemein entwickelten Ansätze werden das Verarbeiten und Analysieren riesiger Graphen in einer Fülle von Anwendungsfällen über unseren angestrebten Anwendungsfall der biologischen und klinischen Datenanalyse hinaus vorantreiben.
Kontakt
Prof. Dr. Gunter Saake
Otto-von-Guericke-Universität Magdeburg
Institut für Technische und Betriebliche Informationssysteme
Universitätsplatz 2
39106
Magdeburg
Tel.:+49 391 6758800
weitere Projekte
Die Daten werden geladen ...