Sparse2big - imputation and fusion for massive sparse data
Projektleiter:
Finanzierung:
Große Datensätze mit vielen Variablen enthalten meist unerkannte, fehlende oder verrauschte Datenpunkte. Der richtige Umgang mit diesen Datenpunkten ist für jeden späteren Schritt der Analyse entscheidend. In verschiedenen Bereichen wurden dazu Lösungsansätze entwickelt, von der Imputation, d.h. der Vervollständigung der Datenmatrix, bis hin zur Modellierung von Beobachtungsprozessen oder dem Einsatz von downstream Analysen, die gegen Störfaktoren robust sind. Nur wenn der fehlerhaften Natur dieser Daten Rechnung getragen wird, und wie in der Imputation viele korrumpierte Beobachtungen desselben Effekts zusammengefasst werden, können zuverlässige Schlüsse gezogen werden. Daher ist die Entwicklung, Evaluation und das Bereitstellen von Datenimputations und integrationsmethoden von entscheidender Bedeutung für viele Forschungsbereiche, mit potentiellen Anwendungen von Patientendaten zu Remote Sensing in der Geographie bis hin zu Rauschen in der Bildgebung.
Ziel von sparse2big ist es, Forscher aus acht verschiedenen Helmholtz-Zentren zusammenzubringen, um solche Methoden und Techniken zu entwickeln und zu evaluieren. Um eine detaillierte Analyse zu ermöglichen, um internationale Sichtbarkeit zu erlangen und um die Relevanz einer solchen methodischen Forschung zu zeigen, konzentrieren wir uns zunächst auf einen Use Case, nämlich Einzelzellgenomik, der inhaltlich für alle Gesundheitszentren strategisch relevant ist. Diese Techniken tragen derzeit zu einer Revolution der biologischen und medizinischen Forschung bei, indem sie die Vorteile der modernen Bulk-Sequenzierung mit Analysen von einzelnen Zellen kombinieren und damit ein molekulares Mikroskop darstellen. Die technologischen Fortschritte sind enorm und ermöglichen die Profilierung von Genomen, Transkriptomen und Epigenomen in einer zuvor nicht möglichen Auflösung und einer beträchtlichen Anzahl von Datenpunkten, jedoch bei deutlich verringerter Qualität und einer hohen Anzahl fehlender Werte. Wir werden darauf aufbauend weitere kleine, perspektivische Projekte verfolgen beispielsweise in Remote Sensing, und haben einen klaren Plan für die Translation der Ideen zu anderen Gebieten in Helmholtz und darüberhinaus.
Ziel von sparse2big ist es, Forscher aus acht verschiedenen Helmholtz-Zentren zusammenzubringen, um solche Methoden und Techniken zu entwickeln und zu evaluieren. Um eine detaillierte Analyse zu ermöglichen, um internationale Sichtbarkeit zu erlangen und um die Relevanz einer solchen methodischen Forschung zu zeigen, konzentrieren wir uns zunächst auf einen Use Case, nämlich Einzelzellgenomik, der inhaltlich für alle Gesundheitszentren strategisch relevant ist. Diese Techniken tragen derzeit zu einer Revolution der biologischen und medizinischen Forschung bei, indem sie die Vorteile der modernen Bulk-Sequenzierung mit Analysen von einzelnen Zellen kombinieren und damit ein molekulares Mikroskop darstellen. Die technologischen Fortschritte sind enorm und ermöglichen die Profilierung von Genomen, Transkriptomen und Epigenomen in einer zuvor nicht möglichen Auflösung und einer beträchtlichen Anzahl von Datenpunkten, jedoch bei deutlich verringerter Qualität und einer hohen Anzahl fehlender Werte. Wir werden darauf aufbauend weitere kleine, perspektivische Projekte verfolgen beispielsweise in Remote Sensing, und haben einen klaren Plan für die Translation der Ideen zu anderen Gebieten in Helmholtz und darüberhinaus.
Schlagworte
Datenimputation, Einzellzellgenomik
Kontakt
Dr. Jörg Hackermüller
Helmholtz-Zentrum für Umweltforschung GmbH - UFZ
Permoserstraße 15
04318
Leipzig
Tel.:+49 341 2351561
weitere Projekte
Die Daten werden geladen ...