« Projekte

Bitte aktivieren Sie JavaScript in Ihren Browsereinstellungen, um das Forschungsportal nutzen zu können.

Sie verwenden einen sehr veralteten Browser und können Funktionen dieser Seite nur sehr eingeschränkt nutzen. Bitte aktualisieren Sie Ihren Browser. http://www.browser-update.org/de/update.html

Medinym - KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen

Projektleiter:

Jun.-Prof. Dr.-Ing. Ingo Siegert , Prof. Dr.-Ing. Sebastian Stober

Projektbearbeiter:

M.Sc. Yamini Sinha

Finanzierung:

Bund; 15.12.2022 bis 14.12.2025

Detailbild zu : Medinym - KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen

Motivation
Die fortschreitende wissenschaftliche Weiterentwicklung von Technologien auf Basis Künstlicher Intelligenz (KI) befördert medizinische Anwendungspotenziale. Einer reellen Nutzung dieser Technologien durch eine Vielzahl an Anwendern wie Bürgerinnen und Bürger, Behörden, Mitarbeitenden des Gesundheitswesens und kleinen sowie mittelständischen Unternehmen steht die Schwierigkeit des datensicheren und datengeschützten Umgangs gegenüber. Gerade bei der automatisierten Verarbeitung von medizinischen Daten können oftmals innovative Technologien nicht eingesetzt werden, da aufgrund der sensiblen Inhalte, der Schutz der Identität zu Recht einen hohen Stellenwert einnimmt. Die Schutzwürdigkeit klinischer Daten und der dadurch erschwerte Zugang damit führt auch dazu, dass Maschinelle Lernverfahren (ML), beispielsweise für klinische Diagnosen, Prognosen sowie Therapie- oder Entscheidungsunterstützung nicht ohne größere Hürden entwickelt werden können.

Ziele und Vorgehen
Das Projekt "KI-basierte Anonymisierung personenbezogener Patientendaten in klinischen Text- und Sprachdatenbeständen" (Medinym) untersucht die Möglichkeit der Weiterverwertung sensibler Daten durch das Entfernen der empfindlichen Informationen mittels Anonymisierung. Im Projekt werden zwei medizinische Anwendungsfälle, textbasierte Daten aus der elektronischen Patientenakte sowie Sprachdaten aus diagnostischen Ärztin-Patient-Gesprächen, exemplarisch umgesetzt. Dazu werden im Projekt offene Technologien zur Anonymisierung untersucht, weiterentwickelt und auf reale Daten angewandt. Außerdem untersuchen die Forschenden, wie die Aussagekraft solch anonymisierter Daten für die weitere Nutzung erhalten werden kann. Zusätzlich sollen Methoden betrachtet werden, die einen Missbrauch der Technologie außerhalb des beabsichtigten Anwendungsfalls verhindern oder erschweren.

Innovationen und Perspektiven
Durch die informationserhaltende Anonymisierung soll es möglich werden, klinische Daten weiterzuverarbeiten, da eine De-Anonymisierung nicht mehr möglich ist. Diese Datensätze können dann dazu dienen, KI-Modelle auf klinischen Daten datenschutzkonform zu trainieren oder auf andere Kohorten ausgedehnt werden. Damit wäre eine kumulative Sammlung entsprechender Datenmengen auch für kleine und mittelständische Unternehmen möglich. Denn so könnten sensible Daten über mehrere Anwendungszwecke hinweg zusammengefasst und für KI-Trainingsroutinen verwendet werden; eine entsprechende Anonymisierung stets vorausgesetzt. Die angestrebte Anonymisierung soll zudem die Bereitschaft von Patientinnen und Patienten steigern, in die Teilnahme an Studien, Datenanalysen sowie allgemeinen Spenden von Gesundheitsdaten einzuwilligen. Schlussendlich erlaubt die Informationserhaltene Anonymisierung die Integration der Technologie in gängige Entwicklungsmethoden und Diagnostiksysteme und stärkt damit den Wissenschafts- und Wirtschaftsstandort Deutschland in den Bereichen Diagnostik, Behandlung und damit allgemein der Gesundheitsversorgung.

Förderung
Finanziert von der Europäischen Union - NextGenerationEU

Medinym - AI-based anonymization of personal patient data in clinical text and voice databases

Motivation
The ongoing scientific development of technologies based on artificial intelligence (AI) is promoting potential medical applications. The real use of these technologies by a large number of users such as citizens, public authorities, healthcare professionals and small and medium-sized enterprises faces the difficulty of handling data in a secure and data-protected manner. Innovative technologies often cannot be used in the automated processing of medical data in particular, as the protection of identity is rightly a high priority due to the sensitive content. The need to protect clinical data and the resulting difficulty in accessing it also means that machine learning (ML) methods, for example for clinical diagnoses, prognoses and therapy or decision support, cannot be developed without major hurdles.

Aims and approach
The project "AI-based anonymization of personal patient data in clinical text and speech datasets" (Medinym) investigates the possibility of reusing sensitive data by removing sensitive information through anonymization. Two medical use cases, text-based data from electronic patient records and voice data from diagnostic doctor-patient consultations, are being implemented as examples in the project. To this end, open technologies for anonymization are being investigated, further developed and applied to real data. The researchers are also investigating how the informative value of such anonymized data can be preserved for further use. Methods that prevent or hinder misuse of the technology outside of the intended use case will also be considered.

Innovations and perspectives
Information-preserving anonymization should make it possible to further process clinical data, as de-anonymization is no longer possible. These data sets can then be used to train AI models on clinical data in compliance with data protection regulations or be extended to other cohorts. This would make it possible for small and medium-sized companies to collect corresponding amounts of data cumulatively. This would allow sensitive data to be pooled across multiple applications and used for AI training routines, provided it is always anonymized accordingly. The desired anonymization should also increase the willingness of patients to consent to participation in studies, data analyses and general donations of health data. Ultimately, information-preserving anonymization allows the technology to be integrated into current development methods and diagnostic systems, thereby strengthening Germany as a location for science and business in the fields of diagnostics, treatment and therefore healthcare in general.

Funding
Funded by the European Union - NextGenerationEU