Drift Mining
Projektleiter:
Projektbearbeiter:
Krempl
Finanzierung:
Haushalt;
Im klassischen Data Mining werden historische Daten untersucht, um Wissen über die Verteilung und Beziehung zwischen Variablen zu gewinnen.Eine als Concept Drift bekannte Herausforderung sind Veränderung in den Verteilungen und Beziehungen der Daten über die Zeit. Eine vielfach angewendete Strategie besteht in derwiederholten Anwendung von Mining Verfahren auf immer neueren Daten.Dieser Ansatz erfordert jedoch die Verfügbarkeit einer ausreichenden Anzahl von aktuellen Daten um ein Modell neu zu lernen oder zumindest anzupassen.
Speziell in einigen Anwendungsgebieten des überwachten Lernens, wenn Prognosen über Ereignisse in weiter Zukunft getroffen werden sollen, wie beispielsweisein der Kreditrisikoschätzung für Kredite mit langer Laufzeit, stehen jedochnur Daten zu den erklärenden Variablen zur Verfügung, nicht jedoch zu den abhängigen Variablen.
Ziel dieses Projektes ist es, diese fehlenden Daten durch Wissen über diegenaue Art von Veränderungen in den Verteilungen und Beziehungen der Variablenzu kompensieren. Hierfür werden Modelle über die Zusammenhänge von Verteilungsveränderungen (Drift)in den Variablen über die Zeit formuliert und an historischen Daten geprüft.Für dieses Drift Mining werden lediglich Daten benötigt, deren Veränderungsmuster dem aktueller Daten entsprechen,die Aktualität ihrer tatsächlichen Verteilung ist hingegen nicht kritisch.Somit können für diese Aufgabe historische Daten verwenden werden, welche für klassische Modelle,welche die Verteilung und Beziehung der Variablen direkt schätzen, nicht mehr verwendet werden können.Ein Nebenprodukt dieser Forschung ist die Entwicklung von Methoden zum besseren Verständnis von Veränderungen in den Verteilungen von Daten.
Teilaufgaben im Rahmen des Projektes sind:A. Methoden zur Analyse von Drift auf einfachen und multiplen DatenströmenB. Adaptive Klassifikationsstrategien für den Umgang mit Verification Latency in sich verändernden DatenströmenC. Active Learning Strategien für sich verändernde Datenströme
Speziell in einigen Anwendungsgebieten des überwachten Lernens, wenn Prognosen über Ereignisse in weiter Zukunft getroffen werden sollen, wie beispielsweisein der Kreditrisikoschätzung für Kredite mit langer Laufzeit, stehen jedochnur Daten zu den erklärenden Variablen zur Verfügung, nicht jedoch zu den abhängigen Variablen.
Ziel dieses Projektes ist es, diese fehlenden Daten durch Wissen über diegenaue Art von Veränderungen in den Verteilungen und Beziehungen der Variablenzu kompensieren. Hierfür werden Modelle über die Zusammenhänge von Verteilungsveränderungen (Drift)in den Variablen über die Zeit formuliert und an historischen Daten geprüft.Für dieses Drift Mining werden lediglich Daten benötigt, deren Veränderungsmuster dem aktueller Daten entsprechen,die Aktualität ihrer tatsächlichen Verteilung ist hingegen nicht kritisch.Somit können für diese Aufgabe historische Daten verwenden werden, welche für klassische Modelle,welche die Verteilung und Beziehung der Variablen direkt schätzen, nicht mehr verwendet werden können.Ein Nebenprodukt dieser Forschung ist die Entwicklung von Methoden zum besseren Verständnis von Veränderungen in den Verteilungen von Daten.
Teilaufgaben im Rahmen des Projektes sind:A. Methoden zur Analyse von Drift auf einfachen und multiplen DatenströmenB. Adaptive Klassifikationsstrategien für den Umgang mit Verification Latency in sich verändernden DatenströmenC. Active Learning Strategien für sich verändernde Datenströme
Schlagworte
Active Learning, Credit Scoring, Drift Mining, Multiple Data Streams, Verification Latency
Kooperationen im Projekt
Kontakt
Prof. Myra Spiliopoulou
Otto-von-Guericke-Universität Magdeburg
Institut für Technische und Betriebliche Informationssysteme
Universitätsplatz 2
39106
Magdeburg
Tel.:+49 391 6758967
weitere Projekte
Die Daten werden geladen ...