Optimales Sampling Design für Big Data (II)
Projektleiter:
Projektbearbeiter:
Torsten Reuter
Finanzierung:
Fördergeber - Sonstige;
Dank moderner Informationstechnologie besteht heutzutage die Möglichkeit, riesige Datenmengen zu sammeln, die sowohl im Hinblick auf die Anzahl der Beobachtungseinheiten (Umfang des Datensatzes) als auch hinsichtlich der Anzahl der Merkmale (multivariate Beobachtungen) von immenser Dimension sind und die häufig als massive Daten oder "Big Data” bezeichnet werden. Die reine Verfügbarkeit derartiger Big Data führt jedoch nicht zwangsläufig zu neuen Erkenntnissen über kausale Zusammenhänge innerhalb der Daten. Stattdessen kann die schiere Masse an Daten ernsthafte Probleme bei der statistischen Analyse verursachen. Zudem sind in vielen Situationen Teile (gewisse Merkmale) in den Daten einfach oder kostengünstig zu beobachten, während die Ausprägungen anderer, besonders interessierender Merkmale nur schwierig oder mit großen Kosten zu erhalten sind. Daher sind Vorhersagen für die Ausprägungen kostenintensiver Merkmale wünschenswert. Dieses kann mit klassischen statistischen Methoden erreicht werden, wenn für eine geeignete Teilstichprobe sowohl die Ausprägungen für die einfach als auch für die schwierig zu beobachtenden Merkmale verfügbar sind. Um Kosten zu reduzieren und/oder die Genauigkeit der Vorhersage zu verbessern, besteht ein Bedarf an optimalen Auswahlverfahren für Stichproben. In diesem Kontext können Konzepte aus der ursprünglich für technische Experimente entworfenen Theorie optimaler Designs unkonventionell genutzt werden, um effiziente Strategien für die Stichprobenauswahl zu entwickeln. Grundlegende Konzepte wie Relaxation auf stetige Verteilungen der Daten und Symmetrieeigenschaften können dabei zu einer wesentlichen Reduktion der Komplexität und somit zu praktikablen Lösungen führen. Ziel des vorliegenden Projekts ist es, diese allgemeinen Ideen zu konkretisieren und sie auf ein solides theoretisches Fundament zu stellen, um sie somit für die Auswertung realer Datensätze verwertbar zu machen.
Kooperationen im Projekt
Kontakt
Prof. Dr. Rainer Schwabe
Otto-von-Guericke-Universität Magdeburg
Institut für Mathematische Stochastik
Universitätsplatz 2
39106
Magdeburg
Tel.:+49 391 6758304
weitere Projekte
Die Daten werden geladen ...