Datenverfahren

Inhaltsverzeichnis

Für die Bereinigung von Daten können verschiedene Verfahren angewendet werden. Die aufgelisteten Methodiken und Praktiken werden für die Aufbereitung von Daten und die Konstruktion von Merkmalen verwendet.

Irrelevante Daten

Daten die nicht notwendig für die Beantwortung der Fachfragen sind. Dabei können entweder Merkmale oder Datensätze überflüssig sein und damit entfernt werden.

Datenduplikate

Datenduplikate entstehen für gewöhnlich, wenn:

Daten aus verschiedenen Datenquellen miteinander kombiniert wurden
Daten von Individuen manuell erfasst wurden
z.B. Erfassen von Ereignissen wie OSM POIs
Daten von Systemen automatisch erfasst wurden,
z.B. Sensordaten wurden von Empfängern mehrfach gesendet

Datenduplikate sollten entfernt werden.

Typkonvertierung

Werte sollten als der entsprechende Datentyp abgespeichert werden, z.B. Zahlen als numerischer Datentyp und Datumsangaben als Datum

Katalogwerte können auch als eindeutige Ganzzahlen abgespeichert werden, wenn darauf mathematische Modelle z.B. Klassifikationsmodelle angewendet werden.

Falls beim Konvertieren Fehler entstehen, müssen die Daten in einen definierten Wert z.B. „Not a value“ umgewandelt und der Anwender muss davon anhand einer Warnmeldung in Kenntnis gesetzt werden.

Syntaxfehler

Bei Zeichenketten sollten nicht aussagekräftige Zeichen wie führende bzw. nachfolgende Leerzeichen entfernt werden. Das Auffüllen von Codes mit führenden Nullwerten kann für eine bessere Darstellung von Katalogwerten genutzt werden.

Oftmals werden Zeichenkette aufgrund der mündlichen Übertragung oder aufgrund von Tippfehlern falsch eingegeben. Die Verwendung von unterschiedlichen Schreibweisen (Synonyme auch sprachlich DE/EN z.B. Ortsangaben Köln/Cologne bedingt) oder von Abkürzungen erfordern eine Standardisierung der Zeichenketten.

Standardisierung

Geometrien sollten mit demselben Raumbezug und Genauigkeit vorliegen. Zeichenketten sollten standardisiert werden z.B. Groß-Kleinschreibung, Alias und Synonymersetzung. Numerische Werte sollten in derselben Maßeinheit und Genauigkeit vorliegen. Datumsformate sollten vereinheitlich werden.

Normalisierung

Eine Normalisierung von numerischen Werten in den Wertebereich zwischen 0 und 1 macht Sinn, wenn die Daten normalverteilt statistisch weiterverarbeitet werden sollen.

Fehlende Werte

Fehlende Werte müssen gesondert betrachtet und dürfen nicht einfach ignoriert werden.

Manche Informationen sind wirklich „unbekannt“ und sollten daher nicht nur als „missing“ gekennzeichnet werden. Zum Beispiel bei Auswertung einer Befragung mit gewisser Fachlichkeit:
Was bedeutet das Verfahren rote Hose?

Kann durchaus auch keine Antwort gegeben werden.

Verwerfen

Wenn nur wenige Datensätze fehlende Werte besitzen, kann man die betreffenden Datensätze entfernen.

Wenn nur wenige Merkmale fehlende Werte besitzen, kann man das Merkmal entfernen.

Angleichen

Fehlende Werte werden anhand von vorhandenen Werten berechnet. Zum Beispiel kann die Temperatur anhand der beiden angrenzenden Nachbarwerte berechnet werden.

Folgende Verfahren können beim Angleichen verwendet werden:

Statistische Methoden
Lineare Regression
Hot-Deck

Markieren

Das Bereinigen von fehlenden Werten kann auch einen Informationsverlust bedeuten. Wenn z.B. bei einer Umfrage bewusst keine Antwort gegeben wurde, darf man diese Information nicht einfach ignorieren. Bei statistischen Auswertungen muss betrachtet werden, ob fehlende Werte eines numerischen Merkmals einfach durch 0 ersetzt werden dürfen bzw. diese Datensätze sollten bei der statistischen Auswertung nicht betrachtet werden.

Bei Katalogwerten kann mit „Not a Value“ eine neue Kategorie eingeführt werden.

Ausreißereleminierung

Ausreißer unterscheiden sich signifikant von allen anderen Werten. Datenwerte die sich mehr als das 1,5‑fache vom Quartil 1 und Quartil 3 befinden, sollten als Ausreißer betrachtet werden. Dieser Interquartilabstand (Deskriptive Statistik) stellt ein Streuungsmaß dar.

Ausreißer sollten immer gesondert betrachtet und nicht einfach entfernt werden. Einige Modelle wie z.B. die lineare Regression sind sehr empfindlich gegenüber Ausreißern.

Kreuzverweisvalidierung

Datenfehler aufgrund von Inkonsistenten zwischen Merkmalen bzw. zwischen Datensätzen unterschiedlicher Datenquellen. z.B. einzelne Merkmale für Miete, Strom, Wasser müssen in der Summe denselben Wert wie das Merkmal Unterhaltskosten einnehmen, oder Startzeitpunkt eines Ereignisses muss zeitlich vor oder gleich dem Endzeitpunkt definiert sein.

Schlagwörter:

Wie können wir helfen?