Wie können wir helfen?
Datenverfahren
Für die Bereinigung von Daten können verschiedene Verfahren angewendet werden. Die aufgelisteten Methodiken und Praktiken werden für die Aufbereitung von Daten und die Konstruktion von Merkmalen verwendet.
Irrelevante Daten
Daten die nicht notwendig für die Beantwortung der Fachfragen sind. Dabei können entweder Merkmale oder Datensätze überflüssig sein und damit entfernt werden.
Datenduplikate
Datenduplikate entstehen für gewöhnlich, wenn:
- Daten aus verschiedenen Datenquellen miteinander kombiniert wurden
- Daten von Individuen manuell erfasst wurden
z.B. Erfassen von Ereignissen wie OSM POIs - Daten von Systemen automatisch erfasst wurden,
z.B. Sensordaten wurden von Empfängern mehrfach gesendet
Datenduplikate sollten entfernt werden.
Typkonvertierung
Werte sollten als der entsprechende Datentyp abgespeichert werden, z.B. Zahlen als numerischer Datentyp und Datumsangaben als Datum
Katalogwerte können auch als eindeutige Ganzzahlen abgespeichert werden, wenn darauf mathematische Modelle z.B. Klassifikationsmodelle angewendet werden.
Falls beim Konvertieren Fehler entstehen, müssen die Daten in einen definierten Wert z.B. „Not a value“ umgewandelt und der Anwender muss davon anhand einer Warnmeldung in Kenntnis gesetzt werden.
Syntaxfehler
Bei Zeichenketten sollten nicht aussagekräftige Zeichen wie führende bzw. nachfolgende Leerzeichen entfernt werden. Das Auffüllen von Codes mit führenden Nullwerten kann für eine bessere Darstellung von Katalogwerten genutzt werden.
Oftmals werden Zeichenkette aufgrund der mündlichen Übertragung oder aufgrund von Tippfehlern falsch eingegeben. Die Verwendung von unterschiedlichen Schreibweisen (Synonyme auch sprachlich DE/EN z.B. Ortsangaben Köln/Cologne bedingt) oder von Abkürzungen erfordern eine Standardisierung der Zeichenketten.
Standardisierung
Geometrien sollten mit demselben Raumbezug und Genauigkeit vorliegen. Zeichenketten sollten standardisiert werden z.B. Groß-Kleinschreibung, Alias und Synonymersetzung. Numerische Werte sollten in derselben Maßeinheit und Genauigkeit vorliegen. Datumsformate sollten vereinheitlich werden.
Normalisierung
Eine Normalisierung von numerischen Werten in den Wertebereich zwischen 0 und 1 macht Sinn, wenn die Daten normalverteilt statistisch weiterverarbeitet werden sollen.
Fehlende Werte
Fehlende Werte müssen gesondert betrachtet und dürfen nicht einfach ignoriert werden.
Manche Informationen sind wirklich „unbekannt“ und sollten daher nicht nur als „missing“ gekennzeichnet werden. Zum Beispiel bei Auswertung einer Befragung mit gewisser Fachlichkeit:
Was bedeutet das Verfahren rote Hose?
Kann durchaus auch keine Antwort gegeben werden.
Verwerfen
Wenn nur wenige Datensätze fehlende Werte besitzen, kann man die betreffenden Datensätze entfernen.
Wenn nur wenige Merkmale fehlende Werte besitzen, kann man das Merkmal entfernen.
Angleichen
Fehlende Werte werden anhand von vorhandenen Werten berechnet. Zum Beispiel kann die Temperatur anhand der beiden angrenzenden Nachbarwerte berechnet werden.
Folgende Verfahren können beim Angleichen verwendet werden:
- Statistische Methoden
- Lineare Regression
- Hot-Deck
Markieren
Das Bereinigen von fehlenden Werten kann auch einen Informationsverlust bedeuten. Wenn z.B. bei einer Umfrage bewusst keine Antwort gegeben wurde, darf man diese Information nicht einfach ignorieren. Bei statistischen Auswertungen muss betrachtet werden, ob fehlende Werte eines numerischen Merkmals einfach durch 0 ersetzt werden dürfen bzw. diese Datensätze sollten bei der statistischen Auswertung nicht betrachtet werden.
Bei Katalogwerten kann mit „Not a Value“ eine neue Kategorie eingeführt werden.
Ausreißereleminierung
Ausreißer unterscheiden sich signifikant von allen anderen Werten. Datenwerte die sich mehr als das 1,5‑fache vom Quartil 1 und Quartil 3 befinden, sollten als Ausreißer betrachtet werden. Dieser Interquartilabstand (Deskriptive Statistik) stellt ein Streuungsmaß dar.
Ausreißer sollten immer gesondert betrachtet und nicht einfach entfernt werden. Einige Modelle wie z.B. die lineare Regression sind sehr empfindlich gegenüber Ausreißern.
Kreuzverweisvalidierung
Datenfehler aufgrund von Inkonsistenten zwischen Merkmalen bzw. zwischen Datensätzen unterschiedlicher Datenquellen. z.B. einzelne Merkmale für Miete, Strom, Wasser müssen in der Summe denselben Wert wie das Merkmal Unterhaltskosten einnehmen, oder Startzeitpunkt eines Ereignisses muss zeitlich vor oder gleich dem Endzeitpunkt definiert sein.