Datenqualität | Dokumentation Smart Data Analyser

Für die Bereinigung von Daten können verschiedene Verfahren angewendet werden. Die aufgelisteten Methodiken und Praktiken werden für die Aufbereitung von Daten und die Konstruktion von Merkmalen verwendet.

Irrelevante Daten

Daten die nicht notwendig für die Beantwortung der Fachfragen sind. Dabei können entweder Merkmale oder Datensätze überflüssig sein und damit entfernt werden.

Datenduplikate

Datenduplikate entstehen für gewöhnlich, wenn:

Daten aus verschiedenen Datenquellen miteinander kombiniert wurden
Daten von Individuen manuell erfasst wurden
z.B. Erfassen von Ereignissen wie OSM POIs
Daten von Systemen automatisch erfasst wurden,
z.B. Sensordaten wurden von Empfängern mehrfach gesendet

Datenduplikate sollten entfernt werden.

Typkonvertierung

Werte sollten als der entsprechende Datentyp abgespeichert werden, z.B. Zahlen als numerischer Datentyp und Datumsangaben als Datum

Katalogwerte können auch als eindeutige Ganzzahlen abgespeichert werden, wenn darauf mathematische Modelle z.B. Klassifikationsmodelle angewendet werden.

Falls beim Konvertieren Fehler entstehen, müssen die Daten in einen definierten Wert z.B. „Not a value“ umgewandelt und der Anwender muss davon anhand einer Warnmeldung in Kenntnis gesetzt werden.

Syntaxfehler

Bei Zeichenketten sollten nicht aussagekräftige Zeichen wie führende bzw. nachfolgende Leerzeichen entfernt werden. Das Auffüllen von Codes mit führenden Nullwerten kann für eine bessere Darstellung von Katalogwerten genutzt werden.

Oftmals werden Zeichenkette aufgrund der mündlichen Übertragung oder aufgrund von Tippfehlern falsch eingegeben. Die Verwendung von unterschiedlichen Schreibweisen (Synonyme auch sprachlich DE/EN z.B. Ortsangaben Köln/Cologne bedingt) oder von Abkürzungen erfordern eine Standardisierung der Zeichenketten.

Standardisierung

Geometrien sollten mit demselben Raumbezug und Genauigkeit vorliegen. Zeichenketten sollten standardisiert werden z.B. Groß-Kleinschreibung, Alias und Synonymersetzung. Numerische Werte sollten in derselben Maßeinheit und Genauigkeit vorliegen. Datumsformate sollten vereinheitlich werden.

Normalisierung

Eine Normalisierung von numerischen Werten in den Wertebereich zwischen 0 und 1 macht Sinn, wenn die Daten normalverteilt statistisch weiterverarbeitet werden sollen.

Fehlende Werte

Fehlende Werte müssen gesondert betrachtet und dürfen nicht einfach ignoriert werden.

Manche Informationen sind wirklich „unbekannt“ und sollten daher nicht nur als „missing“ gekennzeichnet werden. Zum Beispiel bei Auswertung einer Befragung mit gewisser Fachlichkeit:
Was bedeutet das Verfahren rote Hose?

Kann durchaus auch keine Antwort gegeben werden.

Verwerfen

Wenn nur wenige Datensätze fehlende Werte besitzen, kann man die betreffenden Datensätze entfernen.

Wenn nur wenige Merkmale fehlende Werte besitzen, kann man das Merkmal entfernen.

Angleichen

Fehlende Werte werden anhand von vorhandenen Werten berechnet. Zum Beispiel kann die Temperatur anhand der beiden angrenzenden Nachbarwerte berechnet werden.

Folgende Verfahren können beim Angleichen verwendet werden:

Statistische Methoden
Lineare Regression
Hot-Deck

Markieren

Das Bereinigen von fehlenden Werten kann auch einen Informationsverlust bedeuten. Wenn z.B. bei einer Umfrage bewusst keine Antwort gegeben wurde, darf man diese Information nicht einfach ignorieren. Bei statistischen Auswertungen muss betrachtet werden, ob fehlende Werte eines numerischen Merkmals einfach durch 0 ersetzt werden dürfen bzw. diese Datensätze sollten bei der statistischen Auswertung nicht betrachtet werden.

Bei Katalogwerten kann mit „Not a Value“ eine neue Kategorie eingeführt werden.

Ausreißereleminierung

Ausreißer unterscheiden sich signifikant von allen anderen Werten. Datenwerte die sich mehr als das 1,5‑fache vom Quartil 1 und Quartil 3 befinden, sollten als Ausreißer betrachtet werden. Dieser Interquartilabstand (Deskriptive Statistik) stellt ein Streuungsmaß dar.

Ausreißer sollten immer gesondert betrachtet und nicht einfach entfernt werden. Einige Modelle wie z.B. die lineare Regression sind sehr empfindlich gegenüber Ausreißern.

Kreuzverweisvalidierung

Datenfehler aufgrund von Inkonsistenten zwischen Merkmalen bzw. zwischen Datensätzen unterschiedlicher Datenquellen. z.B. einzelne Merkmale für Miete, Strom, Wasser müssen in der Summe denselben Wert wie das Merkmal Unterhaltskosten einnehmen, oder Startzeitpunkt eines Ereignisses muss zeitlich vor oder gleich dem Endzeitpunkt definiert sein.

Die meisten Modelle verwenden nicht die Rohdaten direkt, sondern aus diesen abgeleitete Merkmale. Ein Merkmal folgt definierten Rahmenbedingungen und kann anhand problemorientierter Regeln validiert werden.

Datentypen

Ein Merkmal besitzt einen konkreten Datentyp.

Aufzählung
Datum
Fließkommazahl
Ganzzahl
Geometrie
Logischer Typ
Zeichenkette
Zeit

Wertebereiche

Numerische Daten und Datumsangaben fallen in einen definierten Wertebereich.

Intervall von und/oder bis
Datumsanteile und/oder Zeitfenster

Vorschriften

Eindeutigkeit

Ein Merkmal oder Kombinationen von Merkmalen müssen eindeutig sein.

Kataloge

Einige Merkmale besitzen diskrete Katalogwerte.

Bundesländer
Postleitzahlen
Buslinien

Fremdverweise

Einige Merkmale verweisen auf Merkmale eines anderen Datensatzes und müssen im Wert binär identisch sein.

Muster

Einige Merkmale müssen einem Muster entsprechen.

Postleitzahl
ISBN
Kreditkartennummer
Telefonnummer

Kreuzverweise

Einige Merkmale müssen ineinander stimmig sein.

Der Beginn eines Ereignisses darf zeitlich nicht nach dem Ende eines Ereignisses liegen. Die Angabe der PLZ einer Adresse erfordert, dass die Punktgeometrie der Adresse sich innerhalb des entsprechenden PLZ-Gebietes befindet.

Korrektheit

Eine gültige Angabe eines Wohnortes anhand einer Adresse mag syntaktisch korrekt sein, aber ob diese Adresse wirklich existiert bzw. die Person auch wirklich dort wohnt, muss überprüft werden. Die Angabe eines Wohnortes anhand des Bundeslandes mag korrekt, aber nicht präzise genug sein.

Vollständigkeit

Notwendige Datenvollständigkeit von Merkmalen bzw. die zur Beantwortung der Fachfragen erforderlichen Merkmale müssen vorliegen.

Konsistenz

Merkmale können sich gegenseitig widersprechen, z.B. kann eine Person verheiratet sein, aber die Altersangabe könnte einen unrealistischen Wert z.B. 10 einnehmen. Auch können Merkmale zu einer Entität sich über mehrere Datenquellen widersprechen.

Einheitlichkeit

Merkmale können definierte Maßeinheiten besitzen. Ein Merkmal sollte alle Werte in der gleichen Maßeinheit z.B. Meter oder Seemeilen aber nicht in unterschiedlichen Einheiten verwalten.

Datenverfahren