Data Kwaliteit Maatregelen Software

Verrijken van data op basis van software en webservices

Verrijken van data op basis van APIs en webservices voor toevoegen van extra kenmerken. Denk bijvoorbeeld aan postcode.nl voor aanvullen en valideren van adressen op basis van postcode en huisnummer.


Details van Verrijken van data op basis van software en webservices

Maatregelen in software

Samenvoegen, transformeren en splitsen van attributen

Transformeren naar atributen in datasets door omzetten naar samenvoegen tot een geaggregeerd kenmerk. Daarnaast het opsplitsen van delen van een attribuut op basis van een bepaald kenmerk. Splitsen opv komma of spatie.


Details van Samenvoegen, transformeren en splitsen van attributen

Bepalen Geolocatie en geo-transformatie

Verrijken en transformeren van data van en naar geo locaties bijvoorbeeld door gebruik van database logica en software


Details van Bepalen Geolocatie en geo-transformatie

Textmining algoritmen

Inzetten van algoritmen om te zoeken naar patronen in tekstuele informatie. Denk bijvoorbeeld aan sentimentanalyse. Tellen van voorkomende woorden en nabijheid van woorden


Details van Textmining algoritmen

Reguliere expressies toepassen

Validaties in teksten op basis van reguliere expressies. Denk bijvoorbeeld aan het format van een postcode of een emailadres


Details van Reguliere expressies toepassen

Converteer datatypes

Converteren van datatypes naar andere datatypes (tekst {-} Numeriek). Inclusief transformatie naar datatypen op andere platformen zoals database, XML, softwaretalen en localisatie.


Details van Converteer datatypes

Toepassen Machine Learning algoritmen

Inzetten van machine learning algoritme om de kwaliteit van data te verbeteren. Bijvoorbeeld richting accuraatheid. Denk bijvoorbeeld aan Barneveld en bepalen of de woonplaats in Nederland of de VS is obv van andere attributen in de dataset.


Details van Toepassen Machine Learning algoritmen

Coderen en Decoderen van XML/HTML/Json structuren

Transformeren van datastructuren in XML, HTML en Json naar interpreteerbare en valideerbare data tbv de kwaliteit


Details van Coderen en Decoderen van XML/HTML/Json structuren

Waarden inzetten in mathematische/statische berekeningen

Inzetten van mathematische en statische berekeningen voor bepalen van de kwaliteit maar ook voor het aggregeren of het bepalen van afwijkende waarden in een dataset.


Details van Waarden inzetten in mathematische/statische berekeningen

Duplicaten check en dedupliceren

Signaleren van duplicaten in sleutels en in combinaties van attributen in dataobjecten.


Details van Duplicaten check en dedupliceren

Inzet van master, reference en codelijst lookup

Verrijken van datasets op basis van kenmerken voor het toevoegen van beschrijvingen, lookups, hierarchien van generiek data attributen


Details van Inzet van master, reference en codelijst lookup