Data af god kvalitet: praktiske tips til dataanalytikere
Skrald ind, skrald ud
Dataanalytikere skal udover at søge i data, visualisere dem og faktisk analysere dem også beskæftige sig med at rense og holde de data, de arbejder med, rene. Dette skyldes, at pålideligheden af dataanalyse også afhænger af pålideligheden af de anvendte data, hvilket også er kendt som 'skrald ind, skrald ud'-princippet. Kvaliteten af outputtet af analyser kan ikke være god, hvis kvaliteten af dataene ikke er det (Kilkenny & Robinson, 2018).
Hvad der gør forskellen mellem data af god kvalitet og dårlige data ligger i en række faktorer (Teslow, 2016), hvoraf denne artikel diskuterer følgende:
- Konsistens (og fuldstændighed)
- Nøjagtighed (og præcision)
- Aktualitet
Konsistens (og fuldstændighed)
Da mange analytikere bruger data, der kommer fra forskellige kilder, er der stor sandsynlighed for, at dataene er formateret bare forskelligt afhængigt af kilden. Dette kan føre til dataduplikering, hvor de samme data vises flere gange i et datasæt. Sådan duplikering fører til, at forvrængede analyser og problemstillinger bliver overset (Rahm & Do, 2000). Konsistens af data betyder, at dataene er konsistente og ikke modstridende. Ved dataduplikering er der for lidt sammenhæng i dataene. Dette hænger også sammen med fuldstændigheden, hvor det er vigtigt, at der ikke mangler vigtige data. Når der er dataduplikering, og dataene ikke er alle på det rigtige sted, vil dataene også blive ufuldstændige. For eksempel, hvis en person optræder to gange i en database, og en version af denne person tilføjer telefon- og adresseoplysninger, og den anden tilføjer bankoplysninger, er begge versioner af denne person ufuldstændige på grund af dataduplikering.
Praktisk tip 1: Standardiser datafelter og -formater, før data fra forskellige kilder flettes. Dette minimerer kompatibilitetsproblemer og sikrer konsistensen af det resulterende datasæt.
Praktisk tip 2: I i2 iBase er indstilling af de korrekte (kombination af) felter som diskriminatorfelter utroligt vigtigt for at forhindre dataduplikering ved import og manuel oprettelse af nye data i databasen. Disse felter sikrer, at dubletter bliver opdaget, men det forhindrer dem ikke i at blive gemt to gange alligevel, hvis den person, der indtaster data, vælger at gøre det.
Praktisk tip 3: Dubletter kan stadig forekomme i en database på trods af diskriminatorfelter. Det er derfor vigtigt også at tjekke for dette jævnligt. Dette kan gøres i i2 iBase med Duplicate Records Checker. Dette kan bruges til at søge efter duplikerede poster i en database baseret på indholdet af specificerede felter.
Nøjagtighed (og præcision)
Nøjagtige data betyder, at dataene ikke indeholder fejl og svarer til virkeligheden. Nøjagtighed går hånd i hånd med præcision, hvilket betyder, at dataene er nøjagtige og ikke indeholder unødvendige afvigelser. At verificere og validere både kilderne og dataene før indtastning af data er naturligvis ekstremt vigtigt for dette. Når det kommer til data med potentielt reduceret pålidelighed, er det vigtigt, at dette formidles på en ensartet måde.
Regelmæssig kontrol af kvaliteten af dataene, herunder deres konsistens, kan også bidrage til nøjagtighed og præcision. Igen er det ekstremt vigtigt at have klare interne aftaler om, hvordan data opbevares og formateres.
Praktisk tip 1: I i2 iBase kan pålidelighedsfelter tilføjes til poster, hvor både kilde- og datapålidelighed kan angives. I databaser, der ikke indeholder disse felter, kan der anvendes kildefelter, hvor der henvises til kilden til informationen, og så kan det nævnes i bemærkningerne, at der kan være tvivl om dens pålidelighed.
Praktisk tip 2: I i2 Analyst's Notebook kan der tilføjes grad af sikkerhed til både enheder og forbindelser mellem dem. Disse gradueringer bliver til analyseattributter, som kan indgå, når man for eksempel søger eller sorterer data.
Aktualitet
Data bør ikke kun være opdateret for at give det mest realistiske og fuldstændige billede som muligt, det bør også være i overensstemmelse med dataopbevaringsperioder for at overholde GDPR. Ifølge artikel 5, stk. 1, litra e), i GDPR skal personoplysninger opbevares, så længe det er nødvendigt til det oprindelige formål. Det betyder, at dataanalytikere skal forstå, hvor længe visse data skal opbevares for både at overholde lovgivningen og imødekomme behovene i deres analyser. Politidata kan dog ifølge politidataloven (Wpg) ikke bruges og opbevares på ubestemt tid. Der er fastsat frister til særlige omstændigheder. Andre bureauer skal også håndtere dataopbevaringsperioder. Overtrædelser heraf kan have konsekvenser for blandt andet dataenes juridiske gyldighed.
Praktisk tip: i2 har udviklet et værktøj specifikt til dette formål kaldet i2 iBase Weder. Dette værktøj sporer dataopbevaringsperioder og sikrer, at data slettes, når opbevaringsperioden er nået. Dette sikrer, at disse deadlines altid overholdes uden at skulle kigge på dem manuelt.
Referencer
General Data Protection Regulation [GDPR] (2016), Article 5(1)(e) and Articles 13-14.
Geiger, R. S., Yu, K., Yang, Y., Dai, M., Qiu, J., Tang, R., & Huang, J. (2020). Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From? In Conference on Fairness, Accountability, and Transparency (FAT '20),* January 27–30, 2020, Barcelona, Spain (pp. 18 pages). ACM, New York, NY, USA. [Online]. Beschikbaar via: https://stuartgeiger.com/papers/gigo-fat2020.pdf [Geraadpleegd op 27 augustus 2023]. DOI: https://doi.org/10.1145/3351095.3372862
Kilkenny, M. F., & Robinson, K. M. (2018). Data quality: "Garbage in – garbage out." Health Information Management Journal, 47(3), 103-105. DOI: 10.1177/1833358318774357
Pressman, R. (2014). Software Engineering: A Practitioner's Approach. McGraw-Hill Education.
Rahm, E., & Do, H. H. (2000). Data Cleaning: Problems and Current Approaches. IEEE Data Engineering Bulletin, 23(4), 3-13. Wet Politiegegevens (Wpg).
Teslow M (2016) Health data concepts and information governance. In: Abdelhak M, Hanken MA (eds) Health Information: Management of a Strategic Resource, 5th ed, pp. 88–144. St Louis, Missouri: Elsevier Saunders.
Police Data Act [Wpg] (2018).