Ethische data deel 6 - De noodzaak van gegevenskwaliteit

De noodzaak van gegevenskwaliteit

Werken met gegevens impliceert dagelijkse processen die tot belangrijke beslissingen leiden. Het gebruik van slechte gegevens of slechte modellen zal leiden tot slechte beslissingen, die catastrofaal kunnen blijken voor een individu (bv. een geweigerde lening). Daarom is het belangrijk de bronnen van potentiële fouten te begrijpen, om ze te kunnen verwijderen.

Zelfs in marketing, waar de gevolgen van slechte gegevens minder catastrofaal lijken, loop je het risico consumenten te irriteren en de indruk te wekken dat je niet om hen geeft.

Om dit te voorkomen, moet je de drie belangrijkste risico’s voor ogen houden die de validiteit van gegevens kunnen teisteren:

De steekproef die je gebruikt, moet representatief zijn
De attributen waarmee je werkt moeten (ethisch) relevant zijn
Fouten in de gegevensverwerking moeten worden vermeden

Aangezien deze risico’s zich meestal voordoen tijdens de targeting- en analysefasen van onze marketingcampagnes, moeten we op die momenten bijzonder alert zijn.

Het kiezen van een representatieve steekproef

Wanneer wij gegevens verwerken, worden wij in onze conclusies beperkt door de gegevens waarover wij beschikken. We noemen dit het ‘Drunk Search’-effect (genoemd naar de dronken persoon die ’s nachts zijn verloren portefeuille onder de lantaarnpaal zoekt, omdat daar de enige plek is waar licht is… zelfs als hij zijn portefeuille elders heeft verloren!) Dit fenomeen leidt tot steekproeffouten die na verloop van tijd worden versterkt:

– Ik stuur mijn advertentie alleen naar vrouwen

– Waarom?

– Omdat 90% van mijn database uit vrouwen bestaat

– Waarom?

– Omdat we in het verleden alleen vrouwen mailden…

Je moet altijd het verschil in gedachten houden tussen de gegevens die je hebt, en de gegevens die je zou willen hebben. Probeer altijd een evenwicht te vinden tussen belangrijke kenmerken. Zijn leeftijd, geslacht, taal van belang?

Vergeet ook niet dat, net als uw gegevens, de verwachtingen van de samenleving evolueren. Prognoses hebben een beperkte betrouwbaarheid. De bevolking uit het verleden is niet altijd dezelfde als de toekomstige bevolking. Daarom zal een analyse op basis van het verleden in de toekomst alleen werken als de toekomst vergelijkbaar is met het verleden.

Kijk uit voor singulariteiten (bv. de Covid lockdown), maar ook voor geleidelijke verschuivingen (bv. de leeftijd waarop vrouwen hun eerste kind krijgen, is in 30 jaar tijd gestegen van 26 naar 31 jaar).

De juiste attributen kiezen

Wanneer je met gegevens werkt, ben je altijd beperkt door wat je ter beschikking staat. Extra attributen kunnen worden verzameld, maar dat kan veel tijd (en geld) kosten.

Moet je ze wel verzamelen? Om deze vraag te beantwoorden, moet je een afweging maken tussen kosten en waarde. Ook hier moet ethiek in de afweging worden betrokken. Zouden de ontbrekende kenmerken mij helpen mijn vooroordelen te verminderen? Zou ik daardoor meer respect krijgen voor de consument? Als het antwoord op deze vragen “ja” is, dan is dat zeker een waarde die je aan je processen wil toevoegen.

Wanneer je beslist welke gegevens je wil verzamelen, denk dan ook aan de relevantie ervan voor je bedrijf. De wet schrijft voor dat je sommige kenmerken, zoals ras, seksuele geaardheid of godsdienst, buiten beschouwing moet laten. Maar meestal zal ethiek je leiden: is het oké voor een luiermerk om de leeftijd van een baby te verzamelen? Maar hoe zit het met een automerk of een telefoonmerk? De voorpaginatest die we eerder hebben geïntroduceerd, kan je helpen bij het maken van je keuze.

Fouten bij gegevensverwerking vermijden

Moderne dataverwerking heeft vele gezichten:

– het extraheren van sentimenten uit tekst

– herkennen van gezichten op foto’s

– twee records van dezelfde persoon samenvoegen

– …

Bedenk wel dat geen van die technieken perfect is: sarcasme, dubbelgangers en homoniemen zullen altijd in de weg staan van de kwaliteit van je gegevens.

Zelfs voor meer triviale toepassingen kunnen reeds bij het invoeren van de gegevens fouten optreden. Veel menselijke en subjectieve fouten zijn mogelijk:

– tikfouten

– onjuiste codes

– verkeerd begrijpen van een schaalvolgorde

– verkeerd begrip van de betekenis van een veld

– velden omkeren (naam vs voornaam, stad vs postcode)

Zelfs als deze fouten niet vrijwillig zijn, leiden ze tot slechte resultaten, slechte keuzes en slechte beslissingen die gevolgen kunnen hebben voor de consument. Denk aan credit scoring processen of beslissingen om nabetaling aan een bepaalde klant toe te staan.

Als gegevensverwerker heb je de ethische plicht om de juiste gegevens te gebruiken om een beslissing te nemen die gevolgen heeft voor je consumenten. Vergeet niet wat de betrokkenen verwachten:

– validiteit: uw bronnen moeten gezaghebbend, volledig en tijdig zijn

– toegang: de betrokkenen moeten toegang hebben

– verantwoordelijkheid: bronnen moeten fouten en onbedoelde gevolgen kunnen opsporen en corrigeren.

Conclusie

Het is van cruciaal belang dat wij zorgvuldig aandacht besteden aan de geldigheid van onze gegevens en onze processen. Anders zullen we slechte resultaten krijgen.

Wanneer de resultaten worden gebruikt om beslissingen te nemen die verband houden met de betrokkenen, kan dat grote schade berokkenen. De betrokkenen verwachten van ons dat wij dit probleem oplossen. Het is een ethische prioriteit.

Dit artikel was het laatste van onze reeks over specifieke ethische problemen. Volg ons volgende maand voor de conclusie van de hele reeks over data-ethiek.

Zie ook :

Blog 1 – Een inleiding in data ethiek

Blog 2 –Wat is ethiek eingelijk?

Blog 3 – Opportuniteiten van ethiek

Blog 4 – Geïnformeerde toestemming

Blog 5 – Privacy

contacteer ons voor meer informatie

Ethische data deel 6 – De noodzaak van gegevenskwaliteit

De noodzaak van gegevenskwaliteit

Het kiezen van een representatieve steekproef

De juiste attributen kiezen

Conclusie

Recente berichten

Recente reacties