+32 2 555 94 44 info@blacktigerbelgium.tech

L’importance de la Qualité des Données

Travailler avec des données implique des processus quotidiens menant à des décisions importantes. L’utilisation de mauvaises données ou de mauvais modèles entraînera de mauvaises décisions, qui peuvent s’avérer catastrophiques pour un individu (par exemple, un prêt refusé). Il est donc important de comprendre les sources d’erreurs potentielles, afin de les supprimer.

Même dans le domaine du marketing, où les conséquences des mauvaises données semblent moins catastrophiques, vous risquez d’ennuyer vos consommateurs, et de donner l’impression que vous ne vous intéressez pas à eux.

    Pour éviter cela, il est nécessaire de garder à l’esprit les trois principaux risques qui peuvent entacher la validité des données :

    1. L’échantillon que vous utilisez doit être représentatif
    2. Les attributs avec lesquels vous travaillez doivent être (éthiquement) pertinents.
    3. Les erreurs dans le traitement des données doivent être évitées

    Comme ces risques apparaissent généralement lors des phases de ciblage et d’analyse de nos campagnes de marketing, nous devons être particulièrement attentifs à ces moments.

      Choisir un échantillon représentatif

      Lorsque nous traitons des données, nous sommes limités dans nos conclusions par les données dont nous disposons. C’est ce qu’on appelle l’effet Drunk Search (du nom de la personne ivre qui cherche son portefeuille perdu la nuit sous le lampadaire, car c’est le seul endroit où il y a de la lumière… même si elle a perdu son portefeuille ailleurs !) Ce phénomène entraîne des biais d’échantillonnage qui, avec le temps, se renforcent :

      • Je n’envoie ma publicité qu’aux femmes
      • Pourquoi ?
      • Parce que 90% de ma base de données sont des femmes
      • Pourquoi ?
      • Parce que nous n’avons envoyé qu’aux femmes dans le passé…

      Vous devez toujours garder à l’esprit la différence entre les données dont vous disposez et celles que vous souhaiteriez avoir. Essayez toujours d’équilibrer les attributs importants. L’âge, le sexe, la langue sont-ils susceptibles d’avoir de l’importance ?

      N’oubliez pas non plus que, comme vos données, les attentes de la société évoluent. Les projections ont une fiabilité limitée. La population passée n’est pas toujours la même que la population future. Par conséquent, une analyse basée sur le passé ne fonctionnera à l’avenir que si le futur est similaire au passé.

      Attention aux particularités (ex : le confinement Covid), mais aussi aux évolutions progressives (ex : l’âge auquel les femmes ont leur premier enfant est passé de 26 à 31 ans en 30 ans).

      Choisir les bons attributs

        Lorsque vous travaillez avec des données, vous êtes toujours limité par ce qui est à votre disposition. Il est possible de collecter des attributs supplémentaires, mais ce processus peut prendre beaucoup de temps (et d’argent).

        Devriez-vous quand même les collecter ? Pour répondre à cette question, vous devez faire un compromis entre le coût et la valeur. Là encore, l’éthique doit être mise dans la balance. Les attributs manquants m’aideraient-ils à réduire les préjugés ? Me feraient-ils respecter davantage le consommateur ?  Si la réponse à ces questions est « oui », il s’agit certainement d’une valeur que vous souhaitez ajouter à vos processus.

        Lorsque vous décidez des données à collecter, pensez également à leur pertinence pour votre entreprise. La loi vous dit de ne pas tenir compte de certains attributs comme l’orientation sexuelle ou la religion. Mais le plus souvent, c’est l’éthique qui vous guide : une marque de couches peut-elle recueillir l’âge d’un bébé ? Mais qu’en est-il d’une marque de voiture ou de téléphone ? Le test que nous avons présenté précédemment peut vous aider à faire votre choix.

        Éviter les erreurs dans le traitement des données

        Le traitement moderne des données a de nombreux visages :

        • l’extraction de sentiments à partir de textes
        • Reconnaissance de visages à partir de photos
        • fusionner deux enregistrements pour la même personne

        N’oubliez pas qu’aucune de ces techniques n’est parfaite : les sarcasmes, les doublons et les homonymes seront toujours un obstacle à la qualité de vos données.

        Même pour des utilisations plus anodines, des erreurs peuvent survenir dès le processus de saisie des données. De nombreuses erreurs humaines et subjectives sont possibles :

        • fautes de frappe
        • mauvaise compréhension de la signification d’un champ
        • inversion de champs (nom vs prénom, ville vs code postal)

        Même si elles ne sont pas volontaires, ces erreurs entraînent de mauvais résultats, de mauvais choix et de mauvaises décisions qui peuvent avoir des conséquences pour le consommateur. Pensez aux processus d’évaluation du crédit ou aux décisions d’autoriser le post-paiement à un client.

        En tant que responsable du traitement des données, vous avez l’obligation éthique d’utiliser les bonnes données pour prendre une décision qui aura un impact sur vos consommateurs. N’oubliez pas que les personnes concernées attendent :

        • la validité : vos sources doivent être complètes et actuelles
        • l’accès : les personnes concernées doivent avoir accès aux données
        • responsabilité : les sources doivent être en mesure de détecter et de corriger les erreurs et les conséquences involontaires.

        Conclusion

          Il est crucial que nous accordions une attention particulière à la validité de nos données et de nos processus. Sinon, nous obtiendrons de mauvais résultats.

          Lorsque les résultats sont utilisés pour prendre des décisions concernant les personnes concernées, cela peut causer un grand préjudice. Les personnes attendent de nous que nous résolvions ce problème. Il s’agit d’une priorité éthique.

          Cet article était le dernier de notre série sur les problèmes éthiques spécifiques. Rejoignez-nous le mois prochain pour la conclusion de toute la série sur l’éthique des données.