Le partage de données pour l’IA en finance

lundi 22 mars 2021

Cette 3ème session des lundis de l’IA et de finance avec l’ACPR et Télécom Paris a abordé les questions de partage de données dans l’industrie financière. David Bounie, professeur d’économie à Telecom Paris, a introduit le séminaire en soulignant la dépendance croissante des entreprises aux données pour se constituer un pouvoir de marché. Le partage des données est donc essentiel pour éviter les pratiques anticoncurrentielles. Ce séminaire a examiné les opportunités et les contraintes du partage des données ainsi que les approches techniques permettant de rendre les collaborations possibles.

1ère table ronde : Partager les données pour l’intérêt général

Olivier Fliche, directeur du département fintech-innovation de l’ACPR, a ouvert la première table ronde de ce webinaire portant sur les questions d’intérêt général à partager des données.

Comme premier intervenant, nous avons eu le plaisir d’écouter Kristen Alma, analyste politique au Groupe d’action financière. Le GAFI est l’organisme mondial de surveillance de la lutte contre le blanchiment d’argent et le financement du terrorisme qui fixe les normes internationales en matière de lutte contre le blanchiment d’argent et le financement du terrorisme. Mme Alma a d’abord présenté les opportunités que représente la mise en commun des données pour l’AML-CFT. En combinant des données provenant de différentes sources et parties, les institutions financières peuvent s’appuyer sur un ensemble de données plus complet et augmenter la performance de leurs modèles dans la détection des schémas de blanchiment d’argent, lesquels impliquent généralement plusieurs institutions financières dans plusieurs pays. Le GAFI a publié un rapport détaillé sur le partage des données par les entités privées en 2017. Mme Alma a ensuite présenté les premiers résultats de l’enquête menée par le GAFI sur les technologies déployées par les banques pour le partage des données. Ce rapport, qui doit être rendu public d’ici juin 2021, met en évidence la nature récente des considérations de partage de données pour les institutions, et le conflit qui se produit entre les besoins de partage et les exigences de confidentialité. Il énumère également les technologies envisagées pour surmonter cette barrière (chiffrement homomorphique, preuves à zéro connaissance, calcul multipartite sécurisé…). Le GAFI prévoit une deuxième phase d’étude pour examiner les moyens et les environnements permettant de favoriser le partage des données avec des contraintes de confidentialité.

Ensuite, nous avons accueilli Bertrand Pailhès, directeur de l’innovation et de la technologie à la CNIL, l’autorité française de protection des données. M. Pailhès a présenté les nouvelles tendances du XXIe siècle en matière de partage des données, notamment la transparence et l’utilisation d’énormes volumes de données. Il a donné un aperçu de la manière dont les autorités de protection des données abordent ces nouvelles questions et développent des initiatives de partage.

Il a notamment présenté quatre scénarios de partage qui utilisent des données produites en dehors du cadre du service public pour remplir des missions d’intérêt général :

« données privées ouvertes obligatoires »,
« données privées générales améliorées »,
« plateforme de réutilisation des données » et
« portabilité citoyenne ».

Il a également souligné que les entreprises sont généralement réticentes à partager leurs données, et que les approches sectorielles sont plus efficaces pour favoriser les collaborations.

Le dernier intervenant à se joindre à cette table ronde était Antoine Dubus, économiste à ECARES à l’Université libre de Bruxelles. Il nous a expliqué les principes économiques du partage des données. Il a commencé par présenter les données comme un atout concurrentiel, en citant Cremer, de Montjoye, Schweitzer (2019) : « La compétitivité des entreprises dépendra de plus en plus de la possibilité d’accéder en temps voulu à des données pertinentes et de la capacité d’utiliser ces données pour développer des applications et des produits nouveaux et innovants. » Les entreprises en position dominante sur les données ont donc un avantage indéniable, mais certaines vont même plus loin et créent des pratiques d’exclusion en empêchant l’accès aux données aux autres concurrents (ex. Facebook en 2017). Par conséquent, il ne reste que quelques entreprises dominantes pour façonner la concurrence sur le marché. Dans ce contexte, la mise en commun et le partage des données peuvent contribuer à renforcer la concurrence sur le marché et à stimuler la coopération pour poursuivre des objectifs d’intérêt public général tels que la lutte contre la fraude. Afin de se conformer en même temps à la réglementation sur la protection des données, Antoine Dubus explique qu’il faudra davantage de coordination entre les agences de protection des données et les autorités de la concurrence.

2ème table ronde : Les techniques de partage de données sensibles

La deuxième phase de ce webinaire avait pour but de présenter quelques approches techniques qui rendent possible le partage des données tout en préservant les contraintes de vie privée. Laurent Dupont, senior data scientist à l’ACPR, a mené les débats de cette session. Il a présenté notre première intervenante, le Dr Catuscia Palamidessi, chercheuse au laboratoire LIX-Inria de l’Ecole Polytechnique, qui a déroulé les concepts sous-jacents aux méthodes de confidentialité différentielle.

Palamidessi a tout d’abord exposé le compromis qui s’opère entre la vie privée et la notion d’utilité. Afin de développer des modèles précis, qui peuvent être utiles à la société, les algorithmes ont besoin de données pour s’entraîner, parfois au détriment de la vie privée. Il nous faut donc des mécanismes qui optimisent ce compromis entre utilité et vie privée. L’un d’eux est la confidentialité différentielle (DP). Considérons un ensemble de données qui comprend les données de Bob et d’Alice. Le mécanisme 𝞮-DP introduit un peu de bruit statique 𝞮 de sorte à être toujours en mesure d’exploiter les résultats des données (les données sont toujours utiles), mais de ne plus être en mesure de différencier les informations de Bob et d’Alice. La confidentialité différentielle standard (alias modèle central) est l’architecture typique du mécanisme DP : on regroupe d’abord tous les ensembles de données en un seul, puis on applique un mécanisme 𝞮-différencié. La confidentialité différentielle locale (LDP) est une autre architecture utilisée par Apple et Google par exemple, dans laquelle chaque entrée de données individuelle n est rendue privée avec un niveau de confidentialité 𝞮n, et l’ensemble de données collecté est le regroupement de ces entrées bruitées. Catuscia Palamidessi a également expliqué les mécanismes k-Randomized Response (kRR) et d-privacy (d représente la distance) et a finalement présenté son approche hybride qui présente un meilleur compromis vie privée-utilité que le LDP.

L’intervenant suivant de cette table ronde technique était Sandrine Murcia, CEO et cofondatrice de Cosmian, un éditeur de logiciels d’entreprise qui fournit un traitement collaboratif confidentiel des données sécurisé par la cryptographie. Elle a expliqué l’approche de Cosmian : fournir aux entreprises un outil qui incorpore des techniques de cryptographie avancées issues de la recherche, afin de tirer parti des résultats de la mise en commun des données avec d’autres parties. Plus précisément, Cosmian propose deux façons de faire de l’informatique collaborative. La première est celle où les entreprises veulent lancer l’informatique collaborative sur des données protégées sans révéler les données propriétaires sous-jacentes. La technique utilisée par Cosmian dans ce cas est le traitement des données entièrement cryptées (“Fully Encrypted Data Processing”). La seconde est destinée aux entreprises qui souhaitent déplacer leurs données vers un autre environnement, comme le nuage, pour y effectuer des calculs, mais qui ne veulent pas que leurs données ou leurs demandes soient partagées avec cet environnement. Le calcul multipartite (MPC) serait alors utilisé.

Laurent Dupont a ensuite accueilli Maxime Agostini, CEO et cofondateur de Sarus, une entreprise dont l’objectif est d’aider les entreprises à extraire de la valeur de toute donnée sensible en utilisant la confidentialité différentielle. Maxime a commencé par exposer le raisonnement qui sous-tend l’utilisation de la confidentialité différentielle. La première idée qui vient à l’esprit pour garantir l’anonymat des données est de simplement supprimer les PII (Personally Identifiable Information). Par exemple, on supprimerait les noms, les dates de naissance et les adresses des clients dans une base de données Netflix. Cependant, en faisant cela, on resterait avec les parties uniques des données, dans notre exemple, la liste ordonnée unique des films regardés par les clients, ce qui permet de retrouver l’identité des clients. Cela a conduit les scientifiques à chercher une meilleure définition, mathématique, de l’information anonyme : la confidentialité différentielle. Cette définition garantit que l’information anonyme ne peut pas mener à des informations sur un individu donné, peu importe ce que l’attaquant sait déjà. Enfin, Maxime nous a partagé l’idée qu’ils aiment mettre en avant à Sarus : oubliez le partage des données, même anonymes, le plus important est de partager la connaissance.

Tous les dossiers de présentation des panélistes sont disponibles ici, ainsi le replay de l’ensemble du webinaire, et des tables rondes.

Visionner le replay

Des liens utiles pour compléter la lecture :

> https://www.fatf-gafi.org/media/fatf/documents/German-Presidency-Priorities.pdf
> https://www.fatf-gafi.org/fr/publications/recommandationsgafi/documents/guidance-information-sharing.html?hf=10&b=0&s=desc(fatf_releasedate)
> https://ico.org.uk/for-organisations/guide-to-data-protection/key-data-protection-themes/guidance-on-artificial-intelligence-and-data-protection/
> www.cosmian.com
> www.sarus.tech