Pourquoi les algorithmes de reconnaissance faciale ne peuvent pas être parfaitement équitables

En juin 2020, un algorithme de reconnaissance faciale a conduit à l’arrestation indue de Robert Williams, un Africain-Américain, pour un crime qu’il n’avait pas commis. Suite à un vol à l’étalage dans un quartier huppé de Detroit, dans le Michigan, le malfaiteur apparaissant dans une vidéo floue a en effet été incorrectement identifié comme Robert Williams, grâce à une comparaison avec la photo de son permis de conduire. Après plusieurs heures, la police l’a relâché et a présenté ses excuses, mais cet épisode soulève de sérieuses questions quant à la fiabilité des algorithmes de reconnaissance faciale.

La partie la plus troublante dans cette histoire est qu’il a été montré que les algorithmes de reconnaissance faciale sont moins précis pour les visages noirs que pour les visages blancs. Mais pourquoi est-ce le cas et que peut-on faire contre cela ?

L’erreur est humaine… et algorithmique

Comme tout algorithme de prédiction, les algorithmes de reconnaissance faciale font des prédictions probabilistes basées sur des données d’entrée incomplètes – comme les pixels d’une photo floue. De telles prédictions ne sont jamais sans erreur. Comme le risque d’erreur existe toujours, les questions que l’on doit se poser sont : quel est le niveau d’erreur acceptable ? quelles sont les types d’erreurs à prioriser ? et a-t-on besoin d’un taux d’erreur strictement identique pour chaque groupe de la population ?

Les algorithmes de reconnaissance faciale génèrent deux types d’erreurs : les faux positifs et les faux négatifs. Les premiers se produisent quand l’algorithme pense à tort qu’il existe une correspondance entre deux visages (situation vécue par Robert Williams). Les seconds se produisent quand l’algorithme pense à tort qu’il n’y a pas de correspondance.

Les conséquences découlant de ces deux erreurs peuvent être très différentes selon le cas d’usage. Par exemple, si la police utilise un algorithme de reconnaissance faciale pour localiser un suspect, un faux positif peut conduire à l’arrestation d’un innocent. Alternativement, quand la police aux frontières utilise la reconnaissance faciale pour déterminer si la photo d’un passeport correspond bien à la personne qui le présente, un faux positif permettra à un imposteur de passer la frontière avec un passeport volé. Chaque cas d’usage va générer des coûts différents pour chaque type d’erreur, coûts sociétaux mais surtout des coûts pour l’individu concerné. Un faux négatif qui empêche le déverouillage d’ un smartphone génère de l’agacement pour l’utilisateur, mais cet agacement est sans commune mesure de l’humiliation subie par une personne innocente arrêtée parce que son visage ressemble plus ou moins à celui d’un criminel recherché. Pour chaque cas d’usage, le taux de sensibilité devra être ajusté par rapport au type d’erreur à privilégier et les risques y associés. Si l’on tente à diminuer le taux de faux négatifs, cela aura pour effet d’augmenter le taux de faux positifs, et vice versa. Il n’est généralement pas possible de minimiser à la fois le taux de faux positifs et le taux de faux négatifs.

Discrimination et technologie

Une discrimination se manifeste quand, pour un groupe de population donné (par exemple, la population africaine-américaine aux Etats-Unis), il y a un taux d’erreurs plus élevé, qu’il s’agisse de faux négatifs ou de faux positifs. La plupart des développeurs envoient leurs algorithmes au National Institute of Standards and Technology (NIST) des Etats-Unis, pour être testés sur les différences de taux d’erreurs sur différentes parties de la population. Le NIST utilise une grande base de données gouvernementale de photos de passeports, de visas mais également des photos d’arrestations, et teste l’algorithme selon différentes nationalités, genres, voire parfois différentes ethnies. Les résultats sont rendus publics ce qui permet de constater des différences importantes dans le taux d’erreur selon la nationalité ou la couleur de peau.

Ce type de différence de performance peut être due à des données d’entraînement inadéquates ou à une limitation intrinsèque de l’algorithme d’apprentissage lui-même. Si les données d’entraînement contiennent un million d’exemples d’hommes Blancs et seulement deux exemples de femmes Noires, l’algorithme d’apprentissage aura plus de difficultés à distinguer les visages de femmes Noires. Pour corriger cela, on peut soit utiliser des données d’entraînement représentatives de la totalité de la population (ce qui est souvent impossible), ou bien donner des pondérations différentes aux données d’entraînement pour simuler la proportion qui existerait dans un jeu de données représentatives de la population.

Les données d’entraînement inadéquates ne sont pas la seule cause de performances inégales. Certains algorithmes présentent des difficultés intrinsèques pour extraire des traits singuliers de certains types de visages. Par exemple, les visages de bébés ont tendance à se ressembler et sont notoirement difficiles à distinguer les uns des autres. Certains algorithmes pourront s’avérer plus performants si on leur présente davantage d’exemples d’entraînement. Si ces correctifs ne donnent pas de résultats, il est possible d’imposer une « contrainte d’équité », forçant l’algorithme à égaliser la performance entre plusieurs groupes de population.

Malheureusement, ceci peut avoir l’effet d’amoindrir le niveau de performance pour les autres groupes, voire de la dégrader de façon inacceptable. Si on impose une contrainte d’équité, il est d’abord nécessaire d’identifier quels sont les groupes de population concernés. Est-ce qu’un algorithme de reconnaissance faciale doit traiter chaque couleur de peau ou origine ethnique de la même façon, y compris pour les groupes dont les effectifs sont relativement faibles? Toute population pourrait en effet être divisée en un nombre presque illimité de strates.

Et quel niveau de différence de performance est-il possible de tolérer entre plusieurs groupes : doit-il être rigoureusement identique ou des différences sont-elles acceptables ? Et quel est l’effet de la contrainte d’équité sur la performance algorithmique ? En effet, un algorithme de reconnaissance faciale parfaitement ‘équitable’ pourrait s’avérer si peu performant qu’il sera parfaitement inutile en pratique.

En tant que société, nous faisons quotidiennement ce genre de compromis. Pour les algorithmes, ces compromis doivent être explicites : l’équité « imparfaite » devient un choix de conception explicite.

Préoccupations éthiques

Quand nous permettons de collecter des données sur l’ethnie ou la couleur de peau afin d’aider à concevoir des algorithmes moins discriminatoires, nous consentons également à un compromis délicat. L’Europe interdit le plus souvent la collecte de données ethniques et ceci pour de bonnes raisons. Les bases de données ethniques ont permis aux Nazis et aux gouvernements de collaboration de localiser et d’assassiner 6 millions de Juifs dans les années 1940. Et pourtant les données sur l’ethnie ou la couleur de peau peuvent aider à concevoir des algorithmes moins discriminatoires. De plus, un algorithme « conscient de la couleur de peau » peut apprendre à compenser la discrimination en créant des modèles différents pour plusieurs groupes de population. Par exemple un modèle « peau foncée » et un modèle « peau claire ». Mais ceci va à l’encontre d’un principe important adopté en France et dans d’autres pays qui stipule que les règles doivent être aveugles aux couleurs.

Si l’équité parfaite est impossible, faut-il interdire les algorithmes de reconnaissance faciale ? Certaines villes des Etats-Unis ont imposé un moratoire sur l’usage de la reconnaissance faciale par la police aussi longtemps que les problèmes de fiabilité et de discrimination ne sont pas résolus. L’Etat de Washington a promulgué une loi qui requiert un programmes de tests contre les biais, et un contrôle stricte de l’usage de la reconnaissance faciale par la police.

Un des aspects de cette loi est de rendre obligatoire une étude des impacts différentiés du système sur différents sous-groupes de la population et l’obligation d’introduire des mesures pour corriger les différences de performance. La réglementation et non l’interdiction est la bonne approche, mais la réglementation nécessiterait une série de choix explicites que nous ne sommes pas habitués à faire, y compris de répondre à l’épineuse question : une équité imparfaite est-elle suffisante ?

 

La version anglaise de cet article a été publié le 20 juillet 2020 sur le site The Conversation.

 

 

__________________________________________________

By Stéphan Clémençon and  Winston Maxwell, Télécom Paris, Institut Polytechnique de Paris