Télécom Paris remporte le deuxième Hackathon X-Carrefour "Artificial Intelligence and Data Science"

lundi 20 avril 2020

Pour la deuxième année, la Chaire Next-Gen Retail de l’École polytechnique et Carrefour a organisé le challenge « Artificial Intelligence and Data Science ». Et pour la deuxième année, c’est un groupe d’étudiants du Mastère Spécialisé Big Data de Télécom Paris qui a remporté le challenge avec un outil d’aide à la décision innovant reposant sur un modèle de machine learning interprétable.

Trois sujets étaient proposés lors de la seconde édition du challenge, dont l’un était d’établir un modèle de marketing mix à un niveau local, afin de permettre au groupe Carrefour d’analyser finement l’impact de ses différents leviers marketing sur les ventes. La compétition a cette année réuni 132 étudiants répartis en 26 équipes, entre le 3 février et le 8 avril 2020.

Les étudiants avaient à leur disposition 30 jeux de données sur les produits, les clients, les investissements marketing et les ventes de Carrefour, pour cinq magasins du département de la Côte d’Or. Le groupe d’étudiants du MS Big Data, composé de Camille Cochener, Jérémie Peres, Vincent Richard, Thomas Rivière, Léa Wu et Hiroto Yamakawa, a proposé leur solution MixLocal.ai : Building local MMMs with interpretable AI, avec comme cas d’usage la promotion de la transition alimentaire en Côte d’Or.

Hackathon AI Carrefour Polytechnique : photo de groupe de l'équipe MS Big Data Télécom Paris — De g. à d. et de h. en b. : Hiroto Yamakawa, Jérémie Peres, Thomas Rivière, Camille Cochener, Léa Wu et Vincent Richard

Une approche locale du marketing mix

L’originalité du sujet de cette année était le travail à l’échelon local. Il est en effet logique de penser que l’on va avoir des consommateurs très différents d’une région à l’autre et qu’il n’est pas a priori nécessaire d’investir de la même façon sur tout le territoire. Ainsi les étudiants ont pu intégrer des éléments locaux et des données de l’INSEE, notamment dans le contexte des publicités télévisées localisées qui vont faire leur apparition en 2020.

Jérémie commente : « notre projet consistait à construire un modèle à une granularité géographique locale avec un focus sur les produits bio, de façon à identifier les leviers marketing les plus influents sur les ventes de ces produits afin de mieux répartir les investissements marketing. »

La date initiale de fin du projet était le 7 mars, le groupe avait donc finalisé la solution technique et la modélisation avant le début du confinement. « Après cela, nous avons travaillé à distance sur la présentation marketing du projet, avec un Google Drive et des outils de visioconférence » précise Camille. « Et pendant toute la compétition nous avions un mentor chez Carrefour qui nous a aidé à bien cerner le sujet et à trouver des pistes de valeur ajoutée, notamment sur la transition alimentaire. »

Gradient boosting et machine learning interprétable

Pendant toute la durée du projet, le groupe a travaillé sur un environnement Google Cloud Platform afin de pouvoir accéder aux données et les manipuler de façon sécurisée. Une première analyse exploratoire a permis aux étudiants de comprendre les données dont ils disposaient et d’en extraire de premières connaissances, afin de soumettre le projet à Carrefour et passer la première étape de sélection. « On a commencé par nettoyer et agréger les données de Carrefour qu’on a enrichies avec des données externes, comme l’impact du mouvement des gilets jaunes ou le nutri-score des aliments. » explique Jérémie.

L’équipe a ensuite entraîné un modèle de gradient boosting avec l’algorithme open source CatBoost, particulièrement prisé pour une utilisation sur les données possédant beaucoup de variables catégorielles, ce qui est le cas pour les produits de la grande distribution. « Jusqu’à récemment, c’était assez difficile d’utiliser ce genre de modèle pour des applications où l’on doit étudier l’impact de chacune des variables, du fait de leur non interprétabilité. On se retrouvait avec la problématique de la boîte noire » précise Jérémie.

Vincent ajoute : « pour contrer cette difficulté, nous avons décidé d’utiliser la librairie SHAP (SHapley Additive exPlanations), qui repose sur la théorie des jeux et permet d’interpréter le modèle. SHAP permet pour chaque prédiction de regarder quelles sont les variables qui vont l’affecter le plus. » Camille renchérit : « c’est un outil de plus en plus utilisé aujourd’hui. On a décortiqué les maths qui sont derrière, cela nous a paru très intéressant et avec une forte valeur ajoutée sur notre projet. C’était l’occasion idéale de le mettre en pratique. »

Un outil opérationnel d’aide à la décision

Pour finir, les étudiants ont créé un tableau de bord avec l’outil Dash. Le résultat de leur projet : des recommandations concrètes pour aider Carrefour à devenir le leader de la transition alimentaire, un modèle de machine learning interprétable et un outil d’aide à la décision pour les équipes marketing. Leur solution avait tout pour remporter les suffrages du jury.

Vincent conclut : « le bagage statistique enseigné dans le MS Big Data nous a permis de ne pas faire d’erreur sur l’analyse de données et d’avoir une bonne approche aussi bien statistique qu’informatique pour ne pas tomber dans les pièges classiques de la création de modèle. »