Newsroom

Starclay, des consultants data scientists au service de la transition numérique et de l’action publique

Compte-rendu du séminaire industriel data science des Mastères Spécialisés Big Data et IA de Télécom Paris du jeudi 11 mars 2021 avec Thomas Garot et Cyril Poulet, tous deux Lead Data Scientist chez Starclay.

Créée en 2011, Starclay est une entreprise de conseil qui s’invite au cœur de la transformation numérique de ses clients grâce à la valorisation des données massives. S’appuyant sur une équipe pluridisciplinaire, Starclay bénéficie de plusieurs leviers pour exploiter les données, notamment l’utilisation du machine learning, de l’intelligence artificielle, du big data et la data visualization. L’innovation est au centre de la stratégie de cette entreprise à « l’esprit startup » qui bénéficie du Crédit Impôt Recherche, lui permettant de solidifier son expertise data.

Forte de son expérience, l’entreprise compte parmi ses clients de grands noms du secteur privé : Renault, BPCE, Kering, Natixis, Engie… Starclay a également remporté une dizaine de projets proposés par la DINUM (Direction interministérielle du numérique) depuis 2018, suite aux appels à manifestation d’intérêt dédiés à l’intelligence artificielle pour la transition numérique de l’État et la modernisation de l’action publique. Ces projets sont variés, allant de la détection et classification de type de contentieux pour le Conseil d’Etat à l’analyse de dossiers patients pour le CHU de Toulouse, en passant par l’amélioration du système de pré-plainte en ligne pour la Gendarmerie et la Police Nationale.

La mission du data scientist en tant que consultant

Comme mentionné ci-dessus, Starclay a pu se positionner sur dix projets d’intérêts majeurs. On y retrouve notamment le développement d’une démarche scientifique sur la gestion des recensements pour l’INSEE, alliant l’expertise de Starclay en IA sur les sujets de traitement du langage naturel (Natural Language Processing ou NLP) mais également l’accompagnement client permettant en fin de projet d’obtenir un environnement fonctionnel et modulable aux besoins de l’INSEE. Lorsqu’il s’agit de sujets complexes, le data scientist se doit d’être créatif et d’utiliser l’ensemble des outils à sa disposition. C’est donc en rapprochant des techniques comme le Distance Learning, le batching et des réseaux de neurones dits siamois, que l’équipe de Starclay a pu obtenir d’excellents résultats dans l’aide à la gestion de plus de huit millions de bulletins de recensement.

En tant que consultant, les exigences attendues par le client n’en sont que plus accrues. La mission du data scientist en devient plus intéressante et peut aller au-delà de simples livrables. Sur un projet pour la Gendarmerie Nationale, Starclay a réalisé un algorithme de classification de plaintes permettant de catégoriser ces dernières et d’évaluer les éléments manquants afin de créer un modèle génératif de questions. De nouveau, la palette du data scientist intervient pour appréhender ce type de problèmes en y associant les Embeddings avec la librairie FastText et d’autres techniques usuelles de préparation de corpus de textes. Sur ce projet, Starclay a également fourni un livrable présentant l’ontologie des éléments constitutif d’un procès-verbal (PV) de plainte. Cette démarche, réalisée en étroite collaboration avec le client, aura permis de redéfinir avec précision les actions métiers afin de minimiser les biais pouvant être présents au sein des bases de données existantes, sachant que le traitement de ces PV est soumis à l’approche naturellement variable d’un être humain vis-à-vis de leur compréhension, de leur traitement et rédaction.

L’adaptabilité, faculté essentielle au data scientist

Tout au long du processus de gestion d’un projet, de l’appel d’offre à la réponse technique jusqu’aux livrables, de nombreuses contraintes apparaissent et se doivent d’être appréhendées et surmontées par le data scientist. Il ne s’agit plus simplement d’un projet en interne, mais il est question de saisir la maturité autour de l’IA et les contraintes du client afin de répondre d’une manière optimale, et surtout réaliste, aux besoins soulevés. La question de la modularité finale du produit (décomposition, extensibilité, configurabilité) est également une dimension importante à laquelle doit répondre le data scientist consultant impliquant de plus en plus de qualités autour du développement logiciel (« dev ») et de l’administration des infrastructures informatiques (« ops »), notamment de l’administration système.

L’intelligence artificielle se doit de s’accorder aux usages et besoins des utilisateurs et de les accompagner tout au long de leur évolution.

Compte-rendu rédigé par Rodolphe Calvet, Florian Leveque et Adrien Robiliard, étudiants du Mastère Spécialisé Big Data promotion 2020-2021.

Illustration : photo de rawpixel.com – Freepik.com