Newsroom

Trustii : une plateforme collaborative en science des données

La création de la start-up Trustii.io, en novembre 2020, est le fruit de deux ans d’investissement d’une équipe de cinq personnes en partant d’un constat simple : il existe un engouement autour de l’Intelligence Artificielle, l’État français investit massivement, beaucoup de données existent mais trop peu d’entre elles sont exploitées par manque de talents. C’est pourquoi ces cinq co-fondateurs ont mis en place, sur leur temps libre, une plateforme ayant pour but de répondre aux besoins des organisations publiques et privées ainsi qu’aux ambitions des futurs Data Scientists.
Séminaire Data Science des Mastères Spécialisés Big Data et Intelligence Artificielle du 9 décembre 2021, avec Naama Bak et Mohammed Achemlal, associés Trustii, écrit par Pierre Dal Blanco et Alann Goerke, étudiants du MS Big Data.

Le but : mettre en lien étudiants et entreprises pour des solutions IA souveraines et à moindre coût

Le profil de Data Scientist est actuellement rare et très coûteux. Il est donc difficile pour certaines organisations souhaitant explorer ce nouveau domaine de réussir à mettre en place leurs idées, ainsi qu’à estimer leur éventuel retour sur investissement. D’un autre côté, il y a de plus en plus d’étudiants en sciences des données intéressés, mais qui ne sont pas encore sur le marché.

Le champ des possibles en France et en Europe est important. En effet, la majorité des applications IA sont développées aux États-Unis et coûtent très cher. C’est un vrai frein à l’adoption en masse par les entreprises françaises. Pour combler ce manque, il existe bien sûr des solutions comme Kaggle. Le problème est que ces solutions sont bien souvent très coûteuses et dans la majorité des cas, les données sont stockées aux États-Unis.

C’est pourquoi l’idée principale de la plateforme est de mettre en lien des étudiants et des entreprises afin de trouver une solution bénéficiant à tout le monde et garantissant aux entreprises le stockage de leurs données en Europe (souveraineté des données).

D’un côté, les étudiants ont la possibilité de mettre en application leurs connaissances académiques sur des vraies données, et peuvent, pour les meilleurs, remporter des prix pour chaque challenge. De l’autre côté, les entreprises en découverte de ce secteur d’avenir bénéficient du développement d’applications de Machine Learning à moindre coût, gagnent en visibilité et repèrent des talents. Cela peut également déboucher par des offres de stages ou d’emplois par la suite.

Fonctionnement d’un challenge

Il est très simple pour une entreprise de soumettre son propre challenge. Il suffit de se connecter sur la plateforme app.trustii.io, de décrire brièvement sa problématique, puis de charger un jeu de données sous la forme d’un fichier CSV dans lequel se trouvent toutes les données labellisées et les prédictions souhaitées. Les entreprises sont ensuite accompagnées afin de fixer les meilleurs objectifs d’un Auto-ML (configuration, score de prédiction…) en fonction du besoin.

L’Auto-ML est un outil de Machine Learning automatisé basé sur des technologies open source et qui sert de repère pour les Data Scientists participant au challenge. Celui-ci effectue des opérations simples : suppression des valeurs manquantes, essais de différentes configurations, de différents modèles… L’outil est parfois suffisant, mais dans la plupart des cas il faut un Data Scientist de métier pour effectuer une meilleure sélection des variables, nettoyer plus finement le jeu de données ou bien augmenter le score de prédiction.

Trustii : les 5 étapes
Les cinq principales étapes du fonctionnement d’un challenge Trustii.io

 

Il est important de noter que Trustii.io laisse une grande flexibilité aux étudiants quant au choix des outils et des langages pour effectuer le challenge. L’unique condition est le rendu sous forme de notebook. L’attention est ainsi portée sur la fiabilité et les résultats du modèle.

Comparaisons et avantages par rapport aux offres existantes

Un des atouts majeurs de Trustii.io est le coût. La plateforme est en effet bien moins chère que les autres solutions sur le marché, avec un prix de 10 000€ par challenge par entreprise (hors récompense). La confidentialité des données est également un point clé de Trustii.io qui assure que les données fournies sont stockées en Europe, et que l’entreprise peut définir le niveau d’accès à son challenge (public, privée, réservé à certaines universités uniquement). Enfin, elle permet une collaboration entre le monde académique et le monde industriel.

Sur le marché, les autres solutions se résument en deux types : les plateformes de challenges (Kaggle) et les plateformes d’Auto-ML. Ces solutions ont un certain nombre de limitations. Tout d’abord, elles sont pour la plupart basées aux États-Unis, ce qui pose des questions sur la souveraineté des données. Les prix pratiqués sont souvent dissuasifs, surtout pour les entreprises qui ne sont pas encore matures dans ce domaine. Les plateformes d’Auto-ML sont plus adaptées pour faire des “proof of concept” mais ne permettent pas d’obtenir des solutions 100% sur mesure. Enfin, les plateformes de challenges existantes sont dominées par des experts du domaine et n’offrent pas la possibilité notamment aux étudiants de se faire réellement remarquer.

À l’inverse, Trustii.io laisse une plus grande chance à chaque compétiteur. Plutôt que de ne sélectionner que le meilleur modèle, une analyse de chaque modèle est réalisée et permet de consolider les deux ou trois meilleurs en un seul modèle. Ainsi chaque compétiteur est rétribué à hauteur de sa contribution et gagne en visibilité. Le modèle final proposé est également plus robuste, explicable et exhaustif.

Pour conclure, Trustii.io vous invite à participer en tant qu’étudiant au prochain challenge à venir (du 10 au 12 février 2022) qui se tiendra dans le cadre du salon WAICF (World AI Cannes Festival). Pour cela, rendez-vous sur la rubrique Sign up sur Trustii.io et laissez-vous guider par le formulaire d’inscription.

Image d’entête source Avex.asso