Mastère Spécialisé Big Data : faire face au foisonnement des données

jeudi 16 juin 2022

silhouette successful man on the top of the hill on a background

En publiant la totalité de son troisième catalogue de données Gaia mi-juin, l’Agence spatiale européenne a produit des données astronomiques à plus d’un titre. Plusieurs dizaines de To de mesures multi-dimensionnelles, recueillies de 2014 à 2017, sont à présent publiques et fournissent ou améliorent des informations sur deux milliards de sources.

Par Aymeric Poulain Maubant

Travailler sur de telles masses de données est un changement de paradigme scientifique à présent courant, qui complète l’observation directe et la recherche théorique, et se mue en recherche assistée par l’intelligence artificielle. Lire les réactions enthousiastes des scientifiques devant un tel trésor, et les premières publications qui en sont issues, donne à voir comment une communauté s’est organisée pour tirer de ces données toute leur richesse, et en déployer leur immense potentiel.

Pour en arriver là et les rendre accessibles, ces données ont d’abord été stockées et traitées. Des outils de visualisation pour naviguer dans leur vaste ensemble, pour mieux les comprendre, puis les valoriser et les faire comprendre, ont été déployés. Ces opérations ont pris plusieurs années, pendant lesquelles les outils et les techniques ont évolué, nécessitant de se former pour rester à jour.

Gigantisme, source de ruptures

Mais si les données massives sont un socle bien connu de l’ère numérique, un autre gigantisme est apparu avec les techniques d’apprentissage profond : celui du nombre de paramètres des modèles. GPT-3, « modèle de langage » rendu public mi-2020 et toujours très en vue, est un modèle à 175 milliards de paramètres, deux ordres de grandeur plus important que son prédécesseur, qui a été entraîné sur plus de 500 milliards d’unités textuelles.

De tels géants ne peuvent être chargés sur chaque ordinateur. Hébergés sur des infrastructures spécialisées, accessibles grâce à des API, leur exploitation sur des outils du quotidien nécessitera d’en dériver des modèles plus simples. Ils reflètent cependant une certitude parmi une grande part des praticiens de l’IA : les ruptures qui permettent des percées dans la cognition artificielle résident au sein du développement de tels modèles gigantesques.

Sciences des données, science du passage à l’échelle

Que ce soit pour les données astronomiques collectées depuis 2014, ou les données industrielles issues de capteurs, ou encore les données massives issues des interactions sociales, l’ingénierie, les outils et les algorithmes d’apprentissage machine doivent passer constamment à l’échelle, une échelle qui ne cesse de grandir.

Les techniques s’adaptent devant les enjeux multiples à prendre en compte. L’apprentissage fédéré, par exemple, qui consiste à distribuer et orchestrer des modèles sur des machines diverses appartenant à des organismes différents, soulève des questions techniques variées : hétérogénéité statistique, contraintes de communication entre nœuds, gestion des données manquantes ou partielles, protection des données personnelles. La souveraineté, la cybersécurité, mais également la frugalité sont des questions sociotechniques que les data scientists doivent également considérer.

La pluralité des métiers de la Data Science est d’ailleurs à l’image de celles des données modernes – de toute nature, hétérogènes, non forcément structurées, partiellement étiquetées, produites en flux, spatio-temporelles – et de la variété des disciplines qui la composent – communication électronique, informatique distribuée, mathématiques appliquées et statistiques, sciences économiques et sociales, éthique. La pluralité est aussi la diversité : les entreprises qui prennent de plus en plus conscience des enjeux de biais et d’équité dans les données mettent l’accent sur un recrutement plus diversifié et plus féminisé.

Des profils courtisés pour des postes à haute valeur ajoutée

La crise sanitaire ayant accéléré les besoins en communication distancielle et en stockage externalisé, l’impact a été immédiat sur le marché de l’emploi : plusieurs milliers de postes en Data Science sont en permanence ouverts en France, couvrant tous les domaines, comme la santé, l’énergie, la banque et assurance, les transports, l’agriculture, la défense, et bien sûr l’informatique et les télécommunications. Les études montrent que tous les métiers de la donnée (data scientists, analysts, architects, engineers…), ingénieurs Cloud, DevOps, experts en cybersécurité, ainsi que des métiers nouveaux comme le Machine Learning Engineer qui a en charge la mise à l’échelle et l’industrialisation des algorithmes d’IA, sont en croissance et représentent des profils très courtisés. L’analyse de la donnée est citée comme priorité d’investissement technologique par 6 entreprises sur 10, et plus de la moitié des projets sont confiés à des prestataires externes.

La science des données est un creuset foisonnant où toutes les disciplines se croisent, toutes les ressources sont mobilisées, qui incite à se mettre à jour et en question continûment. Le Mastère Spécialisé® Big Data construit cette alchimie depuis 2013, en développant une approche unique, équilibrée et complète. Il s’appuie sur un écosystème très riche – des chaires industrielles explorant des pistes de recherche originales, des industriels proposant des défis sur des données et des problématiques réelles, la plateforme d’innovation TeraLab pour mettre en place les projets en grandeur réelle, la contribution à plus de trente logiciels libres, et de nombreuses start-up – qui garantit l’adéquation entre la formation et les attentes et enjeux du marché.

À l’heure où l’on engrange des données dans tous les domaines, construisant sur cette accumulation une société numérique et de nouvelles bases de connaissance, les data scientists à venir, dont les parcours antérieurs sont un ingrédient supplémentaire fécondant, sont appelés à organiser et à donner du sens à cet univers en expansion.

Image d’entête source Jcomp/Freepik