Newsroom

SAS, un acteur historique de la data science

Compte-rendu du séminaire industriel data science des Mastères Spécialisés Big Data et IA de Télécom Paris du jeudi 27 mai 2021 avec Grégoire de Lassence, data scientist chez SAS.

Grégoire de Lassence est venu partager sa longue expérience. SAS a été créée à la fin des années 60 suite aux travaux de doctorants à l’université de Caroline du Nord. Cette entreprise emploie aujourd’hui près de 14 000 collaborateurs dans le monde et génère un chiffre d’affaires de 3,3 milliards de dollars.

Un précurseur

En raison de sa longévité, SAS a été précurseur dans la data science et le big data. De nombreuses entreprises avaient d’ailleurs adopté les solutions SAS bien avant l’émergence du big data. Aujourd’hui, cette compagnie se positionne davantage dans une optique de mise en production que de R&D.

SAS ne conviendra pas si le but est de concevoir des modèles très simples qui nécessitent peu de ressources. Par ailleurs, contrairement aux idées reçues, il est possible d’interfacer SAS dans Python et vice-versa. SAS est intégrable en conteneur sur les grandes plateformes cloud, en particulier Microsoft (Azure) avec qui SAS a noué un partenariat. SAS est à la fois un data software et un langage dédié, interprété, de 4e génération et dont les fonctionnalités principales sont codées en C.

Étude de cas : traçabilité bancaire

Grégoire de Lassence a ensuite présenté un cas typique où une solution telle que SAS serait tout à fait adaptée. Dans le cadre de la lutte contre la fraude par exemple, les banques sont tenues d’assurer une bonne traçabilité des informations et des statistiques dans le temps dans le cas où des organismes de contrôles procéderaient à des investigations. En tant que solution intégrée, SAS permet de répondre à ce besoin.

Toujours en ce qui concerne le cadre réglementaire, il est intéressant de constater que la FDA (Food and Drug Administration américaine) n’autorise que SAS pour les essais cliniques de phase 3 des laboratoires pharmaceutiques.

Ainsi, la mise en production d’un modèle ne relève pas uniquement de problématiques techniques à court terme mais elle doit pouvoir se déployer sur le long terme et notamment à la lumière des coûts globaux en matière de logiciels, hardware et coûts salariaux liés à l’administration et à la maintenance des modèles. Plus précisément, les personnes qui ont développé des modèles il y a 20 ans dans un langage de programmation open source ne sont pas les mêmes qui les maintiennent aujourd’hui. Ainsi, SAS se veut compétitif sur le coût d’acquisition global.

Un autre atout de SAS se situe dans la cohérence de la solution offerte puisqu’il permet d’éviter les problèmes d’environnements, incompatibilités et dépendances entre packages et leurs versions. Il est à noter que les plateformes datascience (Dataiku, Knime, Alteryx, etc.) sont également soumises à ces contraintes.

Au final, Grégoire de Lassence a indiqué qu’une solution intégrée comme SAS permet d’amortir les coûts sur une période d’au moins cinq années.

Data scientist : un métier très complexe

La maintenance prédictive est un autre domaine où le choix de SAS serait également pertinent. En effet cette dernière est particulièrement complexe et fait appel à de nombreux profils de data scientist chargés de développer des modèles très divers : text mining, machine learning, computer vision, etc. Les gros projets sont souvent soumis à des appels d’offres et les acteurs de la data tels que SAS sont généralement bien positionnés pour y répondre favorablement.

Grégoire de Lassence rappelle enfin que le métier de data scientist ne consiste pas uniquement en concevoir un modèle de machine learning. En effet, la préparation des données, leur traitement, le suivi et la mise à jour du modèle au cours du temps, le reporting et les aspects business constituent également des enjeux importants.

Au cours de la deuxième partie de l’exposé, Grégoire de Lassence a présenté le programme SCYP (SAS Software Certified Young Professionals) qui est un programme de certification offert par SAS aux étudiants et constitué de quatre blocs : l’accès au logiciel SAS, l’apprentissage de SAS, la préparation à la certification et l’examen.

Les étudiants ont ainsi pu avoir un aperçu du tutoriel permettant de prendre en main SAS Viya sur des cas pratiques de machine learning.

Compte rendu écrit par Jean-Charles Lévy, Mohammed El Yaagoubi et Alan Zakar, étudiants du Mastère Spécialisé Intelligence Artificielle promotion 2020-2021.

Illustration : photo créé par Pressfoto – fr.freepik.com