Capital Fund Management : machine learning et données alternatives en finance

mardi 9 mars 2021

Compte-rendu du séminaire industriel data science des Mastères Spécialisés Big Data et IA de Télécom Paris du jeudi 11 février 2021 avec Romain Picon, Data Scientist au sein de CFM et ancien étudiant du MS Big Data.

CFM (Capital Fund Management) est une société internationale de gestion de portefeuilles financiers dont la stratégie d’investissement est basée sur une approche quantitative et systématique. Plus précisément, les décisions d’achats et de ventes de l’entreprise sont prises de manière automatique sur la base d’algorithmes de machine learning. Ce type de stratégie s’oppose aux stratégies dites « discrétionnaires ».

La prise de décision s’appuie, au travers des algorithmes, sur l’étude de grandes quantités de données issues de sources diverses comme les données de marché, les données macro-économiques, les données propres aux entreprises ou encore les données dites alternatives, non-structurées, permettant entres autres la prédiction de séries temporelles.

Romain Picon, ancien étudiant du Mastère Spécialisé Big Data de Télécom Paris et aujourd’hui Data Scientist au sein de CFM, est intervenu dans le cadre des séminaires afin de présenter l’entreprise. Il fait partie de l’équipe Data Analytics, où chaque ingénieur est à la fois Data Engineer et Data Scientist, avec la préparation et l’exploitation de données brutes, structurées ou non, la création de modèles et leur mise en production, jusqu’à leur suivi (afin notamment de limiter les dérives).

Les projets sont développés en suivant un processus en quatre étapes : Data Engineering, Data Qualification, Extract Value, Production/Support. Ces projets reposent sur deux types de données : les séries temporelles et les données alternatives qui peuvent-être textuelles ou sous forme de graphes. Plusieurs points de méthodologie concernant le traitement de ces données ont par la suite été abordés.

Dans le cadre de la prédiction de séries temporelles, les données peuvent être enrichies à l’aide de statistiques résumant l’information contenue sur un intervalle de temps défini (moyennes glissantes, écarts types). Le traitement des données manquantes doit également faire l’objet d’une attention particulière. En effet, lors du remplacement de ces données, il est nécessaire de veiller à ne pas introduire d’informations issues de données futures. Une fois le modèle implémenté, l’interprétation du rôle des variables dans la description du phénomène modélisé peut être effectuée à l’aide d’outils tels que Shap ou Eli5. Finalement, l’utilisation de métriques orientées métier est indispensable pour la compréhension, par tous, des résultats obtenus.

On retrouve parmi les données alternatives les données textuelles, non structurées. Le traitement du langage naturel ou NLP nécessite des outils et des techniques adaptés avec notamment l’utilisation de bibliothèques spécifiques comme nltk, spacy ou encore gensim. Ces bibliothèques fournissent des classes facilitant l’implémentation de méthodes de normalisation et d’analyse de texte. On retrouve à titre d’exemple, la suppression des stop-words au sein d’un corpus, la lemmatisation ou encore la recherche de topic grâce au modèle Latent Dirichlet Allocation.

Que la donnée soit temporelle ou bien textuelle, Romain Picon a insisté sur la nécessité de cohérence des données avec la période de temps à laquelle elles font référence.

En savoir plus sur CFM

Compte-rendu rédigé par Chloé Richard, Théo Lefièvre et Nicolas Calligaro, étudiants du Mastère Spécialisé Big Data promotion 2020-2021.

Illustration : photo de pressfoto – Freepik.com