Dans le cadre de son stage technique de quatrième année au sein de l’ESILV, Félix Larrouy a rejoint la banque Natixis pour une mission de Data Science. En ligne de mire, l’implémentation d’un système de recommandations de publications financières répondant aux attentes des clients.
Aujourd’hui en M2 Data Science dans le cadre du double-diplôme ESILV- Polytechnique, il revient sur son stage de quatre mois au sein de l’équipe Data Science de Natixis.
De la prépa intégrée à la majeure Informatique, Big Data et Objets Connectés
J’ai choisi d’intégrer l’ESILV après le bac car j’ai toujours été attiré par les sciences au collège et au lycée, et, ne sachant pas exactement vers quel domaine m’orienter, une école généraliste au cœur du numérique telle que l’ESILV était l’option idéale.
Les trois années de tronc commun m’ont permis de découvrir le développement informatique, qui est un domaine que j’ai particulièrement apprécié. J’ai pu acquérir de solides connaissances, et c’est tout naturellement que j’ai décidé d’intégrer la majeure Informatique, Big Data et Objets connectés.
J’ai également effectué un semestre à l’étranger, à l’UCR (University of California Riverside), au cours duquel j’ai suivi des cours d’informatique et de gestion de projet.
J’ai suivi en quatrième année le Parcours Recherche, qui permet aux étudiants de découvrir le monde de la recherche. J’ai travaillé tout au long de l’année en autonomie sur un projet Data Science, qui m’a amené à me former en autodidacte au machine learning, champ d’étude aussi vaste que passionnant !
J’ai fait cette année ma rentrée à l’École Polytechnique au sein du M2 Data Science, en double diplôme avec l’ESILV.
La Data Science au service de la finance
Après avoir travaillé sur plusieurs projets à échelle universitaire, je voulais découvrir de l’intérieur un projet Data Science à l’échelle d’une grande entreprise.
J’ai donc intégré Natixis en tant que stagiaire Data Scientist pour une durée de 4 mois. Je ne visais pas le secteur de la banque en particulier, je voulais simplement découvrir le monde de la Data Science dans une grande entreprise, et, lorsque l’opportunité Natixis s’est présentée, je l’ai saisie sans hésiter.
J’ai rejoint l’équipe Data Science, qui fait partie d’une pôle plus large composé également des équipes suivantes : Data Engineering, Data Architecture, et Data Viz’. Toutes ces équipes travaillent en lien avec les différents cœurs de métier de Natixis.
Pour ma part, j’ai travaillé sur un projet initié par les analystes de la recherche. Ce sont eux qui publient chaque jour des articles sur les actualités financières, que ce soit sur des produits, des marchés, des acteurs…
Leur objectif était de pouvoir proposer de manière automatique des publications à leurs lecteurs, en fonction de leur comportement de lecture. Ma principale mission lors de ce stage était d’implémenter un système de recommandation de publications répondant à leurs attentes.
Big Data et systèmes de recommandation
Qui dit projet à grande échelle, dit grande masse de données, et donc Big Data.
C’est pourquoi j’ai utilisé plusieurs outils de l’écosystème Hadoop, notamment Hive pour requêter et récupérer les données.
Je disposais de l’historique des lectures (c’est-à-dire qui a lu quoi), des informations relatives à chaque article, ainsi qu’à chaque client. J’ai développé deux versions de système de recommandation en langage Python, en utilisant des libraires incontournables telles que pandas, scikit-learn, numpy, etc.
Le premier système est un système dit user-based, et le deuxième est dit content-based. Schématiquement, voilà à quoi ressemble le procédé user-based :
Et voilà à quoi ressemble le procédé content-based :
La première version du système de recommandation a été livrée en production sur le cluster Hadoop suite au « go » du métier. Quant à la deuxième, je n’ai pas pu aller au bout à cause d’un blocage au niveau de l’accès à certaines données.
Vers une carrière de data scientist
Ce premier stage dans une grande entreprise a été une très belle expérience. J’ai découvert tout le processus de fonctionnement d’un projet en entreprise, de la maturation de l’idée, au développement, jusqu’à la mise en production. J’ai acquis de nouvelles compétences techniques, dans le domaine des systèmes de recommandation principalement.
Mais j’ai également appris à travailler en collaboration avec des gens qui n’ont pas le même métier ni les mêmes connaissances que moi, que ce soit les analystes financiers ou les équipes Big Data.
Ce stage m’a convaincu que j’avais trouvé ma voie, celle qui m’amène à devenir un Data Scientist. Le domaine de la banque m’a plu, mais je suis très curieux de découvrir d’autres domaines pour mon prochain stage, comme la santé par exemple !
Intéressé par les métiers de la data science ? Plus d’informations sur la majeure Informatique, Big Data et Objets Connectés de l’ESILV, école d’ingénieurs généraliste au cœur des technologies du numérique.