Pourquoi nous avons besoin de vous ?Pour renforcer son impact, l’UPOD modernise ses processus data avec deux orientations principales : faciliter le suivi des données de l‘Insee jusqu’aux utilisateurs finaux ;gérer le patrimoine croissant de données de l’Insee.La concrétisation de cette stratégie se traduit par différents défis, que nous avons commencé à adresser et pour lesquels nous avons besoin de vous pour continuer à les relever ! Pour quels défis ?Quelques exemples de défis auxquels vous pourrez contribuer :- Amélioration du catalogage du stock de fichiers de données de l’Insee ;- Contrôle de conformité des fichiers de données et de leur documentation ;- Construction d’automate d’association entre les données de l’Insee et leur documentation technique- Analyse des requêtes adressées au répertoire Sirene pour mieux connaître les usages des utilisateurs (API Sirene).Lors de ces défis, vous pourrez ainsi mettre en œuvre une large palette d’outils de la data-science :Pour la recherche et collecte des données à partir de bases de données, par requêtes API, avec du webscraping...) ;Pour les étapes d’exploration des données , ainsi que leur nettoyage et mise en forme à l’aide de librairies standards(Pandas en R, Tidyverse en R) ;Pour les étapes d’exploitation des données (ex : appariements, recherche automatisée de documents techniques), fréquemment peu ou pas structurés (ex : extraction d’informations textuelles ou chiffrées dans un pdf à l’aide de modèles LLM) ;Pour la communication des résultats (ex : data visualisation, rapport Quarto en R ou Python).Vous contribuerez aussi à la construction de pipelines de données, depuis la collecte jusqu’à la communication des résultats, et pourrez contribuer à la mise en place d’outils pour les équipes métiers.Outre la forte dimension data-science de cette formation, vous travaillerez étroitement avec les équipes data/statistiques/SI de l’Insee pour :- Aider à la traduction en solutions data des besoins métiers par des (ex : choisir un modèle de machine learning, définir un processus de traitement de la donnée)- Qualifier avec les équipes informatiques/SI les solutions envisagées (mise en œuvre, faisabilité…)- Tester les solutions, en faire le reporting auprès des équipes (métiers, data, SI), les développer dans une démarche d’amélioration continue.