Stage Data Scientist - NLP

  • Stage
  • Function Numberly: Data scientist

Description de l'entreprise

Numberly aide ses clients à collecter, analyser et mettre à profit leurs données à travers tous les canaux marketing. Pour cela, nous sommes plus de 100 ingénieurs (un quart de Numberly) répartis en équipes à dimension humaine, où nous nous assurons que chacun développe une influence positive et puisse être autonome. Notre croissance soutenue nous pousse à constamment remettre en question nos choix techniques et organisationnels.

Avec sept bureaux dans le monde et des clients dans plus de cinquante pays, nos enjeux sont globaux.

De par notre large gamme de produits interconnectés, nos enjeux techniques sont très variés et souvent complexes. Nos missions quotidiennes consistent à traiter des milliers de requêtes par seconde, distribuées à travers le monde, opérer des bases de données de plusieurs pétaoctets (Big Data™), automatiser l’ensemble de notre infrastructure bare-metal, et construire les interfaces du marketing digital de demain.

Description du poste

Recursive Topic Modeling pour l’identification de thèmes dans les pages web

Contexte général :

Dans le cadre de la publicité en ligne, une problématique consiste à connaître le contenu sémantique
des pages web sur lesquelles on affiche des bannières publicitaires. Ceci permet a posteriori, d’identifier
les appétences des différents cookies via leur navigation (le cookie d’Alice a visité de nombreuses pages
web dont le topic prépondérant est “voiture”, on peut donc en conclure qu’elle est intéressée par les
voitures) mais aussi de sélectionner des espaces publicitaires spécifiques dont la sémantique correspond
à l’univers de la marque. Par exemple, si une agence de voyage souhaite afficher des publicités, il pourra
être intéressant de diffuser sur des sites internet parlant de voyages.

Présentation du sujet :

Un premier travail a été effectué et permet d’identifier tous les mois 70 topics parmi l’ensemble des
pages web. On pourra par exemple trouver un topic “voyage”. Néanmoins, une agence de voyage
souhaitera probablement être plus spécifique et avoir par exemple une campagne ciblant les sites de
“road trips” ou une campagne ciblant les sites parlant de “voyages de luxe”. Ainsi il est nécessaire de
pouvoir identifier des “sous topics” pour certains des 70 topics identifiés chaque mois.

L’approche utilisée pour l’identification des 70 topics est basé sur le topic modeling (approche non
supervisée) via un modèle de Latent Dirichlet Allocation [1]. Une approche possible pour l’identification
de sous-topics serait de réappliquer un LDA de façon récursive sur les pages webs à forte dominante de
l’un des topics initiaux et ce, pour chacun des topics initiaux. D’autres approches, comme le Hierarchical
LDA [2] sont envisageables. Ces propositions ne sont que des pistes possibles, une recherche
bibliographique exhaustive sera réalisée par le stagiaire afin de sélectionner la méthode la plus adaptée
à la problématique.

Objectifs du stage

L’objectif du stage sera multiple :

- Travailler sur la modélisation du problème 

- Explorer les différentes méthodes possibles en effectuant un travail de recherche bibliographique 

- Implémenter la méthode choisie, la tester, l’intégrer au processus actuel. La partie expérimentation aura une place tout aussi importante que la modélisation et la recherche bibliographique.

Poursuite possible en CDI

Qualifications

De formation supérieure bac +4 à bac +5 (masters, écoles d'ingénieurs...), spécialisation en mathématiques appliquées, compétences en algorithmique, statistiques et machine learning 

Qualités requises : Esprit de recherche, capacité à mesurer son efficacité, autonomie, rigueur, méthode

Environnement de travail Linux, Hadoop, Spark, Python

Informations complémentaires

Même à 500, on prend le temps de partager !

  • Lors des fameux “Happy Meetings” parisiens suivis en visio par toutes les équipes dans le monde pour partager l’actualité du groupe
  • En se glissant - temporairement - dans la peau de ses collègues avec les "Vis ma vie"
  • Et bien sûr, lors des apéros, des cours de yoga, des meetups techniques, des barbecues, de la MMCup (un long week-end d’activités au soleil)... et bien plus encore !
Politique de confidentialité