Supervision

PhD students

Ongoing:

  • 2023 – Fanny Ducel (co-supervision with Aurélie Névéol) : Evaluating stereotyped biases in auto-regressive language models. Funding: Ecole Doctorale Paris Saclay.
  • 2021 – Heesoo Choi (co-supervision with Mathieu Constant and Bruno Guillaume): Lier des ressources lexicales du français en vue d’une interopérabilité entre niveaux linguistiques. Funding: Ecole Doctorale Sociétés, Langages, Temps, Connaissances, Univ. de Lorraine.
  • 2021 – Nicolas Hiebel (co-supervision with Aurélie Névéol and Olivier Ferret): Création éthique de données textuelles artificielles : application au domaine biomédical. Funding: ANR project CODEINE.

Finished:

  • 2016-2020: Alice Millour (co-supervisor with HDR (10 %), Claude Montacié): Myriadisation de ressources linguistiques pour le traitement automatique de langues non standardisées. Defended on Dec. 14th, 2020. Funding: Ministry of research.

Master 2

Master 2 (research) students

  • 2023-2024: Clémentine Bleuze (co-supervisor with Maxime Amblard), bourse ORION: Analysing claims in NLP research: An NLP4NLP approach
  • 2022-2023: Fanny Ducel (co-supervisor with Aurélie Névéol): Évaluation des biais stéréotypés dans les modèles de langues auto-régressifs : état de l’art et exploration de techniques extrinsèques (1 publication).
  • 2020-2021: Heesoo choi (co-supervisor with Bruno Guillaume): Validation empirique des universaux de Greenberg sur des corpus annotés multilingues (1 publication).
  • 2020-2021: Nicolas Hiebel (co-supervisor with Aurélie Névéol): Identifier des phrases identiques et similaires en corpus clinique (2 publications.
  • 2015-2016: Alice Millour: Construction de ressources langagières annotées par myriadisation (crowdsourcing) pour le traitement automatique des langues peu dotées : le cas de l’alsacien (1 publication)

Master 2 students (internships)

  • M2 TAL, Nancy:
    • 2023 – Scott Tankard (Druide, Montréal): undisclosed subject.
  • M2 TAL, Nancy (reviewer):
    • 2023 – Camille Saran (PwC, Luxembourg): Enhancing Enterprise Chatbot Performance through Integrated Data Modelling and Architecture: A Case Study at PwC Luxembourg
    • 2022 – Rasul Dent (Multispeech, LORIA): Modeling Regional Accents of French for Inclusive Speech Recognition
    • 2021 – Pavithra Poornachandran (Multispeech, LORIA): Semantic information from the past in a Speech Recognition System: does the past help the present?
    • 2020 – Maria Afara (SAP, Mougins): Identification and sanitization of sensitive information using AI/ML.
  • Sorbonne Université:
    • 2019 – Yann-Alan Pilatte (Yseop, Paris): Etude des actes de dialogue et analyses d’interactions humain-machine en vue d’une optimisation de l’interprétation des conversations.
    • 2018 – Garance Casalis (Viavoo, Paris): Création d’un Chunker-parser pour le français au sein d’une plateforme d’analyse d’avis clients.
    • 2018 – Agnès Richard (Syllabs, Paris): Adapter et s’adapter à la multiplicité des données pour la Génération Automatique de Textes : deux cas pratiques.
    • 2017 – Mathilde Regnault (Orange labs, Lannion): Modèles de catégorisation génériques pour l’analyse de verbatim.
    • 2017 – Mary Collins (MétéoJob, Paris): Constitution de référentiels et amélioration de l’analyse des offres pour l’algorithme de matching.
    • 2015 – Carolina Rodriguez-Getan (PROXEM, Paris): Développement de chaînes d’analyse pour la désambiguïsation des lieux et intégration dans le logiciel Ubiq – application à un projet dans le domaine du tourisme.

Mines de Nancy (ENSMN) projects (3rd year)

  • 2014 – Hadrien Chastant (co-supervisor with Bruno Guillaume): Creating Zombilingo, a Game With A Purpose for dependency syntax annotation (1 publication).
  • 2013 – Florian Besnard (co-supervisor with Bruno Guillaume): Formalisation de la documentation pour l’annotation.

Master 1

Master 1 (research) students

Note: Master 1 students at Sorbonne have to work on a real research project between January and September (exceptionnally in June) and write a dissertation of more than 50 pages.

  • 2023 – Thiziri Saci, Sarah Saidi et Yuyan Qian, Shilin Xie: Évaluation des stéréotypes dans les modèles de langues masqués (de l’arabe et du chinois).
  • 2022 – Fanny Ducel (co-supervisor with Maxime Amblard): Analyse des claims dans les articles de Traitement Automatique des Langues à l’aide d’une méthode par apprentissage non supervisé.
  • 2021 – Alexane Jouglar (co-supervisor with Yoann Dupont and Alice Millour): Evaluation d’outils d’annotation en entités nommées pour le français : que compare-t-on ? (corpus, 1 publication)
  • 2019 – Nikola Lackovic : ZombiLUDik: une approche par myriadisation de l’annotation en syntaxe de dépendances de corpus oraux .
  • 2019 – Rafael Araujo (co-supervisor with Gaël Lejeune): Développement d’un outil de transformation écriture inclusive – écriture paritaire : caractérisation du point médian.
  • 2019 – Harmonie Begue (co-supervisor with Gaël Lejeune and Alice Millour): Développement de ressources langagières et d’outils de TAL pour le créole mauricien.
  • 2018 – Diego Alves: Une foule de données créée par la foule est-elle suffisante ? Création d’un analyseur syntaxique du français à partir de données collectées par le jeu.
  • 2018 – Yann-Alan Pilatte: Élaboration d’une plateforme permettant l’identification d’unités polylexicales et la création de ressources par myriadisation (crowdsourcing) (2 publications).
  • 2017 – Agnès Richard: Le rôle du genre dans les débats politiques français : une analyse couplée en TAL et textométrie.

Research internships (Sorbonne Université, in case of a dissertation submitted and defended in June)

  • 2020 – Heesoo Choi (co-supervisor with Bruno Guillaume): Investigating Dominant Word-Order on Universal Dependencies with Graph Rewriting (1 publication).

Project (Master 1 TAL Nancy)

  • 2019 – Arash Morteza, Ludivine Robert and Seweryn Polec (co-supervisor with Bruno Guillaume): Testing (some of ) Greenberg’s Linguistic Universals on the Universal Dependencies corpora using a graph rewriting tool.

Mines de Nancy (ENSMN) projects (2nd year)

  • 2013 – Seraphin Burgermeister and Alexandre Papin (co-supervisor with Bruno Guillaume): Développement d’un jeu en ligne pour l’annotation syntaxique du français.

Licence 3

  • 2021 – Fanny Ducel: internship on the analysis of the Bender’s rule application in NLP proceedings.

IUT Nancy Charlemagne final internship

  • 2014 – Valentin Stern (co-supervisor with Bruno Guillaume): Jouable ? Création d’un jeu pour l’analyse syntaxique du français (1 publication).