Une fédération pour les labos en TAL en France

Une fédération à plusieurs niveaux:

Critiques

Use Case (exemple de scénario d'usage)

Marie est nouvelle doctorante dans l'équipe TAL de St-Trifoulli. Comme de nombreux jeunes, Marie lit peu ses emails, et a plus l'habitude des réseaux sociaux. En arrivant dans l'équipe, on lui dit d'installer l'app fedTAL depuis le PlayStore sur son smartphone, puis de la configurer en scannant un QR-code généré pour elle par le serveur local fedTAL: rien de plus facile, aucun mot de passe, rien à entrer: Marie est immédiatement connectée au réseau social du TAL en France, et au groupe de son équipe de St-Trifoulli. Son téléphone lui notifiera (via le protocole ActivityPub) dès que des nouvelles provenant de son équipe, de son encadrant, des chercheurs ou des confs qu'elle suit arrivent. Elle recevra également des alertes lorsque de nouveaux papiers indexés par des mots-clés ou des auteurs suivis sont publiés sur HAL. Elle pourra bien sûr également communiquer en privé ou sur des groupes.

Le 2ème niveau de l'application concerne les corpus et ressources: le réseau fedTAL est également interfacé (via OAI-PMH) aux centres et réseaux de ressources du TAL: ORTOLANG, Metashare, CLARIN, AI4EU... et Marie peut rechercher des mots-clés dans les méta-données de toutes ces resources. Si Marie travaille dans un projet ANR, elle pourra également réserver un groupe aux partenaires du projet pour y rendre accessible les ressources du projet en download et upload (cf. logiciel FileBrowser) et intéragir/discuter autour de ces ressources. Un niveau "2bis" concernerait les formations et tutoriels: échange de cours, exercices, TPs en TAL.

Le 3ème niveau concerne le partage des "recettes" pour réaliser des tâches courantes de TAL facilement sur les grilles de calcul françaises: Jean Zay, Grid5000... Adapter les scripts que l'on peut trouver chez Huggingface, Facebook et Google collab aux spécificités des recherches, corpus et cluster en France n'est pas toujours immédiat, et le partage de ces "recettes" entre labos français permettrait d'éviter de réinventer à chaque fois la roue. Idéalement, à plus long terme, l'appli mobile pourrait permettre de lancer, contrôler et modifier l'exécution de ces scripts sur Jean Zay ou G5K.

Enfin, le 4ème niveau concerne l'apprentissage fédéré: fedTAL étant un réseau fédéré basé sur ActivityPub, sans noeud central mais avec des serveurs équivalents dans chaque Université, il serait également profitable de connecter à un serveur local des GPU et des corpus locaux, et d'entraîner avec du federated learning sur l'ensemble des corpus similaires un modèle "fusionné", sans que les corpus ne quittent leur Université et en répartissant ainsi la charge de calcul.

Concevoir un tel réseau social est complexe, mais nous maîtrisons toutes les briques nécessaires (ActivityPub, OAI-PMH, application android, FileBrowser, Jean Zay...). Le travail d'intégration sera très important et nécessitera plusieurs ingénieurs à temps plein répartis sur les sites pendant au moins deux ans. Il faudra, avec des experts en génie logiciel, priorétiser et concrétiser ces idées.

Ces idées répondent-elles à de vrais besoins ? Le principe est de palier certaines difficultés qui peuvent entraver la communauté TAL française:

Cette plateforme serait-elle adoptée ? La réticence au changement est importante, donc a priori non. Mais avec du temps et des incitations, HAL a fini par s'imposer. Il faudra sûrement également plusieurs années; nous pouvons espérer moins en visant les outils utilisés au quotidien par les plus jeunes, en particulier les smartphones.