Une fédération pour les labos en TAL en France
Une fédération à plusieurs niveaux:
- Réseau social facile à utiliser (sur smartphone); il devrait être aisé et immédiat de créer des groupes d'échange pour une équipe, un projet, une communauté, etc.
- Pourquoi ne pas utiliser les réseaux sociaux existants ?
- Parce qu'ils ne sont pas intégrés aux autres outils scientifiques que nous proposons; et ne supportent même pas des fonctionalités aussi simple que écrire une équation, partager des slides...
- Parce que la communauté ne les contrôle pas (licences sur les contenus, qui a quels droits, ordonnancement des infos visibles, garanties de pérennité...)
- Parce qu'ils ne rassemblent pas: chaque tranche d'âge a des pratiques différentes: email / facebook et twitter / discord / what's app et snapchat
- Chaque nouvel arrivant dans une équipe TAL pourrait installer l'app et être connecté au réseau de son équipe, des projets auxquels il participe, recevoir les news des GDR TAL et LIFT, etc.
- Pourquoi ne pas utiliser les réseaux sociaux existants ?
- Partage des ressources de manière fédérée, afin que les ressources restent localement dans le labo d'origine mais soient diffusées et intégrées au réseau social, pour pouvoir, par exemple:
- être notifié lorsqu'une nouvelle version de la resource est disponible
- partager des modèles, des scripts
- participer à un fil de discussion attaché à une ressource
- faire une recherche fédérée dans toutes les ressources du réseau
- accéder à des recherches pré-renseignées dans HAL
- Calcul fédéré pour:
- dans un projet, entraîner un modèle partagé sur des ressources locales (federated learning)
- partager des "recettes" (scripts + tâche + centre de calcul) pour Jean Zay, Grid5000...
Critiques
- Trop d'ingénierie, pas assez de recherche
- oui, on vise un soutien à la recherche
- Peu de motivation à l'adoption, concurrence des researchgate & co
- viser une priorité: la facilité d'usage; l'utilisation du smartphone
- Y a-t-il un vrai besoin ?
- individuellement, non, chacun peut continuer à faire sa recherche à sa manière; mais au niveau national, tout le monde réinvente sans cesse comment fine-tuner un T5 sur SuperGlue sur Jean Zay; l'hypothèse de base est qu'il faut partager beaucoup plus nos expertises pour avancer globalement plus vite; et pour changer les pratiques individuelles professionnelles, les incitations institutionnelles sont plus rapides qu'attendre l'émergence d'une prise de conscience collective.
- Trop ambitieux, développements logiciels trop difficiles, trop coûteux
- il faudrait que des spécialistes en génie logiciel revoient le concept
Use Case (exemple de scénario d'usage)
Marie est nouvelle doctorante dans l'équipe TAL de St-Trifoulli. Comme de nombreux jeunes, Marie lit peu ses emails, et a plus l'habitude des réseaux sociaux. En arrivant dans l'équipe, on lui dit d'installer l'app fedTAL depuis le PlayStore sur son smartphone, puis de la configurer en scannant un QR-code généré pour elle par le serveur local fedTAL: rien de plus facile, aucun mot de passe, rien à entrer: Marie est immédiatement connectée au réseau social du TAL en France, et au groupe de son équipe de St-Trifoulli. Son téléphone lui notifiera (via le protocole ActivityPub) dès que des nouvelles provenant de son équipe, de son encadrant, des chercheurs ou des confs qu'elle suit arrivent. Elle recevra également des alertes lorsque de nouveaux papiers indexés par des mots-clés ou des auteurs suivis sont publiés sur HAL. Elle pourra bien sûr également communiquer en privé ou sur des groupes.
Le 2ème niveau de l'application concerne les corpus et ressources: le réseau fedTAL est également interfacé (via OAI-PMH) aux centres et réseaux de ressources du TAL: ORTOLANG, Metashare, CLARIN, AI4EU... et Marie peut rechercher des mots-clés dans les méta-données de toutes ces resources. Si Marie travaille dans un projet ANR, elle pourra également réserver un groupe aux partenaires du projet pour y rendre accessible les ressources du projet en download et upload (cf. logiciel FileBrowser) et intéragir/discuter autour de ces ressources. Un niveau "2bis" concernerait les formations et tutoriels: échange de cours, exercices, TPs en TAL.
Le 3ème niveau concerne le partage des "recettes" pour réaliser des tâches courantes de TAL facilement sur les grilles de calcul françaises: Jean Zay, Grid5000... Adapter les scripts que l'on peut trouver chez Huggingface, Facebook et Google collab aux spécificités des recherches, corpus et cluster en France n'est pas toujours immédiat, et le partage de ces "recettes" entre labos français permettrait d'éviter de réinventer à chaque fois la roue. Idéalement, à plus long terme, l'appli mobile pourrait permettre de lancer, contrôler et modifier l'exécution de ces scripts sur Jean Zay ou G5K.
Enfin, le 4ème niveau concerne l'apprentissage fédéré: fedTAL étant un réseau fédéré basé sur ActivityPub, sans noeud central mais avec des serveurs équivalents dans chaque Université, il serait également profitable de connecter à un serveur local des GPU et des corpus locaux, et d'entraîner avec du federated learning sur l'ensemble des corpus similaires un modèle "fusionné", sans que les corpus ne quittent leur Université et en répartissant ainsi la charge de calcul.
Concevoir un tel réseau social est complexe, mais nous maîtrisons toutes les briques nécessaires (ActivityPub, OAI-PMH, application android, FileBrowser, Jean Zay...). Le travail d'intégration sera très important et nécessitera plusieurs ingénieurs à temps plein répartis sur les sites pendant au moins deux ans. Il faudra, avec des experts en génie logiciel, priorétiser et concrétiser ces idées.
Ces idées répondent-elles à de vrais besoins ? Le principe est de palier certaines difficultés qui peuvent entraver la communauté TAL française:
- difficulté de porter ses recherches sur Jean Zay/G5K/..., à cause de la complexité d'entrée de ces grands équipements
- réinventer n fois dans chaque labo les scripts pour fine-tuner T5 sur Jean Zay: plus généralement, il faudrait un réseau où l'on sait que l'on pourra y trouver ces recettes
- les jeunes utilisent de moins en moins les emails; il faudrait s'adapter à leurs usages
- à chaque nouveau projet les mêmes difficultés: gérer des listes d'emails, des échanges de fichiers via mail/ftp/renater voire google drive, où mettre les corpus temporaires, etc. Il faudrait un outil commun.
- Les plateformes françaises existent, mais restent isolées: HAL, Jean-Zay, Meta-share, gitlab; un point d'accès commun serait utile.
Cette plateforme serait-elle adoptée ? La réticence au changement est importante, donc a priori non. Mais avec du temps et des incitations, HAL a fini par s'imposer. Il faudra sûrement également plusieurs années; nous pouvons espérer moins en visant les outils utilisés au quotidien par les plus jeunes, en particulier les smartphones.