Stage Master 1, 2 ou fin d’études école d’ingénieur

Suivi de la langue dans une séquence d'images IRM par apprentissage profond

Yves Laprie

 

 

 

Informations générales

  Yves Laprie

  LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy

  Téléphone & 03 83 59 20 36 ou 03 72 74 53 43

  Email : Yves.Laprie@loria.fr

 

 

Motivations

Ce projet s'inscrit dans une approche physique de la synthèse de la parole qui exploite des données d'Imagerie par Résonance Magnétique dynamique. Les données sont donc des films du conduit vocal acquis à une fréquence de 55 Hz. Plus précisément, il s'agit d'une coupe médio-sagittale du conduit vocal comme le montre la figure suivante.

 

 

\
 

Image sagittale du conduit vocal sur laquelle les contours des principaux articulateurs ont été dessinés

 

 

Cette image est une ``tranche'' du conduit vocal de 8mm dans le plan médio-sagittal, et les principaux articulateurs ont été détourés sous la forme de lignes jaunes. On voit notamment la langue, les lèvres, le vélum, le palais et la paroi pharyngale.

 

Un film est donc formé d'une séquence de telles images, et la base de données actuelle correspond à une heure de parole, ce qui représente environ 200.000 images.

 

Pour réaliser la synthèse articulatoire il est nécessaire de connaître la forme géométrique du conduit vocal qui est donnée par le contour des différents articulateurs comme cela apparaît dans la figure. Comme les articulateurs se déforment et se déplacent il faut réestimer cette forme toutes les 20 ms environ.

 

L'exploitation des données d'IRM dynamique nécessite donc le détourage préalable des articulateurs. Le dépouillement manuel de la base de données est bien sûr tout à fait impossible, et le projet proposé vise à automatiser le détourage.

Nous souhaitons faire appel à une approche par apprentissage automatique qui s'appuie sur environ 1000 images dépouillées manuellement.

 

 

Sujet

Le suivi de contours dans le conduit vocal a donné lieu à de nombreux travaux en particulier dans le cas des images échographiques dont la qualité est en général inférieure à ces des images IRM [3] .

Nous avons étiqueté une petite partie des images, de l'ordre d'un millier sur une base de données d'environ 200000 images, ce qui permet d'envisager une approche d'apprentissage automatique. Nous proposons d'utiliser des réseaux de neurones auto-encodeurs [1]. L'idée est de réaliser un premier apprentissage qui fasse le lien entre les images et les contours étiquetés à la main.  Il s'agit de la phase d'autoencodage qui tente de reproduire les données de départ (images accompagnées des contours extraits manuellement).

Dans le cas du suivi, l'image seule est connue et donnée comme entrée du système. Un second apprentissage est donc destiné à construire un réseau de neurones translaté [2]. Le réseau est conservé à l'exception de la première couche qui est ré-entraînée de manière à conserver les autres couches cachées en utilisant comme données d'entrée les seules images.

 

Le réseau final sera donc capable de détourer le contour recherché à partir des images du film IRM.

Le travail proprement dit porte sur la mise en œuvre de cette approche pour les données IRM. Comme tous les travaux utilisant l'apprentissage profond il sera sans doute nécessaire d'explorer un certain nombre de choix de réalisation pratique pour aboutir à de bons résultats de suivi.

Le travail de master portera sur le suivi de la langue qui est l'articulateur le plus déformable et mobile. En fonction des résultats il sera possible de proposer des améliorations de cet algorithme afin de pouvoir repérer et traiter les autres articulateurs.

 

Cadre du travail

Ce travail prend place dans le cadre de nos travaux sur la modélisation physique de la production de la parole. Nous avons plusieurs coopérations avec le laboratoire IADI à Nancy avec lequel nous acquerrons les images IRM statiques et dynamiques, le laboratoire LPP à Paris pour les mesures des cordes vocales à haute fréquence, et les laboratoires Gipsa-Lab et LEGI à Grenoble pour l'acoustique physique de la parole.

 

Nous disposons déjà d'un environnement très complet pour la synthèse articulatoire : un  logiciel très complet pour le détourage manuel et l'obtention de la fonction d'aire (l'aire transverse depuis les cordes vocales jusqu'aux lèvres), des simulations acoustiques numériques (en Matlab) pour synthétiser le signal de parole continue, et enfin des bases de données IRM statiques et dynamiques de tout premier plan, en termes de qualité et de quantité.

 

Bibliographie

[1] A. Jaumard-Hakoun, K. Xu, P. Roussel, G. Dreyfus, M. Stone and B. Denby. Tongue contour extraction from ultrasound images based on deep neulral network. Proc. of International Congress of Phonetic Sciences, Glasgow, 2015.

[2] I. Fasel and J. Berry. Deep Belied Networks for Real-Time Extraction of Tongue Contours from Ultrasound During Speech. Proc. of 20th ICPR, Istanbul, 2010.

[3] G. Litjens, T. Kooi et al. A survey on deep learning in medical image analysis. Medical Image Analysis, 42 :60-88, 2017.