Un article paru dans le journal du CNRS de mai 2009
Utiliser les nouvelles technologies pour passer de l'oral à l'écrit et d'une langue à une autre, c'est l'ambition d'un nouvel institut franco-allemand créé à Orsay.
Ce n'est peut-être pas une tour de Babel où les hommes ne parleraient
qu'une seule langue, mais le tout nouvel Institut franco-allemand des
technologies multilingues et multimédias de l'information (IMMI), à
Orsay, aspire quand même à abattre quelques frontières linguistiques.
Ses outils ? Les nouvelles technologies. « Celles développées par l'Institut et par les autres partenaires du programme Quaero (lire l'encadré), lancé
en 2008, pourront transcrire un discours ou un dialogue, reconnaître la
langue utilisée et la traduire, identifier le locuteur d'après son
visage, ou encore résumer automatiquement des textes ou des contenus de
sites », explique Joseph Mariani, directeur de l'IMMI, qui
associe l'Université technique de Rhénanie Westphalie (RWTH), à
Aix-la-Chapelle, l'université de Karlsruhe et le CNRS – à travers le
laboratoire d'informatique pour la mécanique et les sciences de
l'ingénieur (Limsi)1. Pour cela, les scientifiques de
l'IMMI– qui seront à terme une centaine – poursuivront le développement
de nouvelles technologies linguistiques. « Notamment sur le
traitement du langage, le traitement de la parole, la traduction
automatique (que ce soit texte à texte, parole à texte, ou parole à
parole), le traitement de documents multilingues et l'indexation de
documents multimédias, poursuit Joseph Mariani. Parce que ce sont les compétences des trois laboratoires fondateurs.
» Ces derniers, qui regroupent des linguistes, des informaticiens, des
sociologues et des spécialistes de l'ergonomie partagent en effet la
même approche méthodologique. « Celle de l'apprentissage, de
l'évaluation et de la validation par des méthodes statistiques à partir
d'ensembles de documents (des corpus) », précise Joseph Mariani.
En clair, pour mettre au point une transcription écrite automatique de
données sonores (discours ou émissions radio, par exemple), on fournit
au système des fichiers sonores et les transcriptions correspondantes.
Il s'en nourrit, les analyse et « apprend » à associer le bon son à la
bonne transcription. Plus le corpus de fichiers donnés au système est
grand, plus la base statistique est importante et meilleures sont les
transcriptions.
La naissance de l'IMMI a été longuement préparée.
Les trois partenaires fondateurs ont créé en décembre 2007 une unité
mixte internationale pour faciliter la gestion de l'Institut. Puis, en
décembre dernier, ils ont fondé un laboratoire européen associé (LEA),
l'IMMI-Labs, qui fédère les efforts de recherche des trois partenaires,
auxquels est aussi associée l'université Paris-Sud-XI. Outre les
financements apportés par le consortium Quaero aux trois partenaires,
le CNRS, le Conseil général de l'Essonne et le réseau thématique de
recherche avancée Digiteo contribuent à couvrir les coûts de la
construction et des équipements informatiques. D'ici à trois ans, les
chercheurs de l'IMMI seront en effet installés dans un nouveau bâtiment
de 3 000 m2 construit à Orsay, à proximité du Limsi, dans le sud de l'Île-de-France.
À
terme, l'Institut sera l'un des plus grands pôles de recherche mondiaux
sur ces thématiques. Et sa place en Europe, où plus d'une vingtaine de
langues cohabitent, est loin d'être anodine. « Nous cherchons à
développer des technologies qui permettent à chaque citoyen européen
d'utiliser sa propre langue et de passer facilement d'une langue à
l'autre », rappelle Joseph Mariani. Le laboratoire pourrait par
exemple développer des outils de traitement automatique ou de
traduction des 23 langues européennes officielles et répondre aux
besoins de nombreuses institutions européennes : Commission ou
Parlement, office européen des brevets, bibliothèque numérique ou
agences de sécurité…
Virginie Lepetit