Logo de l'OEP

Seleziona la tua lingua

Logo de l'OEP

Google gagne en plurilinguisme, mais percevra-t-il les nuances ?

Source : Tech Xplore

Par Franklin Briceño and Matt O'brien, le 11 mai 2022

 

Un élève colorie un renard pendant un cours en quechua sur les noms d’animaux. École primaire publique de Lipaca, au Pérou. Photo prise le mercredi 1er septembre 2021. 

 

 

Près de 10 millions de personnes parlent quechua, mais il a longtemps été impossible de traduire automatiquement des emails et des messages SMS dans la langue amérindienne la plus parlée sur le continent.

La situation a changé mercredi quand Google a ajouté le quechua ainsi qu’une multitude d’autres langues à son service de traduction numérique.

 

Le géant de l’internet déclare qu’une nouvelle technologie d’intelligence artificielle lui permet d’élargir de manière conséquente le répertoire de langues de Google Traduction. Vingt-quatre langues ont été ajoutées cette semaine, parmi lesquelles le quechua et d’autres langues d’Amérique du Sud telles que le guarani et l’aymara. Google a également ajouté un certain nombre de langues africaines et d’Asie du Sud-Est qui faisaient défaut à certains produits high-tech très populaires.

« Nous avons pris en considération les langues dont les locuteurs sont très nombreux, mais mal desservis », a déclaré aux journalistes Isaac Caswell, chercheur chez Google.

 

La nouvelle, annoncée à l’occasion de la conférence technologique annuelle I/O de la société californienne, a de quoi réjouir le monde entier. Mais elle risque également de susciter les critiques des utilisateurs frustrés par l’incapacité de précédents produits technologiques à percevoir les nuances de leur langue ou de leur culture.

Le quechua était la lingua franca de l'Empire inca, qui s'étendait du sud de ce qui est aujourd’hui la Colombie au centre du Chili. La conquête espagnole du Pérou, il y a 400 ans, a marqué le début de son déclin.

 

Son inclusion au sein des langues reconnues par Google représente une victoire de taille pour les militants de la langue quechua comme Luis Illaccanqui, un Péruvien créateur du site web Qichwa 2.0, qui comprend des dictionnaires et des ressources pour apprendre la langue.
"Cela contribuera à mettre le quechua et l'espagnol sur un pied d'égalité", a déclaré Illaccanqui, qui n'était pas impliqué dans le projet de Google.

Illaccanqui, dont le nom de famille en quechua signifie "tu es l'éclair", a déclaré que le traducteur automatique permettra également à une nouvelle génération de jeunes et d'adolescents, "qui parlent aussi bien le quechua que l'espagnol et sont fascinés par les réseaux sociaux" de maintenir la langue en vie.

 

 

google gets more multi 1 

Carmen Cazorla, enseignante dans une école publique de Licapa, au Pérou, écrit en quechua pendant son cours sur les plantes médicinales. Photo prise le mercredi 1er septembre 2021.

 

 

Caswell a qualifié cette nouvelle de "très grande avancée technologique", car jusqu'à récemment, il était impossible d'ajouter des langues dans Google Traduction si les chercheurs ne parvenaient pas à trouver une quantité suffisante de ressources en ligne - comme des livres numériques, des journaux ou des messages sur les réseaux sociaux - pour que leurs systèmes d'IA puissent en tirer des enseignements.
Les géants de la technologie américains n'ont pas pour habitude de faire fonctionner correctement leur technologie linguistique en dehors des marchés les plus riches, un problème qui les a également empêchés de détecter des informations fausses et dangereuses sur leurs plateformes. Google propose des langues européennes telles que le frison, le maltais, l'islandais et le corse, qui comptent moins d'un million de locuteurs, mais jusqu’à présent pas de langues d'Afrique de l'Est comme l'oromo et le tigrinya, qui en comptent des millions.

 

Les nouvelles langues seront introduites cette semaine. Elles ne seront pas encore comprises par l'assistant vocal de Google, ce qui les limite pour l'instant à des traductions de texte à texte. Google a annoncé qu'il travaillait à l'ajout de la reconnaissance vocale et d'autres fonctionnalités, comme la possibilité de traduire un signe en le prenant en photo.

Cela sera d’importance dans le cas de langues parlées par un grand nombre de locuteurs, comme le quechua, et tout particulièrement dans le domaine de la santé. En effet, de nombreux médecins et infirmières péruviens qui ne parlent que l'espagnol travaillent dans des zones rurales et "sont incapables de comprendre les patients qui parlent essentiellement le quechua", a déclaré Illaccanqui.

 

"Le prochain objectif, ou le prochain défi, est de travailler sur la parole", a déclaré Arturo Oncevay, chercheur péruvien en traduction automatique à l'Université d'Édimbourg, et cofondateur d’un groupe de recherche visant à améliorer la technologie des langues indigènes sur tout le continent américain. "Les langues amérindiennes sont traditionnellement orales".

 

Dans son communiqué, Google a prévenu que la qualité des traductions dans les langues nouvellement ajoutées "est à la traîne" en comparaison aux autres langues que le logiciel prend en charge, comme l'anglais, l'espagnol et l'allemand. Google a également souligné que les modèles "feront des erreurs et afficheront leurs propres biais". Cependant, la société californienne n'ajoute des langues que si ses systèmes d'IA atteignent un certain seuil de compétence, a précisé Caswell.

"Si nous recensons des grosses erreurs en grand nombre, nous n’incluons pas la langue", ajoute-t-il. « Si 90% des traductions sont parfaites, et que seules 10% d’entre elles ne font aucun sens, nous ne sommes pas satisfaits".

Google a déclaré que ses produits prennent désormais en charge 133 langues. Les 24 dernières constituent le plus grand lot d’ajouts depuis que Google a incorporé 16 langues en 2010. Ce que le géant américain appelle un modèle de traduction automatique "zero-shot" ou "zero-resource" est à l’origine de cette augmentation. Il s’agit d’un modèle qui apprend à traduire dans une autre langue sans jamais en voir d’échantillon.

Meta, la société mère de Facebook et d'Instagram, a présenté l'année dernière un projet similaire sous le nom de traducteur vocal universel.

 

 

google gets more multi 2

Des livres écrits en langue indigène quechua sont disposés derrière un élève assistant à un cours sur les plantes médicinales, dans une école primaire publique à Licapa, au Pérou. Photo prise le mercredi 1er septembre 2021.

 

 

Le modèle de Google fonctionne en formant un "gigantesque réseau de neurones" à partir d’une centaine de langues riches en données, puis en appliquant ce qu'il a appris à des centaines d'autres langues qu'il ne connaît pas, a expliqué Caswell. "On peut le comparer à un polyglotte qui commencerait à lire des romans dans une langue inconnue. Il peut commencer à déduire le sens de ce qu’il lit en se basant sur les connaissances générales qu’il a acquises à partir des langues qu’il connaît", a-t-il expliqué.

Selon lui, le nouveau groupe comprend aussi bien des petites langues comme le mizo, parlé dans le nord-est de l'Inde par environ 800 000 personnes, que des langues plus répandues comme le lingala, parlé par environ 45 millions de personnes en Afrique centrale.

 

Il y a plus de 15 ans, en 2006, Microsoft avait marqué les esprits en Amérique du Sud grâce à un logiciel traduisant en quechua ses menus et commandes principaux. Mais c'était avant la vague actuelle de progrès réalisés par l'IA en matière de traduction en temps réel.

Américo Mendoza-Mori, spécialiste des langues à l'université de Harvard et locuteur du quechua, a estimé que l'attention que lui porte Google lui confère une certaine visibilité bien nécessaire dans des endroits comme le Pérou, où de nombreux services publics sont dépourvus de personnel parlant cette langue. La survie de bon nombre de ces langues "dépendra de leur utilisation dans des contextes numériques", a-t-il ajouté.

Un autre spécialiste des langues, Roberto Zariquiey, s’est montré sceptique quant à la capacité de Google à créer un outil de redynamisation efficace du quechua, de l'aymara ou du guarani sans une collaboration plus étroite avec les communautés de la région.

"Les langues sont profondément liées aux vies, aux cultures, aux groupes ethniques et aux organisations politiques", a affirmé Zariquiey, linguiste à l'Université pontificale catholique du Pérou. "Cela devrait être pris en compte".


--
Les nouvelles langues ajoutées sont : l’assamais, l’aymara, le bambara, le bhodjpouri, le dhivehi, le dogri, l’éwé, le guarani, l’ilocano, le konkani, le krio, le lingala, le luganda, le maïthili, le meitei (manipuri), le mizo, l’oromo, le quechua, le sanskrit, le sepedi, le sorani kurde, le tigrigna, le tsonga et le twi.

 

 

Traduit de l'anglais par Renaud Barraquier