La R&D d’Ubiqus fait son benchmark sur des tâches WMT

Chaque année se tient la Conférence sur la Traduction Machine Automatique (appelée précédemment Atelier sur la traduction machine statistique et animée par l’EMNLP ou l’ACL).
Les organisateurs développent des jeux de données provenant de sources publiques et invitent les acteurs de la NMT, universitaires et entreprises à participer à un concours amical et à publier leurs résultats sur la base de leurs moteurs les plus récents.
Les tâches changent tous les ans mais une référence continue depuis des années est la traduction d’« Actualités » de l’anglais vers l’allemand.
De nombreux articles de recherche ont été publiés sur la base de cette tâche qu’on appelle WMT. Le jeu de données test (test set) pour mesurer les performances change également tous les ans.

Chez Ubiqus, nous développons notre moteur de Traduction Machine (NMT) à partir des données propriétaires. Cela donne une qualité bien supérieure, mais en guise de comparaison, nous voulions montrer nos derniers résultats basés sur le jeu de test WMT.

Nous utilisons le score « Cased BLEU » (sacreBLEU cased sensitive) qui donne une idée de la performance. Toutefois, il est de notoriété publique que :

(1) ce n’est pas une mesure parfaite pour la NMT, et

(2) il existe différentes manières d’utiliser le BLEU.

Pour la tâche anglais-allemand, 20.6 a été le meilleur score BLEU lors de la conférence de 2014.

Google a publié un article en septembre 2016 intitulé : « Bridging the Gap between Human and Machine Translation » avec des résultats améliorés basés sur une architecture LSTM profonde :
>> Modèle unique : 24.6
>> Ensemble de 8 modèles : 26.3

Le problème est qu’ils ont utilisé un BLEU différent du calcul officiel WMT/NIST, ce qui a conduit à une légère surestimation.

En juin 2017, Google (encore lui !) a publié un autre article présentant les résultats obtenus sur la même tâche : «Attention Is All You Need », qui a introduit une nouvelle architecture qu’ils appelaient «Transformer”.
Cela a créé une nouvelle amélioration significative de la performance :
>> Modèle unique : 28.4

Là encore, ce score était comparable à leur précédent article mais surestimé par rapport à la méthode officielle.

Notre objectif : obtenir le score  BLEU le plus élevé avec le jeu de test WMT

Depuis lors, il y a eu de légères améliorations introduites par divers articles de recherche. Comme le jeu d’entraînement  WMT  est assez restreint (4,5 millions de phrases parallèles), certains chercheurs ont introduit le concept d’amélioration des données par la traduction à rebours (back translation) de données monolingues en langue cible. Cela consiste à traduire un très grand nombre de phrases de l’allemand vers l’anglais pour lesquelles un modèle pré-entraîné de NMT va créer un corpus « synthétique » de données complémentaires.

Nous avons mis en place toutes les améliorations précédentes ainsi que cette technique d’enrichissement pour comparer notre modèle à Google Traduction et DeepL (deux moteurs de traduction en ligne populaires qui utilisent probablement beaucoup plus de données que les jeux de  données publiques WMT).
Nous avons donné un score BLEU à tous les jeux de test des années 2014 à 2018 pour la tâche ‘Anglais à Allemand’ :

Cased BLEU 2014 2015 2016 2017 2018 Moyenne
Google Translate 29.5 32.4 36.3 30.4 44.9 34.7
DeepL 30.9 33.4 39.4 31.7 47.6 36.6
Ubiqus NMT 34.0 34.7 39.3 33.3 46.9 37.6

La première remarque est que Ubiqus NMT est nettement meilleur que Google Traduction et globalement mieux que DeepL*

*sauf pour les années 2016 et 2018

La deuxième remarque est que nous obtenons un score bien supérieur à ceux mentionnés dans les articles précédents, grâce à l’ajout d’améliorations récentes et à l’utilisation des données issues de la traduction à rebours (back translation).
D’autant plus que nous n’avons utilisé que des données publiques pour cette tâche, ce qui est probablement un volume bien moindre que ce que Google Translate et DeepL utilisent.

Vous pouvez tester ces résultats sur 
www.ubiqus.io/translator
et sélectionner la spécialisation “WMT”.

 

Afin de valider notre approche, nous avons appliqué la même méthode à une autre tâche moins populaire : ’Russe à  Anglais .

Cased BLEU 2017 2018 Moyenne
Google Translate 38.7 33.3 36.0
DeepL 38.7 33.6 36.1
Ubiqus NMT 39.6 34.0 36.8

Nous avons fait mieux que chaque moteur, avec les jeux de test des deux années.

Etat de l’art ?

Pour la compétition WMT, les universitaires affichent également de très bons résultats. Cependant, la plupart du temps, ils utilisent les résultats de ce que nous appelons des techniques d’Ensemble et de Re-ranking  :

  • Ensemble = faire travailler plusieurs modèles en parallèle ;
  • Re-ranking = faire sortir plusieurs propositions au modèle pour chaque phrase, et réarranger pour choisir la supposée meilleure

Ces deux étapes de post-traitement donnent de meilleurs résultats mais ne sont pas réellement « adaptées à la production » car elles nécessitent plus de calcul au moment de la traduction.

Cependant, nous nous sommes comparés aux dernières avancées de facebook publiées dans l’article : «Understanding Back-Translation at Scale».
En effet, nous avons utilisé des techniques très similaires et notre framework (OpenNMT-py) est proche du leur.
Cet article affiche un score BLEU de 33.8 sur la même tâche Anglais-Allemand (comparable au 34.0 de Ubiqus NMT).

Une grande différence cependant est que nous n’avons utilisé que 4 GPU sur une seule machine pendant 50 heures d’apprentissage alors qu’ils disent avoir utilisé 128 GPU pendant 22,5 heures.

Notre intuition est que nous avons utilisé de meilleurs filtres/sélections de nos données en amont du traitement et nous avons optimisé les petites améliorations de notre transformer.

Au final, nous souhaitions vérifier si nous pouvions atteindre le score de l’état de l’art de la conférence WMT ‘18. Un toolkit appelé Marian-NMT – désormais au sein de Microsoft Translator – a publié un score de 48.3 pour le jeu de tests de 2018 lorsque notre modèle unique affichait 46.9.

Nous n’avons pas pris le temps de reproduire leur article mais en effectuant un re-ranking (réarrangement de N meilleures propositions) d’un unique modèle, nous apportons une amélioration de +0.5 point. De plus, créer un ensemble  de deux modèles nous amènerait à 48.1 !

Pour rappel, ces techniques ne sont pas utilisables en environnement de production.

Quid des moteurs basés sur des données propriétaires ? Quid de la production ?

En tant que société de traduction, notre objectif principal est de rendre le résultat de nos recherches accessibles à nos clients. Pour ce faire, nous avons utilisé l’un de nos modèles déjà entrainés pour la traduction d’un document de l’un de nos client et l’avons comparé avec Google Traduction et DeepL.

Nos moteurs travaillant sur le couple de langues anglais / français canadien ont obtenu les scores BLEU suivants :

Anglais à Français-Canadien Français-Canadien  à Anglais
Google Translate 33.4 43.2
 DeepL 37.1 46.0
Ubiqus NMT 48.2 46.9

Cela se passe de commentaires…

Pour l’anglais vers le français canadien, nous utilisons un moteur très spécifique, tandis que Google ou DeepL ne distinguent pas le français de France du français canadien.

Dans le sens « vers l’anglais », nos scores sont beaucoup plus proches puisque la cible est l’anglais indifférencié pour tous.

À ce jour, nous savons que nous pouvons reproduire les mêmes résultats dans les diverses spécialisations de nos clients (sciences de la vie, finance, juridique, etc.).

La traduction automatique neuronale (NMT) est une discipline captivante et magique qui attire les meilleurs chercheurs en apprentissage automatique au monde. Mais lorsqu’il s’agit de l’appliquer à la production réelle, nous devons intégrer à la fois les « aspects techniques », les problèmes linguistiques ainsi que ceux liés à la production d’une traduction (comme la gestion de balises de texte ou des obstacles du même acabit).

 

 

Testez nos moteurs sur https://www.ubiqus.io/translator

Et lire :

How Ubiqus Deploys Neural Machine Translation in Language Operations

 

Cet article a été rédigé parVincent Nguyen, Président du Groupe Ubiqus

Catégories : InfosPresseTraduction

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *