Technologies linguistiques de pointe en arménien occidental
08 juil. 2021
Le Département des communautés arméniennes est ravi d’annoncer que la banque d’arbres des dépendances universelles de l’Arménie occidentale a été publiée le 15 mai 2021 et est désormais disponible sur la page Web du Consortium des dépendances universelles.
Un Treebank est essentiel pour la vitalité de toute langue. C’est un outil linguistique qui analyse et décrit la structure de la langue, en identifiant ses différentes composantes de manière à ce que les programmes informatiques puissent fonctionner avec elle. Grâce aux treebanks, les programmes liés au langage pourraient identifier, par exemple, quel est le verbe dans la phrase, quel est le nom, l’adverbe, le point d’interrogation, etc., sur la base desquels des applications pratiques peuvent être développées. En termes techniques, il s’agit d’une base de données de phrases annotées avec des informations syntaxiques. Treebanks a révolutionné la linguistique informatique au début des années 1990, après l’expansion des méthodes d’apprentissage automatique et des réseaux de neurones artificiels dans le domaine du traitement du langage naturel.
Les Treebanks jouent un rôle crucial dans le développement de systèmes modernes de traitement du langage tels que la traduction automatique, les étiqueteurs de parties du discours, les parseurs, les analyseurs sémantiques, etc. « En termes simples », a expliqué Razmik Panossian, le directeur du département, « pour qu’une langue puisse être traduite via des outils en ligne, qu’elle ait ses propres programmes de correction orthographique et de grammaire, et qu’elle ait les moyens de traiter l’intelligence artificielle dans cette langue, elle a besoin son propre Treebank. Nous sommes particulièrement heureux que la Fondation ait joué un rôle central dans la mise à disposition de la Treebank d’Arménie occidentale à tous ceux qui souhaitent travailler à l’intersection de la langue et de la technologie.
Universal Dependencies est un projet qui développe une annotation Treebank cohérente sur le plan linguistique pour de nombreuses langues, incluant désormais l’arménien oriental et occidental. Il fournit un inventaire universel de catégories et de directives pour aider à une annotation cohérente de constructions similaires dans toutes les langues, tout en permettant des extensions spécifiques à la langue si nécessaire.
La nouvelle Treebank est basée sur la section arménienne occidentale de la Treebank de la dépendance arménienne, développée par l’équipe ArmTDP dirigée par Marat M. Yavrumyan (Université d’État d’Erevan) et Hrant H. Khachatrian (laboratoire de recherche YerevaNN). La Treebank de l’Arménie Occidentale est l’une des 202 Treebanks disponibles en 114 langues. Il a été créé entièrement manuellement et peut donc être utilisé comme données de référence de Treebank dans la plupart des tâches de traitement du langage naturel pour l’arménien occidental. D’ici la fin de 2021, la deuxième version étendue de la Treebank sera publiée.
La banque d’arbres d’Arménie occidentale se compose actuellement de 1780 phrases, contenant 7,5 millions de mots, compilées à partir de 110 œuvres de plus de 50 auteurs de 1895 à 2010, dans de nombreux genres tels que la fiction, les correspondances personnelles et officielles, les récits de voyage, les discours politiques et littéraires, les mémoires et notes de voyage. Il est basé sur le corpus de la bibliothèque numérique de littérature arménienne de l’Université américaine d’Arménie (Digilib).
La banque d’arbres de l’arménien occidental et les solutions de traitement du langage naturel développées sur sa base sont décisives pour apporter des technologies linguistiques de pointe à l’arménien, garantissant la vitalité de la langue à l’ère numérique moderne.
Lire cet article en arménien
Lire cet article en Anglais
gulbenkian.pt/armenian-communities/2021/07/08/state-of-the-art-language-technologies-in-western-armenian/