Évaluer les modèles de langue pré-entraînés avec des propriétés de hiérarchie - Recherche d’Information et Synthèse d’Information Accéder directement au contenu
Communication Dans Un Congrès Année : 2024

Évaluer les modèles de langue pré-entraînés avec des propriétés de hiérarchie

Résumé

Since Pretrained Language Models (PLMs) are the cornerstone of the most recent Information Retrieval models, the way they encode semantic knowledge is particularly important. However, little attention has been given to studying the PLMs’ capability to capture hierarchical semantic knowledge. Traditionally, evaluating such knowledge encoded in PLMs relies on their performance on task-dependent evaluations based on proxy tasks, such as hypernymy detection. Unfortunately, this approach potentially ignores other implicit and complex taxonomic relations. In this work, we propose a task-agnostic evaluation method able to evaluate to what extent PLMs can capture complex taxonomy relations, such as ancestors and siblings. This evaluation, based on intrinsic properties capturing these relations, shows that the lexico-semantic knowledge implicitly encoded in PLMs does not always capture hierarchical relations. We further demonstrate that the proposed properties can be injected into PLMs to improve their understanding of hierarchy. Through evaluations on taxonomy reconstruction, hypernym discovery and reading comprehension tasks, we show that knowledge about hierarchy is moderately but not systematically transferable across tasks. This is the summary of the published paper "Probing Pretrained Language Models with Hierarchy Properties" at ECIR 2024 (Lovón-Melgarejo et al., 2024).
Étant donné que les modèles de langue pré-entraînés (PLM) constituent la pierre angulaire des modèles de recherche d'informations les plus récents, la façon dont ils encodent la connaissance sémantique est particulièrement importante.Cependant, on s'est peu intéressé à la capacité des PLM à capturer la connaissance sémantique hiérarchique. Traditionnellement, l'évaluation de ces connaissances codées dans les PLM s'appuie sur leurs performances lors d'évaluations dépendantes de la tâche, basées sur des tâches proxy telles que la détection d'hyperonymes.Malheureusement, cette approche ignore potentiellement d'autres relations taxonomiques implicites et complexes.Dans ce travail, nous proposons une méthode d'évaluation indépendante de la tâche, capable d'évaluer dans quelle mesure les PLM peuvent capturer des relations taxonomiques complexes, telles que les ancêtres et les frères et sœurs.Cette évaluation, basée sur des propriétés intrinsèques capturant ces relations, montre que les connaissances lexico-sémantiques codées implicitement dans les PLM ne capturent pas toujours les relations hiérarchiques. Nous démontrons en outre que les propriétés proposées peuvent être injectées dans les PLM pour améliorer leur compréhension de la hiérarchie. Grâce à des évaluations portant sur la reconstruction de taxonomies, la découverte d'hyperonymes et la compréhension de lecture, nous montrons que la connaissance de la hiérarchie est modérément transférable entre les tâches, mais pas de manière systématique.Ceci est le résumé de l'article ``Probing Pretrained Language Models with Hierarchy Properties'' publié à ECIR 2024.
Fichier principal
Vignette du fichier
6262.pdf (60.23 Ko) Télécharger le fichier
Origine Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-04622995 , version 1 (28-06-2024)

Licence

Identifiants

  • HAL Id : hal-04622995 , version 1

Citer

Jesús Lovón-Melgarejo, Jose G Moreno, Romaric Besançon, Olivier Ferret, Lynda Tamine. Évaluer les modèles de langue pré-entraînés avec des propriétés de hiérarchie. 31ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2024), Les équipes de recherche SAMoVA, MELODI et IRIS de l’Institut de Recherche en Informatique de Toulouse (IRIT UMR 5505); L’équipe PLC du laboratoire Cognition, Langues, Langage, Ergonomie (CLLE UMR 5263); L’axe neurocognition langagière, linguistique et phonétique cliniques du laboratoire de NeuroPsychoLinguistique (LNPL URI EA 4156), Jul 2024, Toulouse, France. pp.6--7. ⟨hal-04622995⟩

Relations

0 Consultations
0 Téléchargements

Partager

Gmail Mastodon Facebook X LinkedIn More