publication . Conference object . 2020

Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

Martin, Louis; Muller, Benjamin; Ortiz Suárez, Pedro Javier; Dupont, Yoan; Romary, Laurent; Villemonte de la Clergerie, Eric; Sagot, Benoît; Seddah, Djamé;
French
  • Published: 08 Jun 2020
  • Publisher: HAL CCSD
Abstract
Les modèles de langue neuronaux contextuels sont désormais omniprésents en traitement automatique des langues. Jusqu’à récemment, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur BERT (Devlin et al., 2019), notamment pour le français, a démontré l’intérêt de ces modèles en améliorant l’état de l’art pour toutes les tâches évaluées. Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al...
Subjects
free text keywords: Modèles de langue contextuels, BERT, CamemBERT, Impact jeu de données, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Funded by
ANR| PRAIRIE
Project
PRAIRIE
PaRis Artificial Intelligence Research InstitutE
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-19-P3IA-0001
,
ANR| BASNUM
Project
BASNUM
Digitization and analysis of the Dictionnaire universel by Basnage de Beauval: lexicography and scientific networks
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-18-CE38-0003
,
ANR| SoSweet
Project
SoSweet
A sociolinguistics of Twitter : social links and linguistic variations
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-15-CE38-0011
,
ANR| PARSITI
Project
PARSITI
Parsing the Impossible, Translating the Improbable
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-16-CE33-0021
Any information missing or wrong?Report an Issue