publication . Conference object . 2020

Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l'hétérogénéité des données d'entrainement

Martin, Louis; Muller, Benjamin; Ortiz Suárez, Pedro Javier; Dupont, Yoan; Romary, Laurent; Villemonte de la Clergerie, Eric; Sagot, Benoît; Seddah, Djamé;
French
  • Published: 08 Jun 2020
  • Publisher: HAL CCSD
  • Country: France
Abstract
National audience; Contextual word embeddings have become ubiquitous in Natural Language Processing. Until recently,most available models were trained on English data or on the concatenation of corpora in multiplelanguages. This made the practical use of models in all languages except English very limited.The recent release of monolingual versions of BERT (Devlinet al., 2019) for French establisheda new state-of-the-art for all evaluated tasks. In this paper, based on experiments on CamemBERT(Martinet al., 2019), we show that pretraining such models on highly variable datasets leads to betterdownstream performance compared to models trained on more uniform data. Moreover, we show thata relatively small amount of web crawled data (4GB) leads to downstream performances as good as amodel pretrained on a corpus two orders of magnitude larger (138GB); Les modèles de langue neuronaux contextuels sont désormais omniprésents en traitement automatique des langues. Jusqu’à récemment, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur BERT (Devlin et al., 2019), notamment pour le français, a démontré l’intérêt de ces modèles en améliorant l’état de l’art pour toutes les tâches évaluées. Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al., 2019), nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante, nous montrons que l’utilisation d’un ensemble relativement petit de données issues du web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données plus grands de deux ordres de grandeurs (138Go).
Subjects
free text keywords: CamemBERT, BERT, Dataset impact, Contextual language models, Impact jeu de données, Modèles de langue contextuels, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL]
Funded by
ANR| SoSweet
Project
SoSweet
A sociolinguistics of Twitter : social links and linguistic variations
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-15-CE38-0011
,
ANR| BASNUM
Project
BASNUM
Digitization and analysis of the Dictionnaire universel by Basnage de Beauval: lexicography and scientific networks
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-18-CE38-0003
,
ANR| PRAIRIE
Project
PRAIRIE
PaRis Artificial Intelligence Research InstitutE
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-19-P3IA-0001
,
ANR| PARSITI
Project
PARSITI
Parsing the Impossible, Translating the Improbable
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-16-CE33-0021
Any information missing or wrong?Report an Issue