• shareshare
  • link
  • cite
  • add
auto_awesome_motion View all 3 versions
Publication . Doctoral thesis . 2020

Reconnaissance automatique de chaînes de coréférences en français parlé

Grobol, Loïc;
Published: 15 Jul 2020
Publisher: HAL CCSD
A coreference chain is the set of linguistic expressions — or mentions — that refer to the same entity or discourse object in a given document. Coreference resolution consists in detecting all the mentions in a document and partitioning their set into coreference chains. Coreference chainsplay a central role in the consistency of documents and interactions, and their identification has applications to many other fields in natural language processing that rely on an understanding of language, such as information extraction, question answering or machine translation. Natural language processing systems that perform this task exist for many languages, but none for French — which suffered until recently from a lack of suitable annotated resources — and none for spoken language.In this thesis, we aim to fill this gap by designing a coreference resolution system for spoken French. To this end, we propose a knowledge-poor system based on an end-to-end neural network architecture, which obviates the need for the preprocessing pipelines common in existing systems, while maintaining performances comparable to the state-of-the art. We then propose extensions on that baseline, by augmenting our system with external knowledge obtained from resources and preprocessing tools designed for written French. Finally, we propose a new standard representation for coreference annotation in corpora of written and spoken languages, and demonstrate its use in a new version of ANCOR, the first coreference corpus of spoken French.; Une chaîne de coréférences est l’ensemble des expressions linguistiques — ou mentions — qui font référence à une même entité ou un même objet du discours. La tâche de reconnaissance des chaînes de coréférences consiste à détecter l’ensemble des mentions d’un document et à lepartitionner en chaînes de coréférences. Ces chaînes jouent un rôle central dans la cohérence des documents et des interactions et leur identification est un enjeu important pour de nombreuses autres tâches en traitement automatique du langage, comme l’extraction d’informations ou la traduction automatique. Des systèmes automatiques de reconnaissance de chaînes de coréférence existent pour plusieurs langues, mais aucun pour le français ni pour une langue parlée.Nous nous proposons dans cette thèse de combler ce manque par un système de reconnaissance automatique de chaînes de coréférences pour le français parlé. À cette fin, nous proposons un système utilisant des réseaux de neurones artificiels et ne nécessitant pas de ressources externes.Ce système est viable malgré le manque d’outils de prétraitements adaptés au français parléet obtient des performances comparable à l’état de l’art. Nous proposons également des voies d’amélioration de ce système, en y introduisant des connaissances issues de ressources et d’outilsconçus pour le français écrit. Enfin, nous proposons un nouveau format de représentation pour l’annotation des chaînes de coréférences dans des corpus de langues écrites et parlées et en nous en donnons un exemple en proposant une nouvelle version d’ANCOR — le premier corpus de français annoté en coréférence.

Natural language processing, Annotations representation, Corpus, Annotated resources, Machine learning, Artificial neural networks, Coreference, Anaphora, Traitement automatique du langage naturel, Formats d’annotation, Ressources annotées, Apprentissage artificiel, Réseaux de neurones artificiels, Coréférence, Anaphore, [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL], [INFO.INFO-LG]Computer Science [cs]/Machine Learning [cs.LG], [SCCO.LING]Cognitive science/Linguistics, [SHS.LANGUE]Humanities and Social Sciences/Linguistics

Funded by
Describing and Modelling Reference Chains: Tools for Corpus Annotation (including diachronic and comparative language studies) and Automatic Processing
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-15-CE38-0008
Empirical Foundations of Linguistics : data, methods, models
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-10-LABX-0083
PRocessing Old French Instrumented TExts for the Representation Of Language Evolution
  • Funder: French National Research Agency (ANR) (ANR)
  • Project Code: ANR-16-CE38-0010
Related to Research communities