Actions
  • shareshare
  • link
  • cite
  • add
add
auto_awesome_motion View all 2 versions
Publication . Doctoral thesis . 2020

Assisted authoring for avoiding inadequate claims in scientific reporting

Koroleva, Anna;
English
Published: 22 Jan 2020
Publisher: HAL CCSD
Abstract

In this thesis, we report on our work on developing Natural Language Processing (NLP) algorithms to aid readers and authors of scientific (biomedical) articles in detecting spin (distorted presentation of research results). Our algorithm focuses on spin in abstracts of articles reporting Randomized Controlled Trials (RCTs). We studied the phenomenon of spin from the linguistic point of view to create a description of its textual features. We annotated a set of corpora for the key tasks of our spin detection pipeline: extraction of declared (primary) and reported outcomes, assessment of semantic similarity of pairs of trial outcomes, and extraction of relations between reported outcomes and their statistical significance levels. Besides, we anno-tated two smaller corpora for identification of statements of similarity of treatments and of within-group comparisons. We developed and tested a number of rule-based and machine learning algorithmsforthe key tasksof spindetection(outcome extraction,outcome similarity assessment, and outcome-significance relation extraction). The best performance was shown by a deep learning approach that consists in fine-tuning deep pre-trained domain-specific language representations(BioBERT and SciBERT models) for our downstream tasks. This approach was implemented in our spin detection prototype system, called De-Spin, released as open source code. Our prototype includes some other important algorithms, such as text structure analysis (identification of the abstract of an article, identification of sections within the abstract), detection of statements of similarity of treatments and of within-group comparisons, extraction of data from trial registries. Identification of abstract sections is performed with a deep learning approach using the fine-tuned BioBERT model, while other tasks are performed using a rule-based approach. Our prototype system includes a simple annotation and visualization interface; Dans cette thèse, nous présentons notre travail sur le développement d’algorithmes de traitement automatique des langues (TAL) pour aider les lecteurs et les auteurs d’articles scientifiques (biomédicaux) à détecter le spin (présentation inadéquate des résultats de recherche). Notre algorithme se concentre sur le spin dans les résumés d’articles rapportant des essais contrôlés randomisés.Nous avons étudié le phénomène de ” spin ” du point de vue linguistique pour créer une description de ses caractéristiques textuelles. Nous avons annoté des corpus pour les tâches principales de notre chaîne de traitement pour la détection de spin: extraction des résultats —en anglais ” outcomes ” —déclarés (primaires) et rapportés, évaluation de la similarité sémantique des paires de résultats d’essais et extraction des relations entre les résultats rapportés et leurs niveaux de signification statistique. En outre, nous avons annoté deux corpus plus petits pour identifier les déclarations de similarité des traitements et les comparaisons intra-groupe. Nous avons développé et testé un nombre d’algorithmes d’apprentissage automatique et d’algorithmes basés sur des règles pour les tâches principales de la détection de spin (extraction des résultats, évaluation de la similarité des résultats et extraction de la relation résultat-signification statistique). La meilleure performance a été obtenues par une approche d’apprentissage profond qui consiste à adapter les représentations linguistiques pré-apprises spécifiques à un domaine (modèles de BioBERT et SciBERT) à nos tâches. Cette approche a été mise en oeuvre dans notre système prototype de détection de spin, appelé DeSpin, dont le code source est librement accessible sur un serveur public. Notre prototype inclut d’autres algorithmes importants, tels que l’analyse de structure de texte (identification du résumé d’un article,identification de sections dans le résumé), la détection de déclarations de similarité de traitements et de comparaisons intra-groupe, l’extraction de données de registres d’essais. L’identification des sections des résumés est effectuée avec une approche d’apprentissage profond utilisant le modèle BioBERT, tandis que les autres tâches sont effectuées à l’aide d’une approche basée sur des règles. Notre système prototype a une interface simple d’annotation et de visualisation.

Subjects

Natural Language Processing, Biomedical Informatics, Spin, Traitement automatique du langage naturel, Informatique biomédicale, [INFO.INFO-BI]Computer Science [cs]/Bioinformatics [q-bio.QM], [INFO.INFO-IR]Computer Science [cs]/Information Retrieval [cs.IR], [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing

28 references, page 1 of 3

S. Ananiadou, B. Rea, N. Okazaki, R. Procter, and J. Thomas. Supporting systematic reviews using text mining. Social Science Computer Review - SOC SCI COMPUT REV, 27:509-523, 10 2009. doi: 10.1177/0894439309332293.

J. Austin, C. Smith, K. Natarajan, M. Som, C. Wayant, and M. Vassar. Evaluation of spin within abstracts in obesity randomized clinical trials: A cross-sectional review: Spin in obesity clinical trials. Clinical Obesity, 9:e12292, 12 2018. doi: 10.1111/cob.12292.

C. Barnes, I. Boutron, B. Giraudeau, R. Porcher, D. Altman, and P. Ravaud. Impact of an online writing aid tool for writing a randomized trial report: The cobweb (consort-based web tool) randomized controlled trial. BMC medicine, 13:221, 09 2015. doi: 10.1186/ s12916-015-0460-y.

I. Beltagy, A. Cohan, and K. Lo. Scibert: Pretrained contextualized embeddings for scientific text. arXiv preprint arXiv:1903.10676, 2019.

C. Blake and A. Lucic. Automatic endpoint detection to support the systematic review process. J. Biomed. Inform, 2015. [OpenAIRE]

F. Boardman, N. M. Cavender, and H. Kahane. Logic and Contemporary Rhetoric: The Use of Reason in Everyday Life. 13 edition. Cengage Learning, 2017.

I. Boutron, S. Dutton, P. Ravaud, and D. Altman. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA, 2010. [OpenAIRE]

I. Boutron, D. Altman, S. Hopewell, F. Vera-Badillo, I. Tannock, and P. Ravaud. Impact of spin in the abstracts of articles reporting results of randomized controlled trials in the field of cancer: the SPIIN randomized controlled trial. Journal of Clinical Oncology, 2014.

C. M. Cooper, H. M. Gray, A. E. Ross, T. A. Hamilton, J. B. Downs, C. Wayant, and M. Vassar. Evaluation of spin in the abstracts of otolaryngology randomized controlled trials: Spin found in majority of clinical trials. The Laryngoscope, 12 2018. doi: 10.1002/lary.27750.

J. Devlin, M. Chang, K. Lee, and K. Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. URL http:// arxiv.org/abs/1810.04805.

Funded by
EC| MIROR
Project
MIROR
Methods in Research on Research
  • Funder: European Commission (EC)
  • Project Code: 676207
  • Funding stream: H2020 | MSCA-ITN-EJD
Related to Research communities
moresidebar