project . 2017 - 2021 . Closed

PINFRA/22117/2016

Common Language Resources and Technology Infrastructure
Fundação para a Ciência e a Tecnologia, I.P.
Funder: Fundação para a Ciência e a Tecnologia, I.P.Project code: PINFRA/22117/2016
Funded under: 9444 - RNIIIE Funder Contribution: 1,885,800 EUR
Status: Closed
20 Jun 2017 (Started) 19 Jun 2021 (Ended)
Description
CLARIN LP is the national node of the European research infrastructure named Common Language Resources Infrastructure CLARIN. The CLARIN European Research Infrastructure Consortium CLARIN ERIC is a transnational distributed research infrastructure whose construction started in March 2012 and at present has 17 states as members, including Portugal, whose acession took place in 2014. The present construction phase was preceded by a 3.5 year preparation phase, supported by an FP7 Project 2008-2011. Previous to this preparatory project, there was an initial proposal in 2006, submited to a competitive call of the European Strategy Forum for Research Infrastructures ESFRI, which was evaluated positively, and CLARIN was one of the 34 research infrastructures right in the first version of the ESFRI Roadmap. CLARIN makes resources and technology available and useful to scholars and experts from all disciplines whose topics of inquiry, development or innovation concerns or are related to human language, with special relevance to the humanities and social sciences, and to the cognitive and computation sciences. It will be serving researchers when one needs to use a processing tool e.g. terminology extractor; concordancer; etc., to get a chunk of data e.g. utterances of sign language from deaf children in video records; the words for concepts in the subontology of Organizations; etc., or to use a fully equipped virtual workbench e.g. to support field work to document an endangered language; to do research on statistical machine translation; etc. It grants access to passive and active research materials and aids. These include datasets e.g. linguistically interpreted corpora; terminology banks; EEG recordings from neurolinguistic experiments; etc., research specific applications e.g. lemma frequency extractors; treebanking annotators; etc., or language processing tools e.g. POS taggers; deep linguistic processing grammars; etc. It makes it possible for these assets to be combined, merged or pipelined, in what distinctively makes of it much more than a mere repository of data. The national node ensures the access to the CLARIN ERIC trust domain. It is necessary to provide access by researchers of Portuguese speaking teams to the international RI, including its global repository of datasets and, above all, the operation of language processing aids and related research supportive webservices. Concomitantly, and crucially, the national node will grant the access to datasets, processing tools and services that are specific of the Portuguese language. This node is thus a sine qua non condition for advanced world class research involving the Portuguese language to be supported by the research infrastructure. A CLARIN LP é o nó nacional da infraestrutura de investigação europeia denominada Infraestrutura de Recursos Linguísticos Comuns CLARIN - Common Language Resources Infrastructure. O Consórcio Europeu de Infraestrutura de Investigação do CLARIN CLARIN ERIC é uma infraestrutura de investigação transnacional e distribuída cuja construção teve início em março de 2012 e que atualmente tem 17 Estados como membros, incluindo Portugal, cuja adesão teve lugar em 2014. A atual fase de construção foi precedida por uma fase de preparação, de três anos e meio, financiada por um projeto FP7 2008-2011. Este projeto preparatório, por sua vez, foi precedido de uma proposta inicial, de 2006, submetida a um concurso do Fórum Estratégico Europeu para as Infraestruturas de Investigação ESFRI, a qual foi positivamente avaliada, tendo a CLARIN sido uma das 34 infraestruturas de investigação da primeira versão do Roteiro ESFRI. A CLARIN disponibiliza recursos e tecnologias úteis para académicos e peritos de várias áreas científicas cujos tópicos de investigação, desenvolvimento ou inovação dizem respeito ou estão relacionados com a linguagem humana, com particular relevância para as humanidades e as ciências sociais, assim como para a ciência cognitiva e as ciências da computação. Esses recursos científicos estarão ao serviço dos investigadores sempre que for preciso utilizar uma ferramenta de processamento p. ex., um extrator de terminologia; um concordanciador; etc, de reunir dados de um determinado tipo p. ex., enunciados de língua gestual produzidos por crianças surdas em gravações de vídeo; palavras relacionadas com a subontologia das Organizações; etc, ou de usar uma bancada virtual amplamente equipada p. ex., para apoiar o trabalho de campo sobre uma língua ameaçada; para fazer investigação em tradução automática estatística; etc. A infraestrutura garante assim o acesso a materiais e apoios cruciais para a investigação, tanto passivos como ativos. Estes incluem bases de dados p. ex., corpora anotados; registos EEG em experiências neurolinguísticas; etc, aplicações específicas para a investigação p. ex., extratores de frequências de lemas; anotadores sintáticos; etc, ou ferramentas de processamento da linguagem p. ex., classificadores morfo-sintáticos; gramáticas para o processamento linguístico profundo; etc. Estes recursos podem-se combinar, fundir ou interligar, no que faz da infraestrutura muito mais do que um mero repositório de dados. O nó nacional assegura o acesso à CLARIN ERIC. É necessário para garantir o acesso dos investigadores de equipas de língua portuguesa aos recursos de investigação globais da infraestrutura. Concomitantemente, e crucialmente, garantirá o acesso a bases de dados, ferramentas de processamento e serviços específicos para a língua portuguesa. Este nó é uma condição sine qua non para que investigação de ponta de nível mundial envolvendo a língua portuguesa seja apoiada pela infraestrutura.
Partners
Data Management Plans