Powered by OpenAIRE graph
Found an issue? Give us feedback
ZENODOarrow_drop_down
ZENODO
Dataset . 2025
License: CC BY
Data sources: Datacite
ZENODO
Dataset . 2025
License: CC BY
Data sources: Datacite
versions View all 2 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

NOS_Corpus_Administrativo-Legal. Corpus de dominio administrativo-legal.

Authors: Paniagua Suárez, Silvia; Gamallo, Pablo;

NOS_Corpus_Administrativo-Legal. Corpus de dominio administrativo-legal.

Abstract

Corpus de dominio administrativo-legal Descripción general El corpus de dominio administrativo-legal reúne textos oficiales procedentes de boletines y diarios institucionales de Galicia, representativos del uso formal, normativo y administrativo del lenguaje jurídico-administrativo. Los textos incluidos corresponden a documentos completos, estructurados y con metadatos asociados. Fuentes El conjunto de datos está formado por tres subcorpora independientes, cada uno asociado a un boletín institucional de referencia en Galicia: Boletín Oficial de la Provincia de A Coruña (Diputación de A Coruña). Boletín Oficial de la Provincia de Pontevedra (Diputación de Pontevedra). Diario Oficial de Galicia (Xunta de Galicia). Los documentos originales estaban disponibles en formatos HTML, XHTML o XML, que constituyen la fuente primaria de extracción. Estos subcorpora también pertenecen a CorpusNOS [1], pero han sufrido modificaciones en el formato y el procesamiento para la publicación en este corpus. Proceso de extracción y estructuración Para cada una de las fuentes se desarrollaron scripts de parsing específicos, adaptados a la estructura editorial y al marcado propio de cada boletín. De forma general, el proceso de extracción incluyó las siguientes etapas: Lectura y parsing de los documentos HTML, XHTML o XML originales. Extracción del texto principal del anuncio, resolución o disposición normativa, excluyendo elementos de navegación, encabezados repetidos y contenido no lingüístico. Identificación y extracción de metadatos estructurales y administrativos cuando estaban disponibles de forma fiable (por ejemplo, sección, organismo emisor, unidad administrativa, fecha o número de anuncio). Construcción de identificadores estables por documento, priorizando identificadores oficiales y utilizando mecanismos deterministas de respaldo cuando fue necesario. Reclasificación y verificación lingüística. Almacenamiento del resultado en formato JSONL, con un documento por línea. Cada subcorpus conserva únicamente los campos que pueden extraerse de forma consistente a partir de su fuente original; no se forzó una homogeneización artificial entre boletines con estructuras distintas. Organización del corpus NOS_Corpus_Administrativo-Legal/├── DeputacionCoruna_BOP/│ ├── es/│ │ ├── 2009.jsonl│ │ ├── ...│ │ └── 2022.jsonl│ └── gl/│ ├── 2009.jsonl│ ├── ...│ └── 2022.jsonl├── DeputacionPontevedra_BOPPO/│ ├── es/│ │ ├── 2014.jsonl│ │ ├── ...│ │ └── 2024.jsonl│ └── gl/│ ├── 2014.jsonl│ ├── ...│ └── 2024.jsonl└── XuntaGalicia_DOG/ ├── es/ │ ├── 2000.jsonl │ ├── ... │ └── 2023.jsonl └── gl/ ├── 2000.jsonl ├── ... └── 2023.jsonl Formato de los datos Todos los documentos se almacenan en formato JSONL, con un objeto JSON por línea. Los campos pueden variar ligeramente entre subcorpora en función de la información disponible en la fuente original, pero incluyen de forma general: identificador del documento, texto administrativo completo, fuente y boletín de procedencia, fecha de publicación, idioma detectado, metadatos administrativos cuando están disponibles. Ejemplo de entrada (BOPPO) { "id": "20220408-2022020529", "date": "08/04/2022", "doc_code": "2022020529", "section": "ADMINISTRACIÓN LOCAL", "admin_scope": "Municipal", "unit": "Pontevedra", "chapter_type": "Outros documentos, notificacións e informacións públicas", "summary": "Extracto de acordos adoptados pola Xunta de Goberno Local na sesión extraordinaria e urxente de 22.03.2022", "url": "https://boppo.depo.gal/web/boppo/detalle/-/boppo/2022/04/08/2022020529", "text": "Ratificación da urxencia da sesión. Subvencións destinadas á adquisición de equipos informáticos para alumnado de centros públicos. Bases reguladoras e convocatoria de axudas á rehabilitación de edificios e vivendas...", "language": "es"} Información adicional | Boletín | Idioma | Nº de documentos | Nº de tokens ||---------|--------|------------------|--------------|| BOP Diputación de A Coruña | Español (es) | 63 592 | 40 961 782 || BOP Diputación de A Coruña | Gallego (gl) | 92 274 | 72 559 386 || BOPPO Diputación de Pontevedra | Español (es) | 17 615 | 7 135 029 || BOPPO Diputación de Pontevedra | Gallego (gl) | 27 169 | 13 793 946 || DOGA Xunta de Galicia | Español (es) | 317 201 | 252 019 124 || DOGA Xunta de Galicia | Gallego (gl) | 315 188 | 247 219 060 || **TOTAL** | | **833 039** | **633 688 327** | Notas y limitaciones No se ha aplicado corrección lingüística manual ni normalización de contenido, más allá de la limpieza estructural necesaria para la extracción. Pueden persistir errores residuales derivados del marcado HTML original o de inconsistencias en las fuentes. La distribución temporal y lingüística no es necesariamente uniforme entre subcorpora ni entre años. Licencia y condiciones de uso Los textos incluidos en este corpus proceden de fuentes institucionales oficiales y se enmarcan dentro de la normativa española sobre reutilización de la información del sector público. Aunque los documentos son de carácter público y reutilizables conforme a la legislación vigente, los archivos originales fueron facilitados en el marco de acuerdos de colaboración y cesión institucional con las entidades responsables de su publicación. Este corpus constituye una obra derivada, resultado de procesos automáticos de extracción, limpieza y estructuración en formato JSONL, sin alteración del contenido semántico original. En todas las reutilizaciones se mantiene la atribución a las fuentes institucionales originales. La estructura del corpus, el formato de los datos, la organización de los archivos y los procesos de extracción y normalización aplicados se distribuyen bajo la licencia: Creative Commons Attribution 4.0 International (CC BY 4.0) Referencias @inproceedings{de-dios-flores-etal-2024-corpusnos, title = ""{C}orpus{N{\'O}S}: A massive {G}alician corpus for training large language models"", author = ""de-Dios-Flores, Iria and Su{\'a}rez, Silvia Paniagua and P{\'e}rez, Cristina Carbajal and Outeiri{\~n}o, Daniel Bardanca and Garcia, Marcos and Gamallo, Pablo"", editor = ""Gamallo, Pablo and Claro, Daniela and Teixeira, Ant{\'o}nio and Real, Livy and Garcia, Marcos and Oliveira, Hugo Gon{\c{c}}alo and Amaro, Raquel"", booktitle = ""Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1"", month = mar, year = ""2024"", address = ""Santiago de Compostela, Galicia/Spain"", publisher = ""Association for Computational Lingustics"", url = ""https://aclanthology.org/2024.propor-1.66"", pages = ""593--599"",} ----------- Esta publicación del proyecto Desarrollo de Modelos ALIA está financiada por el Ministerio para la Transformación Digital y de la Función Pública y por el Plan de Recuperación, Transformación y Resiliencia – Financiado por la Unión Europea – NextGenerationEU This work is funded by the Ministerio para la Transformación Digital y de la Función Pública - Funded by EU – NextGenerationEU within the framework of the project Desarrollo de Modelos ALIA. 

Keywords

Administration, Legal text

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average