Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ ZENODOarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
ZENODO
Dataset . 2022
License: CC BY NC
Data sources: ZENODO
ZENODO
Dataset . 2022
License: CC BY NC
Data sources: Datacite
addClaim

Jeu de données de segmentation et de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500 v6

Authors: Matthias Gille Levenson;

Jeu de données de segmentation et de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500 v6

Abstract

Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, entraîné grâce au logiciel kraken via eScriptorium. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne. Il contient de même un modèle de segmentation entraîné de même sur kraken après segmentation manuelle sur eScriptorium. Description du jeu de données: Le jeu de données contient 60 pages et 6831 lignes. Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121. Les zones du modèle de segmentation sont conformes au vocabulaire partagé SegmOnto (https://segmonto.github.io/). Qualité du modèle: Le modèle a été entraîné sur 5386 lignes. Son taux d'erreur est d'un peu plus de 3% (96.5%). Les vérités terrain sont fournies au format ALTO et jpeg. Deux modèles de segmentation sont fournis, pour les baselines et pour les régions. Crédits et remerciements: Les données ont successivement été entraînées sur Ocropy et Kraken. Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel rédigé par Jean-Baptiste Camps (ENC-PSL), qui peut être trouvé sur son carnet de recherche. Merci à Simon Gabay (U. de Neuchâtel) pour son aide sur kraken et pour tous ses conseils méthodologiques. Bibliographie: Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html. Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono. « Homemade manuscript OCR (1): OCRopy », Sacré Gr@@l, 6 février 2017, https://graal.hypotheses.org/786

Keywords

ocr, kraken, incunabula, Meinardo Ungut, Estanislao Polono, eScriptorium, Gilles of Rome

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average