
La reconnaissance de texte manuscrit dans des scénarios à faibles ressources, tels que des manuscrits avec des alphabets rares, est un problème difficile. Dans cet article, nous proposons une approche de reconnaissance de l'écriture manuscrite basée sur l'apprentissage en quelques coups qui réduit considérablement le processus d'annotation humaine, en ne nécessitant que quelques images de chaque symbole de l'alphabet. Le procédé consiste à détecter tous les symboles d'un alphabet donné dans une image de ligne de texte et à décoder les scores de similarité obtenus par rapport à la séquence finale de symboles transcrits. Notre modèle est d'abord préformé sur des images de lignes synthétiques générées à partir d'un alphabet, qui pourrait différer de l'alphabet du domaine cible. Une deuxième étape de formation est ensuite appliquée pour réduire l'écart entre les données source et cible. Étant donné que ce recyclage nécessiterait l'annotation de milliers de symboles manuscrits avec leurs cases englobantes, nous proposons d'éviter un tel effort humain grâce à une approche d'apprentissage progressif non supervisée qui attribue automatiquement des pseudo-étiquettes aux données non étiquetées. L'évaluation sur différents ensembles de données montre que notre modèle peut conduire à des résultats compétitifs avec une réduction significative de l'effort humain. Le code sera accessible au public dans le référentiel suivant : https://github.com/dali92002/HTRbyMatching
El reconocimiento de texto escrito a mano en escenarios de bajos recursos, como manuscritos con alfabetos raros, es un problema difícil. En este documento, proponemos un enfoque de reconocimiento de escritura a mano basado en el aprendizaje de pocas tomas que reduce significativamente el proceso de anotación humana, al requerir solo unas pocas imágenes de cada símbolo del alfabeto. El método consiste en detectar todos los símbolos de un alfabeto dado en una imagen de línea de texto y decodificar las puntuaciones de similitud obtenidas con la secuencia final de símbolos transcritos. Nuestro modelo se entrena previamente en imágenes de líneas sintéticas generadas a partir de un alfabeto, que podría diferir del alfabeto del dominio de destino. A continuación, se aplica un segundo paso de entrenamiento para reducir la brecha entre los datos de origen y de destino. Dado que este reentrenamiento requeriría la anotación de miles de símbolos escritos a mano junto con sus recuadros delimitadores, proponemos evitar dicho esfuerzo humano a través de un enfoque de aprendizaje progresivo no supervisado que asigna automáticamente pseudoetiquetas a los datos no etiquetados. La evaluación de diferentes conjuntos de datos muestra que nuestro modelo puede conducir a resultados competitivos con una reducción significativa del esfuerzo humano. El código estará disponible públicamente en el siguiente repositorio: https://github.com/dali92002/HTRbyMatching
Handwritten text recognition in low resource scenarios, such as manuscripts with rare alphabets, is a challenging problem. In this paper, we propose a few-shot learning-based handwriting recognition approach that significantly reduces the human annotation process, by requiring only a few images of each alphabet symbols. The method consists of detecting all the symbols of a given alphabet in a textline image and decoding the obtained similarity scores to the final sequence of transcribed symbols. Our model is first pretrained on synthetic line images generated from an alphabet, which could differ from the alphabet of the target domain. A second training step is then applied to reduce the gap between the source and the target data. Since this retraining would require annotation of thousands of handwritten symbols together with their bounding boxes, we propose to avoid such human effort through an unsupervised progressive learning approach that automatically assigns pseudo-labels to the unlabeled data. The evaluation on different datasets shows that our model can lead to competitive results with a significant reduction in human effort. The code will be publicly available in the following repository: https://github.com/dali92002/HTRbyMatching
يعد التعرف على النص المكتوب بخط اليد في السيناريوهات منخفضة الموارد، مثل المخطوطات ذات الحروف الأبجدية النادرة، مشكلة صعبة. في هذه الورقة، نقترح نهجًا للتعرف على خط اليد القائم على التعلم والذي يقلل بشكل كبير من عملية التعليق التوضيحي البشري، من خلال طلب بضع صور فقط لكل رمز أبجدي. تتكون الطريقة من اكتشاف جميع رموز أبجدية معينة في صورة نصية وفك تشفير درجات التشابه التي تم الحصول عليها إلى التسلسل النهائي للرموز المكتوبة. يتم تدريب نموذجنا أولاً على صور الخطوط الاصطناعية التي تم إنشاؤها من الأبجدية، والتي قد تختلف عن أبجدية المجال المستهدف. ثم يتم تطبيق خطوة تدريب ثانية لتقليل الفجوة بين المصدر والبيانات المستهدفة. نظرًا لأن إعادة التدريب هذه تتطلب شرحًا لآلاف الرموز المكتوبة بخط اليد جنبًا إلى جنب مع مربعاتها المحيطة، فإننا نقترح تجنب مثل هذا الجهد البشري من خلال نهج تعلم تدريجي غير خاضع للإشراف يقوم تلقائيًا بتعيين تسميات زائفة للبيانات غير المسماة. يُظهر التقييم على مجموعات البيانات المختلفة أن نموذجنا يمكن أن يؤدي إلى نتائج تنافسية مع انخفاض كبير في الجهد البشري. سيكون الرمز متاحًا للجمهور في المستودع التالي: https://github.com/dali92002/HTRbyMatching
FOS: Computer and information sciences, Handwriting recognition, Handwriting, Artificial intelligence, Computer Vision and Pattern Recognition (cs.CV), Computer Science - Computer Vision and Pattern Recognition, Pattern recognition (psychology), Scene Text Recognition, Text Localization, Handwritten text recognition, Multi-label Text Classification in Machine Learning, Similarity (geometry), Multi-label Learning, Språkteknologi (språkvetenskaplig databehandling), Text Detection, Ciphered manuscripts, encrypted manuscripts, FOS: Philosophy, ethics and religion, Programming language, Algorithm, Physical Sciences, Feature extraction, Computer Vision and Pattern Recognition, Decoding methods, Handwriting Recognition, Språkbehandling och datorlingvistik, Few-shot learning, Annotation, Set (abstract data type), Speech recognition, Handwriting Recognition and Text Detection, Mathematical analysis, Language Technology (Computational Linguistics), Bounding overwatch, Artificial Intelligence, Image (mathematics), FOS: Mathematics, Genetics, Alphabet, Biology, Unsupervised progressive learning, Natural Language Processing, Code (set theory), Domain (mathematical analysis), Natural language processing, Linguistics, Statistical Machine Translation and Natural Language Processing, Computer science, Process (computing), Philosophy, Operating system, FOS: Biological sciences, Computer Science, FOS: Languages and literature, Mathematics, Sequence (biology)
FOS: Computer and information sciences, Handwriting recognition, Handwriting, Artificial intelligence, Computer Vision and Pattern Recognition (cs.CV), Computer Science - Computer Vision and Pattern Recognition, Pattern recognition (psychology), Scene Text Recognition, Text Localization, Handwritten text recognition, Multi-label Text Classification in Machine Learning, Similarity (geometry), Multi-label Learning, Språkteknologi (språkvetenskaplig databehandling), Text Detection, Ciphered manuscripts, encrypted manuscripts, FOS: Philosophy, ethics and religion, Programming language, Algorithm, Physical Sciences, Feature extraction, Computer Vision and Pattern Recognition, Decoding methods, Handwriting Recognition, Språkbehandling och datorlingvistik, Few-shot learning, Annotation, Set (abstract data type), Speech recognition, Handwriting Recognition and Text Detection, Mathematical analysis, Language Technology (Computational Linguistics), Bounding overwatch, Artificial Intelligence, Image (mathematics), FOS: Mathematics, Genetics, Alphabet, Biology, Unsupervised progressive learning, Natural Language Processing, Code (set theory), Domain (mathematical analysis), Natural language processing, Linguistics, Statistical Machine Translation and Natural Language Processing, Computer science, Process (computing), Philosophy, Operating system, FOS: Biological sciences, Computer Science, FOS: Languages and literature, Mathematics, Sequence (biology)
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 27 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
