Powered by OpenAIRE graph
Found an issue? Give us feedback
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Sign language recognition using the fusion of image and hand landmarks through multi-headed convolutional neural network

التعرف على لغة الإشارة باستخدام دمج معالم الصورة واليد من خلال شبكة عصبية التفافية متعددة الرؤوس
Authors: Refat Khan Pathan; Munmun Biswas; Suraiya Yasmin; Mayeen Uddin Khandaker; Mohammad Shukri Salman; Ahmed Youssef;

Sign language recognition using the fusion of image and hand landmarks through multi-headed convolutional neural network

Abstract

La reconnaissance de la langue des signes est une percée pour la communication au sein de la société sourde-muette et constitue un sujet de recherche essentiel depuis des années. Bien que certaines des études précédentes aient réussi à reconnaître la langue des signes, elle nécessite de nombreux instruments coûteux, notamment des capteurs, des appareils et une puissance de traitement haut de gamme. Cependant, de tels inconvénients peuvent être facilement surmontés en utilisant des techniques basées sur l'intelligence artificielle. Étant donné que, dans cette ère moderne de technologie mobile avancée, l'utilisation d'une caméra pour prendre des vidéos ou des images est beaucoup plus facile, cette étude démontre une technique rentable pour détecter la langue des signes américaine (ASL) à l'aide d'un ensemble de données d'image. Ici, l'ensemble de données « Finger Spelling, A » a été utilisé, avec 24 lettres (sauf j et z car ils contiennent du mouvement). La principale raison de l'utilisation de cet ensemble de données est que ces images ont un arrière-plan complexe avec différents environnements et couleurs de scène. Deux couches de traitement d'image ont été utilisées : dans la première couche, les images sont traitées dans leur ensemble pour l'entraînement, et dans la deuxième couche, les repères de main sont extraits. Un modèle de réseau neuronal convolutionnel (CNN) à plusieurs têtes a été proposé et testé avec 30 % de l'ensemble de données pour former ces deux couches. Pour éviter le problème de sur-ajustement, l'augmentation des données et la réduction du taux d'apprentissage dynamique ont été utilisées. Avec le modèle proposé, une précision de test de 98,981 % a été atteinte. On s'attend à ce que cette étude puisse aider à développer un système de communication homme-machine efficace pour une société sourde-muette.

El reconocimiento del lenguaje de señas es un gran avance para la comunicación entre la sociedad sordomuda y ha sido un tema crítico de investigación durante años. Aunque algunos de los estudios anteriores han reconocido con éxito el lenguaje de señas, requiere muchos instrumentos costosos, incluidos sensores, dispositivos y potencia de procesamiento de alta gama. Sin embargo, tales inconvenientes pueden superarse fácilmente mediante el empleo de técnicas basadas en inteligencia artificial. Dado que, en esta era moderna de tecnología móvil avanzada, el uso de una cámara para tomar videos o imágenes es mucho más fácil, este estudio demuestra una técnica rentable para detectar el lenguaje de señas americano (ASL) utilizando un conjunto de datos de imágenes. Aquí, se ha utilizado el conjunto de datos "Ortografía con los dedos, A", con 24 letras (excepto j y z, ya que contienen movimiento). La razón principal para usar este conjunto de datos es que estas imágenes tienen un fondo complejo con diferentes entornos y colores de escena. Se han utilizado dos capas de procesamiento de imágenes: en la primera capa, las imágenes se procesan en su conjunto para la capacitación, y en la segunda capa, se extraen los puntos de referencia de la mano. Se ha propuesto y probado un modelo de red neuronal convolucional (CNN) de múltiples cabezas con el 30% del conjunto de datos para entrenar estas dos capas. Para evitar el problema del sobreajuste, se ha utilizado el aumento de datos y la reducción dinámica de la tasa de aprendizaje. Con el modelo propuesto, se ha logrado una precisión de prueba del 98.981%. Se espera que este estudio pueda ayudar a desarrollar un sistema de comunicación hombre-máquina eficiente para una sociedad sordomuda.

Sign Language Recognition is a breakthrough for communication among deaf-mute society and has been a critical research topic for years. Although some of the previous studies have successfully recognized sign language, it requires many costly instruments including sensors, devices, and high-end processing power. However, such drawbacks can be easily overcome by employing artificial intelligence-based techniques. Since, in this modern era of advanced mobile technology, using a camera to take video or images is much easier, this study demonstrates a cost-effective technique to detect American Sign Language (ASL) using an image dataset. Here, "Finger Spelling, A" dataset has been used, with 24 letters (except j and z as they contain motion). The main reason for using this dataset is that these images have a complex background with different environments and scene colors. Two layers of image processing have been used: in the first layer, images are processed as a whole for training, and in the second layer, the hand landmarks are extracted. A multi-headed convolutional neural network (CNN) model has been proposed and tested with 30% of the dataset to train these two layers. To avoid the overfitting problem, data augmentation and dynamic learning rate reduction have been used. With the proposed model, 98.981% test accuracy has been achieved. It is expected that this study may help to develop an efficient human-machine communication system for a deaf-mute society.

يعد التعرف على لغة الإشارة إنجازًا للتواصل بين مجتمع الصم والبكم وكان موضوعًا بحثيًا حاسمًا لسنوات. على الرغم من أن بعض الدراسات السابقة قد نجحت في التعرف على لغة الإشارة، إلا أنها تتطلب العديد من الأدوات المكلفة بما في ذلك أجهزة الاستشعار والأجهزة وقوة المعالجة المتطورة. ومع ذلك، يمكن التغلب على هذه العيوب بسهولة من خلال استخدام التقنيات القائمة على الذكاء الاصطناعي. نظرًا لأنه في هذا العصر الحديث من تكنولوجيا الهاتف المحمول المتقدمة، أصبح استخدام الكاميرا لالتقاط الفيديو أو الصور أسهل بكثير، توضح هذه الدراسة تقنية فعالة من حيث التكلفة للكشف عن لغة الإشارة الأمريكية (ASL) باستخدام مجموعة بيانات الصور. هنا، تم استخدام مجموعة بيانات "تهجئة الأصابع، A"، مع 24 حرفًا (باستثناء j و z لأنها تحتوي على حركة). السبب الرئيسي لاستخدام مجموعة البيانات هذه هو أن هذه الصور لها خلفية معقدة مع بيئات وألوان مشهد مختلفة. تم استخدام طبقتين من معالجة الصور: في الطبقة الأولى، تتم معالجة الصور ككل للتدريب، وفي الطبقة الثانية، يتم استخراج معالم اليد. تم اقتراح نموذج شبكة عصبية التفافية متعددة الرؤوس (CNN) واختباره بنسبة 30 ٪ من مجموعة البيانات لتدريب هاتين الطبقتين. لتجنب مشكلة الإفراط في التركيب، تم استخدام زيادة البيانات وتقليل معدل التعلم الديناميكي. مع النموذج المقترح، تم تحقيق دقة اختبار 98.981 ٪. من المتوقع أن تساعد هذه الدراسة في تطوير نظام اتصال فعال بين الإنسان والآلة لمجتمع أصم وأبكم.

Keywords

Cross-View Recognition, Artificial neural network, Artificial intelligence, Gesture Recognition, Biomedical Engineering, Social Sciences, Overfitting, Convolutional neural network, Speech recognition, FOS: Medical engineering, Pattern recognition (psychology), Mathematical analysis, Dropout (neural networks), Sign Language, American Sign Language, Engineering, Image processing, Artificial Intelligence, Machine learning, Image Processing, Computer-Assisted, Developmental and Educational Psychology, Image (mathematics), FOS: Mathematics, Humans, Psychology, Sign language, Language Acquisition, Deep learning, Linguistics, Hand, Computer science, FOS: Philosophy, ethics and religion, Human-Computer Interaction, FOS: Psychology, Gait Recognition for Human Identification, Continuous Recognition, Philosophy, Gesture Recognition in Human-Computer Interaction, Sign (mathematics), Computer Science, Physical Sciences, FOS: Languages and literature, Acquisition and Development of Sign Language, Computer vision, Neural Networks, Computer, Mathematics

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Related to Research communities
Upload OA version
Are you the author of this publication? Upload your Open Access version to Zenodo!
It’s fast and easy, just two clicks!