
Selon la vision de l'industrie 4.0, les humains dans une usine intelligente devraient être équipés de capacités de communication formidables et transparentes et intégrés dans un système cyber-physique (CPS) qui peut être utilisé pour surveiller et reconnaître l'activité humaine via l'intelligence artificielle (par exemple, l'apprentissage profond). Les progrès récents dans la précision de l'apprentissage profond ont contribué de manière significative à résoudre les problèmes de reconnaissance de l'activité humaine, mais il reste nécessaire de développer des modèles d'apprentissage profond à haute performance qui offrent une plus grande précision. Dans cet article, trois modèles : la mémoire à long terme (LSTM), le réseau neuronal convolutionnel (CNN) et le CNN-LSTM combiné sont proposés pour la classification des activités humaines. Ces modèles sont appliqués à un ensemble de données recueillies auprès de 36 personnes engagées dans 6 classes d'activités – en bas, en jogging, assis, debout, à l'étage et à pied. Les modèles proposés sont entraînés à l'aide du cadre TensorFlow avec une méthode de réglage hyper-paramétrique pour atteindre une grande précision. Expérimentalement, des matrices de confusion et des courbes de caractéristiques de fonctionnement du récepteur (roc) sont utilisées pour évaluer les performances des modèles proposés. Les résultats illustrent que le modèle hybride CNN-LSTM offre une meilleure performance que LSTM ou CNN dans la classification des activités humaines. Le modèle CNN-LSTM offre les meilleures performances, avec une précision de test de 97,76 %, suivi du LSTM avec une précision de test de 96,61 %, tandis que le CNN montre la précision de test la moins élevée de 94,51 %. Les taux de perte de test pour le LSTM, CNN et CNN-LSTM sont de 0,236, 0,232 et 0,167, respectivement, tandis que la précision, le rappel, la mesure F1 et la zone sous les courbes roc (ASC) pour le CNN-LSTM sont de 97,75 %, 97,77 %, 97,76 % et 100 %, respectivement.
De acuerdo con la visión de la Industria 4.0, los humanos en una fábrica inteligente deben estar equipados con capacidades de comunicación formidables e integradas en un sistema ciberfísico (CPS) que pueda utilizarse para monitorear y reconocer la actividad humana a través de la inteligencia artificial (por ejemplo, aprendizaje profundo). Los avances recientes en la precisión del aprendizaje profundo han contribuido significativamente a resolver los problemas de reconocimiento de la actividad humana, pero sigue siendo necesario desarrollar modelos de aprendizaje profundo de alto rendimiento que proporcionen una mayor precisión. En este documento, se proponen tres modelos: memoria a largo plazo (LSTM), red neuronal convolucional (CNN) y CNN-LSTM combinada para la clasificación de las actividades humanas. Estos modelos se aplican a un conjunto de datos recopilados de 36 personas que participan en 6 clases de actividades: abajo, trotar, sentarse, pararse, arriba y caminar. Los modelos propuestos se entrenan utilizando el marco TensorFlow con un método de ajuste de hiperparámetros para lograr una alta precisión. Experimentalmente, se utilizan matrices de confusión y curvas de características operativas del receptor (Roc) para evaluar el rendimiento de los modelos propuestos. Los resultados ilustran que el modelo híbrido CNN-LSTM proporciona un mejor rendimiento que LSTM o CNN en la clasificación de las actividades humanas. El modelo CNN-LSTM proporciona el mejor rendimiento, con una precisión de prueba del 97,76%, seguido del LSTM con una precisión de prueba del 96,61%, mientras que CNN muestra la menor precisión de prueba del 94,51%. Las tasas de pérdida de pruebas para LSTM, CNN y CNN-LSTM son 0.236, 0.232 y 0.167, respectivamente, mientras que la precisión, la recuperación, la F1-Medida y el área bajo las curvas Roc (AUC) para CNN-LSTM son 97.75%, 97.77%, 97.76% y 100%, respectivamente.
According to the Industry 4.0 vision, humans in a smart factory, should be equipped with formidable and seamless communication capabilities and integrated into a cyber-physical system (CPS) that can be utilized to monitor and recognize human activity via artificial intelligence (e.g., deep learning). Recent advances in the accuracy of deep learning have contributed significantly to solving the human activity recognition issues but it remains necessary to develop high performance deep learning models that provide greater accuracy. In this paper, three models: long short-term memory (LSTM), convolutional neural network (CNN), and combined CNN-LSTM are proposed for classification of human activities. These models are applied to a dataset collected from 36 persons engaged in 6 classes of activities – downstairs, jogging, sitting, standing, upstairs, and walking. The proposed models are trained using TensorFlow framework with a hyper-parameter tuning method to achieve high accuracy. Experimentally, confusion matrices and receiver operating characteristic (ROC) curves are used to assess the performance of the proposed models. The results illustrate that the hybrid model CNN-LSTM provides a better performance than either LSTM or CNN in the classification of human activities. The CNN-LSTM model provides the best performance, with a testing accuracy of 97.76%, followed by the LSTM with a testing accuracy of 96.61%, while the CNN shows the least testing accuracy of 94.51%. The testing loss rates for the LSTM, CNN, and CNN-LSTM are 0.236, 0.232, and 0.167, respectively, while the precision, recall, F1-Measure, and the area under the ROC curves (AUCS) for the CNN-LSTM are 97.75%, 97.77%, 97.76%, and 100%, respectively.
وفقًا لرؤية الصناعة 4.0، يجب أن يكون البشر في المصنع الذكي مجهزين بقدرات اتصال هائلة وسلسة ودمجهم في نظام فيزيائي إلكتروني (CPS) يمكن استخدامه لمراقبة النشاط البشري والتعرف عليه عبر الذكاء الاصطناعي (على سبيل المثال، التعلم العميق). ساهمت التطورات الحديثة في دقة التعلم العميق بشكل كبير في حل مشكلات التعرف على النشاط البشري ولكن لا يزال من الضروري تطوير نماذج تعلم عميق عالية الأداء توفر دقة أكبر. في هذه الورقة، تم اقتراح ثلاثة نماذج: الذاكرة طويلة المدى (LSTM)، والشبكة العصبية الالتفافية (CNN)، و CNN - LSTM المدمجة لتصنيف الأنشطة البشرية. يتم تطبيق هذه النماذج على مجموعة بيانات تم جمعها من 36 شخصًا يشاركون في 6 فئات من الأنشطة – في الطابق السفلي، والركض، والجلوس، والوقوف، والطابق العلوي، والمشي. يتم تدريب النماذج المقترحة باستخدام إطار عمل TensorFlow مع طريقة ضبط فائقة المعلمة لتحقيق دقة عالية. من الناحية التجريبية، يتم استخدام مصفوفات الارتباك ومنحنيات خصائص تشغيل جهاز الاستقبال (ROC) لتقييم أداء النماذج المقترحة. توضح النتائج أن النموذج الهجين CNN - LSTM يوفر أداءً أفضل من LSTM أو CNN في تصنيف الأنشطة البشرية. يوفر نموذج CNN - LSTM أفضل أداء، بدقة اختبار تبلغ 97.76 ٪، تليها LSTM بدقة اختبار تبلغ 96.61 ٪، في حين تظهر CNN أقل دقة اختبار بنسبة 94.51 ٪. معدلات فقدان الاختبار لـ LSTM و CNN و CNN - LSTM هي 0.236 و 0.232 و 0.167 على التوالي، في حين أن الدقة والاستدعاء و F1 - Measure والمنطقة تحت منحنيات ROC (AUCs) لـ CNN - LSTM هي 97.75 ٪ و 97.77 ٪ و 97.76 ٪ و 100 ٪ على التوالي.
ddc:004, human activity recognition, Artificial neural network, Artificial intelligence, Ambient Intelligence, Computer Networks and Communications, Non-contact Physiological Monitoring Technology, Biomedical Engineering, Activity Recognition in Pervasive Computing Environments, Convolutional neural network, FOS: Medical engineering, Activity Recognition, Pattern recognition (psychology), Context-Aware Applications, Engineering, Deep Learning, Machine learning, convolutional neural network (CNN), Internet of Things and Edge Computing, long short-term memory (LSTM), Proposal ID: 2021-026-030289, DATA processing & computer science, Deep learning, Linguistics, Industry 4.0, Computer science, 004, TK1-9971, FOS: Philosophy, ethics and religion, Philosophy, 3DP, Activity recognition, Computer Science, Physical Sciences, FOS: Languages and literature, Recall, Electrical engineering. Electronics. Nuclear engineering, Computer Vision and Pattern Recognition, info:eu-repo/classification/ddc/004
ddc:004, human activity recognition, Artificial neural network, Artificial intelligence, Ambient Intelligence, Computer Networks and Communications, Non-contact Physiological Monitoring Technology, Biomedical Engineering, Activity Recognition in Pervasive Computing Environments, Convolutional neural network, FOS: Medical engineering, Activity Recognition, Pattern recognition (psychology), Context-Aware Applications, Engineering, Deep Learning, Machine learning, convolutional neural network (CNN), Internet of Things and Edge Computing, long short-term memory (LSTM), Proposal ID: 2021-026-030289, DATA processing & computer science, Deep learning, Linguistics, Industry 4.0, Computer science, 004, TK1-9971, FOS: Philosophy, ethics and religion, Philosophy, 3DP, Activity recognition, Computer Science, Physical Sciences, FOS: Languages and literature, Recall, Electrical engineering. Electronics. Nuclear engineering, Computer Vision and Pattern Recognition, info:eu-repo/classification/ddc/004
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 37 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 1% |
