Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ IEEE Accessarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2022 . Peer-reviewed
License: CC BY
Data sources: Crossref
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article
License: CC BY
Data sources: UnpayWall
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2022
Data sources: DOAJ
https://dx.doi.org/10.60692/4p...
Other literature type . 2022
Data sources: Datacite
https://dx.doi.org/10.60692/fh...
Other literature type . 2022
Data sources: Datacite
versions View all 4 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Multi-Label Emotion Classification on Code-Mixed Text: Data and Methods

تصنيف المشاعر متعدد التسميات على النص المختلط بالرموز: البيانات والأساليب
Authors: Iqra Ameer; Grigori Sidorov; Helena Gómez-Adorno; Rao Muhammad Adeel Nawab;

Multi-Label Emotion Classification on Code-Mixed Text: Data and Methods

Abstract

La tâche de classification des émotions multi-étiquettes vise à identifier toutes les émotions possibles dans un texte écrit qui représente le mieux l'état mental de l'auteur. Ces dernières années, la classification des émotions multi-étiquettes a attiré l'attention des chercheurs en raison de ses applications potentielles dans l'apprentissage en ligne, les soins de santé, le marketing, etc. Il est nécessaire de disposer de corpus de référence standard pour développer et évaluer des méthodes de classification des émotions multi-étiquettes. La majorité des corpus de référence ont été développés pour la langue anglaise (corpus monolingues) à l'aide de tweets. Cependant, le problème de classification des émotions multi-étiquettes n'est pas exploré pour le texte mixte, par exemple, l'anglais et l'ourdou romain, bien que le texte à code mixte soit largement utilisé dans les messages/commentaires Facebook, les tweets, les messages SMS, en particulier par la communauté sud-asiatique. Pour combler cette lacune, cette étude présente un vaste corpus de référence pour la tâche de classification des émotions multi-étiquettes, qui comprend 11 914 messages SMS à code mixte (anglais et ourdou romain). Chaque message SMS à code mixte (anglais et ourdou romain) est annoté manuellement à l'aide d'un ensemble de 12 émotions, y compris la colère, l'anticipation, le dégoût, la peur, la joie, l'amour, l'optimisme, le pessimisme, la tristesse, la surprise, la confiance et la neutralité (aucune émotion). En tant que contribution secondaire, nous avons appliqué et comparé des méthodes d'apprentissage automatique classiques de pointe (méthodes basées sur le contenu, trois caractéristiques de n-grammes de mots et huit caractéristiques de n-grammes de caractères), l'apprentissage profond (CNN, RNN, Bi-RNN, GRU, Bi-GRU, LSTM et Bi-LSTM) et les méthodes basées sur l'apprentissage par transfert (BERT et XLNet) sur notre corpus proposé. Après notre vaste expérimentation, les meilleurs résultats ont été obtenus en utilisant des méthodes d'apprentissage automatique classiques de pointe sur l'uni-gramme de mots (Micro Precision = 0,67, Micro Recall = 0,54, Micro F 1 = 0,67) avec une combinaison d'algorithmes d'apprentissage automatique multi-étiquettes OVR et à étiquette unique SVC. Notre corpus proposé est gratuit et accessible au public à des fins de recherche pour favoriser la recherche dans une langue sous-financrée (ourdou romain).

La tarea de clasificación de emociones de múltiples etiquetas tiene como objetivo identificar todas las emociones posibles en un texto escrito que mejor represente el estado mental del autor. En los últimos años, la clasificación de emociones de múltiples etiquetas atrajo la atención de los investigadores debido a sus posibles aplicaciones en el aprendizaje electrónico, la atención médica, el marketing, etc. Existe la necesidad de corpus de referencia estándar para desarrollar y evaluar métodos de clasificación de emociones de múltiples etiquetas. La mayoría de los corpus de referencia se desarrollaron para el idioma inglés (corpus monolingües) utilizando tweets. Sin embargo, el problema de la clasificación de emociones de múltiples etiquetas no se explora para textos de código mixto, por ejemplo, inglés y urdu romano. aunque el texto de código mixto es ampliamente utilizado en publicaciones/comentarios de Facebook, tweets, mensajes SMS, particularmente por la comunidad del sur de Asia. Para llenar este vacío, este estudio presenta un gran corpus de referencia para la tarea de clasificación de emociones de múltiples etiquetas, que comprende 11 914 mensajes SMS de código mixto (inglés y urdu romano). Cada mensaje SMS de código mixto (inglés y urdu romano) anotado manualmente utilizando un conjunto de 12 emociones, que incluyen ira, anticipación, disgusto, miedo, alegría, amor, optimismo, pesimismo, tristeza, sorpresa, confianza y neutral (sin emoción). Como una contribución secundaria., aplicamos y comparamos el aprendizaje automático clásico de vanguardia (métodos basados en contenido, tres características de n-gramas de palabras y ocho características de n-gramas de caracteres), el aprendizaje profundo (CNN, RNN, Bi-RNN, Gru, Bi-GRU, LSTM y Bi-LSTM) y los métodos basados en el aprendizaje de transferencia (BERT y XLNet) en nuestro corpus propuesto. Después de nuestra extensa experimentación, los mejores resultados se obtuvieron utilizando métodos de aprendizaje automático clásicos de vanguardia en uni-gramo de palabras (Micro Precision = 0.67, Micro Recall = 0.54, Micro F 1 = 0.67) con una combinación de OVR multi-etiqueta y algoritmos de aprendizaje automático de etiqueta única SVC. Nuestro corpus propuesto es gratuito y está disponible públicamente para fines de investigación para fomentar la investigación en un lenguaje con pocos recursos (urdu romano).

The multi-label emotion classification task aims to identify all possible emotions in a written text that best represent the author's mental state.In recent years, multi-label emotion classification attracted the attention of researchers due to its potential applications in e-learning, health care, marketing, etc.There is a need for standard benchmark corpora to develop and evaluate multi-label emotion classification methods.The majority of benchmark corpora were developed for the English language (monolingual corpora) using tweets.However, the multi-label emotion classification problem is not explored for code-mixed text, for example, English and Roman Urdu, although the code-mixed text is widely used in Facebook posts/comments, tweets, SMS messages, particularly by the South Asian community.For filling this gap, this study presents a large benchmark corpus for the multi-label emotion classification task, which comprises 11,914 code-mixed (English and Roman Urdu) SMS messages.Each code-mixed (English and Roman Urdu) SMS message manually annotated using a set of 12 emotions, including anger, anticipation, disgust, fear, joy, love, optimism, pessimism, sadness, surprise, trust, and neutral (no emotion).As a secondary contribution, we applied and compared state-of-the-art classical machine learning (content-based methodsthree word n-gram features and eight character n-gram features), deep learning (CNN, RNN, Bi-RNN, GRU, Bi-GRU, LSTM, and Bi-LSTM), and transfer learning-based methods (BERT and XLNet) on our proposed corpus.After our extensive experimentation, the best results were obtained using state-of-the-art classical machine learning methods on word uni-gram (Micro Precision = 0.67, Micro Recall = 0.54, Micro F 1 = 0.67) with a combination of OVR multi-label and SVC single-label machine learning algorithms.Our proposed corpus is free and publicly available for research purposes to foster research in an under-resourced language (Roman Urdu).

تهدف مهمة تصنيف العاطفة متعددة التسميات إلى تحديد جميع المشاعر المحتملة في نص مكتوب يمثل الحالة العقلية للمؤلف على أفضل وجه. في السنوات الأخيرة، جذب تصنيف العاطفة متعددة التسميات انتباه الباحثين بسبب تطبيقاته المحتملة في التعلم الإلكتروني والرعاية الصحية والتسويق وما إلى ذلك. هناك حاجة إلى مجموعات قياسية لتطوير وتقييم طرق تصنيف العاطفة متعددة التسميات. تم تطوير غالبية المجموعات المعيارية للغة الإنجليزية (مجموعات أحادية اللغة) باستخدام التغريدات. ومع ذلك، لا يتم استكشاف مشكلة تصنيف العاطفة متعددة التسميات للنص المختلط بالرموز، على سبيل المثال، الإنجليزية والرومانية الأردية، على الرغم من أن النص المختلط بالرمز يستخدم على نطاق واسع في مشاركات/تعليقات Facebook، والتغريدات، والرسائل النصية القصيرة، لا سيما من قبل مجتمع جنوب آسيا. لسد هذه الفجوة، تقدم هذه الدراسة مجموعة مرجعية كبيرة لمهمة تصنيف العاطفة متعددة التسميات، والتي تضم 11,914 رسالة SMS مختلطة بالرمز (الإنجليزية والرومانية الأردية). كل رسالة SMS مختلطة بالرمز (الإنجليزية والرومانية الأردية) يتم شرحها يدويًا باستخدام مجموعة من 12 عاطفة، بما في ذلك الغضب، والترقب، والاشمئزاز، والخوف، والفرح، والحب، والتفاؤل، والتشاؤم، والحزن، والمفاجأة، والثقة، والحياد (بدون عاطفة).، قمنا بتطبيق ومقارنة أحدث أساليب التعلم الآلي الكلاسيكية (المنهج القائم على المحتوى ثلاث ميزات n - gram وميزات n - gram المكونة من ثمانية أحرف)، والتعلم العميق (CNN و RNN و Bi - RNN و GRU و Bi - GRU و LSTM و Bi - LTM)، ونقل الأساليب القائمة على التعلم (BERT و XLNet) على مجموعتنا المقترحة. بعد تجاربنا المكثفة، تم الحصول على أفضل النتائج باستخدام أحدث أساليب التعلم الآلي الكلاسيكية على word uni - gram (Micro Precision = 0.67، Micro Recall = 0.54، Micro F 1 = 0.67) مع مزيج من خوارزميات التعلم الآلي متعددة التسمية OVR و SVC أحادية التسمية. مجموعتنا المقترحة مجانية ومتاحة للجمهور لأغراض البحث لتعزيز البحث بلغة ناقصة الموارد (Roman Urdu).

Keywords

FOS: Computer and information sciences, Artificial intelligence, Text Mining, Economics, Set (abstract data type), Anger, Detection and Prevention of Phishing Attacks, Sentiment analysis, Task (project management), Artificial Intelligence, Multi-label Text Classification in Machine Learning, Sadness, Machine learning, Roman Urdu and English, Psychology, multi-label emotion classification, SMS messages, Multi-label Learning, Code-mixed text, Code (set theory), Psychiatry, Geography, Natural language processing, classical machine learning, deep learning, Linguistics, Computer science, Urdu, TK1-9971, FOS: Philosophy, ethics and religion, Management, Programming language, FOS: Psychology, Philosophy, Sentiment Analysis and Opinion Mining, Emotion Recognition, Computer Science, Physical Sciences, Emotion classification, FOS: Languages and literature, Electrical engineering. Electronics. Nuclear engineering, Benchmark (surveying), Geodesy, Information Systems

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    23
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Top 10%
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Top 10%
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Top 10%
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
23
Top 10%
Top 10%
Top 10%
gold