Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ IEEE Accessarrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2021 . Peer-reviewed
License: CC BY
Data sources: Crossref
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article
License: CC BY NC ND
Data sources: UnpayWall
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
IEEE Access
Article . 2021
Data sources: DOAJ
https://dx.doi.org/10.60692/t3...
Other literature type . 2021
Data sources: Datacite
https://dx.doi.org/10.60692/f0...
Other literature type . 2021
Data sources: Datacite
versions View all 4 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

A MapReduce Opinion Mining for COVID-19-Related Tweets Classification Using Enhanced ID3 Decision Tree Classifier

A MapReduce Opinion Mining for COVID -19 - related Tweets Classification using Enhanced ID3 Decision Tree Classifier
Authors: Fatima Es-Sabery; Khadija Es-sabery; Junaid Qadir; Beatriz Sainz de Abajo; Abdellatif Haïr; Begonya Garcia-Zapirain; Isabel de la Torre Díez;

A MapReduce Opinion Mining for COVID-19-Related Tweets Classification Using Enhanced ID3 Decision Tree Classifier

Abstract

Opinion Mining (OM) est un domaine du traitement du langage naturel (NLP) qui vise à capturer le sentiment humain dans le texte donné. Avec la diffusion constante des sites d'achat en ligne, des sites de micro-blogging et des plateformes de médias sociaux, OM dans les plateformes de médias sociaux en ligne a suscité l'intérêt de milliers de chercheurs scientifiques. Parce que les critiques, les tweets et les blogs acquis à partir de ces réseaux de médias sociaux constituent une source importante pour améliorer le processus de prise de décision. Les données textuelles obtenues (critiques, tweets ou blogs) sont classées en trois catégories différentes qui sont négatives, neutres et positives pour analyser et extraire les informations pertinentes de l'ensemble de données donné. Dans cette contribution, nous introduisons une approche innovante de classification de l'arbre de décision ID3 pondérée MapReduce pour OM, qui comprend principalement trois aspects : Tout d'abord, nous avons utilisé plusieurs extracteurs de fonctionnalités pour détecter et capturer efficacement les données pertinentes des tweets donnés, y compris N-grammes ou niveau caractère, Bag-Of-Words, intégration de mots (GloVe, Word2Vec), FastText et TF-IDF. Deuxièmement, nous avons appliqué un sélecteur de fonctionnalités multiples pour réduire la dimensionnalité de la fonctionnalité élevée, y compris le Chi-carré, le rapport de gain, le gain d'information et l'indice de Gini. Enfin, nous avons utilisé les fonctionnalités obtenues pour effectuer la tâche de classification à l'aide d'un classificateur d'arbre de décision ID3 amélioré, qui vise à calculer le gain d'information pondéré au lieu du gain d'information utilisé dans ID3 traditionnel. En d'autres termes, pour mesurer le gain d'information pondéré pour la caractéristique conditionnée actuelle, nous suivons deux étapes : Tout d'abord, nous calculons la fonction de corrélation pondérée de la caractéristique conditionnée actuelle. Deuxièmement, nous multiplions la fonction de corrélation pondérée obtenue par le gain d'information de cette caractéristique conditionnée actuelle. Ce travail est mis en œuvre dans un environnement distribué utilisant le framework Hadoop, avec son framework de programmation MapReduce et son système de fichiers distribué HDFS. Son objectif principal est d'améliorer les performances d'un classificateur ID3 bien connu en termes de précision, de temps d'exécution et de capacité à gérer les ensembles de données massifs. Nous avons réalisé plusieurs expériences qui visent à évaluer l'efficacité de notre classificateur suggéré par rapport à d'autres contributions choisies dans la littérature. Les résultats expérimentaux ont démontré que notre classificateur ID3 fonctionne mieux sur l'ensemble de données COVID-19_Sentiments que les autres classificateurs en termes de rappel (85,72 %), de spécificité (86,51 %), de taux d'erreur (11,18 %), de taux de faux positifs (13,49 %), de temps d'exécution (15,95s), de statistique kappa (87,69 %), de score F1 (85,54 %), de taux de classification (88,82 %), de taux de faux négatifs (14,28 %), de taux de précision (86,67 %), de convergence (elle converge vers l'itération 90), de stabilité (elle est plus stable avec une norme d'écart moyen égale à 0,12 %) et de complexité (elle nécessite beaucoup moins de complexité de calcul dans le temps et l'espace).

La minería de opinión (OM) es un campo del procesamiento del lenguaje natural (PNL) que tiene como objetivo capturar el sentimiento humano en el texto dado. Con la creciente difusión de sitios web de compras en línea, sitios de microblogging y plataformas de redes sociales, OM en las plataformas de redes sociales en línea ha captado el interés de miles de investigadores científicos. Porque las reseñas, tweets y blogs adquiridos de estas redes sociales, actúan como una fuente importante para mejorar el proceso de toma de decisiones. Los datos textuales obtenidos (reseñas, tweets o blogs) se clasifican en tres etiquetas de clase diferentes que son negativas, neutrales y positivas para analizar y extraer información relevante del conjunto de datos dado. En esta contribución, presentamos un innovador enfoque de clasificación de árbol de decisión ID3 ponderado mejorado de MapReduce para OM, que consiste principalmente en tres aspectos: en primer lugar, hemos utilizado varios extractores de características para detectar y capturar de manera eficiente los datos relevantes de los tweets dados, incluidos N-gramas o nivel de carácter, Bag-Of-Words, incrustación de palabras (GloVe, Word2Vec), FastText y TF-IDF. En segundo lugar, hemos aplicado un selector de funciones múltiples para reducir la dimensionalidad de la función alta, que incluye Chi-cuadrado, relación de ganancia, ganancia de información e índice de Gini. Finalmente, hemos empleado las características obtenidas para llevar a cabo la tarea de clasificación utilizando un clasificador de árbol de decisión ID3 mejorado, que tiene como objetivo calcular la ganancia de información ponderada en lugar de la ganancia de información utilizada en el ID3 tradicional. En otras palabras, para medir la ganancia de información ponderada para la característica condicionada actual, seguimos dos pasos: en primer lugar, calculamos la función de correlación ponderada de la característica condicionada actual. En segundo lugar, multiplicamos la función de correlación ponderada obtenida por la ganancia de información de esta característica condicionada actual. Este trabajo se implementa en un entorno distribuido utilizando el framework Hadoop, con su framework de programación MapReduce y su sistema de archivos distribuidos HDFS. Su objetivo principal es mejorar el rendimiento de un clasificador ID3 bien conocido en términos de precisión, tiempo de ejecución y capacidad para manejar los conjuntos de datos masivos. Hemos llevado a cabo varias experiencias que tienen como objetivo evaluar la efectividad de nuestro clasificador sugerido en comparación con algunas otras contribuciones elegidas de la literatura. Los resultados experimentales demostraron que nuestro clasificador ID3 funciona mejor en el conjunto de datos COVID-19_Sentiments que otros clasificadores en términos de Recall (85.72 %), especificidad (86.51 %), tasa de error (11.18 %), tasa de falsos positivos (13.49 %), tiempo de ejecución (15.95s), estadística kappa (87.69%), puntaje F1 (85.54 %), tasa de clasificación (88.82 %), tasa de falsos negativos (14.28 %), tasa de precisión (86.67 %), convergencia (convergente hacia la iteración 90), estabilidad (es más estable con un estándar de desviación media igual al 0.12 %) y complejidad (requiere una complejidad computacional de tiempo y espacio mucho menor).

Opinion Mining (OM) is a field of Natural Language Processing (NLP) that aims to capture human sentiment in the given text. With the ever-spreading of online purchasing websites, micro-blogging sites, and social media platforms, OM in online social media platforms has picked the interest of thousands of scientific researchers. Because the reviews, tweets and blogs acquired from these social media networks, act as a significant source for enhancing the decision making process. The obtained textual data (reviews, tweets, or blogs) are classified into three different class labels which are negative, neutral and positive for analyzing and extracting relevant information from the given dataset. In this contribution, we introduce an innovative MapReduce improved weighted ID3 decision tree classification approach for OM, which consists mainly of three aspects: Firstly We have used several feature extractors to efficiently detect and capture the relevant data from the given tweets, including N-grams or character-level, Bag-Of-Words, word embedding (GloVe, Word2Vec), FastText, and TF-IDF. Secondly, we have applied a multiple feature selector to reduce the high feature's dimensionality, including Chi-square, Gain Ratio, Information Gain, and Gini Index. Finally, we have employed the obtained features to carry out the classification task using an improved ID3 decision tree classifier, which aims to calculate the weighted information gain instead of information gain used in traditional ID3. In other words, to measure the weighted information gain for the current conditioned feature, we follow two steps: First, we compute the weighted correlation function of the current conditioned feature. Second, we multiply the obtained weighted correlation function by the information gain of this current conditioned feature. This work is implemented in a distributed environment using the Hadoop framework, with its programming framework MapReduce and its distributed file system HDFS. Its primary goal is to enhance the performance of a well-known ID3 classifier in terms of accuracy, execution time, and ability to handle the massive datasets. We have carried out several experiences that aims to assess the effectiveness of our suggested classifier compared to some other contributions chosen from the literature. The experimental results demonstrated that our ID3 classifier works better on COVID-19_Sentiments dataset than other classifiers in terms of Recall (85.72 %), specificity (86.51 %), error rate (11.18 %), false-positive rate (13.49 %), execution time (15.95s), kappa statistic (87.69 %), F1-score (85.54 %), classification rate (88.82 %), false-negative rate (14.28 %), precision rate (86.67 %), convergence (it convergent towards the iteration 90), stability (it is more stable with mean deviation standard equal to 0.12 %), and complexity (it requires much lower time and space computational complexity).

تعدين الآراء (OM) هو مجال لمعالجة اللغة الطبيعية (NLP) يهدف إلى التقاط المشاعر البشرية في النص المحدد. مع الانتشار المستمر لمواقع الشراء عبر الإنترنت ومواقع المدونات الصغيرة ومنصات وسائل التواصل الاجتماعي، جذبت OM في منصات وسائل التواصل الاجتماعي عبر الإنترنت اهتمام الآلاف من الباحثين العلميين. نظرًا لأن المراجعات والتغريدات والمدونات التي تم الحصول عليها من شبكات التواصل الاجتماعي هذه، تعمل كمصدر مهم لتعزيز عملية صنع القرار. يتم تصنيف البيانات النصية التي تم الحصول عليها (المراجعات أو التغريدات أو المدونات) إلى ثلاث فئات مختلفة تكون سلبية ومحايدة وإيجابية لتحليل واستخراج المعلومات ذات الصلة من مجموعة البيانات المعطاة. في هذه المساهمة، نقدم نهجًا مبتكرًا لتصنيف شجرة القرار ID3 المحسّن لـ OM، والذي يتكون بشكل أساسي من ثلاثة جوانب: أولاً، استخدمنا العديد من مستخلصات الميزات للكشف عن البيانات ذات الصلة والتقاطها بكفاءة من التغريدات المعطاة، بما في ذلك N - grams أو على مستوى الأحرف، و Bag - of - Words، وتضمين الكلمات (GloVe، و Word2Vec)، و FastText، و TF - IDF. ثانيًا، قمنا بتطبيق محدد ميزات متعدد لتقليل أبعاد الميزة العالية، بما في ذلك مربع كاي ونسبة الكسب وكسب المعلومات ومؤشر جيني. أخيرًا، استخدمنا الميزات التي تم الحصول عليها لتنفيذ مهمة التصنيف باستخدام مصنف شجرة قرارات ID3 محسّن، والذي يهدف إلى حساب كسب المعلومات المرجح بدلاً من كسب المعلومات المستخدم في ID3 التقليدي. بمعنى آخر، لقياس كسب المعلومات المرجحة للميزة الشرطية الحالية، نتبع خطوتين: أولاً، نحسب دالة الارتباط المرجحة للميزة الشرطية الحالية. ثانيًا، نضرب دالة الارتباط المرجحة التي تم الحصول عليها في كسب المعلومات لهذه الميزة المشروطة الحالية. يتم تنفيذ هذا العمل في بيئة موزعة باستخدام إطار Hadoop، مع إطاره البرمجي MapReduce ونظام الملفات الموزع HDFS. هدفها الأساسي هو تعزيز أداء مصنف ID3 المعروف من حيث الدقة ووقت التنفيذ والقدرة على التعامل مع مجموعات البيانات الضخمة. لقد أجرينا العديد من التجارب التي تهدف إلى تقييم فعالية المصنف المقترح لدينا مقارنة ببعض المساهمات الأخرى المختارة من الأدبيات. أظهرت النتائج التجريبية أن مصنفنا ID3 يعمل بشكل أفضل على مجموعة بيانات COVID -19_Sentiments من المصنفات الأخرى من حيث الاستدعاء (85.72 ٪)، والخصوصية (86.51 ٪)، ومعدل الخطأ (11.18 ٪)، ومعدل الإيجابية الخاطئة (13.49 ٪)، ووقت التنفيذ (15.95ثانية)، وإحصائية KAPPA (87.69 ٪)، درجة F1 (85.54 ٪)، ومعدل التصنيف (88.82 ٪)، والمعدل السلبي الخاطئ (14.28 ٪)، ومعدل الدقة (86.67 ٪)، والتقارب (يتقارب نحو التكرار 90)، والاستقرار (يكون أكثر استقرارًا مع متوسط معيار الانحراف يساوي 0.12 ٪)، والتعقيد (يتطلب وقتًا أقل بكثير ومساحة حسابية معقدة).

Keywords

FOS: Computer and information sciences, Artificial intelligence, Text Mining, Word embedding, Information gain ratio, Detection and Prevention of Phishing Attacks, Social media, Sentiment analysis, Artificial Intelligence, Machine learning, Automated Detection of Hate Speech and Offensive Language, Sentiment Analysis, Decision tree, Information retrieval, MapReduce, Opinion Mining, Data mining, Natural Language Processing, HDFS, Computer science, ID3 decision tree, TK1-9971, World Wide Web, Sentiment Analysis and Opinion Mining, Hadoop, Emotion Recognition, Computer Science, Physical Sciences, opinion mining, Electrical engineering. Electronics. Nuclear engineering, Classifier (UML), feature extractors, Information Systems, Embedding

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    38
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Top 10%
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Top 10%
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Top 1%
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
38
Top 10%
Top 10%
Top 1%
gold