Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ The Egyptian Journal...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
The Egyptian Journal of Language Engineering
Article . 2020 . Peer-reviewed
Data sources: Crossref
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
https://dx.doi.org/10.60692/9y...
Other literature type . 2020
Data sources: Datacite
https://dx.doi.org/10.60692/78...
Other literature type . 2020
Data sources: Datacite
versions View all 3 versions
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Machine Learning and Feature Selection Approaches for Categorizing Arabic Text: Analysis, Comparison, and Proposal

مناهج التعلم الآلي واختيار الميزات لتصنيف النص العربي: التحليل والمقارنة والاقتراح
Authors: Ayat Elnahas; Nawal El‐Fishawy; Mohamed Abdalla Nour; Maha Tolba;

Machine Learning and Feature Selection Approaches for Categorizing Arabic Text: Analysis, Comparison, and Proposal

Abstract

Ce travail adopte certaines approches de classification pour catégoriser le texte arabe. Les approches sont exploitées sur deux ensembles de données en tant que bancs d'essai. Une étude comparative est réalisée pour évaluer la performance des classificateurs adoptés. Certaines méthodes de sélection de caractéristiques sont également analysées, étudiées et évaluées. La sélection des fonctionnalités les plus importantes est importante car le grand nombre de fonctionnalités peut entraîner une dégradation des performances pour la classification du texte. Une étude comparative est réalisée parmi les méthodes de sélection de caractéristiques adoptées pour classer les documents arabes. De plus, une modification est effectuée sur les approches de sélection de caractéristiques en effectuant une fusion pour les méthodes choisies. Un nouveau procédé est également proposé pour sélectionner les caractéristiques les plus appropriées. Le procédé est basé sur la fusion sémantique et les mots multiples (SF-MW) pour construire les caractéristiques. Une comparaison est effectuée entre les méthodes de sélection de caractéristiques adoptées et celle proposée. Les résultats expérimentaux montrent que la meilleure performance était pour le classificateur SVM par rapport aux classificateurs KNN et NB. La combinaison parmi les méthodes de sélection de caractéristiques adoptées présente de meilleurs résultats par rapport aux méthodes adoptées individuellement. La méthode de sélection de caractéristiques proposée (SF-MW) est prometteuse car elle a réduit les caractéristiques et obtenu une plus grande précision de classification. L'amélioration de la précision était d'environ 22 % pour les deux bancs d'essai arabes choisis qui contiennent respectivement 1246 et 1500 documents. La méthode proposée devrait également être efficace pour d'autres ensembles de données en arabe et en anglais.

Este trabajo adopta algunos enfoques de clasificación para categorizar el texto árabe. Los enfoques se operan en dos conjuntos de datos como bancos de pruebas. Se realiza un estudio comparativo para evaluar el rendimiento de los clasificadores adoptados. Algunos métodos de selección de características también se analizan, investigan y evalúan. Seleccionar las características más significativas es importante porque la gran cantidad de características puede causar una degradación del rendimiento para la clasificación de textos. Se realiza un estudio comparativo entre los métodos de selección de características adoptados para clasificar documentos árabes. Además, se realiza una modificación en los enfoques de selección de características mediante la amalgama de los métodos elegidos. También se propone un método novedoso para seleccionar las características más apropiadas. El método se basa en la fusión semántica y palabras múltiples (SF-MW) para construir las características. Se realiza una comparación entre los métodos de selección de características adoptados y el propuesto. Los resultados experimentales muestran que el mejor rendimiento fue para el clasificador SVM en comparación con los clasificadores KNN y NB. La combinación entre los métodos de selección de características adoptados presenta mejores resultados en comparación con los adoptados individualmente. El método de selección de características propuesto (SF-MW) es prometedor, ya que reduce las características y logra una mayor precisión de clasificación. La mejora de la precisión fue de aproximadamente el 22% para los dos bancos de pruebas árabes elegidos que contienen 1246 y 1500 documentos, respectivamente. Se espera que el método propuesto también sea eficiente para otros conjuntos de datos en árabe e inglés.

This work adopts some classification approaches for categorizing Arabic text. The approaches are operated on two datasets as test-beds. A comparative study is done to evaluate the performance of the adopted classifiers. Some feature selection methods are also analyzed, investigated, and evaluated. Selecting the most significant features is important because the huge number of features may cause performance degradation for text classification. A comparative study is done among the adopted feature selection methods for classifying Arabic documents. Moreover, a modification is done on the feature selection approaches by doing amalgamation for the chosen methods. A novel method is also proposed for selecting the most appropriate features. The method is based on the semantic fusion and multiple-words (SF-MW) for constructing the features. A comparison is done among the adopted feature selection methods and the proposed one. The experimental results show that the best performance was for the SVM classifier compared to the KNN and NB classifiers. The combination among the adopted feature selection methods presents better results compared to the individual adopted ones. The proposed feature selection method (SF-MW) is promising as it reduced the features and achieved higher classification accuracy. The accuracy improvement was about 22% for the two chosen Arabic test-beds which contain 1246 and 1500 documents respectively. The proposed method is expected to be also efficient for other Arabic and English datasets.

يعتمد هذا العمل بعض مناهج التصنيف لتصنيف النص العربي. يتم تشغيل النهج على مجموعتين من البيانات كأسرّة اختبار. يتم إجراء دراسة مقارنة لتقييم أداء المصنفات المعتمدة. كما يتم تحليل بعض طرق اختيار الميزات والتحقيق فيها وتقييمها. يعد اختيار أهم الميزات أمرًا مهمًا لأن العدد الهائل من الميزات قد يتسبب في تدهور الأداء لتصنيف النص. يتم إجراء دراسة مقارنة بين طرق اختيار السمات المعتمدة لتصنيف الوثائق العربية. علاوة على ذلك، يتم إجراء تعديل على مناهج اختيار الميزات عن طريق إجراء الدمج للطرق المختارة. كما تُقترح طريقة جديدة لاختيار الميزات الأكثر ملاءمة. تعتمد الطريقة على الاندماج الدلالي والكلمات المتعددة (SF - MW) لبناء الميزات. يتم إجراء مقارنة بين طرق اختيار الميزات المعتمدة والطريقة المقترحة. تظهر النتائج التجريبية أن أفضل أداء كان لمصنف SVM مقارنة بمصنفي KNN و NB. يقدم الجمع بين طرق اختيار الميزات المعتمدة نتائج أفضل مقارنة بالطرق الفردية المعتمدة. طريقة اختيار الميزة المقترحة (SF - MW) واعدة لأنها قللت من الميزات وحققت دقة تصنيف أعلى. كان تحسين الدقة حوالي 22 ٪ لسريري الاختبار العربيين المختارين اللذين يحتويان على 1246 و 1500 وثيقة على التوالي. من المتوقع أن تكون الطريقة المقترحة فعالة أيضًا لمجموعات البيانات العربية والإنجليزية الأخرى.

Keywords

Artificial intelligence, Arabic, Natural language processing, Feature (linguistics), Linguistics, Computer science, FOS: Philosophy, ethics and religion, Machine Learning Algorithms, Philosophy, Selection (genetic algorithm), Artificial Intelligence, Multi-label Text Classification in Machine Learning, Computer Science, Physical Sciences, Feature selection, Machine learning, FOS: Languages and literature, Document Categorization, Feature Selection, Multi-label Learning, Text Classification

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    11
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Top 10%
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Top 10%
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
11
Top 10%
Average
Top 10%
gold