
En bioinformatique, les modèles de diagnostic médical pourraient être considérablement impactés par les données de grande dimension générées par les technologies à haut débit. Ces données comprennent des gènes redondants ou non pertinents, ce qui rend difficile l'identification des gènes pertinents à partir de ces données de grande dimension. Par conséquent, une technique efficace de sélection des caractéristiques (FS) peut réduire considérablement le degré de dimensionnalité afin d'améliorer les performances et la précision du diagnostic médical. L'algorithme de recherche de coucou (CSA) est appliqué à la sélection de gènes et s'est avéré efficace en termes d'exploitation, d'exploration et de convergence. Cependant, la plupart des techniques actuelles de FS basées sur la CSA traitent le problème de sélection des gènes comme un objectif unique plutôt que comme un mécanisme multi-objectif. Cet article propose un algorithme de recherche de coucou binaire multi-objectif (MOBCSA) pour la sélection de gènes. Le MOBCSA étend la norme CSA en tenant compte de multiples objectifs tels que la précision de la classification et le nombre de gènes sélectionnés. MOBCSA utilise une fonction de transfert en forme de S pour transformer l'espace de recherche de l'algorithme d'un espace de recherche continu en un espace de recherche binaire. MOBCSA intègre deux composants : une archive externe pour sauvegarder les solutions pareto optimales atteintes lors du processus de recherche et un mécanisme adaptatif de mise à jour de la distance d'encombrement intégré dans l'archive pour maintenir la diversité et augmenter la couverture des solutions optimales. Pour évaluer la performance du MOBCSA, les expériences d'évaluation ont été menées sur six ensembles de données biomédicales de référence à l'aide de trois classificateurs différents. Ensuite, les résultats expérimentaux obtenus ont été comparés à quatre méthodes FS de l'état de la technique basées sur des multi-objectifs. Les résultats prouvent que MOBCSA surpasse les autres méthodes à la fois en précision de classification et en nombre de gènes sélectionnés, où il a obtenu une précision moyenne allant de 92,79 % à 98,42 % et un nombre moyen de gènes sélectionnés allant de 15,67 à 27,88 pour différents classificateurs et ensembles de données.
En bioinformática, los modelos de diagnóstico médico podrían verse significativamente afectados por los datos de alta dimensión generados por las tecnologías de alto rendimiento. Estos datos incluyen genes redundantes o irrelevantes, lo que dificulta la identificación de los genes relevantes a partir de datos de tan alta dimensión. Por lo tanto, una técnica efectiva de selección de características (FS) puede reducir significativamente el grado de dimensionalidad para mejorar el rendimiento y la precisión del diagnóstico médico. El algoritmo de búsqueda de cuco (CSA) se aplica para la selección de genes y se encuentra que es efectivo en términos de explotación, exploración y convergencia. Sin embargo, la mayoría de las técnicas actuales de FS basadas en CSA abordan el problema de la selección de genes como un único objetivo en lugar de un mecanismo multiobjetivo. Este artículo propone un algoritmo de búsqueda de cuco binario multiobjetivo (MOBCSA) para la selección de genes. El MOBCSA amplía el CSA estándar teniendo en cuenta múltiples objetivos, como la precisión de la clasificación y el número de genes seleccionados. MOBCSA utiliza la función de transferencia en forma de S para transformar el espacio de búsqueda del algoritmo de un espacio de búsqueda continuo a uno binario. MOBCSA integra dos componentes: un archivo externo para guardar las soluciones óptimas de pareto alcanzadas durante el proceso de búsqueda y un mecanismo de actualización adaptativa de la distancia de aglomeración integrado en el archivo para mantener la diversidad y aumentar la cobertura de las soluciones óptimas. Para evaluar el rendimiento de MOBCSA, los experimentos de evaluación se realizaron en seis conjuntos de datos biomédicos de referencia utilizando tres clasificadores diferentes. Luego, los resultados experimentales obtenidos se compararon con cuatro métodos FS de última generación basados en objetivos múltiples. Los hallazgos demuestran que MOBCSA supera a los otros métodos tanto en la precisión de la clasificación como en el número de genes seleccionados, donde ha obtenido una precisión promedio que oscila entre el 92,79% y el 98,42% y un número promedio de genes seleccionados que oscila entre 15,67 y 27,88 para diferentes clasificadores y conjuntos de datos.
In bioinformatics, medical diagnosis models might be significantly impacted by high-dimensional data generated by high-throughput technologies. This data includes redundant or irrelevant genes making it challenging to identify the relevant genes from such high-dimensional data. Therefore, an effective feature selection (FS) technique can significantly reduce the degree of dimensionality to enhance the performance and accuracy of medical diagnosis. Cuckoo Search Algorithm (CSA) is applied for gene selection and found to be effective in terms of exploitation, exploration, and convergence. However, most of the current CSA-based FS techniques deal with gene selection problem as a single objective rather than a multi-objective mechanism. This article proposes a Multi-Objective Binary Cuckoo Search Algorithm (MOBCSA) for gene selection. The MOBCSA extends the standard CSA considering multiple objectives such as accuracy of classification and number of selected genes. MOBCSA utilizes S-shaped transfer function for transforming the algorithm's search space from a continuous to a binary search space. MOBCSA integrates two components: an external archive to save the pareto optimal solutions attained during the search process and an adaptive crowding distance updating mechanism integrated into the archive to maintain diversity and increase the coverage of optimal solutions. To evaluate the performance of MOBCSA, the evaluation experiments were conducted on six benchmark biomedical datasets using three different classifiers. Then, the obtained experimental results were compared against four multi-objective-based state of the art FS methods. The findings prove that MOBCSA surpasses the other methods in both accuracy of classification and number of selected genes, where it has obtained an average accuracy ranging from 92.79% to 98.42% and an average number of selected genes ranging from 15.67 to 27.88 for different classifiers and datasets.
في المعلوماتية الحيوية، قد تتأثر نماذج التشخيص الطبي بشكل كبير بالبيانات عالية الأبعاد الناتجة عن التقنيات عالية الإنتاجية. تتضمن هذه البيانات جينات زائدة عن الحاجة أو غير ذات صلة مما يجعل من الصعب تحديد الجينات ذات الصلة من هذه البيانات عالية الأبعاد. لذلك، يمكن لتقنية اختيار الميزات الفعالة (FS) أن تقلل بشكل كبير من درجة الأبعاد لتعزيز أداء ودقة التشخيص الطبي. يتم تطبيق خوارزمية البحث الوقواق (CSA) لاختيار الجينات ووجد أنها فعالة من حيث الاستغلال والاستكشاف والتقارب. ومع ذلك، فإن معظم تقنيات FS الحالية القائمة على CSA تتعامل مع مشكلة اختيار الجينات كهدف واحد بدلاً من آلية متعددة الأهداف. تقترح هذه المقالة خوارزمية البحث عن الوقواق الثنائي متعدد الأهداف (MOBCSA) لاختيار الجينات. يوسع MOBCSA نطاق CSA القياسي مع مراعاة أهداف متعددة مثل دقة التصنيف وعدد الجينات المختارة. تستخدم MOBCSA وظيفة النقل على شكل حرف S لتحويل مساحة بحث الخوارزمية من مساحة بحث مستمرة إلى مساحة بحث ثنائية. تدمج MOBCSA مكونين: أرشيف خارجي لحفظ الحلول المثلى باريتو التي تم الحصول عليها أثناء عملية البحث وآلية تحديث مسافة الازدحام التكيفية المدمجة في الأرشيف للحفاظ على التنوع وزيادة تغطية الحلول المثلى. لتقييم أداء MOBCSA، أجريت تجارب التقييم على ست مجموعات بيانات طبية حيوية معيارية باستخدام ثلاثة مصنفات مختلفة. بعد ذلك، تمت مقارنة النتائج التجريبية التي تم الحصول عليها بأربع طرق FS حديثة قائمة على أهداف متعددة. أثبتت النتائج أن MOBCSA تفوق الطرق الأخرى في كل من دقة التصنيف وعدد الجينات المختارة، حيث حصلت على متوسط دقة يتراوح بين 92.79 ٪ إلى 98.42 ٪ ومتوسط عدد الجينات المختارة يتراوح بين 15.67 إلى 27.88 لمختلف المصنفات ومجموعات البيانات.
FOS: Computer and information sciences, Artificial intelligence, Bioinformatics, Pattern recognition (psychology), Features selection, Selection (genetic algorithm), Artificial Intelligence, Biochemistry, Genetics and Molecular Biology, Support Vector Machines, Microarray Data Analysis and Gene Expression Profiling, Machine learning, FOS: Mathematics, Swarm Intelligence Optimization Algorithms, Feature Selection, Molecular Biology, Constraint Handling, Prediction of Protein Subcellular Localization, Arithmetic, Particle swarm optimization, Life Sciences, Cuckoo search, data mining, bioinformatics, Computer science, TK1-9971, Algorithm, machine learning, multi-objective optimization, Genetic algorithm, Computer Science, Physical Sciences, Nature-Inspired Algorithms, cuckoo search algorithm, Electrical engineering. Electronics. Nuclear engineering, Binary number, Mathematics
FOS: Computer and information sciences, Artificial intelligence, Bioinformatics, Pattern recognition (psychology), Features selection, Selection (genetic algorithm), Artificial Intelligence, Biochemistry, Genetics and Molecular Biology, Support Vector Machines, Microarray Data Analysis and Gene Expression Profiling, Machine learning, FOS: Mathematics, Swarm Intelligence Optimization Algorithms, Feature Selection, Molecular Biology, Constraint Handling, Prediction of Protein Subcellular Localization, Arithmetic, Particle swarm optimization, Life Sciences, Cuckoo search, data mining, bioinformatics, Computer science, TK1-9971, Algorithm, machine learning, multi-objective optimization, Genetic algorithm, Computer Science, Physical Sciences, Nature-Inspired Algorithms, cuckoo search algorithm, Electrical engineering. Electronics. Nuclear engineering, Binary number, Mathematics
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 5 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Top 10% | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
