Stacked Ensemble for Bioactive Molecule Prediction

descriptionPublicationkeyboard_double_arrow_right Article , Other literature type 01 Jan 2019Publisher:Institute of Electrical and Electronics Engineers (IEEE)Journal:IEEE Access, volume 7, pages 153,952-153,957 (eissn: 2169-3536,

Copyright policy )

Authors: Olutomilayo Olayemi Petinrin; Faisal Saeed;

doi: 10.1109/access.2019.2945422 , 10.60692/ewjkp-ey869 , 10.60692/5f2rj-d9046

Stacked Ensemble for Bioactive Molecule Prediction

- Summary
- Subjects
- Metrics

Abstract

Les composés moléculaires bioactifs sont essentiels à la découverte de médicaments. L'activité biologique de ces composés doit être prédite car elle est utilisée pour déterminer la capacité cible du médicament. Comme les médicaments inefficaces sont jetés après la production, ce qui entraîne une perte de ressources et de temps, il est important de prédire les molécules bioactives avec des modèles ayant des performances prédictives élevées. Cette étude utilise l'ensemble empilé qui utilise la prédiction de plusieurs classificateurs de base comme caractéristiques, utilisées pour former un méta classificateur qui fait la prédiction finale. À l'aide de trois ensembles de données DS1, DS2 et DS3 obtenus à partir de la base de données MDL Drug Data Report (MDDR), la performance de l'ensemble empilé a été comparée à trois autres ensembles : adaboost, ensachage et ensemble de vote, en fonction de différents critères d'évaluation et également d'une méthode statistique, le test W de Kendall. La précision de l'ensemble empilé variait de 96,7002 %, 98,2260 % et 94,9007 % pour les trois ensembles de données respectivement, bien que Vote ait eu la meilleure précision en utilisant l'ensemble de données DS2 qui se compose de molécules bioactives structurellement homogènes. En outre, en utilisant le test W de Kendall pour classer les ensembles, Stacked ensemble a été classé meilleur avec les ensembles de données DS1 et DS3, avec une moyenne de 4,00 et un niveau global d'accord, W, de 0,986 et 1 000 respectivement. À l'aide de l'ensemble de données DS2, il a été classé après Vote et Adaboost avec une moyenne de 2,33 et un niveau global d'accord, W de 0,857. L'ensemble empilé est recommandé pour la prédiction de molécules bioactives hétérogènes lors de la découverte de médicaments et peut également être mis en œuvre dans d'autres domaines de recherche.

Los compuestos moleculares bioactivos son esenciales para el descubrimiento de fármacos. La actividad biológica de estos compuestos debe predecirse, ya que se utiliza para determinar la capacidad del fármaco-objetivo. Dado que los fármacos ineficaces se descartan después de la producción, lo que lleva a un desperdicio de recursos y tiempo, es importante predecir las moléculas bioactivas con modelos que tengan un alto rendimiento predictivo. Este estudio utiliza el conjunto apilado que utiliza la predicción de múltiples clasificadores de base como características, utilizados para entrenar a un metaclasificador que hace la predicción final. Utilizando tres conjuntos de datos DS1, DS2 y DS3 obtenidos de la base de datos MDL Drug Data Report (MDDR), el rendimiento del conjunto apilado se comparó con otros tres conjuntos: adaboost, bagging y conjunto de votos, según diferentes criterios de evaluación y también un método estadístico, la prueba W de Kendall. La precisión del conjunto apilado varió de 96.7002%, 98.2260% y 94.9007% para los tres conjuntos de datos, respectivamente, aunque Vote tuvo la mejor precisión utilizando el conjunto de datos DS2 que consiste en moléculas bioactivas estructuralmente homogéneas. Además, utilizando la prueba W de Kendall para clasificar los conjuntos, el conjunto apilado se clasificó mejor con los conjuntos de datos DS1 y DS3, con una media media de 4,00 y un nivel general de acuerdo, W, de 0,986 y 1.000, respectivamente. Utilizando el conjunto de datos DS2, se clasificó después de Vote y Adaboost con una media de 2,33 y un nivel general de acuerdo, W de 0,857. Stacked ensemble se recomienda para la predicción de moléculas bioactivas heterogéneas durante el descubrimiento de fármacos y también se puede implementar en otras áreas de investigación.

Bioactive molecular compounds are essential for drug discovery. The biological activity of these compounds needs to be predicted as this is used to determine the drug-target ability. As ineffective drugs are discarded after production, leading to resource and time wastage, it is important to predict bioactive molecules with models having high predictive performance. This study utilizes the stacked ensemble which uses the prediction of multiple base classifiers as features, used to train a meta classifier which makes the final prediction. Using three datasets DS1, DS2, and DS3 gotten from MDL Drug Data Report (MDDR) database, the performance of stacked ensemble was compared to three other ensembles: adaboost, bagging, and vote ensemble, based on different evaluation criteria and also a statistical method, Kendall's W test. The accuracy of Stacked ensemble ranged from 96.7002%, 98.2260% and 94.9007% for the three datasets respectively, although Vote had the best accuracy using dataset DS2 which consist of structurally homogeneous bioactive molecules. Also, using Kendall's W test to rank the ensembles, Stacked ensemble was ranked best with datasets DS1 and DS3, with both having a mean average of 4.00 and an overall level of agreement, W, of 0.986 and 1.000 respectively. Using dataset DS2, it was ranked after Vote and Adaboost with mean average of 2.33 and an overall level of agreement, W of 0.857. Stacked ensemble is recommended for the prediction of heterogeneous bioactive molecules during drug discovery and can also be implemented in other research areas.

المركبات الجزيئية النشطة بيولوجيًا ضرورية لاكتشاف الأدوية. يجب التنبؤ بالنشاط البيولوجي لهذه المركبات حيث يتم استخدامها لتحديد القدرة على استهداف الدواء. نظرًا لأنه يتم التخلص من الأدوية غير الفعالة بعد الإنتاج، مما يؤدي إلى إهدار الموارد والوقت، فمن المهم التنبؤ بالجزيئات النشطة بيولوجيًا مع النماذج ذات الأداء التنبؤي العالي. تستخدم هذه الدراسة المجموعة المكدسة التي تستخدم التنبؤ بالمصنفات الأساسية المتعددة كميزات، وتستخدم لتدريب مصنف ميتا الذي يقوم بالتنبؤ النهائي. باستخدام ثلاث مجموعات بيانات DS1 و DS2 و DS3 تم الحصول عليها من قاعدة بيانات MDL Drug Data Report (MDDR)، تمت مقارنة أداء المجموعة المكدسة بثلاث مجموعات أخرى: adaboost، والتعبئة، ومجموعة التصويت، بناءً على معايير تقييم مختلفة وأيضًا طريقة إحصائية، اختبار Kendall 's W. تراوحت دقة المجموعة المكدسة بين 96.7002 ٪ و 98.2260 ٪ و 94.9007 ٪ لمجموعات البيانات الثلاث على التوالي، على الرغم من أن التصويت كان له أفضل دقة باستخدام مجموعة البيانات DS2 التي تتكون من جزيئات نشطة بيولوجيًا متجانسة هيكليًا. أيضًا، باستخدام اختبار Kendall 's W لترتيب المجموعات، تم تصنيف Stacked ensemble بشكل أفضل مع مجموعات البيانات DS1 و DS3، بمتوسط متوسط قدره 4.00 ومستوى إجمالي للاتفاق، W، قدره 0.986 و 1.000 على التوالي. باستخدام مجموعة البيانات DS2، تم تصنيفها بعد التصويت و Adaboost بمتوسط 2.33 ومستوى عام من الاتفاق، W 0.857. يوصى باستخدام مجموعة مكدسة للتنبؤ بالجزيئات النشطة بيولوجيًا غير المتجانسة أثناء اكتشاف الأدوية ويمكن أيضًا تنفيذها في مجالات بحثية أخرى.

Related Organizations

Malaysia University of Science and Technology
Malaysia
University of Technology Malaysia
Malaysia

Keywords

Bioactive molecule prediction, Artificial intelligence, Drug Target Identification, Challenges and Innovations in Bioinformatics Education, Boosting (machine learning), Pattern recognition (psychology), chemoinformatics, Biochemistry, drug discovery, stacked ensemble, Biochemistry, Genetics and Molecular Biology, Support Vector Machines, Ensemble learning, Machine learning, FOS: Mathematics, Homogeneous, Molecular Biology, Data mining, Prediction of Protein Subcellular Localization, Drug discovery, ensemble, AdaBoost, Life Sciences, Ensemble forecasting, Computer science, TK1-9971, Molecular Docking, Chemistry, Computational Theory and Mathematics, Combinatorics, Computer Science, Physical Sciences, Electrical engineering. Electronics. Nuclear engineering, Classifier (UML), Mathematics, Computational Methods in Drug Discovery

Impact byBIP!

	selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	14
	popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.	Top 10%
	influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).	Average
	impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.	Top 10%