
pmid: 37947586
pmc: PMC10685454
Comprendre la pathogénicité de la mutation faux-sens (MM) est essentiel pour faire la lumière sur les maladies génétiques, les fonctions des gènes et les variations individuelles. Dans cette étude, nous proposons une nouvelle approche computationnelle, appelée MMPatho, pour améliorer la prédiction pathogène des mutations faux-sens. Tout d'abord, nous avons établi un ensemble de données de référence MM non redondant à grande échelle basé sur l'ensemble de la base de données Ensembl, complété par un ensemble de tests ciblés en aveugle spécifiquement pour les GOF/LOF MM pathogènes. Sur la base de cet ensemble de données, pour chaque mutation, nous avons utilisé Ensembl VEP v104 et dbNSFP v4.1a pour extraire le niveau des variants, le niveau des acides aminés, les sorties des individus et les caractéristiques au niveau du génome. De plus, des séquences de protéines ont été générées à l'aide d'identifiants ENSP avec l'API Ensembl, puis codées. Les encastrements ESM-1b et ProtTrans-T5 des sites mutants ont ensuite été extraits. Ensuite, notre groupe modèle (MMPatho) a été développé en tirant parti de ces efforts, qui comprenaient ConsMM et EvoIndMM. Pour être plus précis, ConsMM utilise les sorties des individus et XGBoost avec l'analyse des explications SHAP, tandis qu'EvoIndMM étudie l'amélioration potentielle de la capacité prédictive en incorporant des informations évolutives provenant d'ESM-1b et ProtT5-XL-U50, de grands intégrations de langage protéique. Grâce à des expériences comparatives rigoureuses, ConsMM et EvoIndMM ont été capables d'atteindre des valeurs remarquables AUROC (0,9836 et 0,9854) et AUPR (0,9852 et 0,9902) sur l'ensemble de test en aveugle dépourvu de variations et de protéines se chevauchant à partir des données d'entraînement, soulignant ainsi la supériorité de notre approche computationnelle dans la prédiction de la pathogénicité MM. Notre serveur Web, disponible sur http://csbio.njust.edu.cn/bioinf/mmpatho/, permet aux chercheurs de prédire la pathogénicité (parallèlement au score d'indice de fiabilité) des MM à l'aide des modèles ConsMM et EvoIndMM et fournit des annotations détaillées pour la saisie par l'utilisateur. De plus, l'ensemble de données de référence nouvellement construit et l'ensemble de tests à l'aveugle sont accessibles via la page de données de notre serveur Web.
Comprender la patogenicidad de la mutación sin sentido (MM) es esencial para arrojar luz sobre las enfermedades genéticas, las funciones de los genes y las variaciones individuales. En este estudio, proponemos un nuevo enfoque computacional, llamado MMPatho, para mejorar la predicción patogénica de mutaciones sin sentido. En primer lugar, establecimos un conjunto de datos de referencia de MM no redundante a gran escala basado en toda la base de datos Ensembl, complementado por un conjunto de pruebas ciegas enfocadas específicamente para GOF/LOF MM patógeno. Con base en este conjunto de datos, para cada mutación, utilizamos Ensembl VEP v104 y dbNSFP v4.1a para extraer características de nivel de variante, nivel de aminoácidos, resultados individuales y nivel de genoma. Además, las secuencias de proteínas se generaron utilizando identificadores ENSP con la API Ensembl y luego se codificaron. Posteriormente se extrajeron las incrustaciones de ESM-1b y ProtTrans-T5 de los sitios mutantes. Luego, nuestro grupo modelo (MMPatho) se desarrolló aprovechando estos esfuerzos, que comprendían ConsMM y EvoIndMM. Para ser específicos, ConsMM emplea los resultados de los individuos y XGBoost con el análisis de explicación SHAP, mientras que EvoIndMM investiga la posible mejora de la capacidad predictiva mediante la incorporación de información evolutiva de ESM-1b y ProtT5-XL-U50, incrustaciones de lenguaje de proteínas grandes. A través de rigurosos experimentos comparativos, tanto ConsMM como EvoIndMM fueron capaces de lograr valores notables de AUROC (0.9836 y 0.9854) y AUPR (0.9852 y 0.9902) en el conjunto de pruebas ciegas sin variaciones superpuestas y proteínas de los datos de entrenamiento, destacando así la superioridad de nuestro enfoque computacional en la predicción de la patogenicidad de MM. Nuestro servidor web, disponible en http://csbio.njust.edu.cn/bioinf/mmpatho/, permite a los investigadores predecir la patogenicidad (junto con la puntuación del índice de fiabilidad) de los MM utilizando los modelos ConsMM y EvoIndMM y proporciona amplias anotaciones para la entrada del usuario. Además, se puede acceder al conjunto de datos de referencia recién construido y al conjunto de pruebas ciegas a través de la página de datos de nuestro servidor web.
Understanding the pathogenicity of missense mutation (MM) is essential for shed light on genetic diseases, gene functions, and individual variations. In this study, we propose a novel computational approach, called MMPatho, for enhancing missense mutation pathogenic prediction. First, we established a large-scale nonredundant MM benchmark data set based on the entire Ensembl database, complemented by a focused blind test set specifically for pathogenic GOF/LOF MM. Based on this data set, for each mutation, we utilized Ensembl VEP v104 and dbNSFP v4.1a to extract variant-level, amino acid-level, individuals' outputs, and genome-level features. Additionally, protein sequences were generated using ENSP identifiers with the Ensembl API, and then encoded. The mutant sites' ESM-1b and ProtTrans-T5 embeddings were subsequently extracted. Then, our model group (MMPatho) was developed by leveraging upon these efforts, which comprised ConsMM and EvoIndMM. To be specific, ConsMM employs individuals' outputs and XGBoost with SHAP explanation analysis, while EvoIndMM investigates the potential enhancement of predictive capability by incorporating evolutionary information from ESM-1b and ProtT5-XL-U50, large protein language embeddings. Through rigorous comparative experiments, both ConsMM and EvoIndMM were capable of achieving remarkable AUROC (0.9836 and 0.9854) and AUPR (0.9852 and 0.9902) values on the blind test set devoid of overlapping variations and proteins from the training data, thus highlighting the superiority of our computational approach in the prediction of MM pathogenicity. Our Web server, available at http://csbio.njust.edu.cn/bioinf/mmpatho/, allows researchers to predict the pathogenicity (alongside the reliability index score) of MMs using the ConsMM and EvoIndMM models and provides extensive annotations for user input. Additionally, the newly constructed benchmark data set and blind test set can be accessed via the data page of our web server.
يعد فهم مسببات الأمراض لطفرة خطأ المعنى (MM) أمرًا ضروريًا لتسليط الضوء على الأمراض الوراثية ووظائف الجينات والاختلافات الفردية. في هذه الدراسة، نقترح نهجًا حسابيًا جديدًا، يسمى MMPatho، لتعزيز التنبؤ الممرض بالطفرة الخاطئة. أولاً، أنشأنا مجموعة بيانات مرجعية غير زائدة عن الحاجة على نطاق واسع بناءً على قاعدة بيانات Ensembl بأكملها، تكملها مجموعة اختبار عمياء مركزة خصيصًا لـ GOF/LOF MM المسببة للأمراض. استنادًا إلى مجموعة البيانات هذه، لكل طفرة، استخدمنا Ensembl VEP v104 و dbNSFP v4.1a لاستخراج مستوى المتغير ومستوى الأحماض الأمينية ومخرجات الأفراد وميزات مستوى الجينوم. بالإضافة إلى ذلك، تم إنشاء تسلسلات البروتين باستخدام معرفات ENSP مع واجهة برمجة تطبيقات Ensembl، ثم تم ترميزها. تم استخراج تضمينات ESM -1b و ProtTrans - T5 للمواقع الطافرة لاحقًا. بعد ذلك، تم تطوير مجموعتنا النموذجية (MMPatho) من خلال الاستفادة من هذه الجهود، التي تتألف من ConsMM و EvoIndMM. على وجه التحديد، توظف ConsMM مخرجات الأفراد و XGBoost مع تحليل شرح SHAP، بينما تحقق EvoIndMM في التعزيز المحتمل للقدرة التنبؤية من خلال دمج المعلومات التطورية من ESM -1b و ProtT5 - XL - U50، تضمينات لغة البروتين الكبيرة. من خلال التجارب المقارنة الصارمة، كان كل من ConsMM و EvoIndMM قادرين على تحقيق قيم AUROC الرائعة (0.9836 و 0.9854) و AUPR (0.9852 و 0.9902) على مجموعة الاختبار العمياء الخالية من الاختلافات المتداخلة والبروتينات من بيانات التدريب، وبالتالي تسليط الضوء على تفوق نهجنا الحسابي في التنبؤ بالأمراض MM. يسمح خادم الويب الخاص بنا، المتاح على http://csbio.njust.edu.cn/bioinf/mmpatho/، للباحثين بالتنبؤ بالأمراض (إلى جانب درجة مؤشر الموثوقية) لـ MMs باستخدام نموذجي ConsMM و EvoIndMM ويوفر تعليقات توضيحية شاملة لمدخلات المستخدم. بالإضافة إلى ذلك، يمكن الوصول إلى مجموعة البيانات المعيارية التي تم إنشاؤها حديثًا ومجموعة الاختبار العمياء عبر صفحة البيانات الخاصة بخادم الويب الخاص بنا.
Consensus, Pathogenicity Prediction, Mutation, Missense, Computational Biology, Reproducibility of Results, Proteins, Life Sciences, Standards and Guidelines for Genetic Variant Interpretation, Computer science, Gene, Computational biology, Variant Databases, FOS: Biological sciences, Biochemistry, Genetics and Molecular Biology, Phenotype Analysis, Exome Sequencing, Mutation, Genetics, Humans, Missense mutation, RNA Sequencing Data Analysis, Ribosome Structure and Translation Mechanisms, Molecular Biology, Biology, metagenomics assembly
Consensus, Pathogenicity Prediction, Mutation, Missense, Computational Biology, Reproducibility of Results, Proteins, Life Sciences, Standards and Guidelines for Genetic Variant Interpretation, Computer science, Gene, Computational biology, Variant Databases, FOS: Biological sciences, Biochemistry, Genetics and Molecular Biology, Phenotype Analysis, Exome Sequencing, Mutation, Genetics, Humans, Missense mutation, RNA Sequencing Data Analysis, Ribosome Structure and Translation Mechanisms, Molecular Biology, Biology, metagenomics assembly
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 15 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Top 10% | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Top 10% |
