Powered by OpenAIRE graph
Found an issue? Give us feedback
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/ UPCommons. Portal de...arrow_drop_down
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
image/svg+xml art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos Open Access logo, converted into svg, designed by PLoS. This version with transparent background. http://commons.wikimedia.org/wiki/File:Open_Access_logo_PLoS_white.svg art designer at PLoS, modified by Wikipedia users Nina, Beao, JakobVoss, and AnonMoos http://www.plos.org/
versions View all 2 versions
addClaim

Discrete graph generative models for small molecule generation

Authors: García Alfocea, Laura;

Discrete graph generative models for small molecule generation

Abstract

Este proyecto presenta CatMol, un modelo generativo diseñado para crear pequeñas moléculas representadas como grafos, utilizando matrices de nodos y aristas con atributos categóricos. Se aplica un modelo probabilístico de difusión discreta a estas representaciones, aprovechando una distribución marginal derivada del conjunto de datos, lo que mejora el rendimiento en comparación con una distribución uniforme. Para asegurar que el modelo aprenda correctamente la distribución del grafo, se emplea un mecanismo de atención que incorpora la información de las aristas. El modelo se entrena con varios conjuntos de datos y se evalúa utilizando diferentes métricas de rendimiento. En conjuntos de datos de moléculas similares a fármacos, CatMol demuestra un rendimiento comparable con los modelos más avanzados, con resultados superiores en algunos casos. Además, el rendimiento del modelo mejora con conjuntos de datos más grandes, lo que sugiere su escalabilidad. El trabajo futuro incluirá entrenar con conjuntos de datos aún más grandes para validar aún más su escalabilidad y potencial.

Aquest projecte presenta CatMol, un model generatiu dissenyat per crear petites molècules representades com a grafos, utilitzant matrius de nodes i arestes amb atributs categòrics. S’aplica un model probabilístic de difusió discreta a aquestes representacions, aprofitant una distribució marginal derivada del conjunt de dades, la qual millora el rendiment en comparació amb una distribució uniforme. Per assegurar que el model aprengui correctament la distribució del grafo, s’empra un mecanisme d’atenció que incorpora la informació de les arestes. El model s’entrena amb diversos conjunts de dades i es valora utilitzant diferents mètriques de rendiment. En conjunts de dades de molècules similars a fàrmacs, CatMol demostra un rendiment comparable amb els models més avançats, amb resultats superiors en alguns casos. A més, el rendiment del model millora amb conjunts de dades més grans, cosa que suggereix la seva escalabilitat. El treball futur inclourà entrenar amb conjunts de dades encara més grans per validar més la seva escalabilitat i el seu potencial.

This project introduces CatMol, a generative model designed to create small molecules by representing them as graphs, using node and edge matrices with categorical attributes. A discrete diffusion probabilistic model is applied to these representations, leveraging a marginal distribution derived from the dataset, which improves performance compared to a uniform distribution. To ensure that the model effectively learns the graph distribution, an attention mechanism incorporating edge information is employed. The model is trained on multiple datasets and evaluated using various performance metrics. On drug-like datasets, CatMol demonstrates comparable performance to state-of-the-art models, with superior results in certain metrics. Additionally, the model’s performance improves with the size of the dataset, suggesting scalability. Future work will involve training on even larger datasets to further validate its scalability and potential.

Country
Spain
Related Organizations
Keywords

Graph databases, CatMol, Categorical attributes, Larger datasets, Àrees temàtiques de la UPC::Informàtica::Intel·ligència artificial::Aprenentatge automàtic, Attention mechanism, Matrius de nodes i arestes, Conjunts de dades més grans, Distribució (Teoria de la probabilitat), Petites molècules, Bases de dades orientades a grafs, Machine learning, Aprenentatge automàtic, Distribució marginal, Mecanisme d'atenció, Model evaluation, Marginal distribution, Drug-like datasets, Distribució del grafo, Graph distribution, Small molecules, Edge information, Scalability, Model probabilístic de difusió discreta, State-of-the-art models, Avaluació del model, Node and edge matrices, Informació de les arestes, Atributs categòrics, Grafos, Models més avançats, Performance metrics, Distribution (Probability theory), Conjunts de dades similars a fàrmacs, Discrete diffusion probabilistic model, Mètriques de rendiment, Escalabilitat, Graphs, Model generatiu, Generative model

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Green