
Genomdatenbanken wachsen rasant. Moderne Metagenomikstudien führen zu einer großen Anzahl annähernd vollständiger Genomsequenzen nicht kultivierbarer mikrobieller Spezies. Diese Entwicklungen führen zur Notwendigkeit der Entwicklung automatisierter bioinformatischer Methoden für die Vorhersage mikrobieller Phänotypen, um die biologische und ökologische Interpretation der großen Datenmengen zu ermöglichen. In dieser Arbeit wird untersucht, wie komparative Genomik für diesen Zweck eingesetzt werden kann. Verschiedene bioinformatische Prototypen sowie Techniken des maschinellen Lernens werden verglichen. Im Fokus stehen dabei große Genomdatenbanken und inkomplette Genomsequenzen. Darüberhinaus werden notwendige Verbesserungen an der Software vorgenommen. Ein Programm wurde in der Evaluationsphase ausgewählt. Die Stabilität der Vorhersagen phänotypischer Charakteristika wurde im Lichte schnell wachsender Genomdatenbanken demonstriert. Ein neu entwickeltes Softwarewerkzeug ermöglicht die eingehende Analyse von Phänotypmodellen und assoziierte erwartete sowie unerwartete Proteinfunktionen mit bestimmten Merkmalen. Ein Großteil der Merkmale konnte zuverlässig in lediglich zu 60-70% kompletten Genomen vorhergesagt werden. Hochakkurate Modelle wurden für die Vorhersage zweier ökologisch relevanter metabolischer Merkmale (Methanotrophe und Nitrifikanten) erstellt. Sie fanden bereits bekannte funktionelle Marker und erweiterten das Markerkonzept durch die Assoziation weiterer Gene zu den Phänotypen substantiell. Darüber hinaus wurde ein Phänotypmodell für die Vorhersage intrazellulärer Mikroorganismen etabliert. Damit konnte gezeigt werden, dass auch unabhängig evolvierte Merkmale, die durch Genomreduktion charakterisiert sind, zuverlässig durch komparative Genomik vorhergesagt werden können. Alle Modelle wurden mit den Daten aus drei unterschiedlichen Metagenomen getestet. Sie sagten Merkmale voraus, die in Einklang mit den vorherrschenden Umweltbedingungen stehen. Die Ergebnisse legen nahe, dass die automatische Annotation von Phänotypen in annähernd kompletten mikrobiellen Genomen möglich ist.
Public genome databases grow rapidly. As a consequence, automated bioinformatic methods for microbial phenotype prediction are necessary, which are solely based on genomic sequences, to enable biological and ecological interpretation of these data. This thesis investigates how comparative genomics can be utilized for microbial phenotype prediction. Different prototypic bioinformatic tools and machine learning techniques are compared with focus on applicability to large-scale genome databases and incomplete genome sequences. A software tool was selected in the evaluation phase and subsequently improved. The stability of its predictive power for phenotypic traits not perturbed by the rapid growth of genome databases was demonstrated. A newly developed program facilitates the in-depth analysis of phenotype models, which associate expected and unexpected protein functions with particular traits. Most of the traits could be reliably predicted in only 60-70% complete genomes. Highly accurate models were created for the prediction of methanotrophs and nitrificants, two ecologically important metabolic traits. They recovered known functional markers and associate further genes to the phenotypic traits. In addition, a new phenotypic model that predicts intracellular microorganisms was established. Thereby it could be demonstrated that also independently evolved phenotypic traits, characterized by genome reduction, can be reliably predicted based on comparative genomics. All models were tested on three metagenome datasets. They predicted phenotypes that were in alignment with environmental conditions. The results suggest that the improved prediction tool can be used to automatically annotate phenotypes in near-complete microbial genome sequences, as generated in large numbers in current metagenomics studies.
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
