Powered by OpenAIRE graph
Found an issue? Give us feedback
addClaim

This Research product is the result of merged Research products in OpenAIRE.

You have already added 0 works in your ORCID record related to the merged Research product.

Анализ биоразнообразия Ð¿Ð¾Ð´Ð»Ñ‘Ð´Ð½Ñ‹Ñ Ð¾Ð·Ñ‘Ñ€ по данным нанопорового секвенирования

выпускная квалификационная работа бакалавра

Анализ биоразнообразия Ð¿Ð¾Ð´Ð»Ñ‘Ð´Ð½Ñ‹Ñ Ð¾Ð·Ñ‘Ñ€ по данным нанопорового секвенирования

Abstract

Данная работа посвящена разработке метода анализа данных нанопорового секвенирования для подготовки нуклеотидных последовательностей к дальнейшей классификации по геномным базам данных. Необходимо удалить вспомогательные продукты секвенирования: адаптеры, баркоды, праймеры, которые затрудняют последующую классификацию последовательностей. Из-за ошибок секвенирования вспомогательные последовательности могут либо вообще не прочитаться, либо прочитаться неточно, с некоторым количеством ошибок. Количество ошибок задает пользователь, но оно не должно превышать высчитанную максимальную допустимую ошибку. Заданная ошибка прочтения определяет точность поиска. В качестве основы был выбран алгоритм поиска расстояний Левенштейна. Он находит минимальное количество односимвольных операций, необходимое для превращения одной последовательности в другую. При помощи алгоритма Левенштейна осуществлялся поиск баркодов, праймеров, а также расчет максимальных допустимых ошибок. К анализируемым образцам пришивался только баркод №6 с двух сторон. Разработанное программное обеспечение находит баркод №6 у 99% последовательностей, из которых у 81% найдено оба баркода: forward и reverse. Поиск праймеров осуществляется только среди последовательностей с двумя баркодами. У них праймеры были найдены в 46% случаев. У последовательностей с баркодом №6 праймеры были найдены у 46%, из которых у 25% были обнаружены два праймера. В отличие от коммерческих программ для обработки данных нанопорового секвенирования разработанное программное обеспечение обладает открытым кодом, позволяет осуществлять поиск баркодов и проводить по ним сортировку данных, обнаруживать праймеры с известной ошибкой и проводить обрезание последовательностей (по найденным праймерам). Результатом выполнения программы является набор обрезанных последовательностей, готовых к дальнейшей классификации по геномным базам данных.

The given work is devoted to the development of a method for analyzing nanopore sequencing data to prepare nucleotide sequences for subsequent classification by genomic databases. It is necessary to remove additional products of sequencing: adapters, barcodes, primers, which complicate the subsequent classification of sequences. Due to sequencing errors, additional sequences may either not be read at all or may be read inaccurately, with a certain number of errors. The number of errors is set by the user, but it should not be greater than the calculated maximum allowable error. The specified reading error determines the accuracy of the search. The Levenshtein distance search algorithm was chosen as the basis. It finds the minimum number of single-character operations required to transform one sequence into another. The Levenshtein algorithm was used to search for barcodes, primers, and to calculate the maximum allowable errors. Only barcode â„–6 on both sides was added to the analyzed samples. The developed software finds barkode â„–6 in 99% of sequences, of which 81% have both barkodes: forward and reverse. The primers are searched only among sequences with both barkodes. In these sequences primers were found in 46% of cases. In sequences with barkode â„–6, primers were found in 46%, of which 25% had both primers. Unlike commercial programs for processing nanopore sequencing data, the developed software is open source, allows searching for barcodes and sorting data by them, detects primers with a known error, and trims sequences (based on the found primers). The result of the program execution is a set of trimmed sequences ready for further classification by genomic databases.

Keywords

секвенирование третьего поколения, нанопоровое секвенирование, third generation sequencing, Levenshtein distance, озеро Восток, barcodes search, поиск праймеров, ошибки прочтения, reading mistakes., Levenshtein algorithm, lake Vostok, поиск баркодов, nanopore sequencing, алгоритм Левенштейна, расстояние Левенштейна, primers search

  • BIP!
    Impact byBIP!
    selected citations
    These citations are derived from selected sources.
    This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    0
    popularity
    This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
    Average
    influence
    This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
    Average
    impulse
    This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
    Average
Powered by OpenAIRE graph
Found an issue? Give us feedback
selected citations
These citations are derived from selected sources.
This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Citations provided by BIP!
popularity
This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network.
BIP!Popularity provided by BIP!
influence
This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically).
BIP!Influence provided by BIP!
impulse
This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network.
BIP!Impulse provided by BIP!
0
Average
Average
Average
Beta
sdg_colorsSDGs:
Related to Research communities
Italian National Biodiversity Future Center
Upload OA version
Are you the author of this publication? Upload your Open Access version to Zenodo!
It’s fast and easy, just two clicks!