
Ð”Ð°Ð½Ð½Ð°Ñ Ñ€Ð°Ð±Ð¾Ñ‚Ð° поÑвÑщена разработке метода анализа данных нанопорового ÑÐµÐºÐ²ÐµÐ½Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ð´Ð»Ñ Ð¿Ð¾Ð´Ð³Ð¾Ñ‚Ð¾Ð²ÐºÐ¸ нуклеотидных поÑледовательноÑтей к дальнейшей клаÑÑификации по геномным базам данных. Ðеобходимо удалить вÑпомогательные продукты ÑеквенированиÑ: адаптеры, баркоды, праймеры, которые затруднÑÑŽÑ‚ поÑледующую клаÑÑификацию поÑледовательноÑтей. Из-за ошибок ÑÐµÐºÐ²ÐµÐ½Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ð²Ñпомогательные поÑледовательноÑти могут либо вообще не прочитатьÑÑ, либо прочитатьÑÑ Ð½ÐµÑ‚Ð¾Ñ‡Ð½Ð¾, Ñ Ð½ÐµÐºÐ¾Ñ‚Ð¾Ñ€Ñ‹Ð¼ количеÑтвом ошибок. КоличеÑтво ошибок задает пользователь, но оно не должно превышать выÑчитанную макÑимальную допуÑтимую ошибку. Ð—Ð°Ð´Ð°Ð½Ð½Ð°Ñ Ð¾ÑˆÐ¸Ð±ÐºÐ° Ð¿Ñ€Ð¾Ñ‡Ñ‚ÐµÐ½Ð¸Ñ Ð¾Ð¿Ñ€ÐµÐ´ÐµÐ»Ñет точноÑть поиÑка. Ð’ качеÑтве оÑновы был выбран алгоритм поиÑка раÑÑтоÑний Левенштейна. Он находит минимальное количеÑтво одноÑимвольных операций, необходимое Ð´Ð»Ñ Ð¿Ñ€ÐµÐ²Ñ€Ð°Ñ‰ÐµÐ½Ð¸Ñ Ð¾Ð´Ð½Ð¾Ð¹ поÑледовательноÑти в другую. При помощи алгоритма Левенштейна оÑущеÑтвлÑлÑÑ Ð¿Ð¾Ð¸Ñк баркодов, праймеров, а также раÑчет макÑимальных допуÑтимых ошибок. К анализируемым образцам пришивалÑÑ Ñ‚Ð¾Ð»ÑŒÐºÐ¾ баркод â„–6 Ñ Ð´Ð²ÑƒÑ… Ñторон. Разработанное программное обеÑпечение находит баркод â„–6 у 99% поÑледовательноÑтей, из которых у 81% найдено оба баркода: forward и reverse. ПоиÑк праймеров оÑущеÑтвлÑетÑÑ Ñ‚Ð¾Ð»ÑŒÐºÐ¾ Ñреди поÑледовательноÑтей Ñ Ð´Ð²ÑƒÐ¼Ñ Ð±Ð°Ñ€ÐºÐ¾Ð´Ð°Ð¼Ð¸. У них праймеры были найдены в 46% Ñлучаев. У поÑледовательноÑтей Ñ Ð±Ð°Ñ€ÐºÐ¾Ð´Ð¾Ð¼ â„–6 праймеры были найдены у 46%, из которых у 25% были обнаружены два праймера. Ð’ отличие от коммерчеÑких программ Ð´Ð»Ñ Ð¾Ð±Ñ€Ð°Ð±Ð¾Ñ‚ÐºÐ¸ данных нанопорового ÑÐµÐºÐ²ÐµÐ½Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð¸Ñ Ñ€Ð°Ð·Ñ€Ð°Ð±Ð¾Ñ‚Ð°Ð½Ð½Ð¾Ðµ программное обеÑпечение обладает открытым кодом, позволÑет оÑущеÑтвлÑть поиÑк баркодов и проводить по ним Ñортировку данных, обнаруживать праймеры Ñ Ð¸Ð·Ð²ÐµÑтной ошибкой и проводить обрезание поÑледовательноÑтей (по найденным праймерам). Результатом Ð²Ñ‹Ð¿Ð¾Ð»Ð½ÐµÐ½Ð¸Ñ Ð¿Ñ€Ð¾Ð³Ñ€Ð°Ð¼Ð¼Ñ‹ ÑвлÑетÑÑ Ð½Ð°Ð±Ð¾Ñ€ обрезанных поÑледовательноÑтей, готовых к дальнейшей клаÑÑификации по геномным базам данных.
The given work is devoted to the development of a method for analyzing nanopore sequencing data to prepare nucleotide sequences for subsequent classification by genomic databases. It is necessary to remove additional products of sequencing: adapters, barcodes, primers, which complicate the subsequent classification of sequences. Due to sequencing errors, additional sequences may either not be read at all or may be read inaccurately, with a certain number of errors. The number of errors is set by the user, but it should not be greater than the calculated maximum allowable error. The specified reading error determines the accuracy of the search. The Levenshtein distance search algorithm was chosen as the basis. It finds the minimum number of single-character operations required to transform one sequence into another. The Levenshtein algorithm was used to search for barcodes, primers, and to calculate the maximum allowable errors. Only barcode â„–6 on both sides was added to the analyzed samples. The developed software finds barkode â„–6 in 99% of sequences, of which 81% have both barkodes: forward and reverse. The primers are searched only among sequences with both barkodes. In these sequences primers were found in 46% of cases. In sequences with barkode â„–6, primers were found in 46%, of which 25% had both primers. Unlike commercial programs for processing nanopore sequencing data, the developed software is open source, allows searching for barcodes and sorting data by them, detects primers with a known error, and trims sequences (based on the found primers). The result of the program execution is a set of trimmed sequences ready for further classification by genomic databases.
ÑеквениÑование ÑÑеÑÑего поколениÑ, нанопоÑовое ÑеквениÑование, third generation sequencing, Levenshtein distance, озеÑо ÐоÑÑок, barcodes search, поиÑк пÑаймеÑов, оÑибки пÑоÑÑениÑ, reading mistakes., Levenshtein algorithm, lake Vostok, поиÑк баÑкодов, nanopore sequencing, алгоÑиÑм ÐевенÑÑейна, ÑаÑÑÑоÑние ÐевенÑÑейна, primers search
ÑеквениÑование ÑÑеÑÑего поколениÑ, нанопоÑовое ÑеквениÑование, third generation sequencing, Levenshtein distance, озеÑо ÐоÑÑок, barcodes search, поиÑк пÑаймеÑов, оÑибки пÑоÑÑениÑ, reading mistakes., Levenshtein algorithm, lake Vostok, поиÑк баÑкодов, nanopore sequencing, алгоÑиÑм ÐевенÑÑейна, ÑаÑÑÑоÑние ÐевенÑÑейна, primers search
| selected citations These citations are derived from selected sources. This is an alternative to the "Influence" indicator, which also reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | 0 | |
| popularity This indicator reflects the "current" impact/attention (the "hype") of an article in the research community at large, based on the underlying citation network. | Average | |
| influence This indicator reflects the overall/total impact of an article in the research community at large, based on the underlying citation network (diachronically). | Average | |
| impulse This indicator reflects the initial momentum of an article directly after its publication, based on the underlying citation network. | Average |
