123
Биомед ИТ и электроника Наука Новости

Группа ученых предложила алгоритм для более точного и быстрого анализа ДНК

Группа учёных из Германии, Америки и России при участии заведующего кафедрой Московского физико-технического института (МФТИ) Марка Бородовского предложила алгоритм, который автоматизирует и делает эффективнее поиск генов. Новый метод позволит точнее и быстрее анализировать новые последовательности ДНК и находить полный набор генов в геноме. Исследование было опубликовано в журнале Bioinformatics, сообщает пресс-служба МФТИ.

Компьютерную программу с предложенным методом BRAKER1 уже скачали более 1500 различных центров и лабораторий по всему миру. Тестирование алгоритма показывает его увеличенную точность по сравнению с другими алгоритмами. Представленная разработка относится к области биоинформатики, говорится в сообщении.

Схема передачи наследственной информации в клетке

Схема передачи наследственной информации в клетке

Биоинформатика — это набор методов математики, статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. Одной из важных задач биоинформатики является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются РНК и белки.  Такие области — гены — представляют особый научный интерес.

Для многих исследований нужна информация не обо всей ДНК  (длина которой составляет 2 метра только для одной человеческой клетки), а только о её наиболее информативной части — генах. Выявление генных участков происходит на основе поиска сходства фрагментов последовательности с уже известными генами или путём обнаружения характерных для генов закономерностей чередования нуклеотидов. Этот процесс осуществляется с помощью предсказательных алгоритмов.

В СПбГУ разработали уникальный метод расшифровки микроскопических фрагментов геномной ДНК

Найти генныe участки —  нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток передача наследственной информация усложнена наличием «разрывов» в кодирующих областях (интронов) и отсутствием однозначных признаков для определения того, является ли область кодирующей  или нет.

Алгоритм, предложенный учёными, определяет, какие области в ДНК являются генами, а какие — нет. Для этого можно использовать марковскую цепь (последовательность случайных событий, будущее которых зависимо от прошлого), обучаемую на уже известных генах. Состояниями цепи в данном случае являются либо нуклеотиды, либо нуклеотидные слова. Алгоритм определяет наиболее вероятное разбиение генома на кодирующие и некодирующие области, наилучшим образом классифицирующие геномные фрагменты по их способности кодировать белки или РНК. Экспериментальные данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить модель, используемую в алгоритме. Некоторые программы-предсказатели генов могут использовать эти данные для повышения точности нахождения генов. Однако такие алгоритмы требуют обучающую выборку, на которой будет происходить видо-специфичная тренировка модели. Например, для программы AUGUSTUS, показывающей высокую точность, необходима тренировочная выборка из генов. Такое множество можно получить с помощью другой программы — GeneMark-ET — она относится к категории самотренирующихся алгоритмов. Эти два алгоритма и объединил алгоритм BRAKER1, предложенный совместно авторами AUGUSTUS и GeneMark-ET.

В научном центр «Вектор» создали тест для определения рака по ДНК

BRAKER1 показал высокую эффективность. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Примерный хронометраж BRAKER1 на одном процессоре составляет ∼17.5 часов для обучения и предсказания генов на геноме длиной 120 миллионов пар оснований. Это хороший результат, учитывая, что время может быть значительно уменьшено за счёт использования параллельных процессоров, а значит в перспективе алгоритм может работать еще быстрее и, в целом, эффективнее.

Подобные инструменты помогают решать множество различных задач. Точная аннотация генов в геноме чрезвычайно важна. Например, уже опубликованы первые результаты глобального проекта «1000 человеческих геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате было обнаружено большое количество последовательностей редких генных вариантов — замен в генах, некоторые из которых приводят к болезням. При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части, и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак.

Об авторе

Валерия Щеголевская

Валерия Щеголевская

Главный редактор Russian IT World

Получайте новости первыми

Подпишитесь на наш Telegram-канал

t-do.ru/ritworld