Информация о последовательности нуклеотидов в ДНК – ключ к пониманию врожденных предрасположенностей к заболеваниям. Получение геномных данных для больших исследовательских когорт обычно осуществляется методами ДНК секвенирования или микрочипового генотипирования. При этом для каждого из таких методов существует множество технологических подвидов, к примеру, полногеномное и экзомное секвенирование. Первое — дорогой метод, который позволяет получить информацию о всех 3 миллиардах нуклеотидов в ДНК; второе — способ получить информацию только об участках ДНК, которые кодируют белки.
Причина врожденных рисков заболеваний — ДНК вариации — отличия от референсной последовательности ДНК. Поиск ДНК вариаций – сложная статистическая задача так как настоящие ДНК варианты скрыты в массиве шума, который неизбежно возникает в процессе секвенирования.
В работе, опубликованной в журнале Genome Research, сотрудник НИЛ популяционной генетики НЦМУ «Центр персонализированной медицины» Александр Александрович Лобода совместно с учеными из ведущих мировых геномных институтов провел анализ аллельных частот для одних и тех же ДНК вариаций, полученных различными методами ДНК секвенирования. В работе показано существование систематической ошибки в оценке аллельных частот между различными платформами секвенирования. Однако, с использованием данных крупнейших мировых геномных ресурсов gеnomAD и американского биобанка AllofUS ученым удалось идентифицировать конкретные участки в ДНК, которые будут иметь низкую надежность секвенирования. Также удалось создать алгоритм для предсказания качества и надежности полученных данных, который может использоваться для улучшения процедуры фильтрации качества данных и избегания ложноположительных ассоциаций в геномных исследованиях.
Подробнее в статье.