Анализ NGS-данных


Приглашаем биологов, биоинформатиков и программистов — всех, кому интересно получить опыт работы с NGS-данными.
Курс прошел в июле 2021 года.

Следующий курс пройдет в январе 2022 года.

В курсе будут рассмотрены основные типы NGS-данных, а также продвинутые технологии — секвенирование единичных клеток и нанопоровое секвенирование.

Учиться можно самому, на факультативах или перенимать опыт коллег. Но на это часто не хватает времени и мотивации, поэтому мы предлагаем формат интенсива: за десять дней вы научитесь обрабатывать и анализировать данные современного секвенирования. Интенсив будут вести профессионалы-практики с опытом преподавания.

Мы заранее расспросим о вашем бэкграунде и посоветуем, знания в каких областях следует подтянуть до курса. Однако предварительные знания по молекулярной биологии, статистике, работе в командной строке, опыт программирования на R и Python весьма желательны.

Важно: мы немного изменили программу курса и теперь ожидаем, что у вас есть базовые навыки работы с командной строкой и языками R и Python. Если вы новичок, мы опубликовали методические материалы для знакомства со средой Linux, командной строкой и обучения основам языков R и Python. Рекомендуем перед курсом изучить эту техническую часть, она содержит только необходимые для прохождения курса навыки.
Программа курса
Первый день: обзор методов секвенирования. Контроль качества данных
Методы секвенирования. Процесс анализа сиквенсных данных с ответвлениями или этапами для частных случаев.

Контроль качества результатов секвенирования. Понятие качества чтения. Источники ошибок и особенности чтений, полученных на разных платформах. Подготовка чтений (тримминг). Технические последовательности. Разбор отчетов FastQC.
Второй день: анализ данных полногеномного и полноэкзомного секвенирования
Ресеквенирование. Парные выравнивания. Алгоритмы картирования чтений на геном. Программы-картировщики и основные форматы данных, используемые для хранения выравниваний. Терминология картирования. Особенности парных чтений. Влияние референса.

Поиск структурных вариантов (SNV-calling). Обзор принципа метода. Набор программ GATK. Формат VCF. Описание типичного протокола поиска однонуклеотидных полиморфизмов.
Третий день: филогенетика и анализ WGS эукариот
Лекция и практикум по филогенетике

Функциональная аннотация и определение патогенности мутации. PolyPhen-2, SIFT, VEP и другие: формат входных данных и вывода. Анализ изменения свойств аминокислот, расположения мутации в белке и др. Особенности интерпретации результатов.
Четвертый день: анализ WGS эукариот. Введение в Oxford Nanopore
Анализ изменения свойств аминокислот, расположения мутации в белке и др. Особенности интерпретации результатов. Базы данных для поиска и характеристики мутаций. Программы для сравнения мутаций между разными видами. Анализ результатов и визуализация.

Особенности приборов ONT и протоколов. Примеры биологических задач использования технологии. Сборка и картирование чтений
День пятый: сборка геномов и транскриптомов
Чтение, длина вставки, контиг, скаффолд, покрытие, k-mer, N50. Выбор платформы и библиотек. Чем хорошая сборка отличается от плохой. Разбор типовых ошибок. Практикум  на гибридной сборке с данных  Illumina и Oxford Nanopore.
Шестой день: метагеномика
Методы профилирования состава микробиома на основании NGS. Ампликонное и shotgun (WGS) секвенирование. Референсные базы данных (SILVA, GreenGenes, RDP).

Предобработка ридов и таксономическая классификация 16S рРНК/ITS данных (QIIME2, DADA2, Deblur). Интерактивный анализ данных по микробиому (Knomics-Biota).

Определение состава сообщества по shotgun-метагеномам: от кладоспецифичных маркеров (MetaPhlAn2) до анализа MAG (MetaBat2). Hi-C метагеномика.
 Предсказание метаболического потенциала по 16S рРНК данным (PICRUSt, Tax4fun, FAPROTAX).

Особенности статистической обработки данных по составу микробиоты: разреженность (виды нулей в таблице представленностей, замена на псевдо-отсчеты, GBM и пакет zCompositions в R), композиционность (alr-, clr- и ilr- преобразования, методы philr, selbal, gneiss, DBA, amalgam).

Альфа- и бета-разнообразие: метрики (chao1, Shannon, UniFrac, Bray-Curtis, Aitchison distance), визуализация (MDS, PCoA).

Седьмой день: анализ метилирования ДНК
Эпигенетика. Эпигенетическая регуляция экспрессии генов. Метилирование ДНК, функции. Методы анализа метилирования ДНК. Бисульфитная конверсия. WGBS, RRBS и другие.

Пайплайн обработки данных бисульфитного секвенирования, стандарты и особенности. Анализ данных бисульфитного секвенирования. Дифференциальное метилирование
Восьмой и девятый день: РНК-секвенирование
Введение. Контроль качества. Fatsqc, multiqc, trimmomatics. Картирование. Hisat2. Сборка транскриптов. Stringtie. Квантификация (htseq-count, stringtie, etc). 

Проверка самосогласованности: корреляционная тепловая карта, PCA/MDS, t-test, поправка на множественное тестирование. lm/ANOVA, glm/ANODEV, нормализация.

Дифференциальная экспрессия (edgeR), дифференциальный сплайсинг (DEXseq, SAJR), функциональный анализ (topGO). Визуализация данных РНК-сек в IGV и при помощи R. Кластеризация генов по паттернам.
Десятый день: анализ данных секвенирования единичных клеток: scRNA-Seq и snRNA-Seq
Общая схема эксперимента scRNA-Seq и snRNA-Seq. Amplification bias и UMI. Основные методы подготовки библиотек scRNA-Seq: SMART-Seq и 10x Chromium. Плюсы и минусы каждого из методов. CITE-seq.

Основной пайплайн обработки scRNA-Seq. QC данных. Способы кластеризации данных. Дополнительные стадии обработки scRNA-Seq: CellPhoneDB, RNA velocity, определений траекторий и прочее.

Основные результаты в исследованиях опухолей при помощи scRNA-Seq.

В конце интенсива участников ждёт выпускной домашний проект для закрепления полученных навыков по одной из нескольких тем: сборка и анализ данных полногеномного секвенирования, РНК-секвенирование или single-cell RNA-seq.
Почему стоит выбрать наш курс?
Вы будете знать конкретные пайплайны для анализа каждого типа данных.

⁍ Мы расскажем вам о бесплатных пакетах и ключевых базах данных, которые используются в современном научном и индустриальном мире.

⁍ На каждом этапе вы будете понимать с чем работаете и как оценивать качество текущей работы.
⁍ Мы разберем конкретные примеры задач, характерные для каждого типа NGS-данных. В каждой теме вы научитесь с нуля анализировать данные до достижения результата хотя бы для одного частного случая.

⁍ Мы продемонстрируем вам экспертные решения, куда двигаться при различных промежуточных результатах с реальными числовыми значениями.

⁍ Вы получите знания о возможностях обработки данных несколькими способами с рекомендациями, что считать наиболее близким к истинному результату.

⁍ Вы научитесь формулировать задачи биоинформатикам (или самому себе :)), будете представлять, сколько времени и сил требуется для выполнения конкретных задач.


⁍ По окончании курса мы дадим вам материалы с расшифровкой основных терминов, указанием программ обработки данных и полезными советами по каждой теме.


⁍ После прохождения курса биологи смогут запускать базовые анализы по современным пайплайнам и поймут пользу и ограничения разных разделов NGS, биоинформатики – повысят свою универсальность, а программисты смогут продолжить самостоятельное изучение данных секвенирования.

Преподаватели
Павел Мазин
Выпускник ФББ МГУ, научный сотрудник Сколковского института науки и технологий, доцент НИУ ВШЭ.
Евгений Герасимов
Выпускник биофака МГУ, к.б.н., с.н.с. лаборатории геномики простейших кафедры молекулярной биологии Биофака МГУ.
Разработчик ПО T-Aligner.
Степан Тощаков
Выпускник биофака МГУ, генетик, с.н.с. в ФИЦ Биотехнологии РАН, к.б.н.
Вера Одинцова
Выпускница мехмата МГУ,
информатик в Atlas Biomed Group,
одна из разработчиков платформы Knomics-Biota.
Валерия Микова
Окончила бакалавриат на кафедре биоинформатики в МФТИ, магистратуру по программе Life Sciences в Сколтехе. Биоинформатик в ФГБУ «ЦСП» ФМБА, преподаватель МФТИ.
Наталья Клименко
Выпускница МГТУ им Баумана, биоинформатик в Институте биологии гена и в компании Кномикс.
Надежда Потапова
Окончила аспирантуру ФББ МГУ, работает в ИППИ РАН и ИЦиГ РАН.
Александр Тяхт
Выпускник ВМиК МГУ, к.б.н., директор по технологиям в компании Кномикс, зав. группой биоинформатики ИБГ РАН.
Сергей Исаев
Выпускник ФББ МГУ, и.о. младшего научного сотрудника ИППИ РАН, биоинформатик в BostonGene.
Влад Бабенко
Выпускник биофака МГУ, научный сотрудник лаборатории геномных исследований и вычислительной биологии ФГБУ ФНКЦ физико-химической медицины ФМБА.
Артем Касьянов
Выпускник ВМиК МГУ, с.н.с. Института проблем передачи информации.
Полноценный онлайн-вариант
⁍ Онлайн участники задают вопросы в реальном времени, обсуждают с преподавателями задачи практикума

⁍ Общий чат для всех участников и преподавателей

⁍ Мы предусмотрели онлайн-ассистентов с возможностью персональных консультаций
Записаться на поток января 2022 года
Как вас зовут?
E-mail
Номер телефона
Очно или онлайн?
Кодовое слово
(Не обязательно к заполнению)
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц

На наших курсах соблюдают правила безопасности: участники из разных лабораторий сидят по одному, ТА и организаторы носят маски, регулярно обрабатывают руки и предметы антисептиком.

Отзывы на предыдущие курсы
Оргкомитет
Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Организатор курса
Ольга Стукалова
Руководитель проектов Science Media Projects