Анализ NGS-данных


Приглашаем биологов, биоинформатиков и программистов — всех, кому интересно получить опыт работы с NGS-данными.

Даты проведения:
25 июля — 29 июля, 1 — 5 августа 2022 года (10 дней)
В курсе будут рассмотрены основные типы NGS-данных, а также продвинутые технологии — секвенирование единичных клеток и нанопоровое секвенирование. В ближайшем потоке мы добавили блок по аннотации генов и выделили на single-cell RNA-seq два дня.

Мы заранее расспросим о вашем бэкграунде и посоветуем, знания в каких областях следует подтянуть до курса. Однако предварительные знания по молекулярной биологии, статистике, работе в командной строке, опыт программирования на R и Python весьма желательны.

Важно: мы немного изменили программу курса и теперь ожидаем, что у вас есть базовые навыки работы с командной строкой и языками R и Python. Если вы новичок, мы опубликовали методические материалы для знакомства со средой Linux, командной строкой и обучения основам языков R и Python.

Рекомендуем перед курсом изучить эту техническую часть, она содержит только необходимые для прохождения курса навыки. Подтянуть свои знания также можно на наших курсах по Python и Статистике.
Программа курса
Первый день: методы секвенирования. Контроль качества результатов секвенирования
  • Процесс анализа сиквенсных данных с ответвлениями или этапами для частных случаев.
  • Понятие качества чтения. Источники ошибок и особенности чтений, полученных на разных платформах.
  • Подготовка чтений (тримминг).
  • Технические последовательности. Разбор отчетов FastQC.
Второй день: анализ данных полногеномного и полноэкзомного секвенирования
Ресеквенирование. Парные выравнивания. Алгоритмы картирования чтений на геном. Программы-картировщики и основные форматы данных, используемые для хранения выравниваний. Терминология картирования. Особенности парных чтений. Влияние референса.

Поиск структурных вариантов (SNV-calling). Обзор принципа метода. Набор программ GATK. Формат VCF. Описание типичного протокола поиска однонуклеотидных полиморфизмов.
Третий день: филогенетика
Основы филогенетического анализа. Множественные
выравнивания. Построение филогенетического дерева.

Аннотация генома. Поиск белок-кодирующих генов.
Функциональная аннотация по гомологии, выявление консервативных доменов.
Четвертый день: анализ WGS эукариот. Введение в Oxford Nanopore
Аннотация вариантов (annovar, vep).

Эпигенетика. Метилирование ДНК, функции. Бисульфитная конверсия. Пайплайн обработки данных бисульфитного секвенирования, стандарты и особенности. Анализ данных бисульфитного секвенирования. Дифференциальное метилирование.

Особенности приборов ONT и протоколов. Примеры биологических задач использования технологии. Сборка и картирование чтений
День пятый: сборка геномов и транскриптомов
Чтение, длина вставки, контиг, скаффолд, покрытие, k-mer, N50. Выбор платформы и библиотек.

Чем хорошая сборка отличается от плохой. Разбор типовых ошибок. Практикум на гибридной сборке с данных Illumina и Oxford Nanopore.
Шестой день: метагеномика
Методы профилирования состава микробиома на основании NGS. Ампликонное и shotgun (WGS) секвенирование. Референсные базы данных (SILVA, GreenGenes, RDP).

Предобработка ридов и таксономическая классификация 16S рРНК/ITS данных (QIIME2, DADA2, Deblur). Интерактивный анализ данных по микробиому (Knomics-Biota).

Определение состава сообщества по shotgun-метагеномам: от кладоспецифичных маркеров (MetaPhlAn2) до анализа MAG (MetaBat2). Hi-C метагеномика.
Предсказание метаболического потенциала по 16S рРНК данным (PICRUSt, Tax4fun, FAPROTAX).

Особенности статистической обработки данных по составу микробиоты: разреженность (виды нулей в таблице представленностей, замена на псевдо-отсчеты, GBM и пакет zCompositions в R), композиционность (alr-, clr- и ilr- преобразования, методы philr, selbal, gneiss, DBA, amalgam).

Альфа- и бета-разнообразие: метрики (chao1, Shannon, UniFrac, Bray-Curtis, Aitchison distance), визуализация (MDS, PCoA).
Седьмой и восьмой день: РНК-секвенирование
Введение. Контроль качества. Fastqc, multiqc. Тримминг и фильтрация ридов. Картирование. Hisat2/STAR. Сборка транскриптов. Stringtie. Квантификация (htseq-count, stringtie, etc).

Проверка самосогласованности: корреляционная тепловая карта, PCA/MDS, поправка на множественные сравнения. Batch effect, поиск выбросов. Линейные модели, дизайн экспериментов, нормализация.

Дифференциальная экспрессия (edgeR, DESeq2), дифференциальный сплайсинг, функциональный анализ (fgsea, clusterProfiler). Визуализация данных RNA-seq в IGV и при помощи R. Работа с геномными интервалами в R и bedtools. Анализ коэкспрессии генов (WGCNA).
Десятый и девятый день: анализ данных секвенирования единичных клеток: scRNA-Seq и snRNA-Seq
• Общая схема экспериментов scRNA-Seq и snRNA-Seq
• Основные методы подготовки библиотек для scRNA-Seq: Smart-seq2/3, 10x Chromium и Parse Biosciences Evercode
• Мультимодальные эксперименты: CITE-Seq, 10x Multiome, DOGMA-seq и прочие.
• Cell Hashing и sci-Plex

• Дорожная карта анализа scRNA-Seq
• Контроль качества в данных: особенности и различия между протоколами
• Способы контроля дисперсии в scRNA-Seq: SCTransform, pagoda2 и прочее
• Подходы для анализа, использующие VAE (scVI)
• Кластеризация и интерпретация данных
• Анализ мультимодальных омиксных данных (MOFA, totalVI и прочее)


В конце интенсива участников ждёт выпускной домашний проект для закрепления полученных навыков по одной из нескольких тем: сборка и анализ данных полногеномного секвенирования, РНК-секвенирование или single-cell RNA-seq, анализ разнообразия микробных сообществ по 16s рРНК.
В конце курса вы:

Научитесь формулировать задачи биоинформатикам (или самому себе :)), будете представлять, сколько времени и сил требуется для выполнения конкретных задач.

Получите материалы с расшифровкой основных терминов, указанием программ обработки данных и полезными советами по каждой теме

Сможете запускать базовые анализы по современным пайплайнам и будете понимать пользу и ограничения разных разделов NGS
Почему стоит выбрать наш курс?
⁍ Вы будете знать конкретные пайплайны для анализа каждого типа данных.

⁍ Мы расскажем вам о бесплатных пакетах и ключевых базах данных, которые используются в современном научном и индустриальном мире.

⁍ На каждом этапе вы будете понимать с чем работаете и как оценивать качество текущей работы.
⁍ Мы разберем конкретные примеры задач, характерные для каждого типа NGS-данных. В каждой теме вы научитесь с нуля анализировать данные до достижения результата хотя бы для одного частного случая.

⁍ Мы продемонстрируем вам экспертные решения, куда двигаться при различных промежуточных результатах с реальными числовыми значениями.

⁍ Вы получите знания о возможностях обработки данных несколькими способами с рекомендациями, что считать наиболее близким к истинному результату.

⁍ Мы разберем конкретные примеры задач, характерные для каждого типа NGS-данных. В каждой теме вы научитесь с нуля анализировать данные до достижения результата хотя бы для одного частного случая.

⁍ Мы продемонстрируем вам экспертные решения, куда двигаться при различных промежуточных результатах с реальными числовыми значениями.

⁍ Вы получите знания о возможностях обработки данных несколькими способами с рекомендациями, что считать наиболее близким к истинному результату.

⁍ Полноценный онлайн-формат

⁍ Онлайн участники задают вопросы в реальном времени, обсуждают с преподавателями задачи практикума

⁍ Общий чат для всех участников и преподавателей

⁍ Мы предусмотрели онлайн-ассистентов с возможностью персональных консультаций
Преподаватели курса

Евгений Герасимов
Выпускник биофака МГУ, к.б.н., с.н.с. лаборатории геномики простейших кафедры молекулярной биологии Биофака МГУ.
Разработчик ПО T-Aligner.
Степан Тощаков
Выпускник биофака МГУ, генетик, с.н.с. в ФИЦ Биотехнологии РАН, к.б.н.
Вера Одинцова
Выпускница мехмата МГУ,
информатик в Atlas Biomed Group, одна из разработчиков платформы Knomics-Biota.
Валерия Микова
Выпускница бакалавриата МФТИ и магистратуры Life Sciences в Сколтехе. Биоинформатик в ФГБУ «ЦСП» ФМБА, преподаватель МФТИ.
Наталья Клименко
Выпускница МГТУ им Баумана, биоинформатик в Институте биологии гена и в компании Кномикс.
Александр Тяхт
Выпускник ВМиК МГУ, к.б.н., директор по технологиям в компании Кномикс, зав. группой биоинформатики ИБГ РАН.
Сергей Исаев
Выпускник ФББ МГУ, биоинформатик в BostonGene и НМИЦ эндокринологии
Влад Бабенко
Выпускник биофака МГУ, научный сотрудник лаборатории геномных исследований и вычислительной биологии ФГБУ ФНКЦ физико-химической медицины ФМБА.
Жарикова Анастасия
Выпускница специалитета и аспирантуры ФББ МГУ.
Старший преподаватель ФББ МГУ. Сотрудник НМИЦ ТПМ
Участники и организаторы о курсе

Записаться на курс:

Стоимость обучения на курсе до 1 июня:

60 000 51 000 руб — для самостоятельных участников.

65 000 55 250 руб — для представителей бюджетных организаций.

70 000 59 500 руб — для представителей компаний.


Для студентов дневных и вечерних отделений бакалавриата, магистратуры и специалитета предоставляется скидка 30%, для аспирантов — 10%. Мы попросим сообщить название вуза, телефон деканата и контактное лицо.
Даты проведения:
25 июля — 29 июля 1 — 5 августа 2022 года

Оставьте заявку и мы с вами свяжемся
Как вас зовут?
E-mail
Номер телефона
Очно или онлайн?
Кодовое слово
(Не обязательно к заполнению)
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц
Отзывы на предыдущие курсы

Оргкомитет

Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Руководитель образовательных проектов Бластима

Оксана Коржавина
Куратор курсов Бластима