Анализ NGS-данных


Приглашаем биологов, биоинформатиков и программистов — всех, кому интересно получить опыт работы с NGS-данными.

Даты проведения:
25 июля — 29 июля, 1 — 5 августа 2022 года (10 дней).

Место проведения:
очно в Москве (м. Алексеевская) или онлайн.

Бонус июльского потока: бесплатный доступ к серверу с готовым окружением BlastimCloud на месяц!
В курсе будут рассмотрены основные типы NGS-данных, а также продвинутые технологии — секвенирование единичных клеток и нанопоровое секвенирование. В ближайшем потоке мы добавили блок по аннотации генов и выделили на single-cell RNA-seq два дня.

Мы заранее расспросим о вашем бэкграунде и посоветуем, знания в каких областях следует подтянуть до курса. Однако предварительные знания по молекулярной биологии, статистике, работе в командной строке, опыт программирования на R и Python весьма желательны.

Важно: мы немного изменили программу курса и теперь ожидаем, что у вас есть базовые навыки работы с командной строкой и языками R и Python. Если вы новичок, мы опубликовали методические материалы для знакомства со средой Linux, командной строкой и обучения основам языков R и Python. Подтянуть свои знания также можно на наших курсах по Python и Статистике.
Программа курса
Первый день: методы секвенирования. Контроль качества результатов секвенирования
  • Процесс анализа сиквенсных данных с ответвлениями или этапами для частных случаев.
  • Понятие качества чтения. Источники ошибок и особенности чтений, полученных на разных платформах.
  • Подготовка чтений (тримминг).
  • Технические последовательности. Разбор отчетов FastQC.
Второй день: анализ данных полногеномного и полноэкзомного секвенирования
Ресеквенирование. Парные выравнивания. Алгоритмы картирования чтений на геном. Программы-картировщики и основные форматы данных, используемые для хранения выравниваний. Терминология картирования. Особенности парных чтений. Влияние референса.

Поиск структурных вариантов (SNV-calling). Обзор принципа метода. Набор программ GATK. Формат VCF. Описание типичного протокола поиска однонуклеотидных полиморфизмов.
Третий день: филогенетика
Основы филогенетического анализа. Множественные
выравнивания. Построение филогенетического дерева.

Аннотация генома. Поиск белок-кодирующих генов.
Функциональная аннотация по гомологии, выявление консервативных доменов.
Четвертый день: анализ WGS эукариот. Введение в Oxford Nanopore
Аннотация вариантов (annovar, vep).

Эпигенетика. Метилирование ДНК, функции. Бисульфитная конверсия. Пайплайн обработки данных бисульфитного секвенирования, стандарты и особенности. Анализ данных бисульфитного секвенирования. Дифференциальное метилирование.

Особенности приборов ONT и протоколов. Примеры биологических задач использования технологии. Сборка и картирование чтений
День пятый: сборка геномов и транскриптомов
Чтение, длина вставки, контиг, скаффолд, покрытие, k-mer, N50. Выбор платформы и библиотек.

Чем хорошая сборка отличается от плохой. Разбор типовых ошибок. Практикум на гибридной сборке с данных Illumina и Oxford Nanopore.
Шестой день: метагеномика
Методы профилирования состава микробиома на основании NGS. Ампликонное и shotgun (WGS) секвенирование. Референсные базы данных (SILVA, GreenGenes, RDP).

Предобработка ридов и таксономическая классификация 16S рРНК/ITS данных (QIIME2, DADA2, Deblur). Интерактивный анализ данных по микробиому (Knomics-Biota).

Определение состава сообщества по shotgun-метагеномам: от кладоспецифичных маркеров (MetaPhlAn2) до анализа MAG (MetaBat2). Hi-C метагеномика.
Предсказание метаболического потенциала по 16S рРНК данным (PICRUSt, Tax4fun, FAPROTAX).

Особенности статистической обработки данных по составу микробиоты: разреженность (виды нулей в таблице представленностей, замена на псевдо-отсчеты, GBM и пакет zCompositions в R), композиционность (alr-, clr- и ilr- преобразования, методы philr, selbal, gneiss, DBA, amalgam).

Альфа- и бета-разнообразие: метрики (chao1, Shannon, UniFrac, Bray-Curtis, Aitchison distance), визуализация (MDS, PCoA).
Седьмой и восьмой день: РНК-секвенирование
Введение. Контроль качества. Fastqc, multiqc. Тримминг и фильтрация ридов. Картирование. Hisat2/STAR. Сборка транскриптов. Stringtie. Квантификация (htseq-count, stringtie, etc).

Проверка самосогласованности: корреляционная тепловая карта, PCA/MDS, поправка на множественные сравнения. Batch effect, поиск выбросов. Линейные модели, дизайн экспериментов, нормализация.

Дифференциальная экспрессия (edgeR, DESeq2), дифференциальный сплайсинг, функциональный анализ (fgsea, clusterProfiler). Визуализация данных RNA-seq в IGV и при помощи R. Работа с геномными интервалами в R и bedtools. Анализ коэкспрессии генов (WGCNA).
Десятый и девятый день: анализ данных секвенирования единичных клеток: scRNA-Seq и snRNA-Seq
• Общая схема экспериментов scRNA-Seq и snRNA-Seq
• Основные методы подготовки библиотек для scRNA-Seq: Smart-seq2/3, 10x Chromium и Parse Biosciences Evercode
• Мультимодальные эксперименты: CITE-Seq, 10x Multiome, DOGMA-seq и прочие.
• Cell Hashing и sci-Plex

• Дорожная карта анализа scRNA-Seq
• Контроль качества в данных: особенности и различия между протоколами
• Способы контроля дисперсии в scRNA-Seq: SCTransform, pagoda2 и прочее
• Подходы для анализа, использующие VAE (scVI)
• Кластеризация и интерпретация данных
• Анализ мультимодальных омиксных данных (MOFA, totalVI и прочее)


В конце интенсива участников ждёт выпускной домашний проект для закрепления полученных навыков по одной из нескольких тем: сборка и анализ данных полногеномного секвенирования, РНК-секвенирование или single-cell RNA-seq, анализ разнообразия микробных сообществ по 16s рРНК.
В конце курса вы:

Научитесь формулировать задачи биоинформатикам (или самому себе :)), будете представлять, сколько времени и сил требуется для выполнения конкретных задач.

Получите материалы с расшифровкой основных терминов, указанием программ обработки данных и полезными советами по каждой теме

Сможете запускать базовые анализы по современным пайплайнам и будете понимать пользу и ограничения разных разделов NGS
Почему стоит выбрать наш курс?
⁍ Вы будете знать конкретные пайплайны для анализа каждого типа данных.

⁍ Мы расскажем вам о бесплатных пакетах и ключевых базах данных, которые используются в современном научном и индустриальном мире.

⁍ На каждом этапе вы будете понимать с чем работаете и как оценивать качество текущей работы.
⁍ Мы разберем конкретные примеры задач, характерные для каждого типа NGS-данных. В каждой теме вы научитесь с нуля анализировать данные до достижения результата хотя бы для одного частного случая.

⁍ Мы продемонстрируем вам экспертные решения, куда двигаться при различных промежуточных результатах с реальными числовыми значениями.

⁍ Вы получите знания о возможностях обработки данных несколькими способами с рекомендациями, что считать наиболее близким к истинному результату.

⁍ Мы разберем конкретные примеры задач, характерные для каждого типа NGS-данных. В каждой теме вы научитесь с нуля анализировать данные до достижения результата хотя бы для одного частного случая.

⁍ Мы продемонстрируем вам экспертные решения, куда двигаться при различных промежуточных результатах с реальными числовыми значениями.

⁍ Вы получите знания о возможностях обработки данных несколькими способами с рекомендациями, что считать наиболее близким к истинному результату.

⁍ Полноценный онлайн-формат

⁍ Онлайн участники задают вопросы в реальном времени, обсуждают с преподавателями задачи практикума

⁍ Общий чат для всех участников и преподавателей

⁍ Мы предусмотрели онлайн-ассистентов с возможностью персональных консультаций
Преподаватели курса


Евгений Герасимов
Выпускник биофака МГУ, к.б.н., с.н.с. лаборатории геномики простейших кафедры молекулярной биологии Биофака МГУ.
Разработчик ПО T-Aligner.
Степан Тощаков
Выпускник биофака МГУ, генетик, с.н.с. в ФИЦ Биотехнологии РАН, к.б.н.
Вера Одинцова
Выпускница мехмата МГУ,
информатик в Atlas Biomed Group, одна из разработчиков платформы Knomics-Biota.
Ксения Дей
Выпускница Northumbria University (2018, Biotechnology) и НИУ ВШЭ (2021, Анализ данных в биологии и медицине ),

Аналитик Центра Стратегического Планирования Федерального Медико-биологического Агенства (ЦСП ФМБА России)
Наталья Клименко
Выпускница МГТУ им Баумана, биоинформатик в Институте биологии гена и в компании Кномикс.
Александр Тяхт
Выпускник ВМиК МГУ, к.б.н., директор по технологиям в компании Кномикс, зав. группой биоинформатики ИБГ РАН.
Сергей Исаев
Выпускник ФББ МГУ, биоинформатик в BostonGene и НМИЦ эндокринологии
Влад Бабенко
Выпускник биофака МГУ, научный сотрудник лаборатории геномных исследований и вычислительной биологии ФГБУ ФНКЦ физико-химической медицины ФМБА.
Александр Ткаченко
Сотрудник лаборатории Геномного разнообразия ИТМО, сотрудник лаборатории геномной биоинформатики НИИ АГиР им. Отта
Наталья Михеечева
Ведущий биоинформатик BostonGene.
Участники и организаторы о курсе

Курс уже идет!

Стоимость обучения на курсе:

60 000 рублей — для самостоятельных участников.

65 000 рублей — для представителей бюджетных организаций.

70 000 рублей — для представителей компаний.


Для студентов дневных и вечерних отделений бакалавриата, магистратуры и специалитета предоставляется скидка 30%, для аспирантов — 10%. Мы попросим сообщить название вуза, телефон деканата и контактное лицо.

Даты проведения: 25 июля — 29 июля 1 — 5 августа 2022 года
Место: м. Алексеевская, Проспект Мира 101 стр. 2.
Время: с 10 до 18 с перерывами на обед и кофе-брейки
Оставьте заявку и мы с вами свяжемся
Как вас зовут?
E-mail
Номер телефона
Ваш город или часовой пояс
Очно или онлайн?
Чем вы занимаетесь?
Кодовое слово
(Не обязательно к заполнению)
Нажимая на кнопку вы соглашаетесь с нашей политикой обработки персональных данных и принимаете условия публичной оферты.
Отзывы на предыдущие курсы

Оргкомитет

Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Руководитель образовательных проектов Бластима

Оксана Коржавина
Куратор курсов Бластима