Статистика, R и анализ данных
Даты ближайшего потока: 27 июня — 7 июля (9 дней)
Для ученых, врачей, агрономов, аналитиков и всех, кто работает или хочет работать с данными.

Девятидневный практический курс, на котором вы не только научитесь статистике, но и поймете её. Этот курс, возможно, единственное, что вам нужно для переобучения в Data Scientist/биоинформатиков
5 лет мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 9 дней мы научим всему необходимому, чтобы этого избежать.

Текущий курс совместно с программой по Линуксу и Питону станут отличной базой для освоения более продвинутой программы по Анализу NGS-данных.
Почему именно этот курс?

Прикладная статистика с нуля

Математика выше школьной программы и знание программирования не понадобятся!

Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами анализировать.

Мы будем использовать примеры и данные из биологии, сельского хозяйства, медицины, географии, онлайн-игр и цифровых гуманитарных наук, но никаких специальных знаний вам не потребуется. А тем, кто помнит ТеорВер, Линал, Python или MATLAB, мы дадим задачки посложнее.

Скрипт в R, а не руками в Exсel

Умение написать скрипт и автоматизировать расчеты в R позволит сэкономить время в будущем и не тратить его на постоянное копирование столбиков в Excel.

Мы научим не только получать в программе p-value, но и считать и понимать мощность теста, размер эффекта и другие параметры.

Практика с первых минут
Формат интенсива позволяет сфокусироваться на программе и не отвлекаться. В конце курса вы самостоятельно выполните и презентуете проект. Можно прийти со своим проектом, можно выбрать из предложенных.
Индивидуальный подход и полноценный онлайн-формат
Преподаватели помогут разобраться в задачах любой сложности, уделяя внимание каждому участнику. Во время занятий и подготовки проектов менторы ответят на любые ваши вопросы.

В рамках курсах общение будет происходить в общем чате, доступном для всех участников и преподавателей. Все могут задать вопросы в реальном времени, обсуждать с преподавателями свои данные и презентовать проект.

Мы также предусмотрели онлайн-ассистентов и время для вечерних разборов.

Программа:

Первый день: основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— R как калькулятор
— Операторы, функции
— Типы данных
— Вектора, матрицы, списки, датафреймы
Второй день: препроцессинг данных в R, введение в tidyverse
— Импорт данных
— Работа с "проектами" RStudio
— Препроцессинг данных базовыми средствами R
— Условные конструкции в R
— Создание функций
— Циклы и семейство функций apply
— Работа с пакетами
— Пакеты data.table и tidyverse
— Основы tidyverse: readr, tibble, magrittr
— Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок
— Агрегирование данных в dplyr

Третий день: продвинутый препроцессинг данных в tidyverse, описательная статистика
— Концепция Tidy Data. Широкие и длинные таблицы, tidyr
— Работа с реляционными данными в tidyverse
— Функциональное программирование в purrr
— Описательная статистика (центральные тенденции, меры разброса, ассиметрия, эксцесс, функции и пакеты для описательной статистики)
Четвертый день: визуализация в пакете ggplot2, введение в статистику вывода
— Визуализация в R: базовые средства визуализации
— Layered Grammar of Graphics и ggplot2
— Средства динамической визуализации в R: HTML-виджеты
— Самостоятельное упражнение на визуализацию
— Уровень значимости. Ошибки I и II рода— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
Пятый день: основные статистические тесты, практика анализа данных
— z-критерий и t-критерий
—Понятия уровня значимости и статистической мощности
— Оценка статистической мощности, размера эффекта и размера выборки в R

Практика анализа данных, препроцессинг рабочих датасетов для девятого дня
Шестой день: практика анализа данных, основные статистические тесты (продолжение)
— Непараметрические методы
— Обзор задач и методов в статистике. Как выбрать метод для анализа данных
— Дисперсионный анализ (ANOVA) и его разновидности
— Корреляция, коэффициенты корреляции
Седьмой день: Общая линейная модель
— Линейная регрессионная модель
— Допущения линейной модели. "Остатки", МНКи goodness-of-fit
— Множественная линейная регрессия и общая линейная модель (general linear model)

Восьмой день: Обобщения линейной модели, многомерные методы
— Логистическая регрессия. Обобщенная линейная регрессия (generalized linear model)
— Смешанная линейная модель (Linear mixed effects models)
— Другие многомерные методы: кластерный анализ, MDS и PCA

Девятый день: самостоятельный проект
Можно принести свои данные!
Преподаватели курса:
Иван Поздняков
Старший преподаватель НИУ ВШЭ

Преподает R и статистику в НИУ ВШЭ для студентов различных направлений.

Преподаватель будет онлайн!
Валерия Крюкова
Иммунолог, аспирант Сколтеха

Сотрудница ИБХ РАН, ранее ЦНИИ Туберкулеза, 4 года опыта в анализе данных

Преподаватель будет оффлайн!
Елена Рыбина
М.н.с. в лаборатории когнитивной психологии пользователя цифровых интерфейсов НИУ ВШЭ.
Преподаватель Департамента психологии НИУ ВШЭ, экс-аналитик Яндекс Практикум

Преподаватель будет оффлайн!
Примеры кейсов для разбора
1
Маркеры воспаления легких
Проверяем гипотезу о том, что низкое соотношение CD4 / CD8 может быть связано с эмфиземой и определяем другие факторы, влияющие на тяжесть эмфиземы (возраст, пол, индекс массы тела и др.) Строим и анализируем множественную логистическую регрессионную модель тяжести эмфиземы. Проверяем предположение, что низкое соотношение CD4 / CD8 может быть связано с функцией легких при ХОБЛ, независимо от других параметров с построением для каждого варианта легочной дисфункции множественной регрессионной модели.
2
Управляемое наследование
Изучаем результаты наследования Х-хромосомы по женской линии в эксперименте на дрозофилах, маркер - цветные глаза. Визуализируем зависимость времени ухаживания и размера грудной клетки в экспериментах по наблюдению за брачным поведением самцов. Ищем ответы на вопросы: различаются ли размеры тела целевых самок из разных групп? Предпочитают ли самцы более крупных самок? Проверяем гипотезу о том, что самцы уделяют больше времени на ухаживания за самками в зависимости от группы воздействия. Визуализируем данные с акцентом на поставленные вопросы и полученные результаты.
3
Метаболиты приматов
По концентрации метаболитов, измеренных в мозге, почках и мышцах человека, шимпанзе и макаки пытаемся различить каждого из приматов. Смотрим, есть ли специфичные для человека и шимпанзе метаболиты? Сильно ли различие? Проверяем гипотезу, есть ли влияние пола и возраста на поведение метаболитов внутри каждого вида в каждой ткани?

Подать заявку на следующий поток

Даты ближайшего потока: 27 июня — 7 июля (9 дней)


Время проведения: с 10 до 18 в будние дни

Место проведения: г. Москва, антикафе Prospect


Чтобы узнать цены, оставьте заявку ниже. При покупке любого курса из цикла на два других дополнительная скидка по 5%, которую можно суммировать с остальными акциями

Очно или онлайн?
Чем вы занимаетесь?
Комментарий
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц

Фото и отзывы предыдущих потоков

Курс не заточен под какую-то определенную узкую специализацию, поэтому он подойдет людям разных профессий, кому в работе необходимо работать с данными. Я определенно советую этот курс всем, кто хочет научится анализу данных в R. Из рекомендаций будущим участникам — лучше всего будет немного самостоятельно освоиться в языке R.
Марат Сабиров
М.н.с., группа молекулярной организации генома Института биологии гена
Понравилось — преподаватели, программа курса, подача материала, атмосфера. Из того, что можно улучшить — добавить теорию и практику по статистике в материалы курса (на сайте); возможно имеет смысл изменить вектор скорости курса — более сжато давать базовые вещи в начале, и оставить больше времени на более сложные темы в конце курса.
Тамара Симакова
Руководитель Медико-генетической группы в ParseqLab
Спасибо большое преподавателю, ассистентам и организаторам за возможность в удобном и интенсивном формате приобрести новые знания и вспомнить старые, за энтузиазм, которым они заражали всех, за ответы на дополнительные вопросы и деление опытом.
Олеся Пшеничникова
У меня очень-очень много эмоций и слов! Но если попробовать вкратце, то Ваня и Таня — супер крутые! И дело не в самих знаниях этих людей, а в том, как нам это всё разжевали и в рот положили. Это было моё первое знакомство с R, как и с программированием в принципе, и это было супер!
Анастасия Бойко
Научный сотрудник Лаборатории молекулярной генетики и биохимии НИИ психического здоровья
Большое спасибо за курс) Самые интересные две недели за последнее время. Я на курсе ещё хотела найти новые знакомства, и я их нашла) В современных реалиях ковида очень здорово на две недели выбраться в общество из мира удаленки.
Полина Рассказова
Понравилось, как была организована вся бытовая часть — выбор места занятий, ресторана, смена локации, кофе-брейк — несмотря на интенсивность курса, не было ни умственной усталости, ни физического дискомфорта, — всё было продумано, и никакие насущные вопросы не отвлекали нас от обучения
Елена Юрина
Аспирант Автономного Университета Барселоны, кафедра Психиатрии и судебной медицины, врач-психиатр
Благодарности всем организаторам за форму подачи материала. Несмотря на высокий уровень интенсивности и информативности курса, не чувствовалось усталости от нагрузки, постоянно хотелось узнавать новое, закреплять услышанное и тренироваться в решении задач, с удовольствием обращаясь за поддержкой к ТА. Особая благодарность Ивану, за то что читает этот курс с таким вдохновением и экспрессией.
Марина Курашова
Врач КЛД, ФБУН ЦНИИ Эпидемиологии Роспотребнадзора
Огромное спасибо преподавателям и организаторам курса. Всегда чувствуется, когда люди не только в совершенстве знают, но и любят то, что преподают. Отдельно хотелось бы отметить, что технически все прошло очень хорошо. С удовольствием направлю сотрудников моей лаборатории на этот курс в будущем!
Андрей Комиссаров
Заведующий лабораторией молекулярной вирусологии ФГБУ «НИИ гриппа им. А. А. Смородинцева» Минздрава России
Мечтала об этом курсе с 2019 года! Большое спасибо от маленького ученого из Саратова!
И я определенно посоветую этот курс всем коллегам биологам! Мне это дало нереальный рывок, появилась картина своих данных в голове и что с ними можно делать. Для себя отмечу, можно для начала изучить базу R немного самостоятельно, совсем «пустыми» этот курс усвоить (по-моему мнению) сложно.
Алина Балыкова
Специалист по особо опасным инфекциям
FAQ
Вопрос:
Чем этот курс отличается от других курсов по статистике?
Ответ:
Курс дает понимание, как находить закономерности и явления в разных данных, с подробным разбором возможных ограничений и альтернатив. Цель - дать инструментарий для извлечения информации из любых датасетов. Кроме того, во время подготовки самостоятельного проекта вы сможете задать любые частные вопросы и попробовать разные пути решения своих задач.
Вопрос:
Смогу ли я потянуть этот курс, не имея никакого опыта работы в R и программирования вообще?
Ответ:
Да, курс рассчитан на участников, не имеющих опыта программирования. Знаний будет достаточно, если вы хотя бы раз в жизни открывали Microsoft Excel.
Вопрос:
Если я уже владею R на каком-то уровне или работаю в других программах, будет ли мне интересна часть курса про R?
Ответ:
Курс отлично подойдет для систематизации знаний при наличии опыта работы в R. Даже на самых базовых темах затронем неочевидные особенности языка R и обсудим, как сделать код лучше. Кроме того, R — это активно развивающийся язык, и в программе курса отражено его актуальное состояние. Также в курсе делаются отсылки к другим языкам программирования (например, Python) и специализированным программам, чтобы показать как возможные аналогии, так и важные отличия и особенности R.
Вопрос:
С каким типом данных нужно приходить?
Ответ:
Условно можно назвать этот тип "готовая табличка", либо данные должны быть сводимы к ней (например, JSON). Это должны быть результаты эксперимента, выраженные в количественном виде, значения которых вам понятны. Будет сложно работать с данными, про которые вы ничего не знаете. Если сомневаетесь, напишите нам, мы поможем решить этот вопрос.
Вопрос:
Ориентирован ли этот курс исключительно на биологов?
Ответ:
Основная программа посвящена общим вопросам анализа данных, то есть будет полезна всем вне зависимости от специализации. Последние 2 дня полностью отведены на работу над проектами, наши преподаватели и консультанты – биологи и психологи, и соответственно специализируются на этих сферах, однако у них есть опыт в работе с данными и из других областей.
Вопрос:
Будет ли доступна запись курса после его прохождения?
Ответ:
Да, видеозапись занятий доступна всем участникам курса день в день.

Оргкомитет

Ответим на любые вопросы! Пишите нам на mail@blastim.ru

Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Руководитель образовательных проектов Бластима
Оксана Коржавина
Куратор курсов Бластима