Статистика, R и анализ данных
Даты ближайшего потока: 31 октября, 1 — 4 и 7 — 10 ноября
Онлайн или очно в Москве
Для ученых, врачей, агрономов, аналитиков и всех, кто работает или хочет работать с данными.

Девятидневный практический курс, на котором вы не только научитесь статистике, но и поймете её. Этот курс, возможно, единственное, что вам нужно для переобучения в Data Scientist/биоинформатиков
5 лет мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 9 дней мы научим всему необходимому, чтобы этого избежать.

Текущий курс совместно с программой по Линуксу и Питону станут отличной базой для освоения более продвинутой программы по Анализу NGS-данных.
Почему именно этот курс?

Прикладная статистика с нуля

Математика выше школьной программы и знание программирования не понадобятся!

Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами анализировать.

Мы будем использовать примеры и данные из биологии, сельского хозяйства, медицины, географии, онлайн-игр и цифровых гуманитарных наук, но никаких специальных знаний вам не потребуется. А тем, кто помнит ТеорВер, Линал, Python или MATLAB, мы дадим задачки посложнее.

Скрипт в R, а не руками в Exсel

Умение написать скрипт и автоматизировать расчеты в R позволит сэкономить время в будущем и не тратить его на постоянное копирование столбиков в Excel.

Мы научим не только получать в программе p-value, но и считать и понимать мощность теста, размер эффекта и другие параметры.

Практика с первых минут
Формат интенсива позволяет сфокусироваться на программе и не отвлекаться. В конце курса вы самостоятельно выполните и презентуете проект. Можно прийти со своим проектом, можно выбрать из предложенных.
Индивидуальный подход и полноценный онлайн-формат
Преподаватели помогут разобраться в задачах любой сложности, уделяя внимание каждому участнику. Во время занятий и подготовки проектов менторы ответят на любые ваши вопросы.

В рамках курсах общение будет происходить в общем чате, доступном для всех участников и преподавателей. Все могут задать вопросы в реальном времени, обсуждать с преподавателями свои данные и презентовать проект.

Мы также предусмотрели онлайн-ассистентов и время для вечерних разборов.

Программа:

Первый день: основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— R как калькулятор
— Операторы, функции
— Типы данных
— Вектора, матрицы, списки, датафреймы
Второй день: препроцессинг данных в R, введение в tidyverse
— Импорт данных
— Работа с "проектами" RStudio
— Препроцессинг данных базовыми средствами R
— Условные конструкции в R
— Создание функций
— Циклы и семейство функций apply
— Работа с пакетами
— Пакеты data.table и tidyverse
— Основы tidyverse: readr, tibble, magrittr
— Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок
— Агрегирование данных в dplyr

Третий день: продвинутый препроцессинг данных в tidyverse, описательная статистика
— Концепция Tidy Data. Широкие и длинные таблицы, tidyr
— Работа с реляционными данными в tidyverse
— Функциональное программирование в purrr
— Описательная статистика (центральные тенденции, меры разброса, ассиметрия, эксцесс, функции и пакеты для описательной статистики)
Четвертый день: визуализация в пакете ggplot2, введение в статистику вывода
— Визуализация в R: базовые средства визуализации
— Layered Grammar of Graphics и ggplot2
— Средства динамической визуализации в R: HTML-виджеты
— Самостоятельное упражнение на визуализацию
— Уровень значимости. Ошибки I и II рода— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
Пятый день: основные статистические тесты, практика анализа данных
— z-критерий и t-критерий
—Понятия уровня значимости и статистической мощности
— Оценка статистической мощности, размера эффекта и размера выборки в R

Практика анализа данных, препроцессинг рабочих датасетов для девятого дня
Шестой день: практика анализа данных, основные статистические тесты (продолжение)
— Непараметрические методы
— Обзор задач и методов в статистике. Как выбрать метод для анализа данных
— Дисперсионный анализ (ANOVA) и его разновидности
— Корреляция, коэффициенты корреляции
Седьмой день: Общая линейная модель
— Линейная регрессионная модель
— Допущения линейной модели. "Остатки", МНКи goodness-of-fit
— Множественная линейная регрессия и общая линейная модель (general linear model)

Восьмой день: Обобщения линейной модели, многомерные методы
— Логистическая регрессия. Обобщенная линейная регрессия (generalized linear model)
— Смешанная линейная модель (Linear mixed effects models)
— Другие многомерные методы: кластерный анализ, MDS и PCA

Девятый день: самостоятельный проект
Можно принести свои данные!
Преподаватели курса:
Иван Поздняков
Старший преподаватель НИУ ВШЭ

Преподает R и статистику в НИУ ВШЭ для студентов различных направлений.

Преподаватель будет онлайн!
Валерия Крюкова
Иммунолог, аспирант Сколтеха

Сотрудница ИБХ РАН, ранее ЦНИИ Туберкулеза, 4 года опыта в анализе данных

Преподаватель будет оффлайн!
Елена Рыбина
М.н.с. в лаборатории когнитивной психологии пользователя цифровых интерфейсов НИУ ВШЭ.
Преподаватель Департамента психологии НИУ ВШЭ, экс-аналитик Яндекс Практикум

Преподаватель будет оффлайн!
Примеры кейсов для разбора
1
Маркеры воспаления легких
Проверяем гипотезу о том, что низкое соотношение CD4 / CD8 может быть связано с эмфиземой и определяем другие факторы, влияющие на тяжесть эмфиземы (возраст, пол, индекс массы тела и др.) Строим и анализируем множественную логистическую регрессионную модель тяжести эмфиземы. Проверяем предположение, что низкое соотношение CD4 / CD8 может быть связано с функцией легких при ХОБЛ, независимо от других параметров с построением для каждого варианта легочной дисфункции множественной регрессионной модели.
2
Управляемое наследование
Изучаем результаты наследования Х-хромосомы по женской линии в эксперименте на дрозофилах, маркер - цветные глаза. Визуализируем зависимость времени ухаживания и размера грудной клетки в экспериментах по наблюдению за брачным поведением самцов. Ищем ответы на вопросы: различаются ли размеры тела целевых самок из разных групп? Предпочитают ли самцы более крупных самок? Проверяем гипотезу о том, что самцы уделяют больше времени на ухаживания за самками в зависимости от группы воздействия. Визуализируем данные с акцентом на поставленные вопросы и полученные результаты.
3
Метаболиты приматов
По концентрации метаболитов, измеренных в мозге, почках и мышцах человека, шимпанзе и макаки пытаемся различить каждого из приматов. Смотрим, есть ли специфичные для человека и шимпанзе метаболиты? Сильно ли различие? Проверяем гипотезу, есть ли влияние пола и возраста на поведение метаболитов внутри каждого вида в каждой ткани?

Подать заявку!

Курс пройдет 31 октября, 1 — 4 и 7 10 ноября (9 дней)


Стоимость обучения до 1 октября: 47 000 рублей.

после 1 октября: 49300 рублей

При покупке любого курса из цикла на два других дополнительная скидка по 5%.

Также мы делаем скидки студентам и аспирантам


Время проведения: с 10 до 18 в будние дни.

Место проведения: г. Москва, антикафе Prospect или онлайн.


Чтобы узнать цены для организаций оставьте заявку ниже и укажите в комментариях название компании.

Очно или онлайн?
Чем вы занимаетесь?
Комментарий
Нажимая на кнопку вы соглашаетесь с нашей политикой обработки персональных данных и принимаете условия публичной оферты.

Фото и отзывы предыдущих потоков

У меня очень-очень много эмоций и слов! Но если попробовать вкратце, то Ваня и Таня — супер крутые! И дело не в самих знаниях этих людей, а в том, как нам это всё разжевали и в рот положили. Это было моё первое знакомство с R, как и с программированием в принципе, и это было супер!
Анастасия Бойко
Научный сотрудник Лаборатории молекулярной генетики и биохимии НИИ психического здоровья
Большое спасибо за курс) Самые интересные две недели за последнее время. Я на курсе ещё хотела найти новые знакомства, и я их нашла) В современных реалиях ковида очень здорово на две недели выбраться в общество из мира удаленки.
Полина Рассказова
Сотрудник ИБХ РАН и Kodland
Понравилось, как была организована вся бытовая часть — выбор места занятий, ресторана, смена локации, кофе-брейк — несмотря на интенсивность курса, не было ни умственной усталости, ни физического дискомфорта, — всё было продумано, и никакие насущные вопросы не отвлекали нас от обучения
Елена Юрина
Аспирант Автономного Университета Барселоны, кафедра Психиатрии и судебной медицины, врач-психиатр
Мне очень понравился основной лектор — Иван. Здорово было общаться с ассистентами, им огромное спасибище за вселение уверенности, за помощь в написании кода. Боюсь, что если бы я слушала только лекции, я бы не справилась с R.
Наталья Исаева
Старший научный сотрудник КНИИГиПК
Отдельное спасибо за атмосферу:) Мне было очень приятно быть на курсе, который старались адаптировать под разный бэкграунд участников.
Елена Пустынникова
BostonGene, программист
Спасибо Ивану не только за полезную информацию по делу, но и за отсылочки ко всяким не относящимся к программированию сущностям))
Алена Железова
Научный сотрудник ФИЦ Почвенный институт имени В.В.Докучаева
Курс не заточен под какую-то определенную узкую специализацию, поэтому он подойдет людям разных профессий, кому в работе необходимо работать с данными. Я определенно советую этот курс всем, кто хочет научится анализу данных в R. Из рекомендаций будущим участникам — лучше всего будет немного самостоятельно освоиться в языке R.
Марат Сабиров
М.н.с., группа молекулярной организации генома Института биологии гена
Огромное спасибо преподавателям и организаторам курса. Всегда чувствуется, когда люди не только в совершенстве знают, но и любят то, что преподают. Отдельно хотелось бы отметить, что технически все прошло очень хорошо. С удовольствием направлю сотрудников моей лаборатории на этот курс в будущем!
Андрей Комиссаров
Заведующий лабораторией молекулярной вирусологии ФГБУ «НИИ гриппа им. А. А. Смородинцева» Минздрава России
Мечтала об этом курсе с 2019 года! Большое спасибо от маленького ученого из Саратова!
И я определенно посоветую этот курс всем коллегам биологам! Мне это дало нереальный рывок, появилась картина своих данных в голове и что с ними можно делать. Для себя отмечу, можно для начала изучить базу R немного самостоятельно, совсем «пустыми» этот курс усвоить (по-моему мнению) сложно.
Алина Балыкова
Специалист по особо опасным инфекциям
FAQ
Вопрос:
Чем этот курс отличается от других курсов по статистике?
Ответ:
Курс дает понимание, как находить закономерности и явления в разных данных, с подробным разбором возможных ограничений и альтернатив. Цель - дать инструментарий для извлечения информации из любых датасетов. Кроме того, во время подготовки самостоятельного проекта вы сможете задать любые частные вопросы и попробовать разные пути решения своих задач.
Вопрос:
Смогу ли я потянуть этот курс, не имея никакого опыта работы в R и программирования вообще?
Ответ:
Да, курс рассчитан на участников, не имеющих опыта программирования. Знаний будет достаточно, если вы хотя бы раз в жизни открывали Microsoft Excel.
Вопрос:
Если я уже владею R на каком-то уровне или работаю в других программах, будет ли мне интересна часть курса про R?
Ответ:
Курс отлично подойдет для систематизации знаний при наличии опыта работы в R. Даже на самых базовых темах затронем неочевидные особенности языка R и обсудим, как сделать код лучше. Кроме того, R — это активно развивающийся язык, и в программе курса отражено его актуальное состояние. Также в курсе делаются отсылки к другим языкам программирования (например, Python) и специализированным программам, чтобы показать как возможные аналогии, так и важные отличия и особенности R.
Вопрос:
С каким типом данных нужно приходить?
Ответ:
Условно можно назвать этот тип "готовая табличка", либо данные должны быть сводимы к ней (например, JSON). Это должны быть результаты эксперимента, выраженные в количественном виде, значения которых вам понятны. Будет сложно работать с данными, про которые вы ничего не знаете. Если сомневаетесь, напишите нам, мы поможем решить этот вопрос.
Вопрос:
Ориентирован ли этот курс исключительно на биологов?
Ответ:
Основная программа посвящена общим вопросам анализа данных, то есть будет полезна всем вне зависимости от специализации. Последние 2 дня полностью отведены на работу над проектами, наши преподаватели и консультанты – биологи и психологи, и соответственно специализируются на этих сферах, однако у них есть опыт в работе с данными и из других областей.
Вопрос:
Будет ли доступна запись курса после его прохождения?
Ответ:
Да, видеозапись занятий доступна всем участникам курса день в день.

Оргкомитет

Ответим на любые вопросы! Пишите нам на mail@blastim.ru

Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Руководитель образовательных проектов Бластима
Оксана Коржавина
Куратор курсов Бластима