Статистика, R и анализ данных
8 — 12 и 15 — 18 ноября 2021 года
Для ученых, врачей, агрономов, аналитиков и всех, кто работает или хочет работать с данными.

Девятидневный практический курс, на котором вы не только научитесь статистике, но и поймете её.
5 лет мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 8 дней мы научим всему необходимому, чтобы этого избежать.

Текущий курс совместно с программой по Линуксу и Питону станут отличной базой для освоения более продвинутой программы по Анализу NGS-данных.
При покупке любого курса из цикла на два других дополнительная скидка по 5%, которую можно суммировать с остальными акциями
Почему именно этот курс?

Прикладная статистика с нуля

Математика выше школьной программы и знание программирования не понадобятся!

Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами анализировать.

Мы будем использовать примеры и данные из биологии, сельского хозяйства, медицины, географии, онлайн-игр и цифровых гуманитарных наук, но никаких специальных знаний вам не потребуется. А тем, кто помнит ТеорВер, Линал, Python или MATLAB, мы дадим задачки посложнее.

Скрипт в R, а не руками в Exсel

Умение написать скрипт и автоматизировать расчеты в R позволит сэкономить время в будущем и не тратить его на постоянное копирование столбиков в Excel.

Мы научим не только получать в программе p-value, но и считать и понимать мощность теста, размер эффекта и другие параметры.
Практика с первых минут
Формат интенсива позволяет сфокусироваться на программе и не отвлекаться. В конце курса вы самостоятельно выполните и презентуете проект. Можно прийти со своим проектом, можно выбрать из предложенных.
Индивидуальный подход и полноценный онлайн-формат
Преподаватели помогут разобраться в задачах любой сложности, уделяя внимание каждому участнику. Во время занятий и подготовки проектов менторы ответят на любые ваши вопросы.

В рамках курсах общение будет происходить в общем чате, доступном для всех участников и преподавателей.
Все участники (в том числе онлайн) задают вопросы в реальном времени, обсуждают с преподавателями свои данные и презентуют проект.

Мы также предусмотрели онлайн-ассистентов и время для вечерних разборов.

Программа:

Первый день: основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— R как калькулятор
— Операторы, функции
— Типы данных
— Вектора, матрицы, списки, датафреймы
Второй день: препроцессинг данных в R, введение в tidyverse
— Импорт данных
— Работа с "проектами" RStudio
— Препроцессинг данных базовыми средствами R
— Условные конструкции в R
— Создание функций
— Циклы и семейство функций apply
— Работа с пакетами
— Пакеты data.table и tidyverse
— Основы tidyverse: readr, tibble, magrittr
— Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок
— Агрегирование данных в dplyr

Третий день: продвинутый препроцессинг данных в tidyverse, описательная статистика
— Концепция Tidy Data. Широкие и длинные таблицы, tidyr
— Работа с реляционными данными в tidyverse
— Функциональное программирование в purrr
— Описательная статистика (центральные тенденции, меры разброса, ассиметрия, эксцесс, функции и пакеты для описательной статистики)
Четвертый день: визуализация в пакете ggplot2, введение в статистику вывода
— Визуализация в R: базовые средства визуализации
— Layered Grammar of Graphics и ggplot2
— Средства динамической визуализации в R: HTML-виджеты
— Самостоятельное упражнение на визуализацию
— Уровень значимости. Ошибки I и II рода— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
Пятый день: основные статистические тесты, практика анализа данных
— z-критерий и t-критерий
—Понятия уровня значимости и статистической мощности
— Оценка статистической мощности, размера эффекта и размера выборки в R

Практика анализа данных, препроцессинг рабочих датасетов для девятого дня
Шестой день: практика анализа данных, основные статистические тесты (продолжение)
— Непараметрические методы
— Обзор задач и методов в статистике. Как выбрать метод для анализа данных
— Дисперсионный анализ (ANOVA) и его разновидности
— Корреляция, коэффициенты корреляции
Седьмой день: Общая линейная модель
— Линейная регрессионная модель
— Допущения линейной модели. "Остатки", МНКи goodness-of-fit
— Множественная линейная регрессия и общая линейная модель (general linear model)

Восьмой день: Обобщения линейной модели, многомерные методы
— Логистическая регрессия. Обобщенная линейная регрессия (generalized linear model)
— Смешанная линейная модель (Linear mixed effects models)
— Другие многомерные методы: кластерный анализ, MDS и PCA

Девятый день: самостоятельный проект
Можно принести свои данные!
Преподаватели курса:
Иван Поздняков
Старший преподаватель НИУ ВШЭ

Преподает R и статистику в НИУ ВШЭ для студентов различных направлений
Валерия Крюкова
Иммунолог, аспирант Сколтеха

Сотрудница ИБХ РАН, ранее ЦНИИ Туберкулеза, 4 года опыта в анализе данных
Елена Рыбина
М.н.с. лаборатории когнитивной психологии пользователя цифровых интерфейсов НИУ ВШЭ

Аспирантка НИУ ВШЭ . Учебный аналитик в Яндекс.Практикуме

Примеры кейсов для разбора
1
Алкоголь и успеваемость
Имеются данные об успеваемости и социально-демографические характеристики студентов старшей школы в Португалии.

Выясняем, отличаются ли итоговые оценки студентов в зависимости от типа населенного пункта, пола, от того есть ли у родителей высшее образование? Изучаем, как влияет на успеваемость количество алкоголя, выпиваемое студентом, строим линейную модель с несколькими предикаторами. Выясняем, с какими ещё факторами из датасета коррелирует потребление алкоголя студентами.
2
Деревья-вредители?
По выборке данных в виде пары значений: [количество деревьев-колонистов на квадратный метр/ количество видов растений на данный квадратный метр] оцениваем корреляцию данных и делаем заключение, может ли соседство с деревьями-колонистами быть опасным для видового разнообразия коренных растений.
3
Экспрессия генов
Сравниваем данные экспрессии 10 генов с определенным воздействием и контрольные данные для этих генов без воздействия.

Проверяем гипотезу о среднем значении экспрессии генов в группе контроля (one-sample t-test).
Оцениваем различия в двух группах: сравниваем средние значения с помощью two-sample t-test и оцениваем дисперсию данных для двух групп, используя f-test. Теперь можем сделать заключение, есть ли отличие экспрессии генов в случае воздействия, с указанием достигаемого уровня значимости.

Записаться на курс

Стоимость до 8 октября по акции раннего бронирования :

47 000 39 950 ₽ для самостоятельных участников (физлиц)
57 000 48 500 ₽ при оплате от юрлиц (институтов, компаний и ИП)

Для студентов дневных отделений бакалавриата, магистратуры и специалитета действует скидка 30%. Для аспирантов дневного отделения скидка 10%. Мы попросим вас сообщить название вуза, телефон деканата и контактное лицо.
Очно или онлайн?
Комментарий
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц

Фото и отзывы предыдущих потоков

"Курс не заточен под какую-то определенную узкую специализацию, поэтому он подойдет людям разных профессий, кому в работе необходимо работать с данными. Я определенно советую этот курс всем, кто хочет научится анализу данных в R. Из рекомендаций будущим участникам - лучше всего будет немного самостоятельно освоиться в языке R. Это сильно облегчит вам усвоение материала данного курса"
Марат Сабиров
М.н.с., группа молекулярной организации генома Института биологии гена
"Понравилось - преподаватели, программа курса, подача материала, атмосфера. Из того, что можно улучшить - добавить теорию и практику по статистике в материалы курса (на сайте); возможно имеет смысл изменить вектор скорости курса - более сжато давать базовые вещи в начале, и оставить больше времени на более сложные темы в конце курса"
Тамара Симакова
Руководитель Медико-генетической группы в ParseqLab
"Очень хорошо были объяснены основные возможности R, причем с привязкой к биоинформатическим задачам.
Посоветовал бы курс биоинформатикам, микробиологам, молекулярным биологам.
Использовать в работе пока не начал (три дня прошло с окончания курса!), но планирую."
Дмитрий Равчеев
Research Associate, Luxembourg Centre for System Biomedicine, University of Luxembourg
"У меня очень-очень много эмоций и слов! Но если попробовать вкратце, то Ваня и Таня - суперкрутые! И дело не в самих знаниях этих людей, а в том, как нам это всё разжевали и в рот положили. Это было моё первое знакомство с R, как и с программированием в принципе, и это было супер!"
Анастасия Бойко
Научный сотрудник Лаборатории молекулярной генетики и биохимии НИИ психического здоровья
"Статистика была очень полезна, но все равно не удалось полностью усвоить материал. Так как я первый раз столкнулась с R, то для меня это было скорее ознакомительным вводным курсом я бы подумала о том, как упростить программу или сделать разные программы в зависимости от уровня подготовки. И больше практики со своим личным материалом. Также добавить практических задач по статистике, это помогло бы лучше усвоить материал"
Татьяна Альмухаметова
ПИ РАО
"Понравилось, как была организована вся бытовая часть - выбор места занятий, ресторана, смена локации, кофе-брейк - несмотря на интенсивность курса, не было ни умственной усталости, ни физического дискомфорта, - всё было продумано, и никакие насущные вопросы не отвлекали нас от обучения"
Елена Юрина
Аспирант Автономного Университета Барселоны, кафедра Психиатрии и судебной медицины, врач-психиатр
"Благодарности всем организаторам за форму подачи материала. Несмотря на высокий уровень интенсивности и информативности курса, не чувствовалось усталости от нагрузки, постоянно хотелось узнавать новое, закреплять услышанное и тренироваться в решении задач, с удовольствием обращаясь за поддержкой к ТА.). Особая благодарность Ивану, за то что читает этот курс с таким вдохновением и экспрессией."
Марина Курашова
Врач КЛД, ФБУН ЦНИИ Эпидемиологии Роспотребнадзора
"Огромное спасибо преподавателям и организаторам курса. Всегда чувствуется, когда люди не только в совершенстве знают, но и любят то, что преподают. Отдельно хотелось бы отметить, что технически все прошло очень хорошо. С удовольствием направлю сотрудников моей лаборатории на этот курс в будущем! "
Андрей Комиссаров
Заведующий лабораторией молекулярной вирусологии ФГБУ "НИИ гриппа им. А.А. Смородинцева" Минздрава России
"Мечтала об этом курсе с 2019 года! И радости не было предела, когда объявили о наборе! Я уложила в голове всю базу и привыкла к R. Большое спасибо от маленького ученого из Саратова!
И я определенно посоветую этот курс всем коллегам биологам! Мне это дало нереальный рывок, появилась картина своих данных в голове и что с ними можно делать. Для себя отмечу, можно для начала изучить базу R немного самостоятельно, совсем «пустыми» этот курс усвоить (по-моему мнению) сложно."
Алина Балыкова
Специалист по особо опасным инфекциям
FAQ
Вопрос:
Чем этот курс отличается от других курсов по статистике?
Ответ:
Курс дает понимание, как находить закономерности и явления в разных данных, с подробным разбором возможных ограничений и альтернатив. Цель - дать инструментарий для извлечения информации из любых датасетов. Кроме того, во время подготовки самостоятельного проекта вы сможете задать любые частные вопросы и попробовать разные пути решения своих задач.
Вопрос:
Смогу ли я потянуть этот курс, не имея никакого опыта работы в R и программирования вообще?
Ответ:
Да, курс рассчитан на участников, не имеющих опыта программирования. Знаний будет достаточно, если вы хотя бы раз в жизни открывали Microsoft Excel.
Вопрос:
Если я уже владею R на каком-то уровне или работаю в других программах, будет ли мне интересна часть курса про R?
Ответ:
Курс отлично подойдет для систематизации знаний при наличии опыта работы в R. Даже на самых базовых темах затронем неочевидные особенности языка R и обсудим, как сделать код лучше. Кроме того, R — это активно развивающийся язык, и в программе курса отражено его актуальное состояние. Также в курсе делаются отсылки к другим языкам программирования (например, Python) и специализированным программам, чтобы показать как возможные аналогии, так и важные отличия и особенности R.
Вопрос:
С каким типом данных нужно приходить?
Ответ:
Условно можно назвать этот тип "готовая табличка", либо данные должны быть сводимы к ней (например, JSON). Это должны быть результаты эксперимента, выраженные в количественном виде, значения которых вам понятны. Будет сложно работать с данными, про которые вы ничего не знаете. Если сомневаетесь, напишите нам, мы поможем решить этот вопрос.
Вопрос:
Ориентирован ли этот курс исключительно на биологов?
Ответ:
Основная программа посвящена общим вопросам анализа данных, то есть будет полезна всем вне зависимости от специализации. Последние 2 дня полностью отведены на работу над проектами, наши преподаватели и консультанты – биологи и психологи, и соответственно специализируются на этих сферах, однако у них есть опыт в работе с данными и из других областей.
Вопрос:
Будет ли доступна запись курса после его прохождения?
Ответ:
Да, мы отправляем видеозапись занятий всем участникам по окончании курса.

Оргкомитет

Будем рады ответить на любые вопросы! Пишите нам на mail@blastim.ru

Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Наталья Мнафки
Руководитель образовательных проектов Бластима