+

Статистика, R и анализ данных


Для ученых, врачей, агрономов, аналитиков и всех, кто работает или хочет работать с данными. Восьмидневный практический курс, на котором вы не только научитесь статистике, но и поймете её.

Даты следующего потока: 8 — 12 и 15 — 17 ноября 2021 года.

5 лет мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 8 дней мы научим всему необходимому, чтобы этого избежать.
В конце курса вы сможете:
Понимать принципы статанализа и проводить его самостоятельно
Интерпретировать результаты анализа
Писать код в R
Видеть, что полезного можно вытащить из ваших данных
Рисовать емкие картинки-результаты
Текущий курс станет отличной базой для освоения более продвинутых инструментов анализа данных.

Почему именно этот курс?

Прикладная статистика с нуля
Математика выше школьной программы и знание программирования не понадобятся!

Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами анализировать.

Мы будем использовать примеры и данные из биологии, сельского хозяйства, медицины, географии, онлайн-игр и цифровых гуманитарных наук, но никаких специальных знаний вам не потребуется. А тем, кто помнит ТеорВер, Линал, Python или MATLAB, мы дадим задачки посложнее.
Скрипт в R, а не руками в Exсel

Умение написать скрипт и автоматизировать расчеты в R позволит сэкономить время в будущем и не тратить его на постоянное копирование столбиков в Excel.

Мы научим не только получать в программе p-value, но и считать и понимать мощность теста, размер эффекта и другие параметры.

Практика с первых минут
Формат интенсива позволяет сфокусироваться на программе и не отвлекаться. В конце курса вы самостоятельно выполните и презентуете проект. Можно прийти со своим проектом, можно выбрать из предложенных.


Индивидуальный подход и полноценный онлайн-формат
Преподаватели помогут разобраться в задачах любой сложности, уделяя внимание каждому участнику. Во время занятий и подготовки проектов менторы ответят на любые ваши вопросы.

В рамках курсах общение будет происходить в общем чате, доступном для всех участников и преподавателей.
Все участники (в том числе онлайн) задают вопросы в реальном времени, обсуждают с преподавателями свои данные и презентуют проект.

Мы также предусмотрели онлайн-ассистентов и время для вечерних разборов.
Программа
Первый день: основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— R как калькулятор
— Операторы, функции
— Типы данных
— Вектора, матрицы, списки, датафреймы
— Импорт данных
— Работа с "проектами" RStudio
— Препроцессинг данных базовыми средствами R
Второй день: препроцессинг данных в R
— Условные конструкции в R
— Создание функций
— Циклы и семейство функций apply
— Работа с пакетами
— Пакеты data.table и tidyverse
— Основы tidyverse: readr, tibble, magrittr
— Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок
— Агрегирование данных в dplyr
— Концепция Tidy Data. Широкие и длинные таблицы, tidyr
— Работа с реляционными данными в tidyverse
— Функциональное программирование в purrr
Третий день: описательная статистика и визуализация
— Описательная статистика (центральные тенденции, меры разброса, ассиметрия, эксцесс, функции и пакеты для описательной статистики)
— Визуализация в R: базовые средства визуализации
— Layered Grammar of Graphics и ggplot2
— Средства динамической визуализации в R: HTML-виджеты
— Самостоятельное упражнение на визуализацию
— RMarkdown
Четвертый день: введение в статистику вывода
— Уровень значимости. Ошибки I и II рода— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
— z-критерий и t-критерий
— Ошибки I и II рода. Понятия уровня значимости и мощности
— Оценка статистической мощности, размера эффекта и размера выборки в R
Пятый день: практика анализа данных
День практики в анализе данных, препроцессинг рабочих датасетов для восьмого дня
Шестой день: основные статистические тесты
— Непараметрические методы
— Обзор задач и методов в статистике. Как выбрать метод для анализа данных
— Дисперсионный анализ (ANOVA) и его разновидности
— Корреляция, коэффициенты корреляции
— Линейная регрессионная модель
— Допущения линейной модели. "Остатки", МНК и goodness-of-fit
Седьмой день: многомерные методы анализа данных
— Множественная линейная регрессия и общая линейная модель (general linear model)
— Логистическая регрессия. Обобщенная линейная регрессия (generalized linear model)
— Смешанная линейная модель (Linear mixed effects models)
— Другие многомерные методы: кластерный анализ, MDS и PCA
Восьмой день: самостоятельный проект (можно принести свои данные!)
— Формулировка гипотез и статистический анализ
— Выводы, интерпретация и визуализация
— Презентация результатов и обсуждение
Преподаватели
Иван Поздняков
— Старший преподаватель НИУ ВШЭ
— Преподает R и статистику в НИУ ВШЭ для студентов различных направлений
Валерия Крюкова
— Иммунолог, аспирант Сколтеха
— Сотрудник ИБХ РАН, ранее ЦНИИ Туберкулеза
— 4 года опыта в анализе данных

Елена Рыбина
—м.н.с. лаборатории когнитивной психологии пользователя цифровых интерфейсов НИУ ВШЭ, аспирант НИУ ВШЭ
— учебный аналитик в Яндекс.Практикуме


Примеры кейсов для разбора
1
Алкоголь и успеваемость
Имеются данные об успеваемости и социально-демографические характеристики студентов старшей школы в Португалии.

Выясняем, отличаются ли итоговые оценки студентов в зависимости от типа населенного пункта, пола, от того есть ли у родителей высшее образование? Изучаем, как влияет на успеваемость количество алкоголя, выпиваемое студентом, строим линейную модель с несколькими предикаторами. Выясняем, с какими ещё факторами из датасета коррелирует потребление алкоголя студентами.
2
Деревья-вредители?
По выборке данных в виде пары значений: [количество деревьев-колонистов на квадратный метр/ количество видов растений на данный квадратный метр] оцениваем корреляцию данных и делаем заключение, может ли соседство с деревьями-колонистами быть опасным для видового разнообразия коренных растений.
3
Экспрессия генов
Сравниваем данные экспрессии 10 генов с определенным воздействием и контрольные данные для этих генов без воздействия.

Проверяем гипотезу о среднем значении экспрессии генов в группе контроля (one-sample t-test).
Оцениваем различия в двух группах: сравниваем средние значения с помощью two-sample t-test и оцениваем дисперсию данных для двух групп, используя f-test. Теперь можем сделать заключение, есть ли отличие экспрессии генов в случае воздействия, с указанием достигаемого уровня значимости.
Оставить заявку на осенний поток
Очно или онлайн?
Комментарий
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц
Фото и отзывы предыдущих потоков
"Курс не заточен под какую-то определенную узкую специализацию, поэтому он подойдет людям разных профессий, кому в работе необходимо работать с данными. Я определенно советую этот курс всем, кто хочет научится анализу данных в R. Из рекомендаций будущим участникам - лучше всего будет немного самостоятельно освоиться в языке R. Это сильно облегчит вам усвоение материала данного курса"
Марат Сабиров
М.н.с., группа молекулярной организации генома Института биологии гена
"Понравилось - преподаватели, программа курса, подача материала, атмосфера. Из того, что можно улучшить - добавить теорию и практику по статистике в материалы курса (на сайте); возможно имеет смысл изменить вектор скорости курса - более сжато давать базовые вещи в начале, и оставить больше времени на более сложные темы в конце курса"
Тамара Симакова
Руководитель Медико-генетической группы в ParseqLab
"Очень хорошо были объяснены основные возможности R, причем с привязкой к биоинформатическим задачам.
Посоветовал бы курс биоинформатикам, микробиологам, молекулярным биологам.
Использовать в работе пока не начал (три дня прошло с окончания курса!), но планирую."
Дмитрий Равчеев
Research Associate, Luxembourg Centre for System Biomedicine, University of Luxembourg
"У меня очень-очень много эмоций и слов! Но если попробовать вкратце, то Ваня и Таня - суперкрутые! И дело не в самих знаниях этих людей, а в том, как нам это всё разжевали и в рот положили. Это было моё первое знакомство с R, как и с программированием в принципе, и это было супер!"
Анастасия Бойко
Научный сотрудник Лаборатории молекулярной генетики и биохимии НИИ психического здоровья
"Статистика была очень полезна, но все равно не удалось полностью усвоить материал. Так как я первый раз столкнулась с R, то для меня это было скорее ознакомительным вводным курсом я бы подумала о том, как упростить программу или сделать разные программы в зависимости от уровня подготовки. И больше практики со своим личным материалом. Также добавить практических задач по статистике, это помогло бы лучше усвоить материал"
Татьяна Альмухаметова
ПИ РАО
"Понравилось, как была организована вся бытовая часть - выбор места занятий, ресторана, смена локации, кофе-брейк - несмотря на интенсивность курса, не было ни умственной усталости, ни физического дискомфорта, - всё было продумано, и никакие насущные вопросы не отвлекали нас от обучения"
Елена Юрина
Аспирант Автономного Университета Барселоны, кафедра Психиатрии и судебной медицины, врач-психиатр
"Благодарности всем организаторам за форму подачи материала. Несмотря на высокий уровень интенсивности и информативности курса, не чувствовалось усталости от нагрузки, постоянно хотелось узнавать новое, закреплять услышанное и тренироваться в решении задач, с удовольствием обращаясь за поддержкой к ТА.). Особая благодарность Ивану, за то что читает этот курс с таким вдохновением и экспрессией."
Марина Курашова
Врач КЛД, ФБУН ЦНИИ Эпидемиологии Роспотребнадзора
"Огромное спасибо преподавателям и организаторам курса. Всегда чувствуется, когда люди не только в совершенстве знают, но и любят то, что преподают. Отдельно хотелось бы отметить, что технически все прошло очень хорошо. С удовольствием направлю сотрудников моей лаборатории на этот курс в будущем! "
Андрей Комиссаров
Заведующий лабораторией молекулярной вирусологии ФГБУ "НИИ гриппа им. А.А. Смородинцева" Минздрава России
"Мечтала об этом курсе с 2019 года! И радости не было предела, когда объявили о наборе! Я уложила в голове всю базу и привыкла к R. Большое спасибо от маленького ученого из Саратова!
И я определенно посоветую этот курс всем коллегам биологам! Мне это дало нереальный рывок, появилась картина своих данных в голове и что с ними можно делать. Для себя отмечу, можно для начала изучить базу R немного самостоятельно, совсем «пустыми» этот курс усвоить (по-моему мнению) сложно."
Алина Балыкова
Специалист по особо опасным инфекциям

Мы учли пожелания участников курса прошлых потоков: расширили часть статистики для биологических задач и добавили ещё больше практики. Теперь курс стал длиннее на 1 день и содержательнее.

FAQ
Вопрос:
Чем этот курс отличается от других курсов по статистике?
Ответ:
Курс дает понимание, как находить закономерности и явления в разных данных, с подробным разбором возможных ограничений и альтернатив. Цель - дать инструментарий для извлечения информации из любых датасетов. Кроме того, во время подготовки самостоятельного проекта вы сможете задать любые частные вопросы и попробовать разные пути решения своих задач.
Вопрос:
Смогу ли я потянуть этот курс, не имея никакого опыта работы в R и программирования вообще?
Ответ:
Да, курс рассчитан на участников, не имеющих опыта программирования. Знаний будет достаточно, если вы хотя бы раз в жизни открывали Microsoft Excel.
Вопрос:
Если я уже владею R на каком-то уровне или работаю в других программах, будет ли мне интересна часть курса про R?
Ответ:
Курс отлично подойдет для систематизации знаний при наличии опыта работы в R. Даже на самых базовых темах затронем неочевидные особенности языка R и обсудим, как сделать код лучше. Кроме того, R — это активно развивающийся язык, и в программе курса отражено его актуальное состояние. Также в курсе делаются отсылки к другим языкам программирования (например, Python) и специализированным программам, чтобы показать как возможные аналогии, так и важные отличия и особенности R.
Вопрос:
С каким типом данных нужно приходить?
Ответ:
Условно можно назвать этот тип "готовая табличка", либо данные должны быть сводимы к ней (например, JSON). Это должны быть результаты эксперимента, выраженные в количественном виде, значения которых вам понятны. Будет сложно работать с данными, про которые вы ничего не знаете. Если сомневаетесь, напишите нам, мы поможем решить этот вопрос.
Вопрос:
Ориентирован ли этот курс исключительно на биологов?
Ответ:
Основная программа посвящена общим вопросам анализа данных, то есть будет полезна всем вне зависимости от специализации. Последние 2 дня полностью отведены на работу над проектами, наши преподаватели и консультанты – биологи и психологи, и соответственно специализируются на этих сферах, однако у них есть опыт в работе с данными и из других областей.
Вопрос:
Будет ли доступна запись курса после его прохождения?
Ответ:
Да, мы отправляем видеозапись занятий всем участникам по окончании курса.
Оргкомитет
Будем рады ответить на любые вопросы! Пишите нам на mail@blastim.ru
Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Александра Степанова
Менеджер проектов Бластима
Ольга Стукалова
Руководитель проектов Science Media Projects