+

Статистика, R и анализ данных

Для всех, кто работает с данными — для биологов, медиков, физиков и не только.

Прошел 12-15 и 20-22 ноября 2020 года. Следующий — весной
Семидневный практический курс, на котором вы не только научитесь статистике, но и поймете её.

На выбор — в Москве или онлайн!
5 лет мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 7 дней мы научим всему необходимому, чтобы этого избежать.
В конце курса вы сможете:
Понимать принципы статанализа и проводить его самостоятельно
Интерпретировать результаты анализа
Писать код в R
Видеть, что полезного можно вытащить из ваших данных
Рисовать емкие картинки-результаты
Зачем идти на курс
Статистика с нуля и надежно
⁍ Курс полезен тем, кто работает с данными: ученым, врачам, агрономам, психологам, аналитикам, маркетологам, продакт-менеджерам

⁍ Математика выше школьной и знание программирования не нужны

⁍ Мы будем использовать примеры и данные из биологии, сельского хозяйства, медицины, географии, онлайн-игр и цифровых гуманитарных наук, но никаких специальных знаний вам не потребуется

⁍ Тем, кто помнит тервер, линал, Питон или Матлаб, мы дадим задачки посложнее

Скрипт в R, а не руками в Экселе
⁍ Можно запустить программу и получить p-value, но обычно этого недостаточно. Мы научим считать (и понимать) мощность теста, размер эффекта и другие параметры

⁍ Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами щупать

⁍ Инвестиция в изучение R окупается временем, сэкономленным на автоматизации. Если вы постоянно копируете столбики в Экселе, мы научим быстро написать скрипт, а потом отдыхать

Практика с первых минут
⁍ Теоретически вы можете научиться сами на бесплатных материалах. На это часто не хватает времени и мотивации, поэтому мы предлагаем формат интенсива и предоставляем менторов

⁍ Преподаватели вместе помогают участникам и сразу объяснят то, что непонятно именно вам

⁍ Наша цель — качественно изменить ваш подход к работе. Для этого в последний день курса вы самостоятельно выполните и презентуете проект, во время подготовки можно задавать любые вопросы

⁍ Можно придти со своим проектом, можно выбрать из предложенных
Программа
Первый день: Основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— R как калькулятор
— Операторы, функции
— Типы данных
— Вектора, матрицы, списки, датафреймы
— Импорт данных
— Работа с "проектами" RStudio
— Препроцессинг данных базовыми средствами R
Второй день: Препроцессинг данных в R
— Условные конструкции в R
— Создание функций
— Циклы и семейство функций apply
— Работа с пакетами
— Пакеты data.table и tidyverse
— Основы tidyverse: readr, tibble, magrittr
— Базовые операции с данными в tidyverse: выбор строк и колонок, создание колонок
— Агрегирование данных в dplyr
— Работа с реляционными данными в tidyverse
— Функциональное программирование в purrr
— Работа с текстом в stringr
Третий день: Описательная статистика и визуализация
— Описательная статистика (центральные тенденции, меры разброса, ассиметрия, эксцесс, функции для описательной статистики)
— Визуализация в R: базовые средства визуализации
— Layered Grammar of Graphics и ggplot2
— Средства динамической визуализации в R: HTML*виджеты
— Самостоятельное упражнение на визуализацию
— RMarkdown
Четвертый день: Введение в статистику вывода
— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Нулевая и альтернативная гипотеза, p-value
— z-критерий и t-критерий
— Ошибки I и II рода. Понятия уровня значимости и мощности
Пятый день: Основные статистические тесты
— Непараметрические методы
— Обзор задач и методов в статистике. Как выбрать метод для анализа данных
— Дисперсионный анализ (ANOVA) и его разновидности
— Корреляция, коэффициенты корреляции
— Линейная регрессионная модель
— Допущения линейной модели. "Остатки", МНК и goodness-of-fit

Шестой день: Многомерные методы анализа данных
— Множественная линейная регрессия и общая линейная модель (general linear model)
— Логистическая регрессия. Обобщенная линейная регрессия (generalized linear model)
— Смешанная линейная модель (Linear mixed effects models)
— Другие многомерные методы: кластерный анализ, MDS и PCA
Седьмой день: Самостоятельный проект (можно принести свои данные!)
— Исследование и препроцессинг данных, выбор методов анализа
— Формулировка гипотез и статистический анализ
— Выводы, интерпретация и визуализация
— Презентация результатов и обсуждение с другими участниками

В процессе преподаватели дают советы и отвечают на вопросы

Преподаватели
Иван Поздняков
— Старший преподаватель НИУ ВШЭ
— Преподает R и статистику в НИУ ВШЭ для студентов различных направлений
Татьяна Турчина (Петухова)
— Аналитик в Российском геронтологическом научно-клиническом центре
— Ранее – специалист по статистическому моделированию и фармакометрике (M&S Decisions, InSysBio)
Примеры кейсов для разбора
1
Ожирение
Имеются данные 5-ти летнего мониторинга населения (экономические показатели, состояние здоровья, образ жизни).

Проводим дескриптивный анализ данных. Формулируем гипотезы о связи избыточного веса с демографическими и социально-экономическими факторами. Проверяем гипотезы с помощью регрессионных моделей, оцениваем мультиколлинеарность, разбиваем данные на группы (по полу; по возрасту), проверяем гипотезы о различиях между группами и находим значимые факторы внутри групп.
2
Деревья-вредители?
По выборке данных в виде пары значений: [количество деревьев-колонистов на квадратный метр/ количество видов растений на данный квадратный метр] оцениваем корреляцию данных и делаем заключение, может ли соседство с деревьями-колонистами быть опасным для видового разнообразия коренных растений.
3
Экспрессия генов
Сравниваем данные экспрессии 10 генов с определенным воздействием и контрольные данные для этих генов без воздействия.

Проверяем гипотезу о среднем значении экспрессии генов в группе контроля (one-sample t-test).
Оцениваем различия в двух группах: сравниваем средние значения с помощью two-sample t-test и оцениваем дисперсию данных для двух групп, используя f-test. Теперь можем сделать заключение, есть ли отличие экспрессии генов в случае воздействия, с указанием достигаемого уровня значимости.
Отзывы о предыдущих потоках

Марат Сабиров
мнс, группа молекулярной организации генома Института биологии гена
Курс не заточен под какую-то определенную узкую специализацию, поэтому он подойдет людям разных профессий, кому в работе необходимо работать с данными. Я определенно советую этот курс всем, кто хочет научится анализу данных в R. Из рекомендаций будущим участникам - лучше всего будет немного самостоятельно освоиться в языке R. Это сильно облегчит вам усвоение материала данного курса

Тамара Симакова
Руководитель Медико-генетической группы в ParseqLab
Понравилось - преподаватели, программа курса, подача материала, атмосфера. Из того, что можно улучшить - добавить теорию и практику по статистике в материалы курса (на сайте); возможно имеет смысл изменить вектор скорости курса - более сжато давать базовые вещи в начале, и оставить больше времени на более сложные темы в конце курса


Дмитрий Равчеев
Research Associate, Luxembourg Centre for System Biomedicine, University of Luxembourg
Очень хорошо были объяснены основные возможности R, причем с привязкой к биоинформатическим задачам.
Посоветовал бы курс биоинформатикам, микробиологам, молекулярным биологам.
Использовать в работе пока не начал (три дня прошло с окончания курса!), но планирую.

Анастасия Бойко
Научный сотрудник Лаборатории молекулярной генетики и биохимии НИИ психического здоровья
У меня очень-очень много эмоций и слов! Но если попробовать вкратце, то Ваня и Таня - суперкрутые! И дело не в самих знаниях этих людей, а в том, как нам это всё разжевали и в рот положили. Это было моё первое знакомство с R, как и с программированием в принципе, и это было супер!

Татьяна Альмухаметова
ПИ РАО
Статистика была очень полезна, но все равно не удалось полностью усвоить материал. Так как я первый раз столкнулась с R, то для меня это было скорее ознакомительным вводным курсом я бы подумала о том, как упростить программу или сделать разные программы в зависимости от уровня подготовки. И больше практики со своим личным материалом. Также добавить практических задач по статистике, это помогло бы лучше усвоить материал

Елена Юрина
Аспирант Автономного Университета Барселоны, кафедра Психиатрии и судебной медицины, врач-психиатр
Понравилось, как была организована вся бытовая часть - выбор места занятий, ресторана, смена локации, кофе-брейк - несмотря на интенсивность курса, не было ни умственной усталости, ни физического дискомфорта, - всё было продумано, и никакие насущные вопросы не отвлекали нас от обучения

Мария Маркелова
мнс в Омиксном центре коллективного пользования в г. Казань
Курс отлично систематизирует услышанные когда-то знания, заполняя пробелы. По окончании курса ощущаю ясность в голове и эйфорию от того, что я поняла многие вещи. Преподаватели большие молодцы!
Полноценный онлайн-вариант
⁍ Онлайн участники задают вопросы в реальном времени, обсуждают с преподавателями свои данные, презентуют проект наравне с оффлайн-участниками

⁍ Общий чат для всех участников и преподавателей

⁍ Мы предусмотрели онлайн-ассистентов и время для вечерних разборов
Курс прошел 12-15 и 20-22 ноября. Следующий пройдет весной, отрыта предзапись
Обучение на курсе стоит:
40 000 ₽ для самостоятельных участников (физлиц)
50 000 ₽ при оплате от юрлиц (институтов, компаний и ИП)
Занятия начинаются в 10 утра мск, кончаются около шести вечера. В перерывах кофе-брейк и время на обед.

Студенты дневных отделений получают скидку 30%, аспиранты — 10%. Попросим сообщить название вуза, телефон деканата и контактное лицо.


Чтобы сохранить цену, оплатите курс не позже, чем через 3 дня после регистрации.
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты для физлиц
Договор оферты для юрлиц
Оргкомитет
Директор Бластима, сооснователь Кситеста
Вита Степанова
Управляющий партнер Бластима
Андрей Мельников
Генеральный директор Science Media Projects
Ольга Стукалова
Руководитель проектов Science Media Projects