Статистика, R и анализ данных

С 13 по 19 мая в Москве
Семидневный практический курс, на котором вы не только научитесь статистике, но и поймете её

Для ученых, аналитиков и всех, кто работает с данными
4 года мы преподаем и организуем курсы по анализу данных: в Бластиме, в МГУ, в Вышке, на летних школах и семинарах. И у большинства участников есть пробелы в статистике.

Если механически проводить статистические тесты и не понимать истинного смысла результатов, легко ошибиться в выводах. За 7 дней мы научим всему необходимому, чтобы этого избежать.
В конце курса вы сможете:
1
Понимать принципы статанализа и проводить его самостоятельно
2
Интерпретировать результаты анализа
3
Писать код в R
4
Видеть, что полезного можно вытащить из ваших данных
5
Рисовать емкие картинки-результаты
Зачем идти на курс
Статистика с нуля и надежно
⁍ Курс полезен тем, кто хочет понять статистику и работает с данными: ученым, аналитикам, маркетологам, продакт-менеджерам

⁍ Математика выше школьной и знание программирования не нужны

⁍ Примеры будут в основном биологические и медицинские, но специальных знаний не нужно

⁍ Если вы помните что-то из тервера и линала или имеете опыт в Питоне или Матлабе, мы подготовим задачки посложнее

Скрипт в R, а не руками в Экселе
⁍ Можно запустить программу и получить p-value, но обычно этого недостаточно. Мы научим считать (и понимать) мощность теста, размер эффекта и другие параметры

⁍ Реальные данные сложнее примеров из учебников. Поэтому мы научим их фильтровать, визуализировать и разными способами щупать

⁍ Инвестиция в изучение R окупается временем, сэкономленным на автоматизации. Если вы постоянно копируете столбики в Экселе, мы научим быстро написать скрипт, а потом отдыхать

Практика оффлайн, а не теория онлайн
⁍ Теоретически вы можете научиться сами на бесплатных онлайн-курсах. На это часто не хватает времени и мотивации, поэтому мы предлагаем формат интенсива

⁍ Преподаватели вместе помогают участникам и сразу объяснят то, что непонятно именно вам

⁍ На курсе много практики, а последний день посвящен самостоятельному проекту

Программа
День 1. Основы R
— Презентация плана программы: краткий overview
— Введение в R и RStudio
— Операторы, функции
— Создание переменных
— Типы данных: вектора, матрицы, списки, датафреймы
— Импорт данных

День 2. Работа с реальными данными в R
— Препроцессинг данных в R
— Работа с пакетами
— Работа со строками
— Создание функций
— Циклы и семейство функций apply
— Решейпинг и агрегация данных
— Пакеты data.table, dplyr

День 3. Описательная статистика и визуализация
— Описательная статистика (центральные тенденции, меры разброса, skewness, kurtosis, функции для описательной статистики)
— Визуализация в R, базовые средства визуализации и ggplot2
— Plotly
— Создание publication-quality графиков, пакет cowplot
— Самостоятельное упражнение на визуализацию
— RMarkdown

День 4. Статистические оценки и проверка гипотез
— Выборка и генеральная совокупность
— Виды распределений, параметры распределений
— Нормальное распределение. Функции распределений в R
— Оценка параметров, точечные и интервальные оценки, доверительный интервал
— Проверка гипотез. Ошибки I и II рода
— Нулевая и альтернативная гипотеза, p-value
— Мощность. z-критерий. t-критерий в случае одной и двух выборок, связанные выборки
— Когда применять параметрические, а когда непараметрические методы
— Рассчитаем критерии своими руками и изучим готовые функции R

День 5. Линейная регрессия и корреляция
— Линейная регрессионная модель
— Коэффициенты линейной модели
— Множественная линейная регрессия
— Предположения линейной модели. "Остатки", МНК и goodness-of-fit
— Обобщенная линейная регрессия
— Корреляция. Ковариация, коэффициент корреляции Пирсона
— Ранговая корреляция. Частная и множественная корреляция

День 6. ANOVA и продвинутые методы препроцессинга
— Дисперсионный анализ (ANOVA)
— Однофакторный и многофакторный ANOVA
— Анализ повторных измерений. Непараметрические аналоги ANOVA
— Пропущенные значения и нормализация
— Зачем нужны кластерный анализ, MDS и PCA в работе с биологическими данными

День 7. Самостоятельный проект
— Исследование и препроцессинг данных, выбор методов анализа
— Формулировка гипотез и статистический анализ
— Выводы, интерпретация и визуализация
— Презентация результатов и обсуждение с другими участниками

В процессе преподаватели дают советы и отвечают на вопросы

Преподаватели
Иван Поздняков
— Сотрудник НИУ ВШЭ
— Преподает R и статистику в НИУ ВШЭ для студентов различных направлений
— Автор открытого курса "Statistics & R" на Psychodemia.Science
Татьяна Петухова
— Специалист по статистическому моделированию и фармакометрике (M&S Decisions, InSysBio)
— Выпускница кафедры Прикладной математики МГТУ им. Баумана
Примеры кейсов для разбора
1
Ожирение
Имеются данные 5-ти летнего мониторинга населения (экономические показатели, состояние здоровья, образ жизни).

Проводим дескриптивный анализ данных. Формулируем гипотезы о связи избыточного веса с демографическими и социально-экономическими факторами. Проверяем гипотезы с помощью регрессионных моделей, оцениваем мультиколлинеарность, разбиваем данные на группы (по полу; по возрасту), проверяем гипотезы о различиях между группами и находим значимые факторы внутри групп.
2
Деревья-вредители?
По выборке данных в виде пары значений: [количество деревьев-колонистов на квадратный метр/ количество видов растений на данный квадратный метр] оцениваем корреляцию данных и делаем заключение, может ли соседство с деревьями-колонистами быть опасным для видового разнообразия коренных растений.
3
Экспрессия генов
Сравниваем данные экспрессии 10 генов с определенным воздействием и контрольные данные для этих генов без воздействия.

Проверяем гипотезу о среднем значении экспрессии генов в группе контроля (one-sample t-test).
Оцениваем различия в двух группах: сравниваем средние значения с помощью two-sample t-test и оцениваем дисперсию данных для двух групп, используя f-test. Теперь можем сделать заключение, есть ли отличие экспрессии генов в случае воздействия, с указанием достигаемого уровня значимости.
Отзывы о предыдущей, 3-х дневной версии курса

Дмитрий Равчеев
Research Associate, Luxembourg Centre for System Biomedicine, University of Luxembourg
Очень хорошо были объяснены основные возможности R, причем с привязкой к биоинформатическим задачам.
Посоветовал бы курс биоинформатикам, микробиологам, молекулярным биологам.
Использовать в работе пока не начал (три дня прошло с окончания курса!), но планирую.

Николай Афанасьев
Развитие новых направлений в ИТ-компании MAYKOR
Почти все понравилось. Очень хорошие преподаватели с хорошей практикой. Курс в целом логичный, подача материала последовательная и продуманная, подходит как для начала знакомства с R, так и для уже кое-что умеющих пользователей.
Маловато практики. На мой взгляд, нужно больше давать заданий на самостоятельную работу, чтобы в процессе закреплять знания, и меньше давать заданий на копирование кусков скрипта из туториала. Возможно, для такого объема материала 3 дня – мало. Возможно. имеет смысл растянуть курс на 4-5 дней и увеличить количество практических заданий.

# Так мы и сделали: увеличили курс до 7 дней и добавили еще практики

Евгений Олехнович
мнс в НИИ дезинфектологии
Получил много нужной информации.
Не понравилось, что слишком мало сил, чтобы воспринимать много информации. Кластеризацию и введение в машинное обучение я бы в начало дня поместил.
Посоветовал бы курс коллегам.

Наталья Гребенкина
нс в институте сельскохозяйственной биотехнологии и ИБХФ РАН
Понравились:
1. Наглядность при объяснении материала
2. Возможность смотреть презентации и тьюториалы на своем компьютере
3. Индивидуальный подход преподавателей к слушателям
Не понравилось обилие материала и его некоторая неструктурированность. Переходы между темами были слишком резкими.
Этот курс для меня стал знакомством с R. На заключительном занятии нам посоветовали сайт DataСamp, на котором я планирую продолжать обучение.
Посоветовала бы курс биологам, математикам, программистам.

Анастасия Воронова
мнс в МГНЦ
Понравились насыщенность, много примеров и задач для самостоятельной работы
На мой взгляд, не хватало еще одного человека для помощи во время решения задач, так как у многих возникали вопросы и уровень знаний у обучающихся различен
Думаю, можно было бы предложить до начала курса повторить некоторые главы статистики, что существенно облегчило бы восприятие информации во время курса.

# Мы расширили и углубили раздел статистики, чтобы воспринимать было проще
Записаться на курс 13-19 мая
Обучение на курсе стоит
40 000 ₽ для самостоятельных участников (физлиц)
50 000 ₽ при оплате от юрлиц (институтов, компаний и ИП)
Как попасть на курс бесплатно?
Мы спонсируем одно место на курсе. Чтобы получить шанс, пришлите на y@blastim.ru письмо с темой «Хочу бесплатное место на курсе». В письме опишите, как именно вам поможет статистика и R и почему важно выбрать именно вас.
Заявки принимаем до 1 апреля, 5 апреля мы по собственным субъективным соображениям выберем и объявим победителя.
Даты: каждый день с 13 по 19 мая. Занятия начинаются в 10 утра, кончаются около семи вечера. В перерывах кофе-брейк и время на обед.

Студенты дневных отделений получают скидку 30%, аспиранты — 10%. Попросим сообщить название вуза, телефон деканата и контактное лицо.

Место проведения: учебный зал недалеко от центра Москвы

Чтобы сохранить место, оплатите курс не позже, чем через 5 дней после регистрации.
При записи вы соглашаетесь на обработку персональных данных и c политикой конфиденциальности
Договор оферты
Оргкомитет
Юрий Пеков
Директор Бластима, COO Ксивелью
Личный сайт
Вита Степанова
Управляющий партнер Бластима