Управление cookie
🍪 Наш сайт использует cookie — это файлы, которые сохраняют данные о ваших прошлых посещениях, так мы сделать работу с сайтом удобнее. При желании вы можете отключить сохранение cookie в настройках браузера.
Управление cookie
Настройки cookie
Выберите, какие cookie вы разрешаете. Обязательные cookie всегда включены — без них сайт не сможет работать корректно. Остальные категории можно включать и отключать в любой момент.
Всегда включено
Эти cookie необходимы для работы сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши действия, например, при выборе настроек конфиденциальности, входе в аккаунт или заполнении форм.
Аналитические cookie
Disabled
Эти cookie собирают информацию, чтобы мы понимали, как используется сайт, насколько эффективны наши маркетинговые кампании, и могли сделать сайт удобнее для вас.
Рекламные cookie
Disabled
Эти cookie помогают рекламным компаниям понимать вашу онлайн-активность, чтобы показывать более релевантную рекламу или ограничивать количество показов одного и того же объявления.
Другие cookie
Disabled
Эти cookie не относятся к обязательным, аналитическим или рекламным. Они помогают включать дополнительные функции сайта (например, настройки языка и интерфейса) и могут устанавливаться сторонними сервисами.
ДЛЯ СТУДЕНТОВ
ДЛЯ СТУДЕНТОВ ПО ПРОМОКОДУ
ДЛЯ СТУДЕНТОВ НА КУРСЫ ПО ПРОМОКОДУ
СКИДКА -30%
Блог новостей о биотехе — Бластим

Размер эффекта? Эффект размера! 🔞

История, ради которой вы подписаны на Бластим. Основано на реальных событиях

Как-то раз в одном телеграм-чатике поделились скрином, который не мог не привлечь внимание преподавателя Ивана Позднякова. Поскольку речь шла о ней, о статистике.

На скриншоте девушка сообщала, что ей удалось собрать ценные данные (восемь наблюдений) и нужна помощь с их анализом. Она нашла среднее, но споткнулась о дисперсию. Девушка сетовала, что никак не поймет, по какой формуле ее считать: как для выборки или генеральной совокупности? «Странный вопрос»,— скажете вы.

Да, но есть нюанс. Скрин был с некого женского форума из раздела «Кекс и отношения», а юная натуралистка намерила... длины пенисов (далее — 🍌) ее бывших парней. Вот это поворот 😱

Но если вы думаете, что тематика смутила нашего заправского статистика, то вы ошибаетесь. Иван включился в обсуждение, ведь на кону была осведомленность общества о краеугольных проблемах науки. Иван решил расставить все точки над ё и научить обывателей уму-разуму.

Он писал, что вопрос девушки — довольно тонкий и теоретический, а само понятие генеральной совокупности сложнее, чем кажется. Под генеральной совокупностью принято понимать все объекты, о которых мы хотим сделать вывод. А выборка — это лишь инструмент для исследования генсовокупности. Однако бывает, что выборка будто и есть генсовокупность. В нашем кейсе так можно сказать про все девушкины 🍌 в прошлом. Каждый из них известен, а больше их не будет (надеемся). Тогда для дисперсии будет корректна формула: sum((x–m)^2)/n

Однако чаще на данные смотрят иначе. Пытливому уму ученого всегда же хочется выйти за рамки? Например, сделать вывод о том, какие в целом 🍌 могли бы встретиться барышне? Другими словами, исследовать потенциальное пространство возможных 🍌, причем как реальных, так и гипотетических и не обязательно даже существующих в природе! В таком случае, 8 измерений — только случайная выборка. А дисперсию в генеральной совокупности мы оцениваем по выборке и должны использовать формулу sum((x–m)^2)/(n–1). С так называемой поправкой Бесселя, чтобы получить более точную оценку.

Пока собеседники пытались мысленно представить «пространство 🍌», любопытство Ивана только разгоралось. Он решил глубже исследовать данные и сравнить длину 🍌 партнеров девушки со среднестатистическим по России. Иван нагуглил нужную цифирь: согласно WorldData, средняя длина 🍌 россиянина — 13,2 см. И в несколько строчек на R провернул одновыборочный t-тест. Результат: p-value (точнее «penis-value») больше 0.05. Оснований считать, что среднее в генеральной совокупности реальных и потенциальных 🍌 отличается от среднероссийского 🍌, НЕТ 😭

«Эх, бедная девушка. А зачем вообще эти средние, дисперсии и стандартные отклонения нужны?» — спросили в чате, после того, как датасайентист озвучил неутешительный вердикт. Иван нашелся, что ответить: зная и среднее, и дисперсию, можно посчитать процентиль. Скажем, если длина 🍌 соответствует 95-му процентилю, значит он больше 95% популяции. Мужчинам ведь важна не абсолютная величина — всё познается в сравнении! А еще можно замерить какие-то другие переменные, например, рост, уровень доходов или IQ, и поискать любопытные корреляции. Например, в литературе встречаются публикации, что чем больше 🍌, тем ниже интеллект. Однако чтобы выковырять такие неочевидные взаимосвязи — а они слабые — нужны очень большие выборки: РАЗМЕР РЕАЛЬНО ИМЕЕТ ЗНАЧЕНИЕ.

Уф, вот такая история. На какие только жертвы не пойдешь ради статистики. Кстати, потом оказалось, что скрин, привлекший внимание Ивана, был известным интернет-мемом.

Если вы тоже хотите уметь анализировать самые противоречивые данные как Иван Поздняков и стать членом элитного клуба статистиков, то не надо выпрыгивать из штанов, всё уже тут 👇
Статистика, R и анализ данных Факты