Управление cookie
🍪 Наш сайт использует cookie — это файлы, которые сохраняют данные о ваших прошлых посещениях, так мы сделать работу с сайтом удобнее. При желании вы можете отключить сохранение cookie в настройках браузера.
Управление cookie
Настройки cookie
Выберите, какие cookie вы разрешаете. Обязательные cookie всегда включены — без них сайт не сможет работать корректно. Остальные категории можно включать и отключать в любой момент.
Всегда включено
Эти cookie необходимы для работы сайта и его функций. Их нельзя отключить. Они устанавливаются в ответ на ваши действия, например, при выборе настроек конфиденциальности, входе в аккаунт или заполнении форм.
Аналитические cookie
Disabled
Эти cookie собирают информацию, чтобы мы понимали, как используется сайт, насколько эффективны наши маркетинговые кампании, и могли сделать сайт удобнее для вас.
Рекламные cookie
Disabled
Эти cookie помогают рекламным компаниям понимать вашу онлайн-активность, чтобы показывать более релевантную рекламу или ограничивать количество показов одного и того же объявления.
Другие cookie
Disabled
Эти cookie не относятся к обязательным, аналитическим или рекламным. Они помогают включать дополнительные функции сайта (например, настройки языка и интерфейса) и могут устанавливаться сторонними сервисами.

А ты уже подал заявку на магу/PhD с полной оплатой обучения?

Образование в первом в мире ИИ-универе

Блог новостей о биотехе — Бластим

Умные люди меня не любят © p-хакинг

Сегодня в рубрике «Вредные советы» Бластим собрал самые сомнительные исследовательские практики (QRP), которые помогут добиться по-настоящему невоспроизводимых результатов и навсегда подорвать репутацию.

«If you torture the data long enough, it will confess»

Начнем с p-хакинга в широком смысле. У вас имеется одна или несколько гипотез, и вы терзаете данные различными способами, покуда статистически незначимое превратится в значимое. Как именно?

Optional stopping (data peeking)
Вот запланировали вы 30 измерений. По мере накопления данных тихонько перепроверяйте свою гипотезу. Если, скажем, при 15 видите p<0.05, то смело останавливайте эксперимент! Это как на выборах объявить победу нужного кандидата, прекратив подсчет голосов на полпути.

✂️ Data trimming (data tweaking)
Выбросы — понятие размытое, а их обработка — довольно гибкая. Чем p-хакер просто обязан воспользоваться. Если при исключении «выбросов», p-value упадет до 0.05, то удаляйте без раздумий! А обосновать свой субъективный принцип фильтрации данных легко — методов идентификации аутлайеров насчитали аж 39 штук на любой вкус. И даже не пытайтесь вернуться к лабораторным журналам и искать технические причины аномалий в условиях эксперимента.

✍️ Favourable imputation
Пропущенные значения в реальных датасетах почти неизбежны. Существует множество методов заменить пропуски: нулями, средними и т.д. Выбираете такую стратегию заполнения NA, чтобы повлиять на результаты в вашу пользу!

👀 Множественное тестирование без корректировки уровня значимости
Когда вы проверяете сразу много гипотез, статистически значимый результат может возникнуть в силу чисто случайных причин. При уровне значимости в 5% это один из 20. Слушайте, вот это нам и нужно! Тестируйте кучу гипотез и ни в коем случае не юзайте поправки Холма, Бонферрони и другие, ведь они могут зарубить ценнейшие ложноположительные результаты. Равняйтесь на лосося.

🍒 Cherry-picking (selective reporting)
Вы изучаете влияние терапии на ряд показателей: давление, вес, уровень сахара в крови, холестерол. Только один параметр значимо улучшился. Рапортуйте о крутом результате, а что не выстрелило — опустите, будто его и в помине не было. Показывайте себя только в выгодном свете. Это как нарезка лучших моментов из фильма.

🔢 Incorrect rounding
Получили p-value = 0.0501? Очевидно: округляем вниз!

Мы перечислили малую толику. На деле у p-хакеров шведский стол методов. Например, манипуляции с трансформацией данных или группировкой, хитрое перекодирование непрерывной переменной в дискретную, включение/исключение ковариат, смена зависимой переменной после получения результатов.

Другие сравнительно честные способы

К QRP относят и другие приемы. Считается, что в отличие от p-хакинга здесь гипотезы изначально нет или она может измениться в процессе.

🧠 HARKing (Hypothesizing After the Results are Known)
Вы проанализировали данные и обнаружили значимый результат (отличный от выдвинутой априорной гипотезы). Что ж, подгоняем под него другую гипотезу! А дальше можно делать умный вид, что исследование проводилось именно для проверки этой пост-хок гипотезы. И не надо декларировать, что вы придумали ее задним числом.

🐟 Data fishing (fishing expedition)
А если вы вдруг не сформулировали никаких гипотез, то всегда можно отправиться в экспедицию по своим данным и отыскать какие-нибудь значимые в силу случайных причин взаимосвязи. И неважно, имеют ли они теоретическую основу. Зато теперь можно сообщать, что ваше исследование так и задумывалось. Это и есть фишинг, приправленный HARKing'ом.

⛏️ Data dredging (data mining)
Примерно тоже, что и предыдущий пункт. Но если fishing и dredging имеет негативную коннотацию, то термин дата майнинг может употребляться и в положительном ключе. Мол, проводится разведочный анализ большого объема данных с целью выработки гипотез для тестирования в будущем. Не признавайтесь, что вы рыболов, говорите — майнер!

📄 Publication bias (file drawer problem)
Это похоже на черри пикинг, но на уровне отчетности. Если вы автор статьи, рецензент, редактор, то помните, что все ждут только успехов и громких открытий, а отрицательные результаты, неподтвердившиеся гипотезы публикации не подлежат.

Помимо вышеперечисленного не забывайте просто фабриковать данные, вводить в заблуждение с помощью визуализации или цитировать ненадежные источники. В общем, дерзайте!

P.S. А если подобные советы вас почему-то не устраивают, то велкам узнать, как делать правильно, к нам на статистику
Статистика, R и анализ данных