Умные люди меня не любят © p-хакинг

Сегодня в рубрике «Вредные советы» Бластим собрал самые сомнительные исследовательские практики (QRP), которые помогут добиться по-настоящему невоспроизводимых результатов и навсегда подорвать репутацию.

«If you torture the data long enough, it will confess»

Начнем с p-хакинга в широком смысле. У вас имеется одна или несколько гипотез, и вы терзаете данные различными способами, покуда статистически незначимое превратится в значимое. Как именно?

✋ Optional stopping (data peeking)
Вот запланировали вы 30 измерений. По мере накопления данных тихонько перепроверяйте свою гипотезу. Если, скажем, при 15 видите p<0.05, то смело останавливайте эксперимент! Это как на выборах объявить победу нужного кандидата, прекратив подсчет голосов на полпути.

✂️ Data trimming (data tweaking)
Выбросы — понятие размытое, а их обработка — довольно гибкая. Чем p-хакер просто обязан воспользоваться. Если при исключении «выбросов», p-value упадет до 0.05, то удаляйте без раздумий! А обосновать свой субъективный принцип фильтрации данных легко — методов идентификации аутлайеров насчитали аж 39 штук на любой вкус. И даже не пытайтесь вернуться к лабораторным журналам и искать технические причины аномалий в условиях эксперимента.

✍️ Favourable imputation
Пропущенные значения в реальных датасетах почти неизбежны. Существует множество методов заменить пропуски: нулями, средними и т.д. Выбираете такую стратегию заполнения NA, чтобы повлиять на результаты в вашу пользу!

👀 Множественное тестирование без корректировки уровня значимости
Когда вы проверяете сразу много гипотез, статистически значимый результат может возникнуть в силу чисто случайных причин. При уровне значимости в 5% это один из 20. Слушайте, вот это нам и нужно! Тестируйте кучу гипотез и ни в коем случае не юзайте поправки Холма, Бонферрони и другие, ведь они могут зарубить ценнейшие ложноположительные результаты. Равняйтесь на лосося.

🍒 Cherry-picking (selective reporting)
Вы изучаете влияние терапии на ряд показателей: давление, вес, уровень сахара в крови, холестерол. Только один параметр значимо улучшился. Рапортуйте о крутом результате, а что не выстрелило — опустите, будто его и в помине не было. Показывайте себя только в выгодном свете. Это как нарезка лучших моментов из фильма.

🔢 Incorrect rounding
Получили p-value = 0.0501? Очевидно: округляем вниз!

Мы перечислили малую толику. На деле у p-хакеров шведский стол методов. Например, манипуляции с трансформацией данных или группировкой, хитрое перекодирование непрерывной переменной в дискретную, включение/исключение ковариат, смена зависимой переменной после получения результатов.

Другие сравнительно честные способы

К QRP относят и другие приемы. Считается, что в отличие от p-хакинга здесь гипотезы изначально нет или она может измениться в процессе.

🧠 HARKing (Hypothesizing After the Results are Known)
Вы проанализировали данные и обнаружили значимый результат (отличный от выдвинутой априорной гипотезы). Что ж, подгоняем под него другую гипотезу! А дальше можно делать умный вид, что исследование проводилось именно для проверки этой пост-хок гипотезы. И не надо декларировать, что вы придумали ее задним числом.

🐟 Data fishing (fishing expedition)
А если вы вдруг не сформулировали никаких гипотез, то всегда можно отправиться в экспедицию по своим данным и отыскать какие-нибудь значимые в силу случайных причин взаимосвязи. И неважно, имеют ли они теоретическую основу. Зато теперь можно сообщать, что ваше исследование так и задумывалось. Это и есть фишинг, приправленный HARKing'ом.

⛏️ Data dredging (data mining)
Примерно тоже, что и предыдущий пункт. Но если fishing и dredging имеет негативную коннотацию, то термин дата майнинг может употребляться и в положительном ключе. Мол, проводится разведочный анализ большого объема данных с целью выработки гипотез для тестирования в будущем. Не признавайтесь, что вы рыболов, говорите — майнер!

📄 Publication bias (file drawer problem)
Это похоже на черри пикинг, но на уровне отчетности. Если вы автор статьи, рецензент, редактор, то помните, что все ждут только успехов и громких открытий, а отрицательные результаты, неподтвердившиеся гипотезы публикации не подлежат.

Помимо вышеперечисленного не забывайте просто фабриковать данные, вводить в заблуждение с помощью визуализации или цитировать ненадежные источники. В общем, дерзайте!

P.S. А если подобные советы вас почему-то не устраивают, то велкам узнать, как делать правильно, к нам на статистику

Бластим. Статистика, R и анализ данных

2025-09-16 17:28 Статистика, R и анализ данных