ДЛЯ СТУДЕНТОВ
ДЛЯ СТУДЕНТОВ ПО ПРОМОКОДУ
ДЛЯ СТУДЕНТОВ НА КУРСЫ ПО ПРОМОКОДУ
СКИДКА -30%
STUDENT
Блог новостей о биотехе — Бластим

И снова 3 сентября: коварный T9 для генов

Sonic Hedgehog, TOPLESS, Properdin, Pikachurin... В прошлом фантазии ученых в наименовании белков и генов ограничивали разве что правила приличий. Но сейчас в эпоху компьютеризации появились другие вызовы. Сегодня поведаем о мучительной боли генетиков и биоинформатиков.

20 лет назад фармаколог Барри Зиберг с коллегами выпустили статью, где впервые заговорили об опасности Excel. Разработанный для бухгалтеров и экономистов Эксель — мегапопулярный инструмент электронных таблиц. Программа подкупает и лайфсайнс-ученых приятным, многофункциональным интерфейсом. Но с ней же оказалась связана и проблема — по умолчанию Эксель конвертировал аббревиатуры генов, похожие на даты, в даты! И функцию было невозможно запретить.

В 2016 году австралийские исследователи под руководством Марка Цимана (слева на картинке) оценили всё количественно. Они проанализировали 35 тыс. дополнительных файлов к статьям по генетике и выяснили, что каждая пятая публикация содержала автокорректы! Например, ген септина SEPT3 превращался в 3 сентября, а убиквитин лигазы MARCH1 в 1 марта. Кроме того, символы генов вроде NAN или NA становились пропущенными значениями, а сокращения наподобие 2E4 (ген каптина) — числами в экспоненциальной записи. Среди журналов, которые тиражировали нелепости, фигурировали уважаемые Nature Communications, eLife, PLoS и др. Любопытно, число ошибок положительно коррелировало с импакт-фактором. Это связано с тем, что именно в топовых изданиях публикуются статьи, где анализируют огромные массивы данных, проверить которые крайне сложно.

Экселевский беспредел негативно повлиял на науку. Если Эксель переводил название в дату, то гены терялись при передаче таблиц в другие программы. А если ошибки уже попали в статью, другие авторы начинали ссылаться на искаженные данные. Можно было вручную бороться с Экселем: скажем, ставить апострофы перед названиями генов. Но когда ячеек десятки тысяч, «глазами» уследить за ошибками попросту нереально. Более того, если ученый отправлял исправленную табличку коллеге, то на другом компьютере дефолтные настройки всё равно побеждали.

С 2017 года научное сообщество пыталось разрешить кризис. Но к 2020 комитет HUGO, стандартизирующий названия генов человека, устав ждать ответа от Майкрософт, выпустил обновленные рекомендации по номенклатуре и пошел на радикальный шаг — переименовал 27 генов. Во-первых, попали под раздачу неблагозвучные имена, а во-вторых, целая группа генов, которые конвертировались Экселем в даты. Так, вышеупомянутый MARCH1 трансформировался в MARCHF1.

Можно было ожидать, что меры всё изменят, но увы. В 2021 году тот же Циман с коллегами выпустили обзор с говорящим заглавием «Gene name errors: Lessons not learned», где они проверили 11 тыс. рукописей из PubMed за последние 6 лет. Количество ошибок увеличилось с 20% в 2016 до 30% в 2020! Циман и после этого продолжил с помощью Bash-скрипта сканировать тысячи публикаций и составлять антирейтинг журналов по числу ляпов.

Только в октябре 2023 года Майкрософт наконец-то позволил отключать автоисправление. Всё это время единственными инструментами, которые на 100% снимали проблему автозамен, оставались языки программирования, Python или R. Именно для того, чтобы не полагаться на непригодный для научных задач софт и не наступать на одни и те же грабли, мы и зовем всех учиться кодить!
Факты