10 вопросов БИОИНФОРМАТИКУ

Почти три года минуло с прошлого интервью с преподавателем курса «Анализ NGS-данных» и просто очень крутым биоинформатиком Алексеем Зарубиным. Что с тех пор изменилось в науке и жизни Алексея? Какие вызовы стоят перед биоинформатиками в наши дни? Влияет ли на работу ученого ИИ-революция? Как выдерживать много часов работы у экрана и не выгорать?

Об этом и многом другом мы поговорили с Алексеем. Читайте полное интервью!

Биоинформатика с человеческим лицом

Бластим: Алексей, здравствуйте! Расскажите, пожалуйста, чем вы сейчас занимаетесь? Вы работаете на стыке биоинформатики и медгенетики?

Алексей Зарубин: Да, я продолжаю работать на стыке биоинформатики и генетики человека: это и эволюционно-популяционная генетика, и медицинская генетика. Но если сравнивать с тем, что было два года назад, у меня заметно выросла доля проектов, которые можно назвать «чисто биологическими»: это глубокое исследование ранее слабо описанных видов с точки зрения мультиомики — ДНК, РНК и метилом. И это не просто «сделать анализ», а именно вытащить системную картину, где часто нет готовых референсов, стандартных аннотаций и приходится аккуратно собирать доказательства из разных слоев данных.

Почему это стало возможно — одна из ключевых причин в том, что мы существенно автоматизировали обработку клинических данных секвенирования. Сейчас в большинстве стандартных случаев — порядка 95% — очное вмешательство биоинформатика в интерпретацию не требуется: клинические интерпретаторы закрывают типовые сценарии сами, потому что пайплайн выдает стабильный, контролируемый результат.

Но остаются «краевые» случаи, где автоматизация не спасает. Особенно это заметно на структурных событиях/перестройках в диапазоне размеров, который сложно уверенно детектировать стандартными подходами — условно между ~150-200 bp и сотнями килобаз. Там часто нужны дополнительные сигналы, ручной разбор, иногда — альтернативные методы и сопоставление с клиническим контекстом. И вот здесь работает только командный режим: биоинформатик + интерпретатор, иногда подключаются лабораторные коллеги.

«Мы существенно автоматизировали обработку клинических данных секвенирования»

Бластим: Как вы считаете, в чем отличие роли биоинформатика и клинического интерпретатора?

Алексей Зарубин: Я бы так сформулировал: биоинформатик отвечает за надежность вычислительного вывода и границы применимости метода, а клинический интерпретатор — за медицинский смысл и решение для пациента. Биоинформатику не обязательно быть профессиональным интерпретатором, но он обязан понимать их подход и уметь разговаривать на одном языке — иначе в сложных кейсах ты просто не соберешь картину.

Бластим: Алексей, такой жизненный вопрос: как выдерживать сидячую работу по много часов у экрана и как отдыхать, чтобы не выгорать и не допускать критические ошибки в проектах, где от результатов зависит лечение пациентов?

Алексей Зарубин: Для меня сложные клинические случаи — это как раз то, что помогает не выгорать: это маленькие «детективные истории», которые часто можно закрыть за обозримое время и почувствовать завершенность. На фоне академических проектов, где путь до публикации может быть очень длинным, это психологически поддерживает.

Про работу за экраном: универсального рецепта нет, но мне помогает режим спринтов. Во время спринта я стараюсь максимально автоматизировать процессы, чтобы после запуска пайплайна большая часть работы была про мониторинг — и это можно делать не обязательно сидя за компьютером, если настроены логирование и оповещения, доступные даже с телефона.

И важный момент — про ошибки: стопроцентной гарантии не бывает, но можно снижать вероятность. Мне очень помогает командная работа и обсуждение с коллегами: когда ты не «варишься» в своей голове, а получаешь свежий взгляд и идеи. Плюс — стандартизированные пайплайны, чек-листы и контроль качества: чем меньше ручных шагов на усталости, тем надежнее результат.

Био или информатика?

Алексей Зарубин на одной из конференций прошлых лет

Бластим: Алексей, в прошлом году мы выпускали интервью с Михаилом Сергеевичем Гельфандом, где обсуждали, кому проще стать биоинформатиком: биологу-врачу или математику-программисту? Хотим задать этот вопрос и вам.

Алексей Зарубин: Зависит от того, какую биоинформатику мы имеем в виду. Биологу или врачу часто проще со смыслом данных: фенотип, механизмы, клинический контекст, здравый скепсис к «красивым графикам». Но может быть сложнее с инженерной частью: версии, пайплайны, статистическая строгость. Математику/программисту обычно проще со статистикой, алгоритмами и кодом, быстрее появляется воспроизводимость и масштабирование. Но нужно время, чтобы «нарастить биологическую интуицию» и перестать воспринимать данные как абстрактные числа.

На практике лучше всего растут люди, которые готовы закрывать слабую сторону: биолог — системно учит код и статистику, программист — системно учит молбиологию и клинические кейсы.

Если выбирать «кто быстрее станет полезным в команде», то на прикладных задачах часто быстрее стартует программист, а в клинических/интерпретационных — биолог/врач. Но в горизонте года решает именно объем практики на реальных данных.

«На практике лучше всего растут люди, которые готовы закрывать слабую сторону»

Идеальное железо — это экосистема

Бластим: Раз уж мы начали разговор про программирование, не можем не спросить, какое железо нужно биоинформатику? Если ты, например, занимаешься машинным обучением или анализом NGS? Что тут можете посоветовать?

Алексей Зарубин: Как бы это ни звучало с учетом нынешних цен, для большинства задач в биоинформатике главный лимитирующий фактор — RAM. Причем это касается и классического анализа NGS, и многих исследовательских задач: часто упираешься не в «мощность процессора», а в то, помещаются ли данные и промежуточные структуры в память.

По ощущениям, 64 ГБ — это минимум, на котором можно работать без постоянной боли, а 128 ГБ уже начинает закрывать существенно больше задач — особенно когда параллелишь анализы, работаешь с большими матрицами или хочешь не экономить на каждом шаге.

«64 ГБ — это минимум, на котором можно работать без постоянной боли»

Но в идеале железо биоинформатика — это не один компьютер, а экосистема: локально ты разрабатываешь, тестируешь, смотришь результаты, а тяжёлые расчеты уезжают на кластер/суперкомпьютер/мощный сервер.

Если организация и требования по данным позволяют, то облачные платформы — очень сильное решение: ты получаешь ресурсы «под задачу», можешь быстро масштабироваться, не покупая железо заранее. Но даже при облаке полезно иметь достаточно мощную локальную рабочую станцию или сервер, чтобы закрывать регулярные ежедневные пайплайны и не зависеть от внешней инфраструктуры.

Курсы, карьера, коллабы

Бластим: Алексей, как вы думаете, на каких этапах происходит наибольший профессиональный рост в карьере биоинформатика: в вузе? на курсах? на хакатонах? Какими способами вы бы посоветовали повышать свою квалификацию?

Алексей Зарубин: Я бы сказал так: самый большой профессиональный рост у биоинформатика происходит не в момент обучения как такового, а когда ты решаешь реальные задачи и доводишь результат до уровня лучших практик — качественно, воспроизводимо и в срок.

Из перечисленного хакатоны действительно могут дать резкий скачок: это и знакомства, и опыт быстрого «боевого» решения, и иногда — если совпали команда, тема и данные — проект можно довести до публикации.

При этом университет нужен как фундамент, без него тяжело расти, а курсы лучше всего работают, когда идешь на них с конкретным запросом под задачу — тогда они напрямую повышают качество результата.

Бластим: Алексей, скажите, какую роль играет степень PhD в карьере? Для индустрии или науки? Вам где-то помогало наличие степени?

Алексей Зарубин: Я отношусь к PhD как к длинному тренажеру навыков: формулировать вопросы, работать с неопределенностью, строить аргументацию, делать воспроизводимые результаты и доводить проект до публикации. Для академии степень часто либо необходима, либо сильно упрощает карьерный трек.

«Курсы лучше всего работают, когда идешь на них с конкретным запросом под задачу»

При этом есть и практический момент: во многих организациях, особенно с формализованными грейдами и политикой по зарплатным вилкам, наличие степени само по себе может давать «плюс» к уровню или множитель к зарплате.

Для индустрии PhD не всегда обязателен, но заметно помогает, если роль исследовательская или на стыке с R&D — там ценится умение работать с гипотезами и сложными данными. А если роль больше инженерная — пайплайны, продакшен, инфраструктура — то часто важнее портфолио и опыт, чем сама степень.

Бластим: Как сейчас коллаборация с зарубежными коллегами? Реально ли уехать за рубеж на учебу/работу?

Алексей Зарубин: Про зарубежную учебу/работу и коллаборации можно говорить очень долго — ситуация сильно отличается от страны к стране и от проекта к проекту. Если обобщать: уехать на учебу обычно реально и не так сложно, особенно если есть портфолио, рекомендации и понятная мотивация.

С работой в биоинформатике — сложнее, но есть понятные траектории. В индустрии, например, существуют несколько крупных компаний и центров разработки с сильными русскоязычными командами — туда зачастую проще попасть: меньше барьеров по коммуникации и быстрее понимаешь «как тут всё устроено». Параллельно есть и классический путь через международный рынок, но он обычно требует чуть больше времени на упаковку резюме/портфолио и прохождение отбора. В академии относительно понятный вход — это постдок, но важно помнить, что там нередко контракты на 1–2 года, и дальше вопрос стабильности решается уже сложнее.

Бластим: Какие лаборатории из вашей области делают крутейшие вещи?

Алексей Зарубин: Где делаются «крутые вещи»? Ну, например, есть хабы, которые задают стандарты — условно Broad Institute. Но важный тренд: самые заметные проекты сейчас всё чаще делаются в больших коллаборациях и консорциумах.

С коллаборациями при этом всё сложнее всего: часто решающим становится не научный интерес, а данные и комплаенс. Поэтому универсальные советы давать трудно. Но из практики: когда работа организована в юрисдикции с понятными правилами по хранению, обработке и передаче данных (или где регулирование мягче), проще выстроить процессы — и это в целом сильно упрощает жизнь и расширяет пространство для коллабораций, учебы и работы.

«Самые заметные проекты сейчас всё чаще делаются в больших коллаборациях и консорциумах»

РеволюцИИя

Бластим: Алексей, сейчас происходит революция искусственного интеллекта. Как ИИ повлиял на вашу работу?

Алексей Зарубин: ИИ реально изменил повседневную работу. Стало быстрее прототипировать, писать код, разбираться с документацией, генерировать черновики отчетов, искать ошибки. Это как умный ассистент, который ускоряет вспомогательные этапы.

Мне особенно нравится использовать ИИ, когда пайплайн уже отлажен: он помогает быстро «упаковать» набор команд в удобный инструмент — с визуализацией, контролями и понятным интерфейсом. Но правило простое: в ключевых местах нужно проверять, что ИИ не внес изменений, которые меняют результат.

Бластим: Насколько он безопасен и эффективен? Возможно ли, что биоинформатиков полностью заменят ИИ-модели?

К ИИ-инструментам стоит относиться как к «черным ящикам» — примерно как к некоторым сложным классическим методам. Мы не обязаны понимать внутренности, но обязаны воспроизводимо измерять качество: тесты, контрольные наборы, метрики, стабильность на разных данных, мониторинг ошибок. Так ИИ становится безопасным.

Заменит ли ИИ биоинформатиков? Скорее он увеличит производительность: биоинформатики, которые умеют использовать ИИ, будут работать на уровне нескольких тех, кто эти инструменты не использует.

Бластим: Большое спасибо, Алексей! До встречи!

Приходите в этот четверг, 15 января, в 19:00 мск на вебинар с Алексеем Зарубиным, где будет практика ИИ-автоматизации в интерпретации вариантов: регистрация