Экономим десятки часов на данных: первый шаг в Python без боли

Бесплатный вебинар

Блог новостей о биотехе — Бластим

Интервью Михаила Гельфанда Бластиму. Часть I

Мы встретились в кулуарах конференции MCCMB’25 и поговорили с биоинформатиком, доктором биологических наук, сооснователем сообщества «Диссернет», вице-президентом Сколтеха Михаилом Сергеевичем Гельфандом о том, куда сейчас движется биологическое образование. Читайте полное интервью.
В кулуарах MCCMB’25. Слева направо: Татьяна из Бластим, Алексей Финкельштейн, Михаил Гельфанд
В увлекательной беседе также участвовал Алексей Витальевич Финкельштейн, доктор физико-математических наук, специалист в области молекулярной биологии и белковой инженерии.

Оглавление

Биология — самая важная наука

Великая советская биология закончилась в сорок восьмом году
Бластим: Михаил Сергеевич, здравствуйте! Как вы оцениваете текущий уровень биотех-образования? И какие перспективы вы видите? В направлениях, в формах образования, в количестве часов преподавателей?
Гельфанд: Я не очень понимаю, что такое биотех-образование. Я понимаю, что такое биологическое образование. И на самом деле — это универсальная вещь. Уровень образования определяется уровнем науки. Есть базовое образование: законы Менделя, тычинки-пестики, ПЦР и всё такое. Но современный образовательный уровень всё-таки определяется тем, какова современная наука. А биология в России — наука очень неровная. Потому что в отличие от великой советской физики и великой советской математики, великая советская биология закончилась в сорок восьмом году и с тех пор так никогда и не ожила. То есть были какие-то отдельные сильные группы, но великая советская генетика, чудесные люди, кончились. Поэтому уровень биологического образования в России очень неровный. И я это просто вижу по студентам, скажем, которые приезжают поступать в Сколтех. Иногда приезжают люди с некоторой иллюзией: они думают, что они безумно хороши, и они, действительно, у себя были безумно хороши.
Кроме того, некоторые политические события оказали влияние не только на жизнь вообще, но и на научные и образовательные проекты тоже. В Сколтехе мы это почувствовали, потому что несколько очень сильных профессоров уехало. И это было очень тяжело, потому что действительно были люди абсолютно мирового уровня. Те, кто их заменил, тоже очень хорошие. Так получилось. Это одна сторона.
Вторая существенная сторона состоит в том, что довольно важная вещь для уровня студенческого образования — это образование школьное, потому что хорошие студенты получаются из хорошей школы. А здесь интересно, потому что, с одной стороны, уровень преподавания биологии в российских школах ужасный. По-моему, биология преподается один час в старших классах. Это полный бред и несчастье, потому что биология, во-первых, наука интересная, во-вторых, ее легко хорошо преподавать. Физику хорошо преподавать трудно, тем более — математику, а биологию хорошо преподавать легко. Биология — наука плоская. Не надо писать две стенки формул для того, чтобы что-нибудь объяснить. Но она сложнее физики в том, что мы ее понимаем гораздо хуже. Так же как физика сложнее математики, видимо, по той же причине. Но интересно преподавать современную биологию, хорошую, настоящую.
Кроме того, биология — на самом деле наука самая важная в повседневной жизни. Потому что, когда вы принимаете какие-то жизненно важные решения, вам не важно, как работает сотовый телефон, какая физика внутри. А когда вам надо решить, не дай Бог, делать операцию или не делать операцию, в этот момент хорошо бы понимать, чего происходит в том месте, в котором надо делать операцию. А это биология, это не медицина. Пожалуйста, последняя история с COVID — самая яркая. «Вакцинироваться или не вакцинироваться?» — биологический вопрос.
С одной стороны, со школьным образованием очень плохо, а с другой стороны — опять я это вижу просто, потому что летом много преподаю школьникам — есть очень хорошие школьники. То есть школьник, который хочет заниматься биологией, который почему-то знал, что такое бывает, у него довольно много для этого возможностей. Например, если ему так повезло, что у него хорошая учительница биологии с каким-то местным кружком.

Человек из Лабытнанги

Вокзал Лабытнанги
У меня была очень замечательная девочка, она в Гарварде сейчас, из города Лабытнанги. Напротив через реку Обь другой город, Салехард. Это север, северная Сибирь. Зимой и летом туда можно добраться и на самолете, и на поезде. А весной и осенью, в один город можно добраться на поезде, потому что туда идет ветка, а в другой город можно добраться на самолете, потому что там есть аэродром. Обь широкая, а моста нет: летом работает паром, а зимой переправа по льду. И у нее была хорошая учительница биологии. Она потом ездила на летние школы для школьников, Федор Кондрашов которые устраивал. Потом поступила на ФББ по ЕГЭ. И сейчас — у нее несколько статей, поступила в аспирантуру в Гарвард.
Если у тебя нет хорошей учительницы по биологии, о'кей, у тебя есть интернет. Возможности есть. И в этом смысле это не трагическая ситуация, но ребенок должен просто узнать откуда-то, что вообще на свете есть биология. И что биология — это не «мариванна», которая бубнит какую-то хрень, а что это действительно прикольно и интересно.
Дальше очень полезная вещь — возможность после бакалавриатов, магистратур куда-то еще идти хорошим детям. И все разговоры про то, что мы сейчас уйдем от Болонской системы и придем неизвестно куда — это очень плохо и противно.
С четвертой стороны, биология как наука — дело дорогое, к сожалению. Практикум по молекулярной биологии стоит заметных денег, потому что нужны реактивы, расходники, вот это всё. И он становится дороже, усложняется логистика. Чего не понимает отдел закупок: химические реактивы можно купить на пять лет вперед, положить на полку и отлично! Но антитела на пять лет вперед не купишь.

Зачем вы занимаетесь ерундой?

GFP-мыши. Во-первых, это красиво
Пятая моя любимая песня, которую я тоже всегда исполняю, это как раз то, что вы спросили про технологию и биологию. Это на самом деле во всех странах, не только в России: «Зачем вы изучаете эту ерунду? Вы лучше лечите людей или перерабатывайте навоз». И это отсутствие понимания, что вы не можете перерабатывать навоз, если вы не понимаете, что происходит на клеточном, молекулярно-биологическом уровне. Это вещь довольно печальная. Потому что если от тебя требуют отчитываться обещаниями, то выигрывает тот, кто лучше обещает. И примеры такие мы знаем. У нас есть целые научные институты и даже агломерации институтов, которые всю жизнь живут на этой вещи. Это просто очень искажает реальную картину.
Два моих любимых примера, которые я всегда привожу. Первый — это флуоресцентные белки, за которые дали Нобелевскую премию. А штука и научно очень интересная, и очень полезная как экспериментальный метод. Ну и практически тоже: всякие светящиеся рыбки, светящиеся деревья — это красиво, в конце концов. В какой-то момент, Юлий Александрович Лабас, специалист по морским беспозвоночным, в том числе светящимся, внезапно оказался царем горы, потому что он просто знал из каких существ что выделять. Но перед этим он много десятков лет занимался ерундой. Он изучал медуз, склизких, омерзительных, которые где-то там плавают. И внезапно оказалось, что он самый востребованный человек.

История CRISPR-Cas

Они получили Нобеля за CRISPR
И вторая моя любимая история — редактирование генома, которое сейчас очень модно. Это было на моих глазах. Началось всё с того, что какие-то японцы в конце восьмидесятых годов, когда полных геномов еще не было, определяли последовательности отдельных фрагментов. Они секвенировали какой-то ген кишечной палочки и захватили не только сам ген, но и область рядом с ним. Там были какие-то странные повторы: двадцать с чем-то букв, потом что-то другое, потом те же самые двадцать с чем-то букв. И они в своей статье написали: «А еще мы увидели вот такую странную последовательность».
Потом оказалось, что такие последовательности — повтор со спейсерами — встречаются много где. Занимались этим биоинформатики совершенно непонятно зачем. Ну, повтор — мало ли что там верховный генный инженер навставлял? В общем, это было совершенно эзотерическое занятие, как и вся биоинформатика в 1980–90-е годы.
Человек по фамилии Мохика заметил, что рядом с такими кассетами, которые уже в разных бактериях были идентифицированы, и их даже применяли на практике для типирования штаммов Yersinia pestis, чумы — живут гомологичные гены.
Потом Евгений Викторович Кунин сказал, что эти белки гомологичны белкам растительной системы РНК-интерференции. Растительный иммунитет. Нашел какие-то гомологичные домены. Кунин — выдающийся эволюционист, который с хиршем самым большим на свете! У него настолько большой хирш, что сам Хирш на какой-то конференции специально пришел к Жене посмотреть на его хирш — просто познакомиться. Это смешная история. Он занимается эволюционной биологией — кажется, ничего менее приближенного к практике придумать невозможно. Но Женя обратил внимание, что эти белки похожи на белки интерференции. А перед этим он несколько десятков лет учился сравнивать очень далеких гомологов, очень далеко похожие белки. Выпустил статью.
Потом был какой-то человек [Рудольф Баррангу], который изучал борьбу бактерии с фагами. Это уже было близко к практике, потому что человек был из Danisco. У них проблема, потому что бывают эпидемии фагов в их заквасках: фаги портят кефир, потому что кефир должен сквашиваться правильными бактериями, а фаги их убивают. Это реально видимые экономические проблемы.
Он изучал этот самый бактериальный ответ на фагов. А перед этим люди заметили, что в этих уникальных последовательностях между повторами — там было несколько примеров буквально — были последовательности, похожие на фаговые. Складывалось ощущение, что фаговые фрагменты туда вставляются. И этот чудесный человек решил, что это система бактериального иммунитета.
И все бросились изучать, потому что адаптивный иммунитет бактерии — штука безумно прикольная. Никто не предполагал, что такое может быть. Начали выяснять молекулярные механизмы этого бактериального иммунитета. Опять, до сих пор, никакого практического применения нет: мы изучаем, как бактерии защищаются от фагов. Такая абсолютно рафинированная молекулярная биология. Дельбрюк с Лурией еще изучали, как бактерии от фагов защищаются.
И в итоге обнаружили, что система такая: уникальные последовательности действительно вырезаются из генома фага и служат для того, чтобы опознать геном фага при повторном заражении. И есть какие-то белки. И эти РНК живут в комплексе с белком. Белок таким способом узнает фаговую ДНК и режет ее.
Затем сообразили, что можно резать, а можно, скажем, взять домен, который не разрезает, а который модифицирует. И это было геномное редактирование. Это была биотехнология, уже не высокая биологическая наука, это была инженерия. За это дали Нобелевскую премию в 2020 году. Но началось всё с того, что какие-то люди случайным образом увидели какие-то странные повторы. На самом деле история быстрая: пятнадцать лет прошло, чтобы от этих повторов дойти до понимания биологии. И потом лет пять или десять всего ушло на то, чтобы сделать технологию, которую сейчас все знают. Вот история CRISPR-Cas.
Идея здесь в том, что фундаментальную науку надо поддерживать. Во-первых, потому что из нее неминуемо вырастает какая-то правильная технология. А, во-вторых, эта чудесная идея, что мы даже не будем вкладываться в фундаментальную науку, пускай они всё придумают, всё опубликуют в своих натурах и науках, Nature и Science, а мы всё прочитаем и сделаем цап-царап. Неправда! Если у вас не будет людей, которые сами этим занимаются, вы даже не поймете, откуда делать цап-царап.

Шпионские игры

Андрей Александрович Миронов на конференции MCCMB’25
Андрей Миронов давным-давно рассказывал прекрасную историю. Дело происходило в ГосНИИ Генетики. Приехал секретный человек с секретным портфелем. Собрали людей, которым можно разговаривать с секретным человеком. Он сказал, что агентурным путем были добыты данные и что это имеет какое-то отношение к биологии. И он просит оценить важность этих данных. Нельзя ли их как-нибудь применить к увеличению обороноспособности, благосостояния нашей советской родины? Это еще Советский Союз. И достал толстую пачку бумаги с компьютерной распечаткой. Это оказалась распечатка PDB. Секретные разведчики, рискуя жизнью, украли открытую базу данных структур белков и привезли под большим секретом.
И если у вас не будет людей, которые занимаются фундаментальной наукой на приличном уровне, вы не поймаете те направления, в которых имеет смысл развивать технологии. Даже если всё открыто.

Стратегия 2020

Обложка Стратегии 2020
Обложка Стратегии 2020
У меня много гордостей, но одна из моих гордостей состоит в том, что была такая «Стратегия 2020», от которой уже ничего не осталось. И это были прогрессивные времена: ее писали всякие прогрессивные люди, настолько прогрессивные, что они беседовали со мной. Что-то было переработано, но от меня осталась прямая цитата, которой я очень горжусь. Я ее потом много где встречал. От меня осталось в государственном документе:
«Трагедия наступит не тогда, когда некому будет написать статью в Nature, а тогда, когда некому будет читать статью в Nature».
В России есть места, где можно получить хорошее биологические образование: и фундаментальное, и с каким-то дальнейшим прикладным прицелом, если кому-то хочется. Например, Сколтех. Но не только. В России есть группы, которые занимаются хорошей современной биологией вполне высокого уровня. Многие из них присутствуют на этой конференции. У нас не экспериментальная конференция, у нас — биоинформатическая, эволюционная биология. Хотя и экспериментальные группы тоже здесь хорошо представлены — через соавторство. К примеру, у Екатерины Храмеевой статьи с [Сергеем] Разиным.

Удойность курей

Михаил Сергеевич на конференции
В России всё трудно делать, но, в частности, трудно заниматься биологией. Уровень биологического образования напрямую завязан на уровень исследований. Очень слабое, к сожалению, образование сельскохозяйственное. Опять-таки это то, что я просто наблюдаю. Потому что, вообще говоря, это была бы хорошая область для приложений. До импортозамещения это не было никому нужно, потому что закупали, а после импортозамещения уже «схватились за задницу». В агрономических вузах образование слабое. А человеку, который учился на хорошем биологическом факультете, всё-таки интереснее заниматься тем, как фаги взаимодействуют с бактериями, а не тем, как повысить яйценоскость свиней и удойность курей. И это плохо, потому что была бы очень хорошая область приложения.

Я лишил степени человек сто

Михаил Сергеевич «выписывает рецепт» врачам
Очень слабое биологическое образование у медиков, что тоже некоторая трагедия, потому невозможно понимать современную медицину без понимания биологии. И опять-таки я это наблюдаю, в двух местах. Во-первых, у меня хорошие знакомые врачи-генетики с хорошим пониманием биологической базы. И они мне время от времени рассказывают, как они пытаются рассказывать на семинарах своим коллегам и что из этого получается.
А вторая вещь, что кроме традиционно плохого преподавания биологии медикам, им очень плохо преподают статистику. И доктор, который пишет диссертацию и даже хочет всё сделать честно, просто не понимает, как это сделать, потому что его этому никогда не учили. Мои любимые примеры: люди таблицу 2х2 анализируют при помощи теста Стьюдента! Я не понимаю, какой кувалдой его туда загоняют. Это уже не сколтеховская история. Это история вышкинская.
В вышке есть программа «Анализ данных в биологии и медицине». Мария Сергеевна Попцова — научный руководитель. А я был там отцом основателем, мне кажется (Юра и Вита участвовали вместе с М.С. Гельфандом в организации этой программы — прим. ред.). Медицина там возникла конъюнктурно, потому что это в принципе программа по биоинформатике. Но под это название туда время от времени приходят врачи, причем есть полностью состоявшимся с медицинским образованием вплоть до ординатуры, а некоторые даже уже со степенью медицинской, чтобы их научили медицинской статистике. И мы их вынуждены не брать и разочаровывать, потому что мы говорим: «Ребята, вы просто не туда пришли, у нас название это есть, на самом деле этого нет». Многие врачи, исследовательские медики, понимают, что их статистике не учили никогда. Мы пытались с Верой сделать программу такого дополнительного медицинского статистического образования здесь. Но не проканало — скорее, по формальным причинам. Несколько лет пытаемся, но оно не проходит.
Я просто вижу черную дыру у врачей. Медикам буквально нужно преподавать кондовые вещи, Каплан-Майер, тот же самый тест Стьюдента. Если у тебя табличка 2х2, то хи-квадрат. А если у тебя распределение, ты сначала проверь на нормальность, а потом Стьюдент, а если ты не проверил на нормальность, то прилетит ночная фея и тебе надает по лбу.
Бластим: Мне кажется, со студентами медиками нужно как с детьми, им нужно объяснять, зачем им математика и статистика. Потому что особенно клиницисты — лечебники, педиатры — вообще не воспринимают.
Гельфанд: Районному педиатру статистика не нужна. А вот сказать, что если ты собираешься защищать диссертацию, то придут злые люди и начнут у тебя смотреть статистику.
Бластим: А это проблема, потому что все хотят защищать диссертации, потому что, скажем прямо, это прибавка к зарплате. Медики идут и видят: кандидат и…
Гельфанд: …другая стоимость консультации в частной клинике.
Бластим: Вот именно. Вы понимаете суть проблемы.
Гельфанд: Я понимаю суть проблемы. Я лишил степени кандидата и доктора медицинских наук человек сто. Не за плохую статистику, а за то, что было списано. Страшно, да?
Бластим: Проблема в том, что по нынешней программе математика у медиков идет полгода на первом курсе. А они учили в школе биологию, химию.
Гельфанд: Не надо медиков учить математике. Знаете, есть такие книжки, скажем, программирование на Perl для чайников, информатика для чайников. Нужна такая поваренная книга. В которой написано, в таких случаях ты используешь такой тест, в таких случаях ты используешь — такой. Как анатомия?
Финкельштейн: По доказательной медицине, наверное, нужно?
Гельфанд: По доказательной медицине — это отдельная история. Это не статистика, это методология, это обязательно надо делать, но это просто немножко другая история. Почему в клинических испытаниях нужен двойной слепой метод, а не одинарный слепой метод.

Переквалифицироваться в управдомы биоинформатика

Павел Певзнер — классический алгоритмист
Бластим: Поскольку у Бластим еще есть ответвление рекрутинговое, у нас какое-то время было довольно много ребят, программистов, информатиков, которые заработали какую-то себе денежную подушку безопасности и хотят переквалифицироваться в биоинформатиков. Они хотят спасать мир, им надоело высчитывать финтех. Какое ваше мнение?
Гельфанд: Мое мнение такое: если приходит ребенок и говорит, что хочет спасать мир, скорее всего, я его не возьму. Потому что надо слезть с табуретки для начала. Это неправильная мотивация. Всё-таки мотивация занятия наукой состоит в том, что я не могу ею не заниматься, а не то, что я хочу спасти мир. Любопытство, а не альтруизм.
Бластим: Но он скорее всего считает, что он умеет программировать, сможет выучить биологию за условный год и сможет заниматься какими-то биоинформационными задачами.
Гельфанд: Я вас сейчас прибью. Нету слова «биоинформационные»!
Бластим: Биоинформатические, сорри. Но всё-таки таких людей довольно много. Их можно переучить?
Гельфанд: Я закончил мехмат.
Бластим: А, ну всё, вопрос снят.
Гельфанд: У нас очень долго в группе было примерно пополам людей с таким физико-математическим бэкграундом и людей с биологическим бэкграундом. Дальше очень зависит от конкретных задач, потому что есть чисто алгоритмическая биоинформатика, где надо даже не биологию понимать, а надо понимать, как прибор работает. Павел Певзнер — классический пример. Он совершенно не чувствует биологии, но очень хорошо чувствует приборы и приборные артефакты. И он очень хороший алгоритмист, который в своих алгоритмах, в том числе учитывает приборный артефакт. Знает, как масс-спектрометр работает, но про белки не знает ничего. Такая абсолютно техническая область.
При том, что я закончил мехмат, у меня всё-таки убеждение, что, во-первых, биоинформатика — вообще не наука, а набор инструментов, так же как электронная микроскопия. Нет науки «Электронная микроскопия»! Биоинформатика… Ну, нет такой науки. Это ремесло, умение. У тебя есть набор инструментов, ты ими умеешь пользоваться.
А настоящая научная биоинформатика — это эволюционная биология, потому что всё, что мы делаем, сидит на понимании эволюции. И все наши приемы — эволюционные. То есть с эволюционным бэкграундом, подложкой. История про Кунина, он — эволюционист.

Кунин — самый немодный

Евгений Кунин — второй слева — самый немодный автор
У меня есть байка, которую я много раз рассказывал. В свое время у меня была замечательная студентка, которая диплом сделала по окончании пятого курса. У нее был свободный год. Она статью опубликовала. Она в домике. И мы занимались ерундой. Мы начали с того, что смотрели граф соавторства биоинформатиков: нам было интересно, кто с кем работает. Было много всяких смешных технических решений. Основная была проблема — как нормировать, потому что если у людей одна совместная статья, но это их единственная статья, то они, с одной стороны, вроде бы стопроцентные соавторы, но это некруто. А если у людей по 100 статей, из них 90 совместных, а по 10 на стороне, это настоящие тру-соавторы. Там была идея, как нормировать общие статьи против суммы. И чтобы картинка соответствовала интуиции, кто с кем соавтор, а кто нет, где-то надо было не второй степени корень извлекать, что было бы банально, а четвертой. Она никогда не написала этой статьи, поэтому сейчас это уже пропало.
А потом мы сделали интересную вещь. Есть такой термин MeSH terms (Medical Subject Headings) — это универсальные ключевые слова, которые в PubMed’е приписаны каждой статье. Это ограниченный словарь. Мы взяли эти самые MeSH terms и для каждого из них посчитали дискретную производную. То есть насколько чаще или реже это слово употребляется в очередном году по сравнению с предыдущим.
Обзовем это модностью. Модность бывает положительная и отрицательная. А если у нас есть модность MeSH terms, то у нас есть модность каждой статьи. Это средняя модность ее MeSH terms. Если же у нас есть модность статьи, то у нас есть модность автора. Это средняя модность всех статей, для которых он в данном году был автором. И дальше мы посчитали модность всех биоинформатиков. Всех с каким-то количеством статей, чтобы какая-то статистика была разумная, с каким-то порогом. Ответ такой: самые модные авторы — это Борк и Герштейн.
А самый немодный автор — это Кунин. И когда я ему это рассказал, — а я Женю знаю очень давно — его более довольным я просто никогда в жизни не видел. Это человек с фантастическим цитированием, которое было сделано на немодной науке. В каждом году на немодных областях он делал великую науку. По-моему, красивый научный результат.
Финкельштейн: Интересно, а если он делает науку, которая будет модной через год или три года?
Гельфанд: Модность термина — вещь довольно устойчивая по годам. То есть тренд такой, если что-то становится модным, то оно модно много лет. Модно то, что связано с новыми экспериментальными техниками. Появился single cell, ты занимаешься транскриптомикой single cell, ты модный. А у Жени нету статей по системной биологии. У него всё про эволюцию.
Мораль: хорошая биоинформатика всё-таки, видимо, требует довольно глубокого понимания биологии. Когда я начинал, биоинформатики никакой не было. И это был такой фронтир. Ты приходишь, втыкаешь кол и говоришь: «Я этим занимаюсь». И тащишь туда всё, что ты умеешь. А сейчас не так. Сейчас чтобы придумать хорошую биологическую задачу на тех данных, которые есть, надо довольно хорошо понимать биологию. Или ты всегда будешь программистом при ком-то.
Интервью