Экономим десятки часов на данных: первый шаг в Python без боли

Бесплатный вебинар

Блог новостей о биотехе — Бластим

Интервью Михаила Гельфанда Бластиму. Часть II

Вторая часть чудесного разговора с биоинформатиком Михаилом Гельфандом.
Татьяна из Бластим и Михаил Сергеевич

Оглавление

Чутье на нейросети

Михаил Сергеевич слушает доклады на конференции, в том числе по нейросетям
Бластим: А как на всём этом скажутся нейросети, искусственный интеллект?
Гельфанд: Я не знаю и не чувствую, потому что я человек прошлого поколения. Я люблю говорить, я человек прошлого тысячелетия. Это как-то весомость придает. Подумаешь, человек прошлого века, а тут как-то серьезнее. Крестовые походы в нашем тысячелетии случились, биоинформатика появилась в нашем тысячелетии немного спустя крестовых походов.
Так вот, в отличие от всех остальных биоинформатических техник, которые были действительно банальными — никакой математики в биоинформатике не было... Были, конечно, хорошие алгоритмические задачи, но это была немножко не то чтобы маргинальная область, она была очень важная, но специализированная.
Сейчас появилась техника, очень полезная и важная, но которую надо действительно чувствовать. Всю прошлую биоинформатику я считал, что биолога легче научить программировать, чем программиста научить понимать биологию. С появлением нейросеток у меня этой уверенности нет.
Можно ли свежего наивного биолога научить чувствовать все эти архитектуры разные: такая или другая функция потерь, а что будет, если мы новый слой добавим? Интуиция архитектурная, нейросетевая… я не знаю, откуда она у людей берется. Человек должен чувствовать нейросети. С другой стороны, есть чудесные примеры, и у нас сейчас на конференции: Леша Школиков, который сегодня рассказывал, закончил ФББ. То есть он и биолог, и информатик.
Их работа — это предсказание карты контактов по последовательности, но интерпретируемое. То есть мы в скрытом пространстве можем сказать, какие точки соответствуют каким локальным структурам и смотреть, насколько они проявляются. Мы берем карту контактов, ее сжимаем, потом разжимаем, получаем скрытое представление, которое всё знает про контакты, но при этом имеет существенно меньшую размерность, оно сильно сжатое. А потом пытаемся предсказывать это сжатое представление по последовательности. А дальше оказывается, что мы, во-первых, в этом сжатом представлении можем взять просто шаблоны структур, которые мы видим глазом, и посмотреть, как эти шаблоны в это скрытое представление вписаны. Это мой единственный вклад в эту науку, из лингвистики пришедший, между прочим. Всё остальное они сами придумали.
У вас есть пространство, есть какая-то случайная точка. Мы поняли, что если от этой точки идти в заданном направлении, то вырастет фонтан, а в другом — петля.
Это единственное, что я туда принес — всё остальное они сами сделали. Аналогия была лингвистическая, потому что в лингвистике любая система анализа естественного языка сжимает текст во что-то компактное, а потом переводит на другой язык, например. И известная вещь, что в этом пространстве есть следующая операция: птица так же относится к крыльям, как рыба к плавникам. У вас есть просто параллелограммы. А у нас есть то же самое: локальные структуры, с которыми можно делать те же самые операции, как с лингвистическими параллелограммами. Ходить в разных направлениях.
Это первая часть идеи. В вторая — если мы теперь по последовательности пытаемся предсказывать структуру, то мы можем смотреть, какие элементы последовательности на это предсказание влияют. И узнавать какую-то новую биологию.
Здесь на конференции есть чудесные люди, которые одновременно и понимают биологию, и чувствуют архитектуру. Биологию этого я худо-бедно понимаю, но как сделать нейросеть, какие правильные слои поставить и в каком порядке, чтобы всё это работало, я совершенно не чувствую.
Бластим: Вы считаете, этому можно научить или это какое-то природное чутье?
Гельфанд: Вообще, биоинформатика всю жизнь была наука эластичная. Не было никакого биоинформатического чутья, а была мозоль на заднице. Биоинформатика была деятельностью очень эластичной по усилиям в смысле экономическом, как спрос-предложение. Нужно ли какое-то специальное чутье, чтобы делать архитектуру для нейросеток? Я не знаю. Нужно ли специальное чутье, чтобы заниматься профессиональной математикой? Я знаю, что да. Это то, что у меня не получилось.
Я видел Израиля Моисеевича. Я видел своих однокурсников, которые понимали вещи, которые я не мог себе представить. Макс Концевич, который сейчас кавалер ордена Почетного легиона, французский академик. Мы с Максом в одной группе учились, он ученик Израиля Моисеевича. И меня очень ценили. Потому что он делал все домашние задания, но понять, как он их сделал, было невозможно. Я при нем работал переводчиком. Я понимал его, а потом рассказывал всем остальным, как это делается.
Это был такой совершенно особый навык. Я худо-бедно мог понять, но придумать этого я не мог. Поэтому математика — это дар. А биоинформатика не дар, это ремесло. А эволюционная биология в каком-то смысле дар. Потому что придумывать хорошие эволюционные задачи — это воображение и способность одновременно в голове держать очень много всего. Это, видимо, достигается упражнением, но проектировать нейросетки… Я не знаю. Я сам этого не чувствую.
Давайте я вам лучше анекдот расскажу: «Рабинович, вы играете на скрипке? — Ни разу не пробовал, но много раз видел, как это делается. Думаю, что у меня тоже получится». У меня с нейросетками примерно такое. Я много раз видел, как это делается, но я мудрый, поэтому понимаю, что может быть не получится.

Монархия лучше демократии

Семинар Израиля Моисеевича Гельфанда в США
Финкельштейн: Я хотел спросить. Есть разные системы образования. Одно для производства сильного середняка, которое мы сейчас обсуждаем. Совершенно другое — для производства гения, которое мы не знаем вообще.
Гельфанд: Отвечаю. Сейчас будут самые противоречивые абзацы. Пункт первый. В биоинформатике не бывает гениев. Пункт второй. А в предположении, что в биоинформатике бывают гении, у меня, я думаю, где-то с полдюжины учеников, которые канают. У меня был Леша Витрещак, который придумал РНК-переключатели за два или три года и который перестал заниматься наукой. У него были все классические черты гения, включая то, что он сделал одну гениальную вещь и больше никогда не сделал ничего. Дима Родионов, видимо, не гений в смысле озарения, но он придумывал очень много вещей, которые биологам не приходили в голову. Но он такой гений скорее моего стиля — занудный вычислитель. У которого в результате этих занудных вычислений внезапно возникает какая-то абсолютно новая биология. И у него несколько раз такое получилось. Дальше — вопрос терминов. Еще есть, наверное, несколько человек. Не хочу сейчас уже с фамилиями, а то кого-нибудь забуду.
Финкельштейн: Я хотел подчеркнуть, что это разное.
Гельфанд: Я не согласен. Я не думаю, что гениев надо как-то по-особенному воспитывать.
Финкельштейн: Ну, в том и дело, что непонятно. Галуа, кто его воспитывал? Никто его не воспитывал. В 21 год…
Гельфанд: Зачем мне Галуа, если Израиля Моисеевича тоже никто не воспитывал? У меня, что называется, Галуа в родословной. Пункт первый. Вопрос, который мне был задан, это был вопрос не про производство гениев, а про производство хороших продвинутых профессионалов. Макс Концевич — гений. А гениев не воспитывают, гениям дают возможность развиваться и среду, в которой они могут разговаривать. Всё, на этом всё заканчивается.
Возвращаясь к нашей проблеме, что в России в биологии среда, в которой можно общаться про хорошую биологию, довольно маленькая. Эта возможность есть, но она не настолько широка. С другой стороны, даже до сих пор она менее формальна. Поэтому я подозреваю, что в Европах и Америках, с одной стороны, возможности больше для того, чтобы общаться, с другой стороны, действительно, среда более формализованная. Семинары Израиля Моисеевича, математический и биологический, кстати, в Америке не пошли, потому что был совершенно другой стиль. У него было one-man-show. Туда собирались люди очень высокого уровня, получали по сусалам регулярно, но ходили туда, потому что это была возможность общения высокого уровня. А в Америке это не зашло, потому что они просто не понимают такого стиля. И вообще для развития гениев, по-видимому, монархия гораздо более благоприятствует, чем демократия.
Гении скорее возникают при монархии, чем при демократии, потому что демократия — как раз ситуация, которая способствует крепким профессионалам. Я демократ, если что.
Финкельштейн: Ну, да. Ньютон был при монархии.
Гельфанд: Все великие советские математики, физики были не при монархии, не при демократии, а Бог знает при чем. Мы обсуждаем локальную среду.
Финкельштейн: Я хотел сфокусировать, что вопрос идет о происхождении сильных профессионалов, а вовсе не гениев.
Гельфанд: Да, гениев не производят. «Талант — как прыщ. Он может выскочить на любой заднице».

Зоология — золотое дно

В коридорах Сколтеха
Бластим: А Сколтех с точки зрения образования куда движется?
Гельфанд: Сколтех с точки зрения образования, а также любой другой точки зрения движется туда же, куда движется всё остальное. При этом нам всё-таки удаётся тот уровень — я про биологию — который у нас был, держать, держать, держать. Я думаю, что до сих пор это лучшая биологическая школа в России, именно молекулярной биологии, нейробиологии. Классической зоологии у нас нет.
При том, на самом деле — это золотое дно. Если с этим правильно обращаться, то как раз в силу особенностей нашей истории зоология и ботаника в Советском Союзе, видимо, были очень хорошими, с ровно потому, что их не дергали, позволяли, так сказать, чем-то заниматься. На них не обращали внимания. Денег на экспедиции хватало, а грантов не было. Поэтому они ездили в свои каракумы и собирали тушканчиков годами. И тот же пример Лабаса. Биохимию делали люди, которые умели делать биохимию. А медуз ловили Лабас и его ученик Матц. Это очень сильно уже потрачено, но по-хорошему, то, что есть в российской биологической школе и в меньшей степени есть в западных, это именно культура зоологическая-ботаническая. Им даже много денег не надо. От них просто не надо хотеть больше.

Биология с детства

Алексей Финкельштейн на конференции
Финкельштейн: Пару слов про биологическое образование. В возрасте 7-8 лет я знал про биологию почти всё, что я знаю сейчас. Мой дед был зоологом, которого в 1948 году, естественно, вышибли отовсюду. До 1954 года он был безработный. Я был его единственный студент. Поэтому всё, включая двойную спираль ДНК, я от него узнал.
Гельфанд: Я маленький ловил жуков и бабочек. Меня родители заставляли вести дневник. То есть, если я кого-то поймал, я должен был записать, что я его поймал, а потом записать, когда он сдох. А в каком-то уже более зрелом возрасте мне отдали домашний микроскоп Володи Гельфанда, который ему уже был не нужен. И я в него смотрел всякое.
А еще у меня был аквариум, потому что мне всё время грозила астма. До астмы не дошло, но всё время она как-то висела. Поэтому нужно было, чтобы был влажный воздух в комнате. И у меня был аквариум. И там тоже сдохло неимоверное количество живых существ. Биологи все циничные, даже биоинформатики. Зато я разглядывал всё. И вершина моих микробиологических достижений была, когда я наблюдал половой процесс у инфузорий-трубачей в двенадцать лет. Это было очень красиво: один сидел на предметном стекле, другой сидел на покровном. Они соприкасались венчиками. И потом они одновременно отцепились и по спирали поплыли. Чудесно в этой истории не то, что я это увидел, это мне просто повезло. А чудесно в этой истории, что я в двенадцать лет знал, что происходит.

Хьюзовские конференции

Эксцентричный миллиардер и филантроп Говард Хьюз
Бластим: А как вы считаете в этом году конференция удалась?
Гельфанд: Да, конференция удалась. Ой, это байка, на самом деле. На конференции фонда Говарда Хьюза в Таллине была пьянка в оперном театре. Среди участников было больше всего аргентинцев и русских. Там как всегда перетанцовывали русские аргентинцев, и в какой-то момент пошло на принцип, кто дольше продержится, русские или аргентинцы.
И мы оттуда уже идем в гостиницу. Последними идут [Томас] Чех, какие-то дамы из собственно [института] Хьюза, я и еще кто-то. А перед нами идет совершенно зигзагами какой-то участник конференции. И Чех так очень довольно говорит: «В этом году конференция удалась».
Финкельштейн: Я был на другой конференции Хьюза в Таллине. Не помню аргентинцев.
Гельфанд: Нет, в Таллине Говард Хьюз был один, Хьюз не повторял города.
И у нас были толпы аргентинцев. Их всех звали Эдуардо Гройсман, Хорхе Левин, мой соавтор Альберто Корнблит и еще несколько. Я сильно потом узнал, сто лет назад был проект построения Палестины в Аргентине. На какой-то из Хьюзовских конференций Хорхе Левин меня отвел в угол — а мы с ними дружили — и страшным шепотом сказал: «Теперь всё будет хорошо. У нас министр науки из наших».
В Аргентине было много хьюзовских грантов. Может быть, вы на них не обращали внимания? Это была международная программа Хьюза, может быть, вы были на другом Хьюзе в принципе?
Финкельштейн: По-моему, я был на другом съезде, СНГшном.
Гельфанд: А это другая история. А вы были в девяностых?
Финкельштейн: Угу.
Гельфанд: А это были двухтысячные, когда были совместные конференции: Восточная Европа, Америка, кроме США и Канады, и инфекционные болезни.
Финкельштейн: Инфекционные болезни — это то, что меня вышибло из Хьюза где-то в десятых годах.
Гельфанд: В десятых он закрылся просто.
Вообще, в России Хьюз был три раза. Девяносто пятый-нулевой, нулевой-пятый и пятый-десятый. У нас с Андреем Мироновым были гранты во вторую и третью каденции.Таллин был, по-моему, во второй каденции. И там были чудесные аргентинцы. А в Мериде вы были? В Мексике?

Календарь майя

Кнорозов расшифровал язык майя: про него снимают фильмы
Финкельштейн: В Мериде, конечно.
Гельфанд: У нас с Алберто Корнблитом приняли статью Molecular Cell, и мы с ним ходили в кабак квасить, что у нас приняли статью.
Финкельштейн: Пирамиды помню, Канкун помню.
Гельфанд: Прикольно, да. Куда-то нас возили, а куда-то я поехал просто один. И был этот колодец в Чичен-Ица, куда сбрасывали убиенных девственниц. Каждую неделю закалывали девственницу нефритовым ножом и сбрасывали в колодец.
Финкельштейн: Кого туда сбрасывали, есть разные версии.
Гельфанд: Так там недавно накопали кости и секвенировали. Но, хорошо, были ли они девственницы, по костям не скажешь.
Я еще был относительно маленький и пришло мне в голову. Там же должно было страшно вонять. Я помню на даче колодец, лягушка сдохнет, там уже… Но вообще, не в этом дело. Это не колодец. Это Мексика, Юкатан. Там известняк. Наверху рек нету вообще, все реки подземные. И это не колодец, это ценот. Это дырка в своде подземной реки. Поэтому вы туда скидываете трупака, его просто уносит.
Финкельштейн: Дырка метров 50.
Гельфанд: Нет 50 метров. Погуглите, пожалуйста, диаметр колодца?
Кто-то: Диаметр колодца 60 м. Диего де Ланда пишет…
Гельфанд: Знаем, да, Диего де Ланда — человек очень интересный. «Сообщение о делах в Юкатане» он написал. Я его читал как раз, когда был в Мексике. У меня был принцип на всех этих конференциях читать локальные книжки, поэтому в Мериде я читал «Сообщения о делах в Юкатане» и легенду о Попокатепетле.
Диего Де Ланда замечателен тем, что был иезуитом и укокошил много несчастных майя. И пожег книги. Но записал отдельные символы языка майя. И Кнорозов расшифровал оставшиеся книги, основываясь на том, что зафиксировал Де Ланда.
А линейное письмо А расшифровал Майкл Вентрис, который был летчиком. А какое-то из малоазийских письмен, протолидийское или протокарийское, расшифровал Шеворошкин абсолютно ремесленным способом. Считал комбинации потенциальных гласных и потенциальных согласных.
Финкельштейн: Между прочим, Кнорозов — без всякой школы. Откуда-то выбиваются люди высшего класса, а готовить можно только среднего класса. Возможно, что для высшего класса надо одно, а для среднего — другое. Это мое четкое убеждение.
Гельфанд: Для высшего класса надо не мешать и среда. Всё.

Рождение MCCMB

Всеволод Макеев на одной из конференций прошлых лет
Бластим: А почему эта конференция раз в два года, а не каждый год?
Гельфанд: Потому что она по нечетным годам. А по четным — конференция в Новосибирске. И мы специально так сделали, чтобы с ним не конкурировать.
Конференция вообще родилась в бане на реке Катуни. Как и положено. И придумал ее Николай Казимирович Янковский. Потому что была конференция Новосибирская, потом нас всех повезли на Катунь в качестве мероприятия. И выйдя из бани, Николай Казимирович сказал: «Почему бы нам в Москве не сделать тоже самое?»
И мы с Севой Макеевым напряглись. А у Севы еще были какие-то французские кореша, Mireille и кто-то еще. И в 2003 году мы первую конференцию сделали. Причем ее делали в университете, потому что там был российско-французский математический институт Понселе, который потом осел в Независимом университете. Сейчас, по-видимому, от него уже ничего не осталось.
А Понселе — это наполеоновский офицер, который после Отечественной войны, не Великой, а 1812 года, осел в России и занимался математикой. Андрей Соболевский был какое-то время директором этого института и имеет орден французский.
А тогда институт Понселе сидел в МГУ. И в какой-то момент туда набежали мехматовские деятели. Говорят, что у нас неправильная математическая биология. Вот у них правильная математическая биология, поэтому надо всё переделать. Сева Макеев с ними беседовал и, когда он изнемогал, говорил: «Хорошо, надо поговорить с Гельфандом». И вот вторая вещь, которой я очень горжусь. Ему кто-то из мехматовских чинов сказал:
«Нет, мы с Гельфандом говорить не будем. Гельфанд займет какую-нибудь неудобную позицию».
И в результате мы их отшили.
Самое чудесное, что там была какая-то ученица Садовничего, которая моделировала ресничный эпителий легких и доказывала про него теоремы. И эти теоремы зависели от того, четное количество клеток в ресничном эпителии легких или нечетное.

Школьники-соавторы

Михаил Сергеевич со школьниками в ШМТБ
Бластим: Михаил Сергеевич, вы говорили, что надо развивать образование со школьного. А какие сейчас есть летние биологические школы? ЛЭШ не работает же, правильно?
Гельфанд: ЛЭШ не знаю. Есть очень хорошее биологическое отделение летней школы в Дубне, Вера Копылова делает. Есть школы Феди Кондрашова. Только в этом году она была в Астане, в прошлом году в Стамбуле, а позапрошлом в Ереване. Их нельзя больше делать в Пущино. А есть химическая школа «Химера» где-то в лесах Калужской области.
Я у них один раз был, у них прикольно. Хотя у меня к ним была серьезная претензия. Они с детьми делают тривиальные учебные задачи. Фактически они детей учат капать. Ну, о'кей, но можно придумать в той же самой химии кучу задач, где ты тоже учишься капать, но при этом ты узнаешь что-то, чего раньше не знали.
Кондрашевские школы замечательны тем, что там в большинстве лабораторий, даже экспериментальных, через две недели прибавляется знаний. В биоинформатике это проще, потому что если очень хорошо придумал биоинформатическую задачу, ее реально за две недели продвинуть до какого-то пилотного результата, который потом можно доделывать. В экспериментальных — труднее, но были примеры экспериментальных работ, вышедших из Фединой школы. Были работы, где дети в соавторах, но дети уже успели стать студентами. Миша Пантелеев с кем-то такое делал о структуре надкрылий жуков. Эти надкрылья что-то по-разному отражают. Есть несколько примеров экспериментальных статей, где шмтбшники либо в соавторах, либо в acknowledgement в зависимости от вклада.
А у меня таких статей дюжина. Была летняя школа, дети чего-то сделали. И по зрелому размышлении мы решили, что дети сделали достаточно, чтобы считаться средними авторами. У меня есть статья, в которой аффилиация соавтора — средняя школа номер такой-то.
Статьи потом доделаны, естественно. Где-то ребенок поступил и уже студентом доделывал. Где-то ребенок отсох, но в acknowledgement остался. У нас в прошлом году вышла статья, которую начали делать в ШМТБ, потом девица поступила в университет, ее микрошеф, которая непосредственно с ней работала, ее выгнала, потому что всё делалось слишком медленно. Но она осталась поблизости, она не обидно выгналась. А потом прошло еще шесть лет, и мы эту статью напечатали. То есть делали ее семь лет, но началась она с ШМТБ!
Наши индусские соавторы, когда мы ее доделали наконец — а мы в ШМТБ скорешились с индусами, у которых была своя лаборатория и данные, которые нам были хороши, так случайно совпало — потом на несколько лет это всё отсохло. А потом мы эту статью наконец дописали и написали этим индусам: «Мы сделали статью». Они очень удивились, ведь семь лет прошло.

Жизнеутверждающая история

Михаил Сергеевич доволен: конференция удалась
Бластим: Возвращаясь к вопросу о переквалификации программистов: что учить? куда идти в магистратуру небиологам?
Гельфанд: В магистратуру к нам в Сколтех идти. У нас совершенно чудесные девицы сейчас в аспирантуре. Однажды пришла девушка лингвист поступать в магистратуру по биологии Сколтеха. Довольно прилично знала молекулярную биологию. Сказала, что хочет заниматься биологией. Я настоял, чтобы ее взяли, и очень доволен.
А еще у одной из моих очень хороших учениц, еще до Сколтеха, траектория была такая. Она закончила экономический факультет МГУ, несколько лет проработала консультантом в большой экономической компании, которая занималась вкладами, чем-то таким. Ей это не понравилось. Она год не занималась ничем: в Сингапур ездила или в Китай, в общем, путешествовала.
Откуда она узнала, что бывает на свете биоинформатика, я не знаю. А это было как раз в те несколько лет, когда существовало отделение биоинформатики в школе анализа данных Яндекса. Она поступила к нам в ШАД Яндекса на биоинформатику. Училась, сколотила какую-то компанию людей, которые сказали, что учеба учебой, а им еще хочется сделать какую-то науку. Их было три-четыре человека, которым я придумал задачку. Они ее делали параллельно с тем, пока они учились.
Прошла через эту школу биоинформатики, потом поступила в аспирантуру Сколтеха. Это были те времена, когда вообще не было никакой процедуры поступления. Самые-самые младенческие годы Сколтеха. Полгода или год проучилась, пришла ко мне: «Михаил Сергеевич, мне всё нравится, задачи нравятся, лаборатория нравится, мне денег хватает. Мне очень не нравится жить в России».
Это был год примерно 2013 или 14. Она поступила в сильную аспирантуру в EMBL к Michelle Arbeitman, работала там биоинформатиком, но с какой-то немножко мокрой частью. Доделала свой проект, заболела раком крови, перенесла полную пересадку костного мозга, выжила, защитила диссертацию в Бельгии или Германии. Ее молодой человек, испанец, всячески поддерживал. Мы тоже с ней разговаривали. Она сидела в герметичной комнате, потому что у нее сколько-то месяцев не было иммунитета вообще. Мы с ней время от времени разговаривали в зуме. Сейчас работает постдоком. По-моему, очень жизнеутверждающая история.
Бластим: Невероятно. Спасибо большое. Мы будем дальше работать над биологическим образованием, над его дополнением к вашему, сколтеховскому.
Интервью