Блог новостей о биотехе — Бластим

От УЛЫБКИ станет всем светлей

В учебниках химии органические вещества представляют в виде структурных формул. Это удобно для человека и используется с XIX в. Вообще, в печатной литературе накоплен огромный пласт информации в виде текста и графики, который до сих пор не включен в базы данных. Но почему? Сейчас же эра высоких технологий. Огромная проблема — превратить изображения молекул в машиночитаемый вид. Для алгоритмов рисунки формул не более, чем набор пикселей. Им нужен формат SMILES — упрощенное линейное представление. Скажем, кофеин для компьютера выглядит вот так: CN1C=NC2=C1C(=O)N(C(=O)N2C)C

Немецкие химики из Вестфальского и Йенского университетов, вдохновившись историей, где ИИ обыграл человека в го, для извлечения ценных данных создали бесплатное приложение с открытым исходным кодом DECIMER.ai (Deep lEarning for Chemical ImagE Recognition). Разработка впитала последние достижения глубокого обучения, компьютерного зрения и обработки естественного языка. DECIMER — первая автоматизированная и комплексная платформа: туда загружается статья, далее инструмент сегментации находит изображение среди текста, а потом классификатор проверяет, есть ли на картинке химструктура. И, наконец, трансформер с высокой точностью преобразует визуальное преставление в SMILES. Всё благодаря тому, что ученые обучили глубокую нейросеть на 450 млн изображений из PubChem, арендуя вычислительные мощности Google Cloud. Decimer Image Transformer превзошел доступные инструменты оптического распознавания химических структур (OCSR), запрограммированные по жестким правилам.

Теперь можно сканировать старые печатные статьи и оцифровывать структуры, в том числе и нарисованные учеными от руки! А еще моментально распознавать молекулы, снятые на мобильный телефон во время конференций. Новинка должна улучшить доступность данных в химии, хемоинформатике и быть полезной для фармы, с/х и биотеха.
2025-12-19 13:57 Архивное Машинное обучение