Что такое "de novo" дизайн лекарств с помощью ИИ? (Generative AI for small molecule discovery)

Что такое "de novo" дизайн лекарств с помощью ИИ? (Generative AI for small molecule discovery)

Если AI-докинг (о котором мы говорили в прошлой статье) — это поиск лучшего "ключа" в гигантской связке из миллиардов существующих ключей, то генеративный AI ("de novo design") — это AI-мастер, который создает с нуля идеальный "ключ" для вашего "замка". Это фундаментальный сдвиг. Мы больше не ограничены известными химическими библиотеками. Мы можем "заказывать" у нейросети абсолютно новые, ранее не существовавшие молекулы с заданными свойствами.

Почему "перебор" (high-throughput screening) не находит новые молекулы?

Это главная проблема, с которой сталкивается "классический" R&D.

Что такое "исчерпанное химическое пространство" (exhausted chemical space)?

Проблема: Фармацевтические компании годами "просеивают" (скринят) одни и те же публичные и коммерческие библиотеки (ZINC, Enamine и т.д.). Они содержат миллиарды соединений, но это — капля в океане от всех теоретически возможных молекул.

Результат: Лаборатории тратят огромные деньги, чтобы "открыть" молекулы, которые либо уже известны, либо являются незначительными вариациями существующих. Это "топтание на месте".

Как работают генеративные модели (VAEs, GANs, GFlowNets) для химии?

Чтобы "придумать" новую молекулу, AI должен сначала выучить "язык химии".

Как AI-модель "понимает" структуру молекулы (SMILES, graphs)?

AI не видит 3D-модели, как мы. Он учится на строковых представлениях молекул (SMILES) или на их графах (атомы как узлы, связи как ребра). Он обучается на миллионах известных молекул и, как и языковой GPT, "выучивает грамматику": какие атомы могут связываться, какие структуры стабильны, а какие — нет.

Как AI "придумывает" новую молекулу (VAEs, GANs)?

Autoencoders (VAEs): Модель "сжимает" молекулу в скрытое математическое представление ("латентное пространство"), а затем "разжимает" обратно. "Придумывая" новые точки в этом "пространстве", она, по сути, генерирует новые, но химически правдоподобные молекулы.

GANs (Генеративно-состязательные сети): Один AI ("Генератор") "рисует" фейковые молекулы, а второй AI ("Дискриминатор") пытается отличить их от настоящих. Они "соревнуются" друг с другом, пока "Генератор" не научится создавать неотличимые от реальных (новые!) молекулы.

Что такое "инверсный дизайн" (inverse design) и как он работает?

Это и есть тот самый "заказ" лекарства. Это главная коммерческая ценность.

Как задать AI-модели нужные свойства (affinity, solubility)?

Проблема: Просто "придумать" новую молекулу — бесполезно. Нам нужна молекула, которая решает нашу задачу.

AI-решение ("Инверсный дизайн"): Мы говорим AI: "Я хочу молекулу, которая: 1) прочно связывается с белком X (высокая аффинность), 2) хорошо растворяется в воде (solubility) и 3) нетоксична".

Что такое "генерация с ограничениями" (constrained generation)?

Это и есть процесс, при котором AI (часто используя Reinforcement Learning или GFlowNets) генерирует миллионы молекул-кандидатов и "вознаграждает" себя за те, которые приближаются к заданным нами параметрам. Он как бы "ищет" в гигантском океане всех возможных молекул ту самую "точку", которая соответствует всем нашим требованиям.

Как AI-модель предсказывает, можно ли синтезировать молекулу (synthetic accessibility)?

Проблема: AI может "придумать" фантастическую молекулу, которую невозможно собрать в лаборатории (синтезировать).

AI-решение: Параллельно с генерацией, другая AI-модель (обученная на миллионах известных хим. реакций) оценивает "доступность синтеза" (Synthetic Accessibility, SA score).

Результат: Система отбрасывает "невозможные" молекулы и предлагает вам топ-100 кандидатов, которые не только работают (виртуально), но и которые можно реально создать в вашей "мокрой" лаборатории.

Заключение: Как AI-генераторы меняют R&D в фармакологии?

Генеративный AI переводит R&D из режима "поиска иголки в стоге сена" в режим "промышленного дизайна иголок на заказ". Это позволяет R&D-лабораториям: