Исследователи публикуют новые наборы данных, чтобы лучше обучать модели машинного обучения для открытия лекарств

0

Полиморфы-это молекулы, которые имеют различную молекулярную упаковку, несмотря на идентичный химический состав. В недавней статье исследователи из GlaxoSmithKline (GSK) и Кембриджского центра кристаллографических данных (CCDC) объединили свои собственные (GSK) и опубликованные (CCDC) наборы данных для лучшего обучения моделям машинного обучения (ML) для прогнозирования стабильных полиморфов для использования в новых кандидатах на лекарства.

CCDC курирует и поддерживает Кембриджскую структурную базу данных (CSD). За прошедшее столетие ученые всего мира внесли опубликованные экспериментальные кристаллические структуры в CSD, который в настоящее время насчитывает более 1,1 миллиона структур. Авторы статьи использовали подмножество препаратов из CSD в сочетании со структурами из GSK. Структуры GSK были собраны на разных этапах фармацевтического конвейера и не ограничиваются продаваемыми продуктами. Соавтор доктор Джейсон Коул, старший научный сотрудник группы исследований и разработок CCDC, объяснил, почему структуры, собранные на разных этапах разработки лекарств, так важны.

“На ранней стадии открытия лекарств кристаллическая структура может помочь рационализировать конформационные эффекты, например, или охарактеризовать химию нового химического объекта, где другие методы привели к неоднозначности”,-сказал Коул. “Позже в процессе, когда новый химический объект изучается в качестве молекулы-кандидата, кристаллические структуры имеют решающее значение, поскольку они влияют на выбор формы и могут впоследствии помочь в преодолении проблем с формулировкой и таблетированием”.

Эта информация может помочь исследователям расставить приоритеты в своих усилиях, экономя время и, возможно, жизнь в будущем.

“Понимая целый ряд кристаллических структур, ученые также могут оценить риск того, что данная форма будет долгосрочной нестабильной”,-сказал Коул. “Полная характеристика структурного ландшафта приводит к уверенности в продвижении формы вперед”.

Наборы промышленных данных отражают не только науку; они отражают культурный выбор в рамках данной организации.

“Вы найдете со-кристаллы только в том случае, если будете искать со-кристаллы”, – сказал Коул в качестве примера. “Большинство компаний предпочитают разрабатывать свободный или несвязанный препарат. Можно предположить, что типы структур в промышленном наборе отражают сознательные решения о поиске форм данных типов, в то время как исследователям, которые вносят свой вклад в CSD, ставится меньше ограничений”.

“Большие объемы данных приводят к более уверенным прогнозам”, – сказал Коул. “Данные, которые имеют самое непосредственное отношение к проблеме, приводят к более точным прогнозам. В прогнозах, использующих программное обеспечение CCDC, мы выбираем подмножество наиболее релевантных записей, достаточно большое для придания уверенности. Набор GSK обязательно будет содержать высоко релевантные соединения по сравнению с другими соединениями в их коммерческом портфеле. Так что программное обеспечение для построения моделей может использовать их”.

Модели ML выигрывают от двух ключевых факторов: объема данных и специфичности данных. Вот почему так полезно сопоставлять объем и разнообразие данных в CSD с собственными наборами данных.
Промышленные исследователи, работающие с очень релевантными данными, могут столкнуться с проблемами, когда у них недостаточно данных для создания надежных моделей.

“Учтите, что программное обеспечение CSD обычно выбирает около двух тысяч структур из 1,1 миллиона в CSD”, – сказал Коул. “Промышленный набор по сравнению с ним крошечный, но вы могли бы выбрать, скажем, 40 или 50 очень важных структур. У вас было бы недостаточно данных, чтобы построить хорошую модель только на этом, но добавленные соединения из CSD дополняют набор данных. По сути, включая наборы GSK и CSD, мы получаем лучшее из обоих миров: все очень важные промышленные структуры и набор весьма важных структур CSD вместе для создания высококачественной модели”.

Различные схемы упаковки означают, что один полиморф может быть более подходящим для терапевтической доставки, в то время как другая форма того же соединения может не подходить.

Исследователи используют базы данных кристаллической структуры, чтобы делать основанные на знаниях прогнозы о том, состоит ли потенциальный новый препарат из хорошей, стабильной формы, которую производители могут производить, хранить и доставлять терапевтическим способом. Авторы из GSK и CCDC завершили тщательный анализ кристаллических структур малых молекул, содержащих результаты рентгеновской дифракции, полученные GSK и ее компаниями-наследниками за последние 40 лет. Затем они объединили эти результаты с набором лекарственных структур из CSD CCDC, который содержит более 1,1 миллиона органических и металлоорганических кристаллических структур с мелкими молекулами, полученных исследователями со всего мира.

Комментарии закрыты