随着全球医药与公共卫生行业开始加速创新,以求更有效地应对日益复杂且多变的医疗健康与公共卫生挑战,如新发疾病和传染病、人口老龄化、慢性病及抗药性等,人工智能辅助药物开发 (Artificial Intelligence Drug Development,AIDD) 技术开始凭借更高的研发效率,更为自动化及智能化的运作方式与流程,以及更短耗时与更低成本,成为行业机构与投资机构、专业人士与普罗大众共同关注的议题。
对传统制药领域“双十定律”的突破,是AIDD为人津津乐道的优势之一,即它能以短至十数月的耗时,及低至以百万美元计的费用,击穿过去动辄十年用时+10亿美元成本起步的新药研发“天花板”;它另一个突出的表现就是普及或浸入业务场景进度非常快,制药领域几乎所有主要场景,包括
靶点识别
、
药物分子发现与筛选
、
药效预测
与
临床试验数据分析
,如今都在通过深度学习、机器学习等AI方法,借助重新设计的创新工作流程和模式提升药物研发效率和成功率。
然而需要客观看待的是,AIDD确实带来了革新与变化的机会,但它对于此前已经广为应用的计算机辅助药物发现(Computer Aided Drug Design,CADD)而言,更像是2.0与1.0版本的差别,或者说是CADD的演进与补充。如果用AI三要素——数据、算法与算力的维度来解析,两者最明显的差别就在于算法或应用不同——
AIDD采纳了更智能、更自动化、更能减少人工介入和人力投入,并能因此大大节省时间和成本的AI算法。
不过这并不意味着传统的CADD应用与算法就会从此消失,新药研发中有很多科学计算类应用(与计算物理或计算化学相关)依然在扮演关键角色,或者说,AIDD与CADD不但存在演进的关系,在相当一段时间内也会处于共生共用的状态。
算法在演进、迭代,数据规模也在不断暴涨,而且随着它们遍及和深入药物研发的每一个环节,算力也成为CADD与AIDD共同的核心需求,且要面对需迅速进化并覆盖端到端或全链路的考验。作为算力芯片及平台的提供商,英特尔正在凭借更强的通用计算性能与兼顾AI推理加速的至强
®
平台,为相关企业与机构提供或基于公有云、或面向私有化部署环境的端到端算力解决方案,以求为CADD与AIDD融合的药物研发与设计流程提供更实用、更好用也更易用的支持。
解析:
CADD
与
AIDD
如何在药物发现与设计
中发挥作用
如图一所示,现代药物研发的流程,简而言之为:
•
首先要通过医学、生物学和药理学等领域的研究,对潜在的药物作用靶点进行识别;
•
再借助计算或实验方法,发现并筛选出能与靶点相互作用的药物分子并进行药物设计;
•
再经过药效学、药代动力学以及安全性等方面的临床前研究后, 进入临床试验并最终审核上市。
图一 药物研发基本流程
基于对药物疗效和安全性的考量,这个全流程往往涉及海量计算、实验、临床试验以及其它优化迭代过程,并因此在各方面都促生了非常严苛的挑战,包括:
•
高昂的研发成本:
从早期研究到最终市场推广,新药研发成本往往数以十亿计,药物研发企业承压巨大;
•
漫长的研发周期:
新药从研究疾病的发生发展机理起直至患者使用,平均周期在十年以上,让很多患者“望穿秋水”;
•
不确定的临床成功率:
复杂的药物作用机制和不能完全预知的临床试验结果,使临床成功率徘徊在低位。
这些挑战,其实已是CADD得到普遍应用并初步加速了制药行业效率及降低其成本之后的结果。CADD是以量子力学和分子生物学为基础,借助基于计算机的分子图形学、分子建模技术与虚拟高通量筛选等关键技术,来了解、模拟和预测药物与靶标分子之间的作用,并筛选、设计和优化药物所需的化合物。它经过近半世纪的发展,相较更加传统的依靠直觉与反复实验的制药研发流程而言已进步巨大,但与崛起和应用速度更快的AIDD相比,其对专业人员与传统实验手段还较为依赖,主要是辅助专家的工作,智能化程度不足,也缺乏自主学习与进化的能力。
可以说,AIDD的优势,几乎都是面向CADD有的放矢的补成,它不但可用于新药研发的各个环节,包括靶点识别、药物分子筛选及ADMET(吸收、分布、代谢、排泄和毒性)预测、晶型预测等,更可以开辟新赛道,如实验室自动化测试等。相较于CADD,AIDD具备更智能、可自主演进与高度自主推进工作的特点,这也让大幅提升新药研发的各个环节效率与结果精度,并显著降低计算与实验成本成为可能。新药研发的用时更短、成本更低,就意味着这项工作
能以更高的并行度及更快的速度推进,进而能更有效地应对药物研发成功率过低的终极难题,不仅能为病患带来福祉,也能让相关的企业与机构获得可观的经济收益或投资回报。
举例来说,AIDD带来的收益在药物分子筛选、药物设计等环节尤为明显。有药物研发企业通过实践验证,
将AI方法引入药物分子筛选流程后,能更快地在大型化合物数据库中快速识别出有潜力的候选分子,提升筛选效率。
这些AI方法与其创新的多层次、虚实结合的药物分子发现流程相融合,
被证实能有效减少流程迭代的次数,降低合成与测试的成本,加快研发速度。
同时,融合了科学计算与AI优势的AlphaFold,也能对蛋白质三维结构进行高效预测,可在靶点识别、药物优化设计等环节中起到重要作用。
方案:英特尔如何为
CADD
与
AIDD
全流程提
供算力支持
如前文所述,不论是现阶段主打科学计算应用的CADD,还是新兴的AIDD,对于算力的渴求都在与日俱增。再考虑到新药研发各环节的计算特点,它们对算力的需求还有周期性强、峰值需求量高等特点。虽然目前科学计算与AI都开始出现通用计算平台与专用加速芯片并行演进的局面,但应用历程更久的CPU平台相比专用加速芯片,不仅有部署和应用基础更为广泛的特点,还在总拥有成本(TCO)、性价比、易用性和易获取方面有更强的优势,能帮助更多用户缓解算力紧张的局面,从而能切实作用于新药研发的加速。
基于此,英特尔与众多生态系统合作伙伴及药物研发机构携手,通过不断的协作与探索,打造了一套基于通用算力也能卓有成效加速CADD及AIDD任务的方案组合。
1、
基于第五代英特尔
®
至强
®
可扩展处理器加速基因组分析
基因组分析与整个药物的发现与设计,特别是靶点识别密切相关,可以说是其前置的环节,也是生命科学与药物研发所共同关注的领域及基础。从这一源头开始加速,也意味着后续全程效率的提升。
英特尔在这方面的投入已经有多年历史,主要伙伴为隶属于美国麻省理工学院和哈佛大学的博德研究所,双方合作的成果聚焦于“基因组分析工具包”,即GATK(Genomics Analytics Toolkit)。这一工具包现已在全球基因组研究与分析项目中得到了比较广泛的应用,而英特尔的参与则为其
性能、成本、部署、应用
等方面提供了持续且颇具价值的优化支持。
英特尔针对GATK最新的优化是围绕2023年末发布的第五代至强
®
可扩展处理器展开,目标是让该工具包能充分利用该处理器微架构上的提升,如相比前一代产品1.5倍的内核数量、更高的主频(2.3GHz对比2.0GHz)、更强的内存子系统(5,600MT/s对比 4,800MT/s)以及更大的末级缓存容量,并进一步释放其专攻科学计算加速的指令集——英特尔
®
高级矢量扩展512(英特尔
®
AVX-512)带来的性能增益。
优化的结果令人满意,如图2所示,GATK在这款全新且主流的英特尔CPU平台上,
实现了比上一代平台高出61%的吞吐量,
或具体来说为每天每节点高达14.81个WGS样本。
而与更早之前的数代至强
®
平台(最早至2018年的第一代至强
®
可扩展处理器) 相比,升级到第五代至强
®
可扩展处理器后,每节点每天能处理的WGS样本数量可增至其三倍以上(见图三)。
图二 GATK在第四代与第五代至强
®
可扩展平台上的性能比较
图三 至强
®
平台的持续革新为GATK带来持续的性能优化
如欲了解该方案更多详情,请访问:
https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/accelerate-genomicsanalytics-with-5th-gen-xeon.html
2、基于英特尔
®
架构的AlphaFold2解决方案
在药物分子发现与筛选环节引入AI,当属目前AIDD中最引人瞩目的应用切口。这一环节简言之,就是针对给定的靶点,找到满足各种药物性质 (包括活性、选择性、安全性等多种目标性质) 的分子的过程。传统上,研究人员需要从海量的化合物数据库中筛选出具有潜在活性的化合物,并采用多次的设计 - 合成 - 测试 - 分析的循环迭代来找到满足要求的候选分子。这个过程一方面需要使用高通量筛选技术,涉及巨大的高通量计算过程,同时各种药物性质也需要通过实验室测试来验证,需要付出巨大的计算成本以及人力、物料和时间成本。
AI或AI for Science的力量,则可帮助相关的企业或机构构建全新的、更高效的药物分子发现与筛选流程。
以AlphaFold2的应用为例——在发现与筛选治疗某些疾病的候选药物分子时,研究人员可借助AlphaFold2对疾病相关的蛋白质进行结构预测,并通过对结构的分析找到候选药物与蛋白质相互作用的关键点,由此实现更为有效的药物筛选。
英特尔对AlphaFold2提供算力支持与优化,最初成果见于第三代至强
®
可扩展处理器时,并于第四代至强
®
可扩展处理器发布后得到进一步提升,特别是充分利用了这一代产品内置的AI加速技术——英特尔
®
高级矩阵扩展(英特尔
®
AMX)的助力,以及至强
®
CPU Max所集成的高带宽内存的增益。这些优势的组合不仅能有效应对AlphaFold2带来的高通量计算与推理压力,还能
有效缓解其推理任务中大张量运算造成的高内存容量需求,从而能实现对更长蛋白质序列的预测,并以更高内存带宽实现显著的访存通量提升,以降低整体推理时长。
英特尔目前已经基于第四代至强
®
可扩展处理器、至强
®
CPU Max系列处理器,以及一系列软硬协作的优化方法形成了完整、 易获取的基于英特尔
®
架构的AlphaFold2解决方案。经过测试,如图四所示,该方案(测试组)的端到端处理性能与基于第三代至强
®
可扩展处理器并未经优化的方案(对比组1)相比,可实现高达33.97倍的通量提升。在另一项基于某公有云服务的测试中,这一方案不但在性能上获得了远优于某高端GPU平台的表现,也同时优于由CPU与GPU混合构建的方案。且该方案的用途还不仅限于预测单个蛋白质三维结构的 AlphaFold2 Monomer,亦可为能对多个蛋白质分子之间相互作用及所形成的复合体结构进行预测的AlphaFold2 Multimer提供同样的优化支持。
图四AlphaFold2在至强
®
平台上优化后的性能提升非常显著
如欲了解该方案更多优化与测试细节,请访问:
https://www. intel.cn/content/www/cn/zh/customer-spotlight/cases/architecture-based-alphafold2-solution.html
3、
基于至强
®
平台与英特尔科学计算软件优化工具加速
药物晶型预测
药物的前期设计与发现阶段结束后,走到成药阶段时还会面临不少挑战,晶型预测就算是其中的关键一环。它主要是基于计算化学,主要用于寻找和评估药物化合物的晶型结构,这种结构的优化,非常有助于提升药物的
功效、安全性、制造工艺
和
IP的保护
。晶型预测的应用,从计算的角度来说更偏重科学计算,这类应用如前文所述,非常倚重通用计算平台,如英特尔
®
至强
®
平台,并侧重发挥其内置的专用加速指令集,如AVX-512的潜能。
从这两个基本点出发,英特尔与制药行业的领先企业开展了广泛的合作。例如某药物研发企业基于C++开发的晶体结构预测类应用就在至强
®
平台上实现了软硬协同的优化。该应用主要用在
比较候选药物的多重多态性,以确定该候选药是适合制药的优异多态性,进而提升研发效率和药物开发的可行性,最终可缩短药物的开发周期。
英特尔与该企业对这一应用实施的优化,主要包括使用英特尔
®
oneAPI DPC++和C++编译器、英特尔
®
oneMKL函数库、英特尔
®
集成性能原语与英特尔
®
VTune
™
Profiler等工具,通过指令集优化(面向 AVX-512)和函数替换等优化操作,来显著提升该应用的性能,并进而提升相关药物的研发效率以及研发项目的投资回报率。
最终的优化结果让双方都感到满意,如图五所示,在低难度(LC)、中难度(MC)、高难度(HC)和极高难度(EC)四个用例的测试中,多种工具优化效果在至强
®
平台上累加,最高可以换来2.32倍的性能提升。这意味着该企业在晶型预测方面的时间和核心成本均大幅降低,这对药物研发的经济性和效率至关重要。
图五 至强
®
平台+英特尔科学计算软件优化工具加速晶型预测应用
如欲了解该应用更多优化与测试细节,请访问:
https://www. intel.cn/content/www/cn/zh/developer/articles/case-study/ accelerating-xtalpis-drug-discovery-application.html
以上三个方案或应用的优化与加速,只是英特尔为CADD或AIDD全流程提供端到端强算力支持的三段剪影,有针对更多应用焦点的产业协作与优化正在进行中。而且行业已经普遍认可了英特尔在其中做出的技术贡献,最明显的例子就是即便是行业内领先的AIDD企业,目前使用CPU的量级也依然以十万计,或年度使用CPU核时为过亿小时,而GPU用量则为千卡级别,或GPU卡时仅以百万小时计。
针对未来AIDD会在药物设计与研发中有更为广泛和深度应用这一预判,英特尔为其全流程提供的算力支持也会进一步扩展,包括:
• 从CPU到完整产品组合的扩展,
为制药行业AI应用提供的算力产品将不仅仅包括主打通用算力、兼顾AI推理加速的至强
®
处理器,还会囊括专门为AI训练、微调/优化及推理加速的Gaudi深度学习加速器芯片与GPU等产品,这些产品将与英特尔统一、易用的软件工具套件搭配,不仅能带来应用性能的加速,还会提供应用代码更便捷、高效的迁移与优化;
• 从产业前段到后段的扩展,
与此前专注于药物研发与制造不同,
未来AIDD的触手,还将向更偏后段的药物监管、科学探索及行业实践环节扩展,力争用AI及RWD(真实世界)等全新技术来优化其效率和质量。
为此,英特尔已经在积极响应中国相关产学研核心机构的需求与号召,包括参与和支持“AI+RWD医药监管科学专委会”的工作,以共同推进相关项目及研究的进程;
• 从云与数据中心到边缘的扩展,
此举将主要锁定智能自动化实验室这一全新出现的应用场景。现在很多医药研发机构与企业都在开展这类实验室的构建工作,来自动化、高效率地完成更多实验工作,并从中采集大量宝贵的一手数据。这类实验设施配套的边缘IT基础设施往往需要具备强大的数据处理与AI加速能力来作为其辅助,而且这种实验室也很容易从医药行业,复制到先进材料、新能源、智能制造等其他高精尖领域中去,进而为这些领域也带来类似AIDD式的创新范式变革。
以上述扩展为新的目标点,英特尔将依托在广泛的IT平台部署基础、高效稳定的技术架构以及丰富且友好的生态环境上的优势,持续以算力及应用的革新来加速CADD与AIDD的技术与应用演进,为人们的健康与福祉效全力。
更多与
英特尔为生命科学与制药创新提供端到端强算力支持
的内容,
欢迎点击“
阅读原文
”了解
英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。
英特尔技术特性和优势取决于系统配置,并可能需要支持的硬件、软件或服务得以激活。产品性能会基于系统配置有所变化。没有任何产品或组件是绝对安全的。更多信息请从原始设备制造商或零售商处获
得,或请见intel.com。
没有任何产品或组件是绝对安全的。
描述的成本降低情景均旨在在特定情况和配置中举例说明特定英特尔产品如何影响未来成本并提供成本节约。情况均不同。英特尔不保证任何成本或成本降低。
英特尔技术可能需要支持的硬件、软件或服务得以激活。请从原始设备制造商或零售商处获得更多信息。
英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。
©英特尔公司版权所有
想看更多“芯”资讯
用你的
赞
和
在看
告诉我们~
英特尔® 至强® 6 助力H3C UIS超融合方案节能增效
金证采用至强® CPU Max 处理器加速K-GPT大模型推理