AI智能总结
AI组成的三大要素为:数据、算力和算法。AI制药数据的来源,包括了公开数据集、商业数据集、与药企合作获得的研发数据、企业自身研发积累的数据集、挖掘数据集、实验数据库、物理模拟生成的数据等。算力方面,GPU、云计算资源等基础设施的完善,为AI制药企业提供了重要的计算支撑。算法方面,包括机器学习(Machine Learning,简称ML)、深度学习(Deep Learning,简称DL)等多种类别,在不同的领域中各有优势。 AI制药与传统的制药流程基本上是一致的,通常包括:药物发现、临床前研究、临床研究以及审批与上市四个阶段。其中,药物发现阶段主要涉及靶点发现及验证、先导化合物发现、药物从头设计等。而临床前研究阶段则以晶型预测、化合物验证为主,包括稳定性分析、安全性评价和ADMET分析等。目前,AI主要在药物发现和临床前研究两个阶段发挥作用。 AI生成模型在全新药物设计领域具有巨大的优势,因为它们在生成分子时不需要先验的化学知识。这些模型可以在更广阔的未知化学空间中进行搜索,超越现有分子结构的限制,自动设计新的分子结构。在新药设计中,广泛使用的深度生成模型包括基于循环神经网络(RNN)的生成模型、变分自编码器(VAE)和生成对抗网络(GAN)等。利用生成模型设计分子的过程具有高度的随机性,生成的分子在结构上呈现千变万化,质量也参差不齐。强化学习可以通过微调模型参数进行有针对性的优化,使生成的分子具备特定的药物分子特性。这种结合生成模型和强化学习的方法为全新药物设计提供了新的途径和可能性。 投资建议:AI技术与生物制药开发相结合,可以加速新药的发现和开发。通过整合多种数据类型和AI模型,可以更好地揭示新的生物学机制,预测新的药物靶点,并开发首创或最佳疗法,特别针对复杂疾病。建议关注AI医药行业,给予行业“看好”评级。 风险提示:产品研发进度不及预期风险;竞争加剧风险;政策监管环境变化风险;药物研发服务市场需求下降的风险。 1AI制药行业介绍 1.1AI制药的发展历程 药物发现众所周知是一项昂贵、耗时且成功率低的过程。平均而言,开发一种新药的成本为26亿美元,并可能需要超过10年的时间。此外,从I期临床试验到药物上市的成功率低于10%,令人望而却步。 鉴于以上痛点,制药行业亟需改变传统的研发模式,而AI技术的引入正好为制药行业带来了全新的可能性。AI凭借其强大的计算能力、学习能力和数据处理能力,能够大幅提升药物研发的效率,降低研发成本,并有望提高成功率。 从1981年被《Discovery》杂志首次报道以来,AI应用于制药领域已经有超过40年的历史。纵观AI制药的发展,可以分为3个时期: (1)1956年-1980年,该阶段是AI制药的雏形,许多理论和技术并未完善,仍处在积累当中。 (2)1981年-2011年,计算机辅助药物设计(CADD)蓬勃发展,它大大加快了新药设计的速度,节省了创制新药工作的人力和物力,使药物学家能够以理论为指导,有目的地开发新药。 (3)2012年至今,AI制药快速成长,资本投入加大,新公司相继成立,相关论文、专利、技术等不断突破新高。 图1.AI制药发展历程 1.2市场规模 自2015年以来,人工智能驱动的制药公司投资率显著增长。根据deep pharma intelligence的估计,在过去9年中,对800家公司的年度投资总额增长了27倍,截至2023年8月,总额达到603亿美元。2021年是增长最快的一年,达到136.8亿美元,新冠疫情是这一快速增长的催化剂。然而,由于全球经济衰退等原因,2022年AI在药物研发领域的投资未能延续之前几年的增长势头,2022年的投资总额为102亿美元,相比2021年的136.8亿美元有所下降。 图2.AI在药物研发中的投资动态(单位:十亿美金) 对全球AI药物研发初创公司在不同区域的分布情况进行分析,2023年美国以55.10%的公司占比遥遥领先,说明其在AI技术和药物研发领域的主导地位。 这一优势得益于美国强大的科研基础、丰富的风险资本支持以及先进的生物技术生态系统。欧洲和英国分别占19.90%和9.95%,展现出它们在技术转化和政策支持方面的竞争力,尤其是欧盟的创新计划和英国的工业战略提供了强有力的支撑。 亚洲虽然当前占比相对较低,但中国等国家凭借政策引导和资本投入,正在快速崛起,未来可能在全球分布中占据更大比重。 在融资金额分布中,美国占据了全球AI药物研发融资的绝对领先地位,其风险投资活跃度和市场规模为初创公司提供了坚实的支持。欧洲和英国尽管公司数量较少,但融资金额集中,表明资本主要流向少数具备技术突破或明确商业模式的企业。相比之下,亚洲地区增长速度较快。亚洲市场的快速崛起预示着这一地区将在未来的AI药物研发融资中扮演更重要的角色。 图3.AI药物研发初创公司相关数据 从管线分布情况来看,AI制药目前的增长趋势也非常明显。从2010年至2021年,AI制药公司展示出显著的管线增长趋势,年均增长率达到36%,2018年后的增长尤为明显。这一增长主要集中在药物发现和临床前研究的项目。截至2021年,这些管线包括约160个药物发现和临床前研究项目,以及约15个处于临床开发阶段的项目,相比之下,前20大制药公司在同一时期内的内部管线规模更大,包括约330个药物发现和临床前研究以及约430个处于一期临床研究的项目。尽管2021年以来AI制药公司的管线规模仅相当于前20大制药公司的50%,但AI制药公司的快速增长趋势和专注于早期研发的特点凸显了其技术在制药领域的潜力和未来广阔的发展空间。 图4.2010-2021制药公司管线分布情况 2AI制药的产业链构成与政策 2.1AI制药的产业链构成 AI制药产业链上游涉及算力、算法和数据,主要分两大类:提供AI技术的企业和提供生物技术的企业。提供AI技术的企业中,辅助制药的人工智能硬件设备包括服务器和芯片等。软件包括各类机器学习、深度学习以及其他人工智能算法,还有数据收集和处理平台、开源软件包以及云计算平台等辅助类软件。提供生物技术的企业包括提供CRO服务的企业和提供先进设备的企业。提供CRO服务的企业为提供制药流程中不同阶段辅助服务的传统CRO企业。提供先进设备的企业,则拥有制造冷冻电镜、自动化实验室等设备的高端技术。 AI制药产业链中游是主体部分,主要分为四大类:AI+biotech、AI+CRO、AI+SaaS以及IT头部企业在AI制药产业中的布局。AI+biotech:从药物本身的性质或治疗手段分类,从细分领域看,又可以分为三大类,即小分子药物、大分子药物、细胞和基因编辑疗法。AI+CRO:通过人工智能的辅助,为客户更好地交付先导化合物或者PCC,再由药企进行后续的开发,或者合作推进药物管线。 AI+SaaS:为客户提供AI辅助药物开发平台,通过平台为企业赋能,帮助企业加速研发流程,节省成本与时间。IT头部企业:借助对外投资、打造自有相关平台、提供算力及计算框架服务。 AI制药产业链下游分为传统药企和CRO企业。传统药企主要通过自建团队、对外投资、CRO及技术合作等方式进入AI制药赛道。传统CRO们主要通过风险投资、建立内部算法团队、采用外部AI技术、与AI制药公司进行合作等方式切入该领域。 图5.AI制药产业链分布 2.2AI制药相关政策 尽管AI制药行业发展迅速,但相关的配套政策相对较少。由于AI技术的复杂性和涉及的伦理、法律等问题,政府和监管机构需要时间来理解和评估其潜在影响,以制定相应的政策和法规。美国、欧洲等国家及地区,行业起步较早,经过多年的发展及规划初版的监管政策于近年才推出。 表1.国外AI制药相关政策 近年来,为了促进AI制药行业的发展,探索人工智能在新药研发方面的应用,我国同样陆续发布了许多相关政策。 表2.国内AI制药相关宏观政策 随着国家政策的出台,各省市都紧跟国家政策的方向,因地制宜出台了各地的特色政策。以AI制药产业布局最为密集的上海为例: 表3.上海市AI制药相关政策时间部门 大量政策的集中出台,充分反映了人工智能制药领域的快速发展和广阔前景。这些政策的发布体现了对AI制药技术的高度关注和支持,为行业发展奠定了坚实基础,推动其在医药产业中持续深化应用 3AI制药技术原理 AI组成的三大要素为:数据、算力和算法。 AI制药数据的来源,包括了公开数据集、商业数据集、与药企合作获得的研发数据、企业自身研发积累的数据集、挖掘数据集、实验数据库、物理模拟生成的数据等。 算力方面,GPU、云计算资源等基础设施的完善,为AI制药企业提供了重要的计算支撑。 算法方面,包括机器学习(Machine Learning,简称ML)、深度学习(Deep Learning,简称DL)等多种类别,在不同的领域中各有优势。 图6.人工智能三要素 3.1算力 算力是AI驱动药物研发的重要支撑,其效率和性能直接影响药物筛选、分子模拟和数据分析的速度与准确性。 人工智能中常用的算力有: CPU (Central Processing Unit): CPU是计算机中的中央处理器,负责执行计算机程序的指令和逻辑运算。在人工智能中,CPU常用于处理一般的计算任务和控制计算机系统的运行。 GPU (Graphics Processing Unit): GPU是专门用于图形处理的处理器,它具有高度并行的计算能力。在人工智能中,GPU被广泛应用于深度学习任务,因为深度学习模型中的矩阵运算和神经网络计算可以并行地在GPU上进行,提供了大幅加速计算的能力。 TPU (Tensor Processing Unit): TPU是由谷歌开发的专门用于加速机器学习任务的处理器。TPU针对机器学习任务的需求进行了优化,特别适用于大规模和高效的张量计算,如神经网络的前向和反向传播。 分布式计算:在一些需要处理大规模数据和复杂任务的场景中,人工智能系统可以利用分布式计算资源,将计算任务分配给多个计算节点进行并行处理。分布式计算可以提高计算效率和处理能力,加快训练和推理速度。 云计算:云计算平台提供了弹性和可扩展的计算资源,使用户可以按需获取所需的算力。通过云计算,人工智能开发者可以根据需求动态调整计算资源的规模和配置,以适应不同的任务和工作负载。 图7.CPU、GPU和TPU的特性与用途 3.2数据 在当前的大数据时代,庞大的生物和临床数据为AI在医药研究领域的应用奠定了基础。尽管AI已经在药物研发过程的多个方面取得了成功和有效的应用,但医药数据的数量和质量已成为制约AI在药学中发展的主要阻碍之一。迄今为止,由全球的药物研究人员构建的包含详细和结构化大数据的药物数据库在促进AI在医药研究中的应用方面起着关键作用。 基于公开数据库在药物发现不同阶段的应用和相关性,可将其分为6类:1)全面化学分子库,如Enamine、PubChem和ChEMBL;2)药物/类药化合物库,如DrugBank、AICD和e-Drug3D;3)收集药物靶标,包括基因组学和蛋白组学数据的数据库,如BindingDB、Supertarget和Ligand Expo;4)存储通过筛选、代谢和功效研究获得的生物学数据的数据库,如HMDB、TTD、WOMBAT和PKPB_DB;5)药物毒性数据库,如DrugMatrix、SIDER和LTKB基准数据集; 6)临床数据库,如ClinicalTrials.gov、EORTC和PharmaGKB。 非公开数据主要是各制药公司内部项目积累所得,此类数据的精度高,更适合用来做模型的训练和计算,但由于数据属于医药公司的核心资产,保密性强,极难获得。 3.3算法 与传统的计算机编程计算不同,机器学习和深度学习可以从输入数据中学习潜在的模式,而无需显式编程。它们不受输入数据格式的限制,可以包括文本、图像、声音等各种类型的数据(所有可以进行编码的数据类型)。类似于人类学习模式,ML和DL可以逐渐识别数据的不同特征,推断其中的