在过去几年里,AI 技术经历了爆发式的增长,它正以极快的速度影响各行各业。然而,这场技术浪潮并未平等地惠及每一个人。
正如经济学中的“马太效应”所揭示的那样,最顶尖的算法、最充沛的算力,自然而然地流向了回报最为丰厚的领域——金融交易、精准广告,以及服务于富裕人群的高端医疗市场。技术资源的高度集中,似乎注定只为少数人的利益服务。
可这并不应该是关于 AI 的唯一叙事。
对于西班牙非营利组织 Ersilia 开源倡议(Ersilia Open-Source Initiative)而言,AI 不是让富者更富的特权工具,它本可以社会带去更多公平与希望。
当前世界依然面临着各地区之间发展水平不均衡的重大难题,医疗领域尤甚。以非洲为例,它是全球热带疾病和如疟疾、结核病等传染病负担最沉重的地区。这些疾病每年导致数百万人死亡,但由于患者群体缺乏支付能力,大型药企并不打算为这些疾病研发对应药物。
图 | 非洲疟疾分布图(来源:CDC Yellow Book)
Ersilia,这群由数据科学家和生物医学专家组成的团队,希望填补这项空白。他们正在将 AI 算法带入非洲的实验室——团队选择与南非开普敦大学的整体药物发现与开发中心(Holistic Drug Discovery and Development Centre,简称 H3D)合作。试图推动非洲地区拿回自己的科技主权。
2023 年,双方在 Nature Communications 上共同发表了一项论文成果,证明了即使在计算资源匮乏的环境下,开源 AI 也能显著加速新药的研发。
(来源:Nature Communications)
被遗忘的角落与昂贵的门槛
药物研发是一个漫长且极其昂贵的过程。根据行业统计,研发一款新药从实验室到上市平均耗时 10 年,中位数成本高达 13 亿美元。这种高昂的投入产出比决定了大型制药公司的商业逻辑:优先开发针对高收入国家常见病的药物,因为那里的市场足以覆盖成本。
相比之下,主要在低中收入国家流行的传染病,如疟疾和结核病,往往难以获得足够的商业研发资金。
数据显示,非洲承担了全球 95% 以上的疟疾病例和 25% 的结核病死亡人数,但在很长一段时间里,针对这些疾病的药物研发主要由全球北方国家的机构主导。非洲本土的科学家虽然拥有第一手的临床数据,却受限于资金和技术设施,难以主导研发进程。
Ersilia 的联合创始人米克尔·杜兰-弗里戈拉(Miquel Duran-Frigola)博士敏锐地察觉到了这一断层。他意识到,仅仅依靠传统的援助模式无法解决根本问题。许多非洲的研究机构虽然拥有优秀的化学家和生物学家,但缺乏运行大规模 AI 模型所需的高性能计算集群(HPC)和资深的数据科学团队。
图 | Ersilia 创始人 Miquel Duran-Frigola(左)和 Gemma Turon(右)(来源: Linkedin)
“在某个时刻,我意识到需要通过一种灵活的组织形式,去往不同的国家和机构,识别他们的数据科学需求——这些需求往往是非常迫切却缺乏支持的——然后为他们开发合适的数据科学工具,”杜兰-弗里戈拉表示。正是基于这一理念,Ersilia 被创立出来,其核心使命非常明确:通过开源模式,将 AI 工具平民化,使其能够运行在普通的硬件上。
让 AI 在老旧笔记本上运行
Ersilia 带来的技术突破,并非在于构建参数量惊人的超级模型,而在于“适配”。
在欧美顶尖实验室,药物筛选往往依赖昂贵的图形处理器(GPU)集群来处理海量数据。但在 Ersilia 的目标应用场景中,科学家们手中的设备可能只是一台普通的笔记本电脑,甚至面临网络不稳定的困扰。因此,Ersilia 开发了一套名为 ZairaChem 的自动化建模工具。
这套工具的设计初衷是“低资源消耗”。它被优化为可以在仅有中央处理器(CPU)的计算机上运行,而不需要专门的 GPU 加速。通过这套工具,Ersilia 与 H3D 合作,利用 H3D 过去十年积累的内部数据,训练出了 15 个针对疟疾和结核病的预测模型。
这些模型构成了所谓的“虚拟筛选级联”(Virtual Screening Cascade)。在传统的药物发现流程中,研究人员需要合成大量化合物并进行实体实验(Wet Lab),这既费钱又费时。而引入 AI 后,研究人员可以在计算机上进行“计算机模拟”(in silico)实验。在化合物被真正合成之前,AI 就能预测其是否具有药用活性,或者是否具有潜在的毒性。
双方发表在 Nature Communications 上的论文,详细描述了这一流程的实际效果。这是非洲大陆首次利用完全基于本土数据构建的虚拟筛选级联,成功从现有的药物发现数据库中挖掘并预测了新的具有药用活性的化合物。对于 H3D 这样的机构来说,这意味着他们可以大幅减少无效的实验,将宝贵的资金集中在最有希望的候选药物上。
用 GitHub 构建“自助式”研发平台
拥有模型只是第一步,如何让不懂编程的生物学家也能轻松使用这些模型,是 Ersilia 面临的另一个挑战。为此,Ersilia 的工程师们与GitHub 进行了技术合作。
通常,GitHub 是程序员用来管理代码版本的工具。但在 Ersilia 的架构中,GitHub 被改造成了一个免费的云计算后端。他们利用 GitHub Actions(一种通常用于自动化软件测试的功能)和 Docker 容器技术,构建了一个“自助式”的运行流程。
Ersilia 的联合创始人杰玛·图隆(Gemma Turon)博士和团队设计了一套“IssueOps”工作流。其操作逻辑非常简单:
研究人员不需要在本地安装复杂的 Python 环境或机器学习库,他们只需要登录 Ersilia 的 GitHub 模型中心(Ersilia Model Hub),提交一个“Issue”(问题单)。在这个表单中,研究人员填写他们想要测试的化合物分子式(通常使用 SMILES 格式)。
一旦表单提交,后台的 GitHub Actions 就会自动触发。系统会拉取相应的 Docker 镜像——这些镜像里封装了已经训练好的 AI 模型——然后在 GitHub 的云端服务器上运行预测。几分钟后,预测结果会以 CSV 文件的形式生成,并自动回复在那个“问题单”里供研究人员下载。
GitHub 的客户成功架构师珍娜·马萨尔多(Jenna Massardo)帮助实现了这一流程。她指出,这种利用现有基础设施的做法避免了过度开发,“用户不需要担心任何技术细节,他们只需提交请求,Ersilia 的工作流就会处理一切。”
图 | Ersilia 在 GitHub 的项目页面(来源:GitHub)
这种模式不仅免费利用了公共计算资源,更重要的是极大地降低了使用门槛。一位在喀麦隆研究抗生素耐药性的生物学家,无需学习任何代码,就能像填表一样使用在南非训练好的结核病模型,或者使用由加拿大麦克马斯特大学贡献的抗生素模型。
打破学科与地域的孤岛
Ersilia 的这些努力正在改变非洲药物研发的生态。
H3D 中心主任凯利·奇巴莱(Kelly Chibale)教授认为,这项工作不仅是技术的引入,更是学科融合的典范。
(来源:H3D 官网)
“计算机科学和制药科学长期以来一直是各自为战的孤岛,”奇巴莱教授说,“AI 可以将它们结合在一起。”在非洲,计算机科学是一个蓬勃发展的领域,拥有大量年轻的人才。Ersilia 的项目为这些数据科学家提供了一个切入点,让他们看到自己的代码可以直接应用于健康科学,解决实际的医疗问题。
通过 Ersilia 模型中心,目前已有约 150 个模型被公开托管。这些模型绝大多数来自科学文献或合作机构的贡献。例如,为了确保模型的准确性和更新速度,Ersilia 建立了一套自动化抓取机制,每天更新可用模型列表。任何科学家都可以申请将自己的模型纳入这个中心,只需提供输入输出模式、开源许可和相关的论文链接。
这种去中心化的协作模式,正在构建一种新的“数字公共产品”(Digital Public Goods)。联合国已经将 Ersilia 认定为数字公共产品,这意味着它是开源的、可免费获取的,并旨在解决可持续发展目标中的关键挑战。
目前 Ersilia 的足迹已经超越了南非。
他们正在与喀麦隆布埃亚大学(University of Buea)的药物发现中心合作。该中心由比尔及梅琳达·盖茨基金会资助成立,旨在从传统草药中发现新药。虽然该中心成立时间不长,资源有限,但通过 Ersilia 的工具,他们可以直接利用全球最先进的预测模型来筛选天然产物,这在过去是不可想象的。
图 | Ersilia 与喀麦隆布埃亚大学合作项目(来源:Ersilia 官网)
此外,团队“低能耗、高影响”的技术路径,也赢得了全球科技创新领域的认可。Ersilia Open Source Initiative 成功入选了 MIT Solve 的“解决者”(Solver)团队,这是由麻省理工学院(MIT)发起的一项全球性社会创新挑战赛事。
不同于传统的学术资助,MIT Solve 更像是一个连接技术理想主义与现实资源的孵化器。该项目每年向全球征集应对经济繁荣、健康、学习和气候等领域棘手问题的技术方案。入选不仅仅意味着获得一笔资金,更关键的是进入了一个由全球慈善家、商业领袖和技术专家组成的生态系统。
对于像 Ersilia 这样的小型非营利组织而言,这种支持至关重要。
技术背后的理性与克制
尽管 AI 展现了巨大的潜力,但 Ersilia 团队在推广技术时保持了极大的理性与克制。杜兰-弗里戈拉博士反复强调,模型输出的结果只是一个“指示”,而非“确认”。
为了防止误导研究人员,Ersilia 在模型中嵌入了验证代码。当用户输入数据时,系统首先会检查数据的有效性。同时,团队正在致力于开发置信度指标,以便在给出预测结果时,明确告知用户这个结果的可信度有多少。
“目前,Ersilia 的重点是信息和工具的传播,”杜兰-弗里戈拉表示,
“未来,我们希望通过更大的用户群,汇总大家正在测试的分子数据。”这种聚合效应将产生巨大的价值:研究人员可以从宏观上看到哪些药物分子正在被不同国家的实验室关注,甚至通过数据共享,发现某种老药可能对另一种病菌有效,从而实现药物的“老药新用”,这比从头开发新药要快得多。
威康信托基金会(Wellcome Trust)最近发布的一份关于 AI 在药物发现中潜力的报告,重点引用了 H3D 与 Ersilia 的合作案例。报告指出,要释放 AI 的全部潜力,必须解决中低收入国家的能力差距。
实践证明,解决这一差距并不一定需要昂贵的硬件投资,更重要的是通过开源精神和巧妙的工程设计,让现有的技术变得触手可及。
参考链接:
1.官网:https://www.ersilia.io/
2.GitHub: https://github.com/ersilia-os/ersilia
3.Nature 论文: https://www.nature.com/articles/s41467-023-41512-2
运营/排版:何晨龙