This article is available in Chinese only. View Chinese version →
导语:当模型不再是壁垒,什么才是?
2026年4月,美国顶级风投 Bessemer Venture Partners(BVP)发布了一篇在生物医药投资圈引发强烈共鸣的文章——《Building Biology-Native Data Infrastructure for the AI Era》。
文章的核心判断堪称一针见血:随着算力成本持续下降、模型能力逐步商品化,AI制药的竞争焦点正在从"谁的模型更强"转向"谁的数据底座更厚"。 BVP将这种能力命名为"biology-native data infrastructure(生物原生数据基础设施)",并提出了一个三层框架。
这个判断的适用范围远不止制药。从AI辅助靶点发现到长寿科技中的衰老量化评估,从精准医疗到真实世界证据,整个生物医学领域都面临同一个底层问题:AI模型的上限,取决于喂给它的数据质量。
Q&A:BVP 这篇文章为什么值得关注?
Q&A:这篇文章和之前那些"AI制药"报告有什么不同?
过去几年,关于AI制药的讨论几乎都围绕模型展开——谁的蛋白结构预测更准,谁的分子生成更快,谁的基础模型参数更大。BVP这篇文章的不同之处在于,它把视角拉到了更高处:模型会商品化,算力会降价,最终真正稀缺的、不可替代的,是贴近真实生物过程、保留足够上下文、能被机器持续学习的"生物原生数据"。 这不是技术路线之争,而是对整个行业竞争范式的重新定义。
Q&A:这对长寿科技意味着什么?
长寿科技与AI制药共享同一套底层逻辑——都需要从高维、异构、强上下文依赖的生物数据中提取信号。甚至可以说,长寿科技比传统制药更需要"生物原生数据基础设施"。原因很简单:制药面对的是单一疾病靶点,而长寿科技面对的是整个衰老过程的系统性描述。你无法优化你无法衡量的东西。在衰老的度量问题没有解决之前,任何"AI抗衰老"的叙事都缺乏根基。
一、BVP 的核心诊断:瓶颈不在算法,在数据
BVP 的文章提出了一个尖锐但准确的判断:今天AI制药的核心瓶颈,从来不是"算法入口",而是"数据底座"。
这并非行业第一次意识到数据问题,但BVP第一次系统性地阐述了"为什么生物数据与互联网数据根本不是同一类问题"。文章指出了五个核心特征:
- 高度异构:化学、组学、病理、影像、毒理、药代、动物、临床数据彼此割裂,存在于完全不同的系统和格式中
- 强上下文依赖:同一个检测指标,换了实验方法、细胞系、剂量、时间点,含义就可能完全不同
- 高价值标签极度稀缺:安全性、转化性、患者响应这类真正决定成败的标签,获取成本极高
- 负数据大量沉没:失败实验、过程数据很少被系统记录,模型只能看到"被整理过的成功样本"
- 强监管要求:AI不能只追求"有效",还必须"可信、可解释、可追溯"
BVP文中有一句话特别精准:"药物开发真正的限制因素,从来不是缺少假设,而是缺少高效评估这些假设的资源。"
把这句话延伸到长寿科技领域同样成立:我们不缺衰老机制假说,不缺干预靶点清单,不缺AI demo。真正缺的是——能不能用更高质量的数据判断一个干预是否真的逆转了衰老?能不能让模型从真实人体反馈中持续学习?
二、BVP 三层框架:AI将如何重塑生物医学的数据底座
BVP将未来AI+Biotech的数据基础设施归纳为三层。这不是三块孤立市场,而是一个相互支撑的完整技术栈:
第一层:Biology-native Data Collection(生物原生数据采集)
核心问题:高价值数据从哪里来?
BVP指出,这一层最容易被低估。很多人默认AI制药公司的核心资产是模型,但如果认真审视,会发现第一层很多最重要的公司,本质上是新型数据生产公司。它们在做的不是"用AI分析已有数据",而是主动创造过去行业里几乎不存在、或质量远远不够的数据。
这一层可以细分为:
- 患者级多模态数据平台(如 Owkin、Pathos、Noetik):将病理、组学、影像、临床和纵向结局做 patient-level 对齐
- 新型检测和筛选平台(如 Recursion、Isomorphic Labs、Generate:Biomedicines):产生前所未有的高质量功能数据
- 功能基因组学/CRISPR 筛选平台:系统性解析基因功能与药物响应的关系
第二层:Agentic AI across R&D Workflows(贯穿研发流程的智能体AI)
核心问题:知识与决策如何在全流程中流动?
BVP强调,未来的AI不会只是一个"分析工具",而是一个贯穿研发全流程的"智能体"(Agent)。它能够自主提出假设、设计实验、解读结果、更新认知——形成从数据到决策的闭环。
这一层的关键不是单个模型有多强,而是AI能否嵌入研发工作流的每一个环节,将数据采集、假设生成、实验设计、结果解读串联起来。BVP特别指出,传统的"数据湖"模式——把所有数据丢进一个大池子,再让数据科学家来清洗——已经走到尽头。未来的方向是"数据产品化":让数据在被采集的那一刻就具备结构化、可查询、可学习的能力。
第三层:Closed Loop Lab Automation(闭环实验室自动化)
核心问题:实验如何被执行、记录、回传并形成学习闭环?
这一层解决的是"最后一公里"问题:AI生成的预测和假设,必须通过自动化实验快速验证,验证结果又必须以结构化数据的形式回传给模型,形成真正的"设计-构建-测试-学习"(DBTL)闭环。
没有这一层,AI永远停留在"静态预测"阶段,无法从实验反馈中进化。BVP认为,那些能够将第一层的数据生产能力与第三层的闭环验证能力连接起来的公司,将成为下一个十年的赢家。
三、三层框架的行业映射:AI将引发哪些连锁变革
BVP的三层框架虽然聚焦于AI制药,但其逻辑适用于整个生物医学的AI化进程。让我们看看这个框架在不同领域的映射:
AI制药:从"分子生成"到"数据闭环"
当前AI制药最热的方向——蛋白质结构预测、分子生成、虚拟筛选——本质上都是"第二层"的工作。BVP提醒行业:如果第一层的数据质量不够、第三层的验证闭环没有打通,第二层的模型再强也只是"在噪声上拟合曲线"。
真正的变革方向是:将高质量的功能数据生产(第一层)与自动化的实验验证(第三层)连接起来,让AI在闭环中持续进化。
长寿科技:最需要"数据底座"却被最严重低估的领域
长寿科技的特殊性在于:它面对的不是单一疾病,而是整个生物体的系统性退化过程。这意味着:
- 数据维度更复杂:需要同时覆盖基因组、表观基因组、蛋白质组、代谢组、微生物组等多个层次
- 时间跨度更长:衰老是一个跨越数十年的过程,纵向数据的稀缺性远超药物研发
- 终点定义更模糊:与"肿瘤缩小"或"血压降低"不同,"衰老逆转"本身就没有公认的量化标准
在这样的背景下,DNA甲基化因为具备几个独特属性而受到关注:
- 天然携带上下文:表观遗传标记本身就是个体生命历程中环境信号的积分,而非某一时间点的快照
- 高内涵:一次检测可以同时输出衰老标志、器官年龄、免疫功能等多个维度的信息
- 可标准化:唾液采样无需冷链、居家可完成,检测流程已高度工业化
- 与结局关联:表观遗传时钟与生物年龄和死亡风险直接相关
- 可逆可追踪:可以作为干预-响应的动态监测工具
这些特性使得DNA甲基化成为长寿科技领域少数几个具备"biology-native data"潜力的数据类型之一。
精准医疗:从"基因组测序"到"表观功能画像"
精准医疗第一波浪潮的核心是基因组测序。但基因组是"出厂设置",在出生后基本不变。真正的精准——知道一个人当前的功能状态、对特定干预的响应模式——需要的是动态的、可读写的生物标记。
这正是表观遗传数据的用武之地。如果说基因组告诉你"出厂配置是什么",表观遗传则告诉你"这台机器当前运转在什么状态"。
四、谁在做这件事?行业图谱初现
BVP的文章不仅提出了框架,还隐含了一张行业图谱。结合公开信息,我们可以看到不同层次已经出现了代表性的公司:
第一层(数据生产):
- Recursion Pharmaceuticals:通过高通量细胞成像产生前所未有的生物数据
- Owkin:将病理、组学与临床结局做 patient-level 对齐
- Isomorphic Labs(DeepMind旗下):利用AlphaFold能力产生新型蛋白质结构数据
第二层(智能体AI):
- Insitro:将机器学习嵌入从靶点发现到临床试验设计的全流程
- Genesis Therapeutics:用图神经网络贯穿分子设计和优化流程
第三层(闭环自动化):
- Emerald Cloud Lab:全自动化远程实验室
- Strateos:实验室自动化与数据回传平台
在中国市场,也有一些团队在相关方向上布局。例如在长寿科技领域,有团队正在尝试以DNA甲基化为数据载体,构建从无创采样、AI解析到干预匹配的闭环系统——这与BVP描述的三层框架有高度契合性。值得注意的是,这类探索目前大多处于早期阶段,距离形成规模化数据基础设施还有相当长的路。
五、启发:一场关于"度量"的竞赛
BVP这篇文章最大的价值,不在于它提出了一个新框架,而在于它精准地指出了一场正在发生的范式转移:AI+Biotech的竞争,正在从"谁的算法更强"转向"谁的数据底座更厚"。
这对整个行业的启示是多层面的:
对于AI制药公司:如果你只是一个"模型公司"——用公共数据训练模型、向药企卖预测服务——你的护城河正在被迅速填平。真正的壁垒在于你是否掌握了独有的、高质量的功能数据,以及你是否建立了让AI从实验反馈中持续学习的闭环。
对于长寿科技公司:这个行业最大的瓶颈不是干预手段不够多,而是缺乏可靠的度量体系。你无法优化你无法衡量的东西。在衰老的量化问题没有解决之前,任何"AI抗衰老"的叙事都缺乏根基。从DNA甲基化到多组学整合,从表观遗传时钟到功能画像——谁能率先建立可靠的衰老度量标准,谁就掌握了长寿科技的话语权。
对于投资者:BVP的三层框架提供了一个比"AI+Biotech"更精细的投资视角。与其问"这家公司的模型有多强",不如问:它是否在第一层拥有独有的数据生产能力?它是否在第三层拥有闭环验证的基础设施?它是否在第二层将两者有效地连接了起来?
对于整个行业:当模型和算力逐渐商品化,真正的差异化将来自数据。这不是一个技术口号,而是一个深刻的范式变化——它意味着未来的生物医学竞争,将不仅是"谁的假设更好"的竞争,更是"谁能更高效地评估假设"的竞争。
BVP文中有一句话值得所有人反复琢磨:"药物开发真正的限制因素,从来不是缺少假设,而是缺少高效评估这些假设的资源。" 把"药物开发"替换为"长寿科技"或"精准医疗",这句话同样成立。
这或许就是AI+Biotech的终局:不是AI替代人类做研究,而是AI帮助人类以前所未有的速度和精度,从数据中提取生物学真相。而这一切的前提,是先建好那个数据底座。