新智元报道 编纂 :Aeneas KingHZ【新智元导读】世界 首个公开可用AI科学家天团,方才 组团出道!FutureHouse公布 了四个AI科学家Agent,科研能力直接超越 o3,文献搜刮已经超过人类博士。就在方才 ,世界 上首个公
![]()
新智元报道 【新智元导读】世界 首个公开可用AI科学家天团,方才 组团出道!FutureHouse公布 了四个AI科学家Agent,科研能力直接超越 o3,文献搜刮已经超过人类博士。就在方才 ,世界 上首个公开可用的AI科学家登场了! ![]() 前谷歌CEO Eric Schmidt投资的一家非营利构造FutureHouse,官宣公布 四个超人类的AI科学家智能体。 通用智能体:Crow(乌鸦) 自动化文献综述智能体:Falcon(猎鹰) 调研智能体:Owl(猫头鹰) 实行智能体:Phoenix(凤凰) ![]() 这些智能体都是专门为科学研究 而开发。 Crow、Falcon和Owl经由过程 了严酷的基准测试,在搜刮精度和正确性上已经超越 了现在顶级搜刮模型,比如o3-mini,GPT-4.5,Claude-3.7。 ![]() LitQA基准测试精度(正确谜底 / 已答复题目)和正确率(正确谜底 / 全体 题目)比较 FutureHouse还经由过程 实行,验证了它们在直接文献搜刮任务中,检索和综合能力比博士水平的研究 职员具有更高的精度。 ![]() 在问答、文章总结和矛盾检测这三个任务中,PaperQA2与人类博士的机能 比较 在将来一两年内,我们将见证:今天科学家所做的年夜 部分桌面工作,都会经由过程 这些AI科学家的帮助而加速! ![]() FutureHouse董事兼CEO Sam Rodriques表现:我们的AI科学家智能体,执行起科学任务来已经完胜人类! 经由过程 把它们串联起来,我们已经很快有了全新的生物学发明 。 ![]() 此次 FutureHouse公布 的AI科学家,跟以往那些AI科学家有什么差别呢? 这重要就表现在,Crow、Falcon和Owl可以访问年夜 量完备的科学文本。 这就意味着,你可以向它们提出关于实行方案和研究 局限性的更具体的题目。 而一样平常的网络搜刮智能体,平日 只能访问择要,这就会错过这些题目。 而且,它们还能使用各种因素来区分来源 质量,确保它们不会依靠低质量的论文,或者是流行的科学来源 。 最后另有一点,也是至关重要的一点,就是FutureHouse会为用户供应 一个API,答应研究 者将这些智能体直接集成到他们的工作流中。 已经有网友摩拳擦掌,表现自己已经在想象使用起这个AI科学家的样子了。 ![]() 有人表现,自己如今已经63岁了,有过12年的学界经验,和25年的私家诊所经验,感觉这些AI科学家非常 适合自己。 ![]() ![]() 固然,也有人提出疑问:这些产品使用的数据经过 答应了吗? ![]() 诚然,现在这些智能体还不能自立 完成年夜 多半 的科学研究 。 不外我们已经可以用它们来生成和评估新的假设,计划 新的实行,速度还比以前快许多。 别的,Future House内部另有专门用于数据剖析 、假设生成、卵白质工程等方面的智能体,将来几个月内即将上线。 ![]() ![]() 所以,AI科学家具体是怎么工作的? FutureHouse的三位科学家,为我们供应 了详尽的解答。 ![]() 据他们先容,FutureHouse的平台,是从科学第一的角度构建的,而不光仅是为了吸引尽大概多的用户。 这三位科学家,自己对于科学就有着非常 浓厚的爱好。 比如左边的Michaela,在过去 十年中,不停对把握 人类细胞基因调控的分子机制非常 好奇;中心的Mike是一位计算质料科学博士。 右边的Andrew表现,当他们共同 建立将来之家时,他们注意到许多临盆 力和科学都不才 降——每年人类发表的论文都越来越多,但冲破 却越来越少。 与此同时,AI却已经进化到了可以真正加速科学发展的水平。 因此,他们盼望能让AI科学家做到自动化科研的全过程,如搜刮文献、生成假设和举行剖析 。 此中,Crow非常 适合文献检索题目,尤其是需要使用开放目的等数据源的题目供应 简洁谜底 的时候。 ![]() Falcon是一个更深度的搜刮工具,会考虑 更多的来源 ,会在答复中为我们供应 长篇陈诉。 ![]() Owl则专注于先例搜刮,假如你好奇某项科研此前是否已经被做过,它的用武之地就来了。而且,它非常 善于梳理出某研究 和过去 研究 的细微差别。 Phoenix则是一名化学药剂师 ,比其他科学家显得更定制化,更关注 化学题目。 ![]() ![]() 比如Michaela表现,自己的朋侪近来 表现自己有多囊卵巢综合征(PCOS),却很难找到一种非激素的治疗办法 。 Michaela就实测了一番,是否能用这些AI科学家从零常识 得到明确的可验证假设。 首先 ,她去问Falcon:请对PCOS举行全面解释。然后,AI科学家就开始 工作了,并且我们可以看到全程的推理过程。 ![]() 可以看到,Falcon创建了自己的搜刮词,去搜寻 已发表的论文,这一切都是它自行决议 的。 ![]() 更特别的是,跟主流的Agent差别,FutureHouse的AI科学家可以访问科学文献的全文。引用次数、引用图表、来自哪些期刊,都一清二楚 。 不才 一步,它抽出了此中的19份论文,同时还纳入了治疗PCOS的临床实行信息。 随后,就产生 了一个非常 辘集 的推理过程,Falcon会找到与所提题目最相关的背景证据。在全体 系统中,这种信息漏斗的功能 极其强年夜 。 ![]() 几位科学家表现,这个AI是现在该范畴机能 最强的信息提取系统之一。 下一步,就该Crow进场了。它被问到一个相称具体的题目:在基因组关联 研究 中,哪些关键基因跟PCOS相关?是否有人做过更清晰的筛选? 果然,Crow发明 了此前的研究 :已经有人在一项功能 基因组学研究 中, 将特定基因表达的增长,与细胞造就中睾酮表达的增长接洽起来。 但这是为什么呢?AI科学家也能找到谜底 。 就这样,我们从对PCOS一窍欠亨 的小白,一会儿 把握了决议 该范畴的一个关键差别,本来 这会泯灭我们年夜 量韶光 去浏览 质料 、与专家交谈的,现在全都省去了。 ![]() 乃至我们还可以点击链接,看到现实的推理轨迹:AI会解释为什么选择这项来源 。 ![]() 对于科学家而言,AI科学家的辅助无疑意义重年夜 。 因为 在生物学或药物计划范畴拥有丰富经验的研究 者,并不会成为工程师,对于诸如抓取论文、设置散布 式数据库、速度 限制这类事都并不善于。 而这,就是FutureHouse平台诞生的意义。 那如何 在提出假设和检验假设这两方面取得盼望呢?这就需要Phoenix进场了。 我们可以向它提问,让它给出三种可以治疗由DENND1A过分表达引起的疾病的新型化合物。(这是基于此前AI科学家给出的调研结果) ![]() 因为 在这个阶段,我们需要找到能治疗PCOS的药物。 我们可以从与卵白质连合的分子开始 ,确保它更易溶解,不会进入肝脏或肾脏,以及没有得到过专利。 在提问中,我们相识到,现在不存在已知的针对该基因的连合剂。这就供应 了一个很好的线索,乃至值得投入资金来举行药物研发。 ![]() 最后,AI科学家给出了一份关于差别候选分子的陈诉,列出了它们已知的连合物,以及为什么大概与调理 DENND1A的表达有关。 这样,它就给出了下一步研究 的起点 ,我们可以直接去实行室中验证了。 ![]() FutureHouse的科学总监/连合首创人Andrew White,在X上回首了过去 一年的研发进程。 ![]() 2024年6月,FutureHouse公布 了Lab-Bench基准测试。 ![]() 2024年9月,FutureHous告成 开发了PaperQA2智能体。 ![]() PaperQA2表示图:与传统的RAG差别,在PaperQA2中LLM决议 将哪些工具运用 于查询。 2024年10月,他们编写了17,000篇关于人类编码基因的维基百科文章,验证了AI科学家的可行性。 2024年12月,他们使用新的框架和练习办法 ,在多个任务上练习智能体——在分子克隆和文献研究 方面超过生物学专家20多个正确率点。 昨天,他们隆重公布 了FutureHouse平台。 ![]() ![]() 与传统智能体相比,FutureHouse智能体的上风非常 独特: 它们不光能够访问海量高质量的免费论文和专业科学工具,而且还能从专业的论文数据库中精准搜刮信息。 它们还能模拟研究 职员,采用多种办法 评估信息来源 的质量。 而且这些智能体的推理过程完全透明,对每个信息来源 都举行了多阶段的深入剖析 。 更重要的是,用户可以清晰地检察全体 推理过程,相识智能体得出结论的每一步根据 。 此外,FutureHouse平台具备精良的扩展性。 科学家个人每每难以掩护 自己的AI智能体摆设,因此FutureHouse不光供应 了网页端接口,还开放了API,便于研究 职员将其集成进现实工作流中。 经由过程 年夜 规模 整合和链接这些智能体,科学家能够年夜 幅提升科学发明 的速度与屈服 。 ![]() 这个平台尤其善于应对以下两类题目: 需要详尽全文文献剖析 的研究 课题,
或需要运用专业化学工具的摸索 任务。 ![]() 具体运用 场景包括: 发掘疾病路径中的未知机制:用户可使用Falcon获取背景常识 ,Crow发掘关键基因关联 ,Owl定位研究 空白 。 这些操作只要几分钟就能完成,而传统的文献调研要花费数周韶光 。 系统梳理文献中的矛盾:用户可使用Falcon剖析 数百篇论文中争议性话题的矛盾证据,精准指出需要进一步实行去澄清的争议点。 深入剖析 实行办法 :因为 智能体可以访问计划全体 的科学论文,用户可具体询问实行办法 或研究 局限性,发掘择要中难以察觉的关键细节。 经由过程 API定制研究 流程:研究 团队使用API构建软件系统,实时监控最新论文,或年夜 规模 搜刮文献,为筛选实行结果供应 全面的背景常识 支持。 探求目的卵白的连合候选物:科学家可指示Phoenix基于现有数据,筛选连合目的卵白的候选物,同时满意溶解度、官能团或新颖性等庞杂 请求 。 ![]() 摸索 化学常识 :Phoenix能判定化合物的新颖性、估算本钱、猜测化学反应结果,乃至比较直接购买 与自行合成化学品的本钱。 |
2025-03-05
2025-03-03
2025-03-05
2025-03-03
2025-02-26