查看: 568|回复: 0

5分钟顶人类8小时！OpenAI Deep Research订阅全推送，端到端强化微调是关键 [复制链接]

ttxx

军衔等级：

上尉

注册：2010-4-28 点赞数

10

发表于 2025-3-2 11:43:36 |显示全部楼层

新智元报道

编辑：KingHZ 英智

【新智元导读】最近，OpenAI的研究团队在采访中表示，全新的Deep Research功能，可以为你节省几个小时甚至几天的时间！

Deep Research（深度研究）是继「Operator」之后，OpenAI推出的第二个智能体，利用模型的推理能力，综合分析浩瀚的互联网信息，从而完成复杂的研究任务。

月初，OpenAI首先向ChatGPT Pro用户开放了Deep Research功能。最近，进一步开放给了更多等级的订阅用户。

其中，Plus、Team、教育和企业用户每月10次查询机会，Pro用户每月120次机会。

OpenAI对新功能寄予厚望：

它能在几分钟内完成人类需要数小时才能完成的工作。综合常识的能力是创造新常识的先决条件。因此，深度研究标志着大家在开发AGI（通用人工智能）这一更广泛目标上迈出了重要一步。长期以来，大家一直设想AGI能够进行创新性科学研究。

奥特曼表示：这是他最喜欢的已发布的功能之一。

此次更新，固然给用户带来了新体验，「钱没白花」。

但考虑到每月最多使用10次，新功能显得「鸡肋」：

考虑到同一梯队的竞争对手，不仅类似功能推出的更早，而且免费，OpenAI这次发布，的确算不上出彩。

那这次OpenAI都推出哪些新特性？为什么这次落后竞争对手了呢？

技术报告发布

在X上，OpenAI连发多条消息，先容深度研究相关更新情况。

除更多用户可用之外，本次更新的主要改进为：

在输出中嵌入带引用的图片更好理解和参阅上传的文件

然后，其他改进呢？无。

至于，没什么落后竞争对手，OpenAI给出的说明是为了控制风险，保证安全：

在推出深度研究并将其提供给Pro用户之前，大家进行了严格的安全性测试、准备评估和治理审查。大家还进行了额外的安全性测试，以更好地了解与深度研究浏览网页能力相关的逐步风险，并添加了新的缓解措施。重点工作包括加强对在线发布的个人信息的隐私保护，并训练模型抵抗在互联网搜索过程中，可能遇到的恶意指令。在广泛发布深度研究之前，大家花时间进行了更多的人工探测和自动化测试，以评估特定风险。

在官网发布的系统卡(System card)，OpenAI从提示注入、禁止内容、隐私、运行代码能力、偏见和幻觉等方面，全面测试、评估并缓解了系统安全问题。

OpenAI展示了一系列测试结果，最后认为

总体上，深度研究在准备框架（Preparedness Framework）中被归类为中等风险，并且已采取相应的保障措施和安全缓解措施，为这个模型做好了准备。

值得关注的是，在模型自主性方面，在处理更长时间跨度和智能体任务时，深度研究性能有所改进，尤其是在模型自主性风险相关的任务中。

比如，在SWE-Bench Verified评测中，深度研究展现了实行明确定义的编程任务的能力，被评定为中等风险水平。

已有网友给出了全面的总结：

更多安全测试结果与分析，参阅OpenAI官方系统卡：

文档链接：https://cdn.openai.com/deep-research-system-card.pdf

尴尬之处在于，已免费推出相关功能的Grok-3，以安全性著称。

红杉采访亮点

红杉资本合伙人索尼a和Lauren，与OpenAI Deep Research的产品负责人Isa和Josh展开了深度对话。

当问及2025年的风口时，Isa和Josh不约而同地回答：「智能体」。

Deep Research是OpenAI在「Operator」之后推出的第二个智能体。通过端到端的强化学习训练，Deep Research能像经验丰富的研究员一样，查资料、思考并完成全面的报告。

这不仅是节省5%时间，而是将原本需要8小时的任务缩减到5分钟！

Deep Research无法为你完成一切，但它能为你节省几个小时，甚至是几天。

Isa表示:「我确信它会成为人们生活中不可或缺的一部分。」

从行业分析到医学研究，再到计划生日派对，Deep Research几乎无所不能。

Deep Research不是普通的搜索工具，它能广泛收集有关来源的信息，擅长在互联网上找到小众的事实，并整合到一个漂亮、整洁的报告中，嵌入图表，并附上指向原始信息的引用。

当你想寻找特定的信息，并需要搜寻大量资料时，它才能发挥出最佳水平。它很擅长寻找和综合信息，但Isa不认为Deep Research当前能做出新的科学发现。

应用场景

Deep Research常被应用于科学研究、医学研究等领域。人们用它来了解市场、企业和房地产等。

Isa的朋友正考虑创办一家消费品企业，会用它来做竞品调研，查看特定域名是否被占用，以及估算市场规模。

出人意料的是，用户会用Deep Research搜索代码，查找关于某个App包的最新文档，并帮他们编写脚本。

Deep Research不仅能用于工作，在购物和旅行建议上也很有用。比如想买一辆新车时，可以请它整理一份报告。在日本发布Deep Research功能时，它可以用来帮忙寻找餐厅。

个性化教育也是非常有趣的场景，如果想复习生物学常识，它会是个好帮手。

输入想了解的信息，它会为你整理出一份很棒的报告。

技术架构

驱动Deep Research的是o3模型的微调版本，o3是OpenAI最先进的推理模型。

模型针对困难的搜索和推理任务进行了训练，可以调用浏览工具和Python工具。通过在这些任务上进行端到端训练，模型学会了在线搜索和分析。

Deep Research最大的创新在于「端到端训练」。研究的过程中，很多事是无法预测的。Isa认为没有脚本能像训练出的模型那样灵活，能对实时的信息做出反应。

Deep Research在做有创造性的搜索，查看思维链总结会发现，它在想出下一个要查找的内容方面非常聪明。

Josh表示「大家经常误以为自己写代码会比模型更聪明，但实际上，模型通常会提出更好的解决方案。」

强化学习微调很可能是构建强大智能体的关键！

Yann LeCun有个「蛋糕比喻」，无监督学习是蛋糕，监督学习是糖霜，强化学习是顶部的樱桃。

成功的秘诀是构建高质量的数据集，数据质量是决定模型质量的最大因素。

Josh认为「AGI」目前只是运营问题。

参考资料：

https://www.youtube.com/watch?v=bNEvJYzoa8A

https://cdn.openai.com/deep-research-system-card.pdf

来源：网易

举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-4-20 10:54 , Processed in 0.214132 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册