- 经验
- 1480
- 分贝
- 0
- 家园分
- 2961
- 在线时间:
- 0 小时
- 最后登录:
- 2015-11-14
- 帖子:
- 740
- 精华:
- 0
- 注册时间:
- 2015-11-14
- UID:
- 1170224
注册:2015-11-142
|
发表于 2024-12-18 22:40:04
|显示全部楼层
关于2024年AI领域的关键议题。
2024年,AI的发展方向似乎变得不再明朗。
乐观的人依然相信,AI浪潮才刚刚开始,需要给市场与创业者一定的时间与耐心。
而悲观的声音也越来越多,就在刚刚过去的周末,OpenAI前首席科学家Ilya在NeurIPS 2024大会上演讲时明确表态:“预训练将会终结(Pre-training as we know it will end)。”无论是技术层面的“Scaling Law撞墙”,还是应用层面的商业化压力,都给AI发展的前景带来了一丝不确定性。
此时此刻,大家渴望听到来自学界和业界最新、最真实、最具有参考价值的反馈。
12月10日,在「甲子光年」举办的2024甲子引力年终盛典上,四位AI领域的知名学者和创业者在巅峰对话环节,围绕《奇点、拐点、看点:AI创生时代的升级打怪》这一主题,讨论了AI行业的现状及未来趋势。
四位嘉宾分别是:清华大学人工智能研究院副院长、生数科技创始人朱军,智谱CEO张鹏,宇树科技创始人&CEO王兴兴,北京智源人工智能研究院院长王仲远。本场巅峰对话由甲子光年首席内容官王博主持。
大家讨论了2024年AI领域多个关键议题:
- 2024年关键词是什么?
- 现在国内的视频生成模型和Sora的身位如何,是追赶、相近还是领先的状态?
- “Scaling Law放缓”这件事情到底有没有发生?
- 今年有哪些可能被忽略的技术进展?
- AI应用领域的Killer App出现了吗?
- 具身智能领域最大的“非共识”是什么?
- 做学术和做企业最大的不同是什么?
还快问快答了4个有趣的问题:
- 如果你现在有十亿元人民币,你最想把钱投在哪里?
- 你最钦佩的人是谁?
- 过去一年你做得最正确的决定是什么?
- 2025年一定会发生的一件事情是什么?
这些话题有的有很多答案,需要百家争鸣;有的没有答案,需要时间证明。但阶段性的总结依然宝贵,它会给到大家继续前进的灵感与启示。
以下为现场对话实录,经「甲子光年」编辑整理。
1.谈2024:一个词总结2024年AI进展
王博:去年年底的时候,大家说“AI一天,人间一年”,来形容2023年的感受。一年很快过去了,如果要用一个词来总结2024年AI的发展,你会用什么词?
王仲远:我引用年终盛典的名字“引力”。今年可以明显看到人工智能对于技术、资本、媒体以及各行各业强大的吸引力,人工智能也从一个技术开始逐步进入到千行百业,并寻找各种场景去赋能升级。“引力”是今年用来形容人工智能最好的一个词。
朱军:“突破”。一开始大家在大模型领域快速跟进,今天能看到很多深层次的突破,包括更强的能力以及视频生成模型在今年快速发展,我体会到突破进程一直在加快。
张鹏:回到2024年年初的时候,大家在技术上的预言叫“AGI元年”。当时,大模型本身的技术发展到一定的平台期,2024年一定会向AGI(通用人工智能)这样的目标发起更快速的冲锋。过去这一年里确实也看到了这一点,比如从多模态模型到视频生成,到最近发布接近智能体的技术,你会发觉通用人工智能好像离大家又近了很大一步。所以我觉得过去这一年用“AGI元年”来形容是最恰当不过了。
王兴兴:过去这一年对于机器人行业来说是“破立和新生”的一年。最近一年的机器人行业比过去几年都要热,技术跟过去十几、二十年差别非常大。我觉得过去的具身技术完全是“过去时”,当下以及未来的具身智能通用机器人完全是一个新的领域和机会。
2.谈Sora:模型在预期之内,产品有亮点
王博:大家来聊个最新的话题,我想这也是今天台下观众最关注的话题之一。今天凌晨,OpenAI正式开放了Sora,并发布了更快的Sora Turbo,这个新版本的Sora能够生成最长20秒、最高1080P的视频。台上四位嘉宾的研究或工作都与多模态模型相关,生数科技的Vidu和智谱的清影更是Sora的直接竞争者,你们对于新版本的Sora怎么看?
朱军:今年2月初Sora刚发布的时候,大家有很多讨论,分析其背后的技术。这次Sora的新发布,相比当时带来的冲击度减弱了很多。大概是因为,国内外的视频生成技术,底层的模型与应用层的产品化都有了很多的进展,跟2月份相比已经是完全不同的阶段。
这次Sora正式发布有一些做得很好的地方,比如视频编辑功能。但从基模的能力以及发布出来的效果看,我只能说在预期之中,没有太多的亮点。另外从直播和实际体验看,Sora的视频生成速度看上去还是挺长的,生成单个视频的成本也不低,这都可能会影响后续的用户体验以及进一步的商业化。
由于今天才刚发布,还要等进一步的评测再做更具体的分析。总体来看的话,我觉得Sora在年初的时间点让大家更早地看到长视频生成突破的可能性,这是一件非常好的事。到今天大家自己的模型也在持续地提升,这对于用户是好事,大家会用到更高质量、更快的产品。
王博:你觉得现在国内的视频生成模型和Sora的身位如何,是追赶、相近还是领先的状态?
朱军:我认为这是一个比较好的阶段。大家在基模等方面是不输于Sora的,甚至在多主体一致性、生成时间的效率等特性上,可能比Sora做的更好。Sora展示的生成时间是分钟级,大家现在可以做到30秒或者更短的时间,在技术上已经不输于它。
虽然大家通常都会更愿意看OpenAI到底做了什么,但事实上大家还是要实事求是地看其实际的技能。我觉得,对于今天的状态以及未来的发展,大家还是非常有信心的,大家处于一个比较好的阶段。
王博:智谱也在做视频生成模型——清影,我对比了一下视频生成时长、分辨率、帧数等参数,发现清影是不输给Sora的。那么,智谱对于Sora的新版本怎么看?
张鹏:我在来大会的路上也在看Sora Turbo的一些视频,Sora Turbo确实离大家的预期还是稍稍有一些偏差。今年7月份,清影发布第一个版本,最近刚刚更新的第二个版本可以达到生成4K、60帧超高清画质,同时支撑任意比例图像生成视频,所以从这些简单的技术指标上看,大家确实也不比Sora差很多,甚至还有一些比它更好一点。
当然,我相信视频生成这件事情,不仅仅是比拼基本参数或者模型本身,更多的还是瞄向如何能产生实际的应用和生产力。这一次OpenAI发布Sora Turbo,把相当多的精力放在了产品体验打磨上。比如多通道生成——虽然大家也能做到,以及编辑模式、加工工具、工作流等能力上。
还有一个趋势是视频生成技术在逐渐成熟。大家的发展速度实际上是在加速,都期待通过技术突破去找到更好、更优的变现方式,或者说产生实际生产力效果的方法和工具,这肯定是未来的一个方向。
王博:,这次Sora新版本的发布符合你的预期吗?
王仲远:直观来讲,基本符合预期,但没有像年初他们刚发布的时候那么惊艳,至少目前为止没有让人特别惊喜的地方。
过去一年,很多企业已经先于OpenAI做出了产品级视频生成的功能和产品。就Diffusion Transformer这条路线而言,国内不管是大厂还是创业企业,基本上走通了,我觉得中国在这方面的速度确实很快。智源研究院在10月份发布原生多模态世界模型Emu3,探索了下一代多模态技术,用Auto Regressive的技术路线,把文字、图像、视频的生成能力和理解能力进行原生统一。所以整体上我对于中国人工智能的技术发展还是保持乐观。
王博:Sora声称自己是一个世界模拟器,当然后来学界、业界也在质疑说Sora根本不是世界模拟器,因为Sora无法做到真正的物理正确。物理世界模拟器或者说世界模型,对于具身智能的训练来说是一件非常关键的事情。宇树科技对于Sora的更新,以及物理世界模拟器的发展有什么样的观点?
王兴兴:今年年初Sora发布的时候,整个机器人圈包括我自己在内对世界模型来驱动机器人的运动都一直非常关注。海内外都有具身企业希翼用视频生成的方式直接控制机器人,这个思路还是非常不错的,但我稍微提几个自己的想法。
目前,大家都希翼如果能生成任何的视频和任何的场景动作,就可以控制机器人做任何动作,理论上可以把整个技术路线跑通。我的感受是,其实现在的视频生成能力对机器人来说基本上够用了,但强化学习对整个的闭环还不太够。
比如说,我要生成一个动作,让机器人去走路也好,端茶倒水也好,基本都能生成。但最大的问题是控制机器人的时候,要机器人跟物理世界交互,最后要达到接近100%的成功率,必须得把强化学习做好。但现在视频模型跟强化学习的控制结合,全世界都处在非常早期的阶段。如果在场的研究机构或者学者有兴趣的话,可以去尝试一下这件事,我觉得非常有价值。
机器人理解世界主要分两部分:第一是生成式模型,包括视频生成模型,能生成一个高层级的策略。比如说到什么地方去干嘛,把什么东西装在一起,或把什么东西都拿到这里,目前很多生成模型做得还不错。但是对于第二部分,真正要分配任务到机器人去实行的时候,让它达到100%的成功,这就需要把强化学习加在里面,把整个体系闭环做得更加准确一点。
目前,生成式模型的生成质量依赖于数据的质量。但是在真实世界里,有一个很大的问题是采集到的数据跟真实世界要实行的数据,质量差了一个数量级,导致用生成的质量直接去控制机器人,最终就是差了一点点。所以大家才会用到强化学习。
3.谈Scaling Law:仍然生效,只是数据、算力遇到瓶颈
王博:接下来大家从底层技术到上层应用聊一下2024年关键话题。首先要聊的话题是“Scaling Law是不是撞墙了”,这是近一段时间,AI圈子内大家都会讨论的事。各位嘉宾都会涉及底层模型的研究,结合你们实际的研究和观察来看,“Scaling Law放缓”这件事情到底有没有发生?
王仲远:我个人依然还是非常相信Scaling Law。人工智能过去七八十年的发展历程,其实也一直在反复证明Scaling Law。
现阶段之所以大家开始讨论Scaling Law放缓,我觉得很大的原因是支撑Scaling Law的几个要素出现了瓶颈,其中一个很重要的要素就是数据。大家知道OpenAI其实已经把全世界互联网的文本数据都训练了,如果新的高质量数据不能够被生产出来,自然而然就会影响模型性能的提升。
解决数据问题有几条路径:第一是合成数据。试想一下,如果有一天人工智能写的书籍的质量比人类写的书籍质量还高,就会形成自我的迭代和进化;第二是基于Post Training的推理模型,比如o1,进一步激发大模型的智能。第三是多模态大模型,智源也在探索这条路径。因为大家认为这个世界除了文本数据以外,音频、视频这些数据量规模是更大的,可能是百倍、千倍乃至更多。
除了数据要素的瓶颈以外,算力也一样。当下算力虽然还在不断提升,但是万卡、十万卡乃至于百万卡的方式是不是可持续性,本身也是一个疑问。
所以,我觉得并不是Scaling Law本身失效了,而是支撑Scaling Law的要素现在遇到了瓶颈。
朱军:我理解Scaling Law是一种范式,比如最早在语言模型里面,大家比较清楚地看到规模提升之后,模型性能有显著的增加。但作为一种现象或者规律,Scaling Law也不限于语言模型。
在多模态领域的视频生成,大家也看到一些很有意思的现象。当基座模型做好了之后,其实不需要经过后训练这些微调就能实现主体一致性的能力,实际上这就是大家理解的“涌现”能力,规模变大之后自然就有了这些能力。现在大家也在讨论具身智能,包括利用视频生成和强化学习的尝试,也能清楚看到数据、模型变大之后,确实能带来通用能力的提升。这些都在支撑、验证Scale up的行为。
所以,从这些角度看Scaling Law不会失效或者过时,大家只能说在某一个场景下,遇到一些现实的挑战。如何再去进一步的延伸,这是大家需要思考的。
我觉得现在人工智能或者生成式AI到了沉着发展的阶段,需要大家对于其中的现象去深刻地分析,而不是简单粗暴地下结论说这个东西不行了之类的话。
王博:接下来问一下智谱。今年有一些媒体报道说“大模型六小虎”中有两家已经不做预训练了,所以我在大会上不妨问得直接一点,智谱现在还在做基础模型的预训练吗?最新的进展是什么?
张鹏:首先大家肯定一直在做预训练,今年8月份大家刚刚发布了最新迭代的模型。按照大家的节奏,差不多4~6个月就会迭代一版新模型。
为什么大家一直在做这件事,跟大家对Scaling Law这件事的理解有关系。刚才朱军老师讲了一个很重要的词叫“现象”,其实Scaling Law是对现象的总结。大家搞科学研究的人总喜欢说一句话叫“透过现象看本质”,到底Scaling Law的本质是什么?大家其实一直在探究,也在尝试剥开表象去看本质。
现在有一派的看法是,其实本质上Scaling Law并没有简单对应到数据量、参数量或者模型的规模上,而是对应在大家最常说的计算量。提升模型在训练或者推理阶段的计算量,比如o1在推理阶段提升计算量,就能带来智能的提升。包括刚才提到的多模态模型,为什么更难训练?因为本身的计算量就要比文本模型大很多。
我非常同意刚才朱军老师讲的多模态领域里面智能涌现Scaling Law还是非常有效的,在其他的领域,比如机器人领域,仍然还是有效的。时代在不断往前进,大家也在不断把现象逐渐转变成本质的描述。
王博:提到计算量,其实现在算力资源的分配也是各个企业要面临的问题。已经有大厂已经把算力资源从训练侧转到了推理侧,智谱会面临这样艰难的选择吗?你们放到训练和推理上的算力资源比例是怎样的?
张鹏:这个还挺有意思的。智谱一直在做预训练,推理侧的应用其实也一直在做。大家训练和推理用的算力资源配比大约是一半一半,我认为这还是一个比较合理的配置。
王博:从具身智能的角度怎么样看Scaling Law这件事情?
王兴兴:我觉得Scaling Law像是一个定律,虽然大家现在在大语言模型上遇到一些瓶颈,但很多情况是当下的技术手段遇到瓶颈,而非规律本身遇到了瓶颈。在机器人领域,大家也非常关注,但目前我觉得大家还没有在机器人领域找到Scaling Law,模型、数据规模等方面相对来说更初级一点。
另外,大家为什么追求Scaling Law,很大的原因是当下世界上相对比较简单的,用几个人或者几十人、几百人用系统性工程化的方式就能解决的问题,都已经解决得非常好了。剩下的没有解决的问题都是复杂性问题——比如无人驾驶,靠堆人、堆时间、堆钱也解决不好,只能靠新的方式。所以在机器人领域,大家希翼有Scaling Law,通过堆数据就可以解决问题。
但是机器人领域也有部分企业太追求数据的规模。我认为,现在具身智能领域最大的问题是整个AI模型的架构还没有做出来,模型能力不够的情况下单纯堆数据不太可能把整个路线跑通。大家在模型探索方向上应该花更多的时间。
4.谈技术进展:多模态、推理模型可能是被低估的技术
王博:刚才大家谈了很多关于Scaling Law的观点,仲远老师,你认为今年还有哪些同样重要但是可能被忽略的技术进展?
王仲远:在多模态技术上,今年有非常大的突破。其实除了像智源发布的原生多模态世界模型Emu3以外,在今年国际顶会上获得best paper的一些研究也有基于Auto Regressive的技术路线来做图像生成的。新技术的出现,是不是能够帮助大家突破现在GPT大语言模型可能遇到的一些瓶颈?这是今年让我非常激动的进展,但可能在媒体、投资人层面,关注度没有那么高。
王博:今年有一个很重要技术进展是OpenAI发布o1,它代表着算法的范式从预训练扩展到了推理,国内也有几家AI企业在跟进。我记得几个月之前,大模型还算不对9.8与9.11哪个大,现在已经可以开始解高中数学甚至奥赛题目了。前几天OpenAI的发布会上还举了一个例子:如果在太空建一个数据中心,散热板需要多大的面积?研究员把草图发给o1,它就能计算出结果。张鹏总,智谱一直在对标OpenAI,请问推理模型在这几个月发生了什么?
用于计算太空数据中心散热板面积的草图,图片来源:OpenAI
张鹏:其实这个问题我也一直在思考,不仅是从技术原理或者算法上,我思考得更务虚一点。
大家之前说预训练模型是做Predict Next Token,用这种范式让模型“学会”内容生成乃至推理能力。当最早智能生成文本且有幻觉的时候,大家就会说这样的模型智能模拟人的系统1(快速、直觉式的思维),永远掌握不了系统2(慢速、深思熟虑的思维)。但现在大家看到经过一些方法的改进,模型也能做系统2的事情,比如你刚才说到的计算太空数据中心散热板面积就是典型的例子。
所以我就在想,是否有可能所谓的Predict Next Token这件事是一个更高维度、更基本的智能, |
|