C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  上尉

注册:2010-4-2810
发表于 2025-4-21 09:08:59 |显示全部楼层

都2025年了,大家还在为晚会上转手绢的机器人欢呼。回想起我小时候看过的那些科普读本中的预言,我怎么觉得早应该人手一个阿童木了呢?

亚星游戏官网-yaxin222


从后空翻、转手绢,到能登台演小品,还要等多久?再到像阿童木一样呢?哪怕是让机器人帮忙拖地、遛狗、叠衣服、做饭,似乎都还离大家很远……

这里面到底难在哪?为什么大家也的确值得为了“转手绢”这样的“花活”而骄傲喝彩呢?

和大模型一样,一切关乎数据

经过各种科幻作品的漫长想象之后,现实的人形机器人早在半个世纪前就有了雏形。比如,日本早稻田大学在1973年研制出了Wabot-1,有了人的双手、双脚、视觉和听觉,但并不能完成什么复杂操作。此后,人形机器人学会了弹钢琴、跳舞、有了面部表情,却一直没有产生从“自动化”到“智能化”这一质的飞跃。

亚星游戏官网-yaxin222


幸好,深度学习和AI大模型来了,“具身智能”这一概念开始受到学术界和产业界的广泛关注。根据中国计算机学会的定义,具身智能(Embodied Artificial Intelligence, EAI)是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

具身智能的展现形态包括人形机器人、四足机器人(俗称“机器狗”)、轮式机器人、仿生机器人等,甚至也包括智能驾驶。

亚星游戏官网-yaxin222


和当前火热的Deepseek、ChatGPT等产品不同,具身智能存在“物理实体”与环境的交互,需要理解真实的世界才能做出判断和行动。

以 AI 聊天工具和人形机器人作对比,当大家和 AI 对话时,AI 需要处理的信息是语言、声音、图像、视频等;而大家与人形机器人进行交互时,它们需要处理的是如何识别物体、如何辨别方位、如何规划运动轨迹,并且判断此时该抬手还是伸腿、该伸两个手指还是该伸出手掌、通过什么样的角度使出多大的力量……

这些在人类看来完全“不用思考”的问题,却都是机器人需要从零开始学起的内容。

亚星游戏官网-yaxin222


和 AI 一样,机器人的学习过程也是从数据采集和处理开始的。但比 AI 更复杂之处在于,机器人需要获取的数据维度更多,比如图像、空间等感知数据,关节角度、速度等运动数据,力反馈、扭矩等力学数据,温度、光照等环境数据,以及任务实行结果与性能数据等等。

这些来自真实物理世界的数据,其生成和采集的难度远比来自互联网世界的数据大得多。因此,当前可供具身智能使用的数据集也小得多。

根据对冲基金Coatue的相关数据,具身机器人数据集仅有 2.4M,远低于有15T Tokens的文本数据集。中国信通院联合发布的《具身智能发展报告 (2024年)》中也提到,缺乏数据成为具身智能能力突破的重要壁垒。一方面,真实数据面临获取成本过高的挑战;另一方面,仿真合成数据面临“现实差距”——即模拟环境与现实世界之间的差异。

这里就提到了具身智能数据采集的两类主要方式:真实世界数据采集、仿真世界数据采集

真实世界数据采集

在真实世界进行数据采集的方式有:人类动作捕捉和人类遥操作。

大家对动作捕捉应该比较熟悉了,像平时常看的虚拟主播,影片里的阿凡达、金刚,《黑神话·悟空》游戏里的角色……都是通过真人动作捕捉来进行模拟的。

同样地,真人动作捕捉也能够用在机器人训练上。

亚星游戏官网-yaxin222


目前,动作捕捉通常采用光学和惯性两种模式。光学捕捉是在人体动捕服上提前标记多个点位,通过红外相机进行轨迹和动作还原;而惯性捕捉是通过惯性传感器(陀螺仪、加速度计、磁力计等)来测算人体的动作和姿态,从而形成数据记录。

光学动捕的优势在于精度高,能够捕捉面部表情、手指动作等细微且复杂的变化,但是对于场地布置以及光线照明的要求较高;惯性动捕虽然精度受限,但不受场地限制,还可以直接获得动力学参数,因此受到不少人形机器人厂商的青睐。

动捕设备在捕捉到运动信号后,将数据传至处理设备,再通过一系列算法还原三维空间内的位置坐标和运动轨迹,最终生成可供机器人使用或分析的数据。根据宇树机器人公布的信息,在春晚上转手绢的H1机器人,就是通过一套新研发的动捕程序,将人类跳舞时的动作数据直接映射到机器人本体上,以此来进行训练的。

亚星游戏官网-yaxin222


但人类与机器人的动作轨迹并不会完全相同,仍然可能存在适配问题。通过人类遥操作,可以进一步提升数据采集的准确性和可靠性。

人类遥操作是指人类操作员远程控制机器人实行任务,并记录机器人的真实数据。和动作捕捉的区别在于其最终采集到的是真机数据,弥合了“具身差距(Embodiment Gap)”,也就是机器人和真人之间的差距。

当前,特斯拉人形机器人 Optimus 就是通过人类穿戴动捕设备、遥控机器人完成任务,在这个过程中采集机器人的视觉识别、运动控制和其他传感信息。

为了给机器人提供更好的数据采集环境,许多厂商和服务商专门建设了机器人训练场。

训练场里设置有多种真实场景,比如厨房、客厅、卧室、超市、奶茶店、甚至户外场景。由人类控制机器人在这些环境里操作,像打开柜门、铺床单、冲咖啡、从货架上取物等,反复重复多次,机器人就能“有样学样”地学会这一动作了。

亚星游戏官网-yaxin222


显然,这样的真机采集模式能够获取最高质量的训练数据,但同时需要耗费大量的建设成本以及人力成本,只有“财大气粗”的玩家才能做到。

根据国家地方共建人形机器人创新中心的数据负责人估算,“特斯拉 Optimus 至少需要数百万小时的数据,才能完全准备好在特斯拉工厂工作,这期间可能需要至少 5 亿美金的数据采集成本。”

仿真世界数据采集

有一种方式可以显著降低数据生产和采集的成本,那就是让机器人在类似于机器人的“模拟人生”里学习、成长,最终发展出自己的智慧——虽然最后这一点,目前来看还是个奢望。

机器人仿真平台能够模拟实体机器人在虚拟环境中的行为和性能,这不仅包含对机器人传感器数据的模拟,还涉及到对天气、地形、环境的模拟,以及对机器人控制算法的测试和验证。

仿真世界部分解决了一个重要难题,就是机器人的“泛化能力”。

亚星游戏官网-yaxin222


比如说,以往是在真实的咖啡厅环境里训练机器人对指定物品的抓取能力,很可能换一间咖啡厅、换一样物品、换一个桌面材质、甚至窗外换一个天气,机器人就无法再完成同样的动作——因为它的泛化性有限,无法根据已有常识在不同场景下做迁移。这就需要在另一个场景下再次训练,成本就是这么增加的。

而仿真平台可以在数字世界里,基于模拟出的物品和场景生成变幻无穷的环境,同时满足物理正确。机器人的行为同样也能被模拟出来,比如机器手抓取物品的位置和姿势。在这个基础上生成抓取行为的轨迹算法,并迁移到物理世界进行实际的操作和验证。这样就完成了一个 Real2Sim2Real(Reality 和 Simulation)的完整过程。

但 Sim-to-Real Gap(仿真与现实的鸿沟) 仍然是需要解决的问题,当前已经有多种算法在试图减少这一影响。

不过,要说数据量最大、成本最低数据来源,仍然是海量的互联网数据。

理论上讲,在视频网站上分享出来的人类行为视频,也可以成为机器人学习的“资料库”,但这部分数据的“噪声”太大、随机性也很强,既不是机器人训练的特定场景,数据也没有经过结构化处理和标注,很难直接用来训练机器人。

亚星游戏官网-yaxin222


但仍然有研究机构在进行这方面的努力,认为可以通过互联网上大规模的人类操作视频进行“预训练”,再用少量机器人数据进行“微调”——谁让互联网数据量大管饱呢。

在未来,也许互联网数据与仿真数据、真机数据能够融合使用,真正为具身智能提供数据的“宝库”。而数据采集的方式也会有所突破,有人认为,“脑机接口”将会成为未来重要的机器人数据来源,人类通过大脑信号直接控制机器人进行操作。

总之,从 AI 大模型到具身智能机器人,就好像从玩贪吃蛇跨越到畅游魔兽世界,“智能体”有了物理实体,要学习的东西更多了,但可探索的空间也变得更大了。

在这一系列的下一篇中,大家继续讲讲一些真实发生的、有趣的机器人训练案例。

亚星游戏官网-yaxin222



来源:36kr

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-4-22 13:05 , Processed in 0.186627 second(s), 17 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图