查看: 557|回复: 4

机器人上学篇（上）：我等的机器人，它在多远的未来 [复制链接]

ttxx

军衔等级：

上尉

注册：2010-4-28 点赞数

10

发表于 2025-4-21 09:08:59 |显示全部楼层

都2025年了，大家还在为晚会上转手绢的机器人欢呼。回想起我小时候看过的那些科普读本中的预言，我怎么觉得早应该人手一个阿童木了呢？

从后空翻、转手绢，到能登台演小品，还要等多久？再到像阿童木一样呢？哪怕是让机器人帮忙拖地、遛狗、叠衣服、做饭，似乎都还离大家很远……

这里面到底难在哪？为什么大家也的确值得为了“转手绢”这样的“花活”而骄傲喝彩呢？

和大模型一样，一切关乎数据

经过各种科幻作品的漫长想象之后，现实的人形机器人早在半个世纪前就有了雏形。比如，日本早稻田大学在1973年研制出了Wabot-1，有了人的双手、双脚、视觉和听觉，但并不能完成什么复杂操作。此后，人形机器人学会了弹钢琴、跳舞、有了面部表情，却一直没有产生从“自动化”到“智能化”这一质的飞跃。

幸好，深度学习和AI大模型来了，“具身智能”这一概念开始受到学术界和产业界的广泛关注。根据中国计算机学会的定义，具身智能（Embodied Artificial Intelligence, EAI）是指一种基于物理身体进行感知和行动的智能系统，其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动，从而产生智能行为和适应性。

具身智能的展现形态包括人形机器人、四足机器人（俗称“机器狗”）、轮式机器人、仿生机器人等，甚至也包括智能驾驶。

和当前火热的Deepseek、ChatGPT等产品不同，具身智能存在“物理实体”与环境的交互，需要理解真实的世界才能做出判断和行动。

以 AI 聊天工具和人形机器人作对比，当大家和 AI 对话时，AI 需要处理的信息是语言、声音、图像、视频等；而大家与人形机器人进行交互时，它们需要处理的是如何识别物体、如何辨别方位、如何规划运动轨迹，并且判断此时该抬手还是伸腿、该伸两个手指还是该伸出手掌、通过什么样的角度使出多大的力量……

这些在人类看来完全“不用思考”的问题，却都是机器人需要从零开始学起的内容。

和 AI 一样，机器人的学习过程也是从数据采集和处理开始的。但比 AI 更复杂之处在于，机器人需要获取的数据维度更多，比如图像、空间等感知数据，关节角度、速度等运动数据，力反馈、扭矩等力学数据，温度、光照等环境数据，以及任务实行结果与性能数据等等。

这些来自真实物理世界的数据，其生成和采集的难度远比来自互联网世界的数据大得多。因此，当前可供具身智能使用的数据集也小得多。

根据对冲基金Coatue的相关数据，具身机器人数据集仅有 2.4M，远低于有15T Tokens的文本数据集。中国信通院联合发布的《具身智能发展报告 (2024年)》中也提到，缺乏数据成为具身智能能力突破的重要壁垒。一方面，真实数据面临获取成本过高的挑战；另一方面，仿真合成数据面临“现实差距”——即模拟环境与现实世界之间的差异。

这里就提到了具身智能数据采集的两类主要方式：真实世界数据采集、仿真世界数据采集。

真实世界数据采集

在真实世界进行数据采集的方式有：人类动作捕捉和人类遥操作。

大家对动作捕捉应该比较熟悉了，像平时常看的虚拟主播，影片里的阿凡达、金刚，《黑神话·悟空》游戏里的角色……都是通过真人动作捕捉来进行模拟的。

同样地，真人动作捕捉也能够用在机器人训练上。

目前，动作捕捉通常采用光学和惯性两种模式。光学捕捉是在人体动捕服上提前标记多个点位，通过红外相机进行轨迹和动作还原；而惯性捕捉是通过惯性传感器（陀螺仪、加速度计、磁力计等）来测算人体的动作和姿态，从而形成数据记录。

光学动捕的优势在于精度高，能够捕捉面部表情、手指动作等细微且复杂的变化，但是对于场地布置以及光线照明的要求较高；惯性动捕虽然精度受限，但不受场地限制，还可以直接获得动力学参数，因此受到不少人形机器人厂商的青睐。

动捕设备在捕捉到运动信号后，将数据传至处理设备，再通过一系列算法还原三维空间内的位置坐标和运动轨迹，最终生成可供机器人使用或分析的数据。根据宇树机器人公布的信息，在春晚上转手绢的H1机器人，就是通过一套新研发的动捕程序，将人类跳舞时的动作数据直接映射到机器人本体上，以此来进行训练的。

但人类与机器人的动作轨迹并不会完全相同，仍然可能存在适配问题。通过人类遥操作，可以进一步提升数据采集的准确性和可靠性。

人类遥操作是指人类操作员远程控制机器人实行任务，并记录机器人的真实数据。和动作捕捉的区别在于其最终采集到的是真机数据，弥合了“具身差距（Embodiment Gap）”，也就是机器人和真人之间的差距。

当前，特斯拉人形机器人 Optimus 就是通过人类穿戴动捕设备、遥控机器人完成任务，在这个过程中采集机器人的视觉识别、运动控制和其他传感信息。

为了给机器人提供更好的数据采集环境，许多厂商和服务商专门建设了机器人训练场。

训练场里设置有多种真实场景，比如厨房、客厅、卧室、超市、奶茶店、甚至户外场景。由人类控制机器人在这些环境里操作，像打开柜门、铺床单、冲咖啡、从货架上取物等，反复重复多次，机器人就能“有样学样”地学会这一动作了。

显然，这样的真机采集模式能够获取最高质量的训练数据，但同时需要耗费大量的建设成本以及人力成本，只有“财大气粗”的玩家才能做到。

根据国家地方共建人形机器人创新中心的数据负责人估算，“特斯拉 Optimus 至少需要数百万小时的数据，才能完全准备好在特斯拉工厂工作，这期间可能需要至少 5 亿美金的数据采集成本。”

仿真世界数据采集

有一种方式可以显著降低数据生产和采集的成本，那就是让机器人在类似于机器人的“模拟人生”里学习、成长，最终发展出自己的智慧——虽然最后这一点，目前来看还是个奢望。

机器人仿真平台能够模拟实体机器人在虚拟环境中的行为和性能，这不仅包含对机器人传感器数据的模拟，还涉及到对天气、地形、环境的模拟，以及对机器人控制算法的测试和验证。

仿真世界部分解决了一个重要难题，就是机器人的“泛化能力”。

比如说，以往是在真实的咖啡厅环境里训练机器人对指定物品的抓取能力，很可能换一间咖啡厅、换一样物品、换一个桌面材质、甚至窗外换一个天气，机器人就无法再完成同样的动作——因为它的泛化性有限，无法根据已有常识在不同场景下做迁移。这就需要在另一个场景下再次训练，成本就是这么增加的。

而仿真平台可以在数字世界里，基于模拟出的物品和场景生成变幻无穷的环境，同时满足物理正确。机器人的行为同样也能被模拟出来，比如机器手抓取物品的位置和姿势。在这个基础上生成抓取行为的轨迹算法，并迁移到物理世界进行实际的操作和验证。这样就完成了一个 Real2Sim2Real（Reality 和 Simulation）的完整过程。

但 Sim-to-Real Gap（仿真与现实的鸿沟）仍然是需要解决的问题，当前已经有多种算法在试图减少这一影响。

不过，要说数据量最大、成本最低数据来源，仍然是海量的互联网数据。

理论上讲，在视频网站上分享出来的人类行为视频，也可以成为机器人学习的“资料库”，但这部分数据的“噪声”太大、随机性也很强，既不是机器人训练的特定场景，数据也没有经过结构化处理和标注，很难直接用来训练机器人。

但仍然有研究机构在进行这方面的努力，认为可以通过互联网上大规模的人类操作视频进行“预训练”，再用少量机器人数据进行“微调”——谁让互联网数据量大管饱呢。

在未来，也许互联网数据与仿真数据、真机数据能够融合使用，真正为具身智能提供数据的“宝库”。而数据采集的方式也会有所突破，有人认为，“脑机接口”将会成为未来重要的机器人数据来源，人类通过大脑信号直接控制机器人进行操作。

总之，从 AI 大模型到具身智能机器人，就好像从玩贪吃蛇跨越到畅游魔兽世界，“智能体”有了物理实体，要学习的东西更多了，但可探索的空间也变得更大了。

在这一系列的下一篇中，大家继续讲讲一些真实发生的、有趣的机器人训练案例。

来源：36kr

举报本楼

本帖有 4 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图

GMT+8, 2025-4-22 13:05 , Processed in 0.186627 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册