目 录CONTENT

文章目录

我给我的OpenClaw智能体装上了物理实体

Administrator
2026-05-24 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.wired.com/story/i-gave-my-openclaw-agent-physical-body-robot/

原文作者:Will Knight


最近,我为我的 OpenClaw 配备了一个真正的机器人手臂,实验结果简直让我大开眼界。

这个 AI 智能体不仅能够配置手臂、使用摄像头观察环境并缓慢抓取物体,甚至还能训练另一个 AI 模型来拾取和放置特定物品。有人说 AGI(通用人工智能)还要几年才能实现,对此我深表怀疑(开个玩笑,它确实可能还需要时间)。

这次实验让我确信,我们正处于机器人技术突破的前夜。过去,训练和控制机器人需要高超的专业技能,但今天的 AI 模型让这一切变得出奇简单。

加州大学伯克利分校的机器人专家 Ken Goldberg 表示:“AI 驱动的编程非常令人兴奋,因为它有潜力填补传统工程方法(可靠但难以泛化)与现代视觉-语言-动作模型(可泛化但尚不可靠)之间的鸿沟。”

我让OpenClaw尝试移动它的新机械臂,它做出了这个小小的挥手动作。

我购买了一个名为 LeRobot 101 的预制机械臂。它是 HuggingFace 开源项目的一部分,这使得初学者进入机器人领域变得相对廉价且易于尝试。

LeRobot 配备了两个手臂:一个是人通过手柄和触发器操作的控制器臂,另一个是根据摄像头捕捉到的信息复刻动作的跟随臂。你可以通过遥控操作控制器臂来训练 AI 模型,让模型学习如何根据摄像头看到的物体做出相应的跟随动作。

使用 OpenClaw 进行构建

在使用 OpenClaw 之前,我花了好几个小时试图连接和校准机器人,甚至因为设置错误导致电机过热,险些损坏设备。

后来,在 OpenClaw 和 Codex 的帮助下,我编写了一个简单的程序,当它探测到红球时,就会合拢机械爪。在终端中,Codex 完成了配置机器人连接的繁琐工作。随后,在我的协助下,它完成了关节位置的校准,并编写了一个 Python 脚本来识别并抓取目标球体。当然,这种基于直觉的编程(vibe-coding)并非完美,特别是在处理不同硬件时可能会产生幻觉导致错误,但实验结果依然令人印象深刻。

在我的帮助下,机器人智能体学会了识别并抓取红球。

这虽然还谈不上什么“终结者”级别的技术,但确实非常整洁。接下来,我尝试让 OpenClaw 协助我训练一个模型来控制手臂。我们尝试了几种不同的方法,OpenClaw 在引导我完成整个过程以及评估每次训练运行后的模型误差率方面表现得非常出色。

最终,机械臂能够成功拾取物体。

代码即策略(Code as Policy)

AI 辅助编程能为构建机器人提供强大新途径的想法,最早在 2022 年的一篇研究论文中被提出,该方法被称为“代码即策略”(Code as Policy)。自那时起,AI 的编程能力飞速进步,“代码即策略”的方法也在许多实验室中流行开来。

Goldberg 的研究小组与来自英伟达、卡内基梅隆大学和斯坦福大学的研究人员合作,最近开发了一个名为 CaP-X 的基准测试,用于衡量编程模型控制机器人的能力。有趣的是,CaP-X 显示,目前最适合编程机器人的模型并非 Claude 或 ChatGPT,而是 Gemini——这可能是因为 Google DeepMind 一直专注于训练模型使其具备多模态能力,并能够感知物理世界。此外,他们还开发了 CaP-Gym 环境,让编码智能体能够控制模拟和真实的机器人,并推出了 CaP-Agent0 架构,显著提升了编码模型的表现,使其在某些操作任务上甚至超越了专门训练用于直接控制机器人运动的模型。

Goldberg 的团队正在与英伟达合作,探索“代码即策略”方法的潜力。我采访了 Spencer Huang(他是 Jensen Huang 的儿子),他一直参与组织公司内部的机器人编程黑客松。Huang 目前正与 Goldberg 合作一个研究项目,旨在使“代码即策略”的方法兼容更多的机器人软件工具。

“几乎任何人都可以进入机器人领域,这才是真正的圣杯。”Huang 告诉我。他补充说,让人们能够通过语音或打字指令,或者通过演示一个动作来控制机器人,是“机器人进入社会的一个关键转折点”。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区