中关村机器人产业创新中心

特斯拉最新披露的新专利揭示了基于视觉的占用检测的人工智能技术。该技术既适用于汽车，也适用于人形机器人，有望彻底改变自主机器人的环境感知。

特斯拉的专利 US20240185445A1 为“基于视觉的占用情况确定的人工智能建模技术”，它提出了一种创新的环境感知方法，可以改变自主机器人（包括像 Optimus 这样的类人机器人）理解和导航周围环境的方式。这项技术与特斯拉在机器人技术和自主系统方面的最新发展特别相关。

此前Tesla 发布了Optimus分拣电池的视频，引起业界的广泛关注。当时Optimus工程师透露：
在过去的几个月里，我们出色的制造团队已经为我们制造了更多机器人，并从中收集 AI 数据！我们已经训练并部署了一个神经网络，使 Optimus 可以开始执行有用的任务，例如拾取从传送带上下来的电池单元并将它们精确地插入托盘中。
这个神经网络完全是端到端运行的，这意味着它只使用来自机器人的2D摄像头以及板载本体感受传感器的视频，并直接产生关节控制序列。它完全在机器人的嵌入式 FSD 计算机上运行，由板载电池供电。
它被设计成单个神经网络可以执行多项任务，因为我们在训练过程中添加了更多不同的数据。虽然还不完美，速度仍然有点慢，但我们看到成功率越来越高，失误率越来越低。
我们还在训练 Optimus 从故障案例中恢复，并且正在看到自发纠正的发生。我们已经在我们的一家工厂部署了几个机器人，它们每天都在真实的工作站接受测试，并不断改进！
Optimus 现在还可以定期在办公室里长途行走而不会摔倒，我们正在进一步努力使其移动得更快，并应对更恶劣的地形 - 所有这些都不会牺牲其人性。我们还专注于整个车队的可重复性，训练神经网络以处理动态校准和机器人之间的小差异。更多更新即将发布！

Tesla_Milan Kovac

专利创新点

特斯拉的专利介绍了一种仅使用摄像头输入就能详细了解环境的新方法：
1⃣端到端AI模型：
使用单个神经网络处理原始摄像头数据并输出占用信息
无需使用 LiDAR 或雷达等额外传感器
AI 模型具备端到端学习能力，即从原始图像数据直接学习到占用预测的映射，无需人工干预特征选择或数据预处理
2⃣基于体素的环境表示：
将周围空间划分为3D体素
预测每个体素的占用属性，体素的占用状态细化，例如，通过将体素细分为更小的体素来确定物体的形状
3⃣实时处理：
设计用于在机器人的机载计算机上运行
支持立即做出导航和交互决策
过程中收集的数据可以反馈给分析服务器，用于改进AI模型的准确性，形成一个持续学习和改进的循环

关键部件和工艺

1⃣图像处理：

图像特征化：将原始相机输入转换为有意义的特征表示；使用 RegNet 和 BiFPN 等技术进行高效处理。
2D到3D的转换：将二维图像特征转换为环境的三维表示；采用具有空间注意机制的 Transformer 架构。
时间融合：结合多个时间步骤的数据，更好地了解环境；能够跟踪移动物体并理解动态场景。
2⃣基于体素的环境表示
人工智能模型预测每个体素的几个属性：
二进制占用：体素是否包含对象或为空
形状信息：部分填充体素内的详细占用情况
语义数据：物体分类（例如车辆、建筑物、行人）
运动信息：占据物体是静止的还是移动的

实际应用

这项技术对于 Optimus 这样的自主机器人具有重要意义：
改进的导航：详细的环境理解可以实现更精确、更有效的路径规划。
物体操纵：识别和定位物体的能力使拾取物品等任务成为可能。
安全：实时占用检测有助于避免与静态和移动障碍物发生碰撞。
适应性：系统可以在各种环境中工作，而无需依赖预先映射的数据。

结论

特斯拉基于视觉的占用确定系统代表了自主导航和环境感知方面的重大进步。该技术仅使用摄像头输入并完全在车载硬件上运行，与特斯拉最近演示的 Optimus 执行电池插入和在复杂环境中导航等任务完美契合。

随着自主机器人技术的不断发展，此类创新对于创建更强大、适应性更强、效率更高的系统至关重要。这项技术可能是实现特斯拉愿景的关键组成部分，即制造出能够在人类环境中安全运行的多功能人形机器人。

特斯拉的新技术有望彻底改变人形机器人的环境感知