AI也能拥有触觉和视觉？

硅谷Live / 实地探访/热点探秘/ 深度探讨

在加拿大作家Margaret Atwood的著作《盲人刺客》中,她说“触觉先于视觉，也先于语言。它是第一语言,也是最后一种语言,而且它总是讲真话。”

当我们的触觉给我们一个感知物质世界的通道时，我们的眼睛帮助我们立即理解这些触觉信号的全貌。

经过编程能够看到或感觉到这些信号的机器人无法交替使用这些信号。为了更好地弥补这一感官差距，麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员提出了一种预测性人工智能(AI)，它可以通过触觉来学习视觉，通过视觉来学习触觉。

该团队的系统可以从视觉输入中创建真实的触觉信号,并从这些触觉输入中预测哪些对象和部件被直接触摸。他们使用了一个带有一种特殊触觉传感器的库卡机器人手臂,名为GelSight,由麻省理工学院的另一个小组设计。

使用一个简单的网络摄像头，该团队记录了近 200 件物品,如工具、家居用品、织物等,它们被触摸了12,000 多次。该团队将这些 12,000 个视频剪辑分解成静态帧,编制成"VisGel",一个由300多万个视觉/触觉配对图像组成的数据集。

“通过观察现场，我们的模型可以想象触摸一个平面或锋利边缘的感觉，”CSAIL的博士生、一篇关于该系统的新论文的第一作者LiYunzhu说。“通过盲目的触摸，我们的模型可以完全从触觉来预测与环境的互动。把这两种感觉结合起来，可以增强机器人的能力，并减少操作和抓取物体时需要的数据。”

最近的工作是为机器人配备更像人类的物理感官，例如麻省理工学院(MIT) 2016年的项目，该项目使用深度学习在视觉上指示声音，或者使用一个模型来预测物体对物理力的反应，两者都使用了大型数据集，而这些数据集无法理解视觉和触觉之间的互动。

该团队通过使用VisGel数据集和生成对抗网络(GANs)的技术来解决这个问题。

GANs使用视觉或触觉图像生成其他形式的图像。他们通过使用相互竞争的“生成器”和“鉴别器”来工作，生成器的目标是创建真实的图像来欺骗鉴别器。每当识别器“捕获”生成器时，它必须公开决策的内部推理，从而使生成器不断改进自己。

视觉到触觉

人类可以通过看到物体来推断物体的感觉。为了更好地赋予机器这种能力,系统首先必须确定触摸的位置,然后推断出有关该区域地形状和感觉信息。

参考图像——没有任何机器人和物体的交互——帮助系统对物体和环境的详细信息进行编码。然后,当机器人手臂工作时,模型只需将当前帧与其参考图像进行比较,即可轻松识别触摸的位置和尺度。

这看起来有点像给系统输入一个电脑鼠标的图像，然后“看到”模型预测对象应该被触摸的区域——这可以极大地帮助机器计划更安全和更高效地操作。

触觉到视觉

对于触觉到视觉，模型的目标是基于触觉数据生成视觉图像。该模型对一个触觉图像进行分析，计算出接触位置的形状和材料。然后再回顾参考图像，以产生“幻觉”的互动。

例如，如果在测试过程中给模型输入鞋子的触觉数据，它就可以生成鞋子最可能被触碰的位置的图像。

这种能力有助于在没有视觉数据的情况下完成任务，例如当灯熄灭时，或者当一个人在黑暗中进入一个包厢或未知区域时。

展望未来

当前数据集仅具有受控环境的交互示例。该团队希望通过在更多非结构化区域收集数据，或者使用麻省理工学院设计的新型触觉手套来改进这一点，以更好地提高数据集的规模和多样性。

还有一些细节是很难从切换模式中推断出来的，比如只需通过触摸就能知道一个物体的颜色，或者不用实际按压就能知道沙发有多柔软。研究人员表示，通过为不确定性建立更强大的数据模型，扩大可能结果的分布，可以改善这一状况。

在未来，这种类型的模型可以帮助视觉和机器人之间建立更加和谐的关系，特别是在物体识别、把握、更好地场景理解，以及在辅助或制造环境中实现无缝人机一体化。

加州大学伯克利分校的博士后Andrew Owens说:“这是第一种能够令人信服地在视觉和触觉信号之间进行转换的方法。”

“像这样的方法有可能对机器人非常有用，你需要回答这样的问题，‘这个物体是硬的还是软的?’或者‘如果我提起这个杯子的把手，我需要怎样的握力?’这是一个非常具有挑战性的问题，因为信号是如此不同，而这个模型已经显示出了它的强大能力。”

原文作者：Rachel Gordon

原文链接：https://www.csail.mit.edu/news/teaching-artificial-intelligence-connect-senses-vision-and-touch

继续阅读