AI理解不了“他她它”咋办？动词成为新突破口，机器人听到抹黄油就知道拿刀

来源：IT之家时间：2022-12-03 10:11 阅读量：7946

给AI下指令的时候，总觉得和人交流不一样。

是的，虽然AI可以理解一些特定的人类指令，比如:

帮我从餐厅拿把椅子。

但如果改成只有代词和动词的模糊指令，AI会很困惑:

帮我找个能垫脚的东西。

现在，终于有研究人员提出了一种新的处理方法:AI不能学习理解动词吗。

动词本身和一些特定的名词绑定在一起比如抹黄油这个动作，肯定离不开刀叉之类的名词

只需要将它们进行匹配，无需刀叉等名词指令，AI也能准确找出目标对象:

目前，该论文正式收录于NeurIPS 2022，相关模型已经开源:

那么它是如何训练AI理解动词的呢。

盖名词，让AI看图找东西

本文提出了一个称为TOIST的框架。

TOIST面向任务的实例分割转换器，这是一种基于转换器的实例分割新方案。

实例分割不同于语义分割的全图切割，它还具有目标检测的特点。比如下图直接找出与名词两厢对应的对象:

此前，案件分割模型通常分为两步第一步是检测可能的目标，第二步是对可能的目标进行排序并预测最可能的结果

但与这种方式不同的是，TOIST框架直接采用了一个整体的Transformer框架，其中解码器中的自我关注机制可以建立候选目标之间的偏好关系。

TOIST框架分为三个部分。

其中，多模态编码器负责提取特征标记，变换器编码器负责聚合两种模式的特征，并基于变换器解码器中的注意机制预测最合适的目标。

随后，提出了一种新的名词—代词提取方法来训练模型。

具体来说，基于知识提炼框架，以无监督学习的方式训练AI通过上下文猜测名词原型。

比如原来的实例分割任务是用滑板挖洞，但是在训练模型的时候，名词滑板会被代词某物代替:

这种分割效果在实际案例中表现如何。

目标探测准确率提高10.9%

本文在大规模任务数据集COCO—Tasks上对TOIST进行了测试。

评价方法采用mAP，常见于目标检测等视觉任务。

简单来说，TOIST在例如分割和目标检测方面比以前的SOTA模型表现得更好，而添加了名词代词提取方法的增强版TOIST的表现比TOIST in好上一层楼。

与目前最好的Yolo+GGNN相比，增强版TOIST的决策帧精度图在目标检测任务中提高了10.9%，在案例分割任务中，mask精度比Mask—RCNN+GGNN提高了6.6%。

对于名词—代词提取方法，与TOIST的原始版本相比，实例切分的准确率分别提高了2.8%和3.8%。

在具体的案例表现上，模型效果也非常接近实际的分割真值。

比如图中，算法甚至识别出啤酒瓶盖可以用桌子打开，在理解上可以说是满分:

我们实验室其实是负责机器人的研究的，但是在平时的调查中发现，用户有时候更喜欢向机器人描述需求，而不是直接告诉他们该做什么。

换句话说，AI算法是用来让机器人想得更多，而不仅仅是一个听从命令的助手。

李鹏飞，清华大学智能产业研究院博士生，毕业于中国科学院大学他的研究兴趣是自动驾驶和计算机视觉

对大视觉—语言模型感兴趣的朋友可以试试这个新思路~

论文地址:

项目地址:

。

编辑：叶知秋