CMU全新编码器解-码器框架:一种用于描述生成的Review Network

卡耐基梅隆大学提出了一种新的编码器-解码器框架 —— review network,该框架在提升图像和源代码描述的任务上超过了现有其他最先进的系统

卡耐基梅隆大学提出了一种新的编码器-解码器框架 —— review network,该框架在提升图像和源代码描述的任务上超过了现有其他最先进的系统。

我们提出了一种编码器-解码器框架的新扩展,叫review network。这种 review network是通用的,能够增强任意现有的编码器-解码器模型:在这篇论文中,我们探讨了带有CNN和RNN编码器的RNN解码器。该review network在编码器隐藏状态下执行一些review步骤,并在每一次review后输出一个 thought vector;这些 thought vectors 在解码器中被用作注意力机制(attention machine)的输入。我们发现在我们的框架中,卷积的编码-解码器是一个特例。经过实证,我们发现我们的框架在提升图像和源代码描述的任务上超过了目前所有最先进的编码器-解码器系统。

项目地址:

https://github.com/kimiyoung/review_net

用于描述生成的 Review Network

在 MSCOCO 上给图像添加描述

你可以在这个 repo 中使用这个代码来生成一个 MSCOCO 评估服务器(CIDE.r=0.96+), 这个过程需要几个小时。

无需微调,没有花哨的技巧。仅训练三个端到端的 review network,然后做一个集成:

  • 特征提取:并行 2 小时

  • 单一模型训练:6 小时

  • 集成模型训练:30 分钟

  • 描述生成的波束搜索:并行 3 小时

下面是我们的系统在 MSCOCO 评估服务器上与其他先进系统的比较(根据已发表的论文)

ModelBLEU-4METEORROUGE-LCIDErFine-tunedTask specific features
Attention0.5370.3220.6540.893NoNo
MS Research0.5670.3310.6620.925NoYes
Google NIC0.5870.3460.6820.946YesNo
Semantic Attention

0.599

0.3350.6820.958NoYes
Review Net0.597

0.347

0.686

0.969

NoNo


在 image_caption_online 目录下,你可以使用里面的代码重现我们的评估服务器的结果。

在 image_caption_offline 目录下,你可以使用离线评估重新运行我们论文中的实验。

添加代码描述

另一个有趣的任务是预测一条源代码的注释。在这个 repo 中,除了一个review network的代码外,我们也开放了一个带有 train/dev/test 分类的数据集。

查看 code_caption 目录。

下面是我们的框架系统在代码描述数据集上与基线的比较。

ModelLLHCS-1CS-2CS-3CS-4CS-5
LSTM Language Model-5.340.23400.27630.30000.31530.3290
Encoder-Decoder-5.250.25350.29760.32010.33670.3507
Encoder-Decoder (Bidir)-5.190.26320.30680.32900.34420.3570
Attentive Encoder-Decoder (Bidir)-5.140.27160.31520.33640.35230.3651
Review Net

-5.06

0.2889

0.3361

0.3579

0.3731

0.3840


参考文献:

用于描述生成的review networks(

Review Networks for Caption Generation

),这个 repo 中包含的代码和数据可在这篇论文中找到。

未登录用户
全部评论0
到底啦