ACL2019最佳论文发表：华人团队独揽最佳长短论文一篇，中科院、华为等上榜—量子位

时间 • 2023-04-14 10:13:03

http

ing

大学

作者

论文

ACL2019的最佳论文新鲜出炉。

刚才，自然语言处理领域的峰会ACL2019上发表了最佳论文，这次发表了4个奖项，有8个获奖名额，分别是：

最佳长论文最佳短论文最佳DEMO论文5篇杰出论文奖

今年，华人一作团队获得最佳长论文、最佳短论文和两篇杰出论文，中科院、中科院大学、腾讯、华为诺亚方舟实验室、南京理工大学、香港理工大学等。

今年的ACL2019空前热闹。据ACL官方公布，今年共有2906篇帖子，较去年的1544篇增加了75%以上。

今年的最佳论文讲的是什么，看看各国、机构的战况吧。

最佳长度论文

最佳长篇论文获奖者是中国研究人员，该论文名为：

Bridging the Gap between Training and Inference for Neural Machine Translation

△图像由推特用户Aarne Talman

本文来自中国科学院计算所智能信息处理重点实验室、中国科学院大学Wen Zhang和Yang Feng、腾讯微信AI的Fandong Meng、伍斯特理工学院的Di You和华为诺亚方舟实验室的Qun Liu。

本文研究了神经机器翻译（NMT）的训练和推理之间的差距应该如何填补。

神经机器翻译（NMT）是一种基于上下文内容预测下一个词的方法，推理过程从一开始，按顺序生成整个序列。这会因上下文未标注而产生累积误差。

另一个挑战是，在单词级训练中，生成的序列必须与ground truth序列严格匹配，这样可以过度修改不同但合理的翻译。

本文提出了一种解决上述问题的方法，称为过矫正恢复（OR）

简而言之，在训练期间，您不仅可以从ground truth序列中提取上下文单词，还可以从模型预测序列中提取上下文单词，并在语句级别选择最佳的预测序列。

也就是说，在翻译过程中，模型不需要为每个单词比较标准来确定损失函数。

具体而言

此方法首先从预测单词中选择“oracle”单词，然后将“oracle”单词和ground truth单词作为上下文示例。

另外，oracle单词不仅通过逐字贪婪检索来选择，还通过句子水平评价（例如BLEU）来选择。在训练开始时，模型以相对大的概率选择上下文真实词，并且随着模型逐渐收敛，词语被更频繁地选择为上下文。

研究人员认为中文-gt；英文及WMT'14英文gt；德语在翻译任务中进行实验的结果表明，该新方法可以在多个数据集中实现提高。

他们在RNNsearch模型和Transformer模型中也验证了新的方法。结果表明，新方法可以大大提高两种模型的性能。

论文地址：

https：//arxiv.org/abs/1906.02448

最适合的短论文

△推特来自用户Saif M.Mohammad

最佳短论文的一篇也是华人，俄亥俄州立大学博士生蒋南江，两篇是该校副教授Marie-Catherine de Marneffe。

△蒋南江、她的GitHub自我介绍

这篇论文的题目是“你知道佛罗伦萨到处都是游客吗？评价最先进的说话者承诺模式”。在开头，研究者们借用佛罗伦萨游客解释了两个问题。

“你知道佛罗伦萨到处都是游客吗？”

这时，你会回答：“知道，很拥挤。”

“你觉得佛罗伦萨到处都是游客吗？”

换两个字的话问题就会变，变成主观的问题，可以回答“嗯，我是这么想的。”或者“不，我不这么想。”。

在此，关于估计说话人的承诺（Inferring speaker commitment）的问题，在以往的研究中，将其称为事件事实（event factuality），理解该问题对于信息提取和问题回答是极其重要的。

在这里，研究人员找到了CommitmentBank数据集。

利用这组数据，研究者们评估了两个目前最高级别的模型，发现它们在否定句和非有效嵌入动词上表现更好，而且语言信息模型优于基于LSTM的模型，可以通过具有挑战性的自然数据成功扩展。

也就是说，为了捕捉这些具有挑战性的自然数据，需要语言知识。

但是，出现了问题。模型在否定句中表现得很好，但不能推广到自然语言的各种语言结构，如条件句、模态和负增长。

因此，研究人员发现了对语言模式的改进方向，即为了进行强有力的语言理解，模型需要更多的语言预知，可以推广到更广泛的语言结构。

这也是这篇文章的核心贡献。

Do you know that Florence is packed with visitors

Evaluating state-of-the-art models of speaker commitment

论文地址：

https：//linguistics.osu.edu/people/jiang.1879

最佳Demo论文

△推特来自用户Aarne Talman

今年的最佳Demo论文被授予Unbabel团队，他们提出了一个基于Pytorch的开源框架OpenKiwi来评估神经机器的翻译质量。

Unbabel是一家成立于2013年的创业公司，为客户提供人工智能驱动的人工翻译平台，主要专注于客户服务交流的翻译。客户包括Booking.com、Facebook等。

OpenKiwi支持单词水平和句子水平质量评价体系的训练和测试，在WMT 2015-18质量评价大赛中夺冠。在WMT2018（英文-德语SMT和NMT）两个数据集上进行基准测试，OpenKiwi在单词级任务上达到了性能，在句子级任务上接近了最先进的性能。

OpenKiwi的特点包括：。

OpenKiwi： An Open Source Framework for Quality Estimation

论文地址：

https：//arxiv.org/abs/1902.08646

代码地址：

https：//GitHub.com/Unbabel/OpenKiwi

五篇杰出的论文

1，Emotion-Cause Pair Extraction： A New Task to Emotion Analysis in Texts

https：//arxiv.org/abs/1906.01267

作者：Rui Xia，Zixiang Ding（南京理工大学）

2，A Simple Theoretical Model of Importance for Summarization

https：//www.aclweb.org/anthology/P19-1101

作者：Maxime Peyrard（EPFL）

3，Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems

https：//arxiv.org/abs/1905.08743

作者：Chien-Sheng Wu、Andrea Madotto、Ehsan Hosseini-Asl、Caiming Xiong、Richard Socher and Pascale Fung（香港科技大学、Salesforce等）

4，We need to talk about standard splits

https：//wellformedness.com/papers/gorman-bedrick-2019.pdf

作者：Kyle Gorman and Steven Bedrick（纽约城市大学、俄勒冈健康与科学大学等）

5，Zero-Shot Entity Linking by Reading Entity Descriptions

https：//arxiv.org/abs/1906.07348

作者：Lajanugen Logiswaran、Ming-Wei Chang、Kenton Lee、Kristina Toutanova、Jacob Devlin and Honglak Lee（密歇根大学、谷歌等）

中美投稿最激情

根据ACL的官方发布，今年共有61个国家的机构提交了论文。其中，美国机构的投稿数略高于中国内地机构的投稿数，英国和德国的投稿数分别为第3名和第4名。

△图像根据ACL官方统计数据

ACL官方数据统计：

增加的除了投稿数以外，还有接收数。ACL2019收到765篇论文，接受率为25.8%，较上年24%左右略有上升。

其中，收到长论文447篇，短论文213篇，34篇demo论文，71篇student workshop。

接收论文列表：

http：//www.acl2019.org/EN/program/papers.xhtml

最近几年ACL的投稿数也逐年上升，但论文受理没有放宽条件，接收率与几年前没有太大差别。

△ACL2019官方网站

在所有研究领域都很受欢迎，投稿数有信息提取和文本挖掘、机器学习和机器翻译，投稿数超过200。

就接收率而言，最难的领域是文档分析和语句级的含义，接收率小于五分之一。

△ACL2019官方网站

所有国家中最积极发帖的是中国和美国学者，分别发帖超过800篇论文，但考虑到许多中国AI领域的学者在美国读书，大多数论文虽然是美国大学但却是中国人，因此中国人对ACL的热情最高。

但在接收率方面，中国论文比美国论文低近10分。除了投稿较少的国家以外，投稿数超过30的国家相比，接收率最高的前5位是新加坡（34.8%）、以色列（34.1%）、英国（29.7%）、美国（28.8%）、德国（28.7%）

△ACL2019官方网站

在这700多篇论文中，入围最佳论文的有32篇，其中17篇长论文、11篇段落论文以及4篇demo论文。

在提名的论文中，24篇一篇来自各大学和研究所，7篇一篇来自产业界，另一篇来自凯波团队的论文是CMU和凯波成立的公司Petuum两个单位，是产学研结合的作品。

从各个国家来看，1个作品机构是美国14篇，中国6篇（其中1篇2人共同制作，属于日本和中国的大学），英国3篇，瑞士和日本各2篇，加拿大、印度、比利时、巴西、韩国、俄罗斯各1篇。

在被提名论文数量超过两篇的机构中，一家是谷歌，有四篇论文被提名，其中两篇是一篇，另一篇是华为诺亚方舟实验室，两篇论文被提名，一篇是一篇。

另外，在所有论文都被提名的大学和研究机构中，洛桑联邦理工学院、华盛顿大学、爱丁堡大学、丰田工业大学芝加哥分校各有两篇论文被提名。CMU有三篇论文被提名，约翰霍普金斯大学、清华大学和阿兰人工智能研究所分别有两篇论文被提名，每家每户都有一篇论文被提名。

40%的中国人指名论文

从论文作者角度分析，在这32篇提名论文中，13篇论文的第一作者为华人，占40%。

这13篇华人一作的论文，分别是：

1，Detecting Concealed Information in Text and Speech

作者：Shengli Hu（康奈尔大学）

https：//www.aclweb.org/anthology/P19-1039

2，AMR Parsing as Sequence-to-Graph Transduction

作者：Sheng Zhang（约翰斯霍普金斯大学）等

https：//arxiv.org/abs/1905.08704

3，Transferable Multi-Domain State Generator for Task-Oriented

作者：Chien-Sheng Wu（港科大学）、Andrea Madotto、Ehsan Hosseini-Asl等

https：//arxiv.org/abs/1905.08743

4，A Modularized, Versatile, and Extensible Toolkit for Text Generation

作者：Zhiting Hu胡志挺（CMU）、Haoran Shi、Bowen Tan等

https：//www.aclweb.org/anthology/W18-2503

5，Emotion-Cause Pair Extraction： A New Task to Emotion Analysis in Texts

作者：Rui Xia（南京理工）、Zixiang Ding

https：//arxiv.org/abs/1906.01267

6，Visually Grounded Neural Syntax Acquisition

作者：Haoyue Shi（丰田工业大学芝加哥分校）、Juan Mao、Kevin Gimpel and Karen Livescu

https：//arxiv.org/abs/1906.02890

7，An Imitation Learning Approach to Unsupervised Parsing

作者：Bowen Li（爱丁堡大学）、Lili Mou、Frank Keller

https：//arxiv.org/abs/1906.02276

8，Decomposable Neural Paraphrase Generation

作者：Zichao Li（华为诺亚方舟实验室）、新晋、Lifeng Shang and Qun Liu

https：//arxiv.org/abs/1906.09741

9，Robust Neural Machine Translation with Doubly Adversarial Inputs

作者：Yong Ching（Google AI），Lu Jiang and Wolfgang Macherey

https：//arxiv.org/abs/1906.02443

10，Bridging the Gap between Training and Inference for Neural Machine Translation

作者：Wen Zhang（中国科学院）、Yang Feng、Fandong Meng、Di You and Qun Liu

https：//arxiv.org/abs/1906.02448

11，Do you know that Florence is packed with visitors Evaluating state-of-th