ACL2019最佳论文发表:华人团队独揽最佳长短论文一篇,中科院、华为等上榜—量子位

时间 • 2023-04-14 10:13:03
http
ing
大学
作者
论文

ACL2019的最佳论文新鲜出炉。

刚才,自然语言处理领域的峰会ACL2019上发表了最佳论文,这次发表了4个奖项,有8个获奖名额,分别是:

最佳长论文最佳短论文最佳DEMO论文5篇杰出论文奖

今年,华人一作团队获得最佳长论文、最佳短论文和两篇杰出论文,中科院、中科院大学、腾讯、华为诺亚方舟实验室、南京理工大学、香港理工大学等。

今年的ACL2019空前热闹。据ACL官方公布,今年共有2906篇帖子,较去年的1544篇增加了75%以上。

今年的最佳论文讲的是什么,看看各国、机构的战况吧。

最佳长度论文

最佳长篇论文获奖者是中国研究人员,该论文名为:

Bridging the Gap between Training and Inference for Neural Machine Translation

△图像由推特用户Aarne Talman

本文来自中国科学院计算所智能信息处理重点实验室、中国科学院大学Wen Zhang和Yang Feng、腾讯微信AI的Fandong Meng、伍斯特理工学院的Di You和华为诺亚方舟实验室的Qun Liu。

本文研究了神经机器翻译(NMT)的训练和推理之间的差距应该如何填补。

神经机器翻译(NMT)是一种基于上下文内容预测下一个词的方法,推理过程从一开始,按顺序生成整个序列。这会因上下文未标注而产生累积误差。

另一个挑战是,在单词级训练中,生成的序列必须与ground truth序列严格匹配,这样可以过度修改不同但合理的翻译。

本文提出了一种解决上述问题的方法,称为过矫正恢复(OR)

简而言之,在训练期间,您不仅可以从ground truth序列中提取上下文单词,还可以从模型预测序列中提取上下文单词,并在语句级别选择最佳的预测序列。

也就是说,在翻译过程中,模型不需要为每个单词比较标准来确定损失函数。

具体而言

此方法首先从预测单词中选择“oracle”单词,然后将“oracle”单词和ground truth单词作为上下文示例。

另外,oracle单词不仅通过逐字贪婪检索来选择,还通过句子水平评价(例如BLEU)来选择。在训练开始时,模型以相对大的概率选择上下文真实词,并且随着模型逐渐收敛,词语被更频繁地选择为上下文。

研究人员认为中文-gt;英文及WMT'14英文gt;德语在翻译任务中进行实验的结果表明,该新方法可以在多个数据集中实现提高。

他们在RNNsearch模型和Transformer模型中也验证了新的方法。结果表明,新方法可以大大提高两种模型的性能。

论文地址:

https://arxiv.org/abs/1906.02448

最适合的短论文

△推特来自用户Saif M.Mohammad

最佳短论文的一篇也是华人,俄亥俄州立大学博士生蒋南江,两篇是该校副教授Marie-Catherine de Marneffe。

△蒋南江、她的GitHub自我介绍

这篇论文的题目是“你知道佛罗伦萨到处都是游客吗?评价最先进的说话者承诺模式”。在开头,研究者们借用佛罗伦萨游客解释了两个问题。

“你知道佛罗伦萨到处都是游客吗?”

这时,你会回答:“知道,很拥挤。”

“你觉得佛罗伦萨到处都是游客吗?”

换两个字的话问题就会变,变成主观的问题,可以回答“嗯,我是这么想的。”或者“不,我不这么想。”。

在此,关于估计说话人的承诺(Inferring speaker commitment)的问题,在以往的研究中,将其称为事件事实(event factuality),理解该问题对于信息提取和问题回答是极其重要的。

在这里,研究人员找到了CommitmentBank数据集。

利用这组数据,研究者们评估了两个目前最高级别的模型,发现它们在否定句和非有效嵌入动词上表现更好,而且语言信息模型优于基于LSTM的模型,可以通过具有挑战性的自然数据成功扩展。

也就是说,为了捕捉这些具有挑战性的自然数据,需要语言知识。

但是,出现了问题。模型在否定句中表现得很好,但不能推广到自然语言的各种语言结构,如条件句、模态和负增长。

因此,研究人员发现了对语言模式的改进方向,即为了进行强有力的语言理解,模型需要更多的语言预知,可以推广到更广泛的语言结构。

这也是这篇文章的核心贡献。

Do you know that Florence is packed with visitors

Evaluating state-of-the-art models of speaker commitment

论文地址:

https://linguistics.osu.edu/people/jiang.1879

最佳Demo论文

△推特来自用户Aarne Talman

今年的最佳Demo论文被授予Unbabel团队,他们提出了一个基于Pytorch的开源框架OpenKiwi来评估神经机器的翻译质量。

Unbabel是一家成立于2013年的创业公司,为客户提供人工智能驱动的人工翻译平台,主要专注于客户服务交流的翻译。客户包括Booking.com、Facebook等。

OpenKiwi支持单词水平和句子水平质量评价体系的训练和测试,在WMT 2015-18质量评价大赛中夺冠。在WMT2018(英文-德语SMT和NMT)两个数据集上进行基准测试,OpenKiwi在单词级任务上达到了性能,在句子级任务上接近了最先进的性能。

OpenKiwi的特点包括:。

OpenKiwi: An Open Source Framework for Quality Estimation

论文地址:

https://arxiv.org/abs/1902.08646

代码地址:

https://GitHub.com/Unbabel/OpenKiwi

五篇杰出的论文

1,Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts

https://arxiv.org/abs/1906.01267

作者:Rui Xia,Zixiang Ding(南京理工大学)

2,A Simple Theoretical Model of Importance for Summarization

https://www.aclweb.org/anthology/P19-1101

作者:Maxime Peyrard(EPFL)

3,Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems

https://arxiv.org/abs/1905.08743

作者:Chien-Sheng Wu、Andrea Madotto、Ehsan Hosseini-Asl、Caiming Xiong、Richard Socher and Pascale Fung(香港科技大学、Salesforce等)

4,We need to talk about standard splits

https://wellformedness.com/papers/gorman-bedrick-2019.pdf

作者:Kyle Gorman and Steven Bedrick(纽约城市大学、俄勒冈健康与科学大学等)

5,Zero-Shot Entity Linking by Reading Entity Descriptions

https://arxiv.org/abs/1906.07348

作者:Lajanugen Logiswaran、Ming-Wei Chang、Kenton Lee、Kristina Toutanova、Jacob Devlin and Honglak Lee(密歇根大学、谷歌等)

中美投稿最激情

根据ACL的官方发布,今年共有61个国家的机构提交了论文。其中,美国机构的投稿数略高于中国内地机构的投稿数,英国和德国的投稿数分别为第3名和第4名。

△图像根据ACL官方统计数据

ACL官方数据统计:

增加的除了投稿数以外,还有接收数。ACL2019收到765篇论文,接受率为25.8%,较上年24%左右略有上升。

其中,收到长论文447篇,短论文213篇,34篇demo论文,71篇student workshop。

接收论文列表:

http://www.acl2019.org/EN/program/papers.xhtml

最近几年ACL的投稿数也逐年上升,但论文受理没有放宽条件,接收率与几年前没有太大差别。

△ACL2019官方网站

在所有研究领域都很受欢迎,投稿数有信息提取和文本挖掘、机器学习和机器翻译,投稿数超过200。

就接收率而言,最难的领域是文档分析和语句级的含义,接收率小于五分之一。

△ACL2019官方网站

所有国家中最积极发帖的是中国和美国学者,分别发帖超过800篇论文,但考虑到许多中国AI领域的学者在美国读书,大多数论文虽然是美国大学但却是中国人,因此中国人对ACL的热情最高。

但在接收率方面,中国论文比美国论文低近10分。除了投稿较少的国家以外,投稿数超过30的国家相比,接收率最高的前5位是新加坡(34.8%)、以色列(34.1%)、英国(29.7%)、美国(28.8%)、德国(28.7%)

△ACL2019官方网站

在这700多篇论文中,入围最佳论文的有32篇,其中17篇长论文、11篇段落论文以及4篇demo论文。

在提名的论文中,24篇一篇来自各大学和研究所,7篇一篇来自产业界,另一篇来自凯波团队的论文是CMU和凯波成立的公司Petuum两个单位,是产学研结合的作品。

从各个国家来看,1个作品机构是美国14篇,中国6篇(其中1篇2人共同制作,属于日本和中国的大学),英国3篇,瑞士和日本各2篇,加拿大、印度、比利时、巴西、韩国、俄罗斯各1篇。

在被提名论文数量超过两篇的机构中,一家是谷歌,有四篇论文被提名,其中两篇是一篇,另一篇是华为诺亚方舟实验室,两篇论文被提名,一篇是一篇。

另外,在所有论文都被提名的大学和研究机构中,洛桑联邦理工学院、华盛顿大学、爱丁堡大学、丰田工业大学芝加哥分校各有两篇论文被提名。CMU有三篇论文被提名,约翰霍普金斯大学、清华大学和阿兰人工智能研究所分别有两篇论文被提名,每家每户都有一篇论文被提名。

40%的中国人指名论文

从论文作者角度分析,在这32篇提名论文中,13篇论文的第一作者为华人,占40%。

这13篇华人一作的论文,分别是:

1,Detecting Concealed Information in Text and Speech

作者:Shengli Hu(康奈尔大学)

https://www.aclweb.org/anthology/P19-1039

2,AMR Parsing as Sequence-to-Graph Transduction

作者:Sheng Zhang(约翰斯霍普金斯大学)等

https://arxiv.org/abs/1905.08704

3,Transferable Multi-Domain State Generator for Task-Oriented

作者:Chien-Sheng Wu(港科大学)、Andrea Madotto、Ehsan Hosseini-Asl等

https://arxiv.org/abs/1905.08743

4,A Modularized, Versatile, and Extensible Toolkit for Text Generation

作者:Zhiting Hu胡志挺(CMU)、Haoran Shi、Bowen Tan等

https://www.aclweb.org/anthology/W18-2503

5,Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts

作者:Rui Xia(南京理工)、Zixiang Ding

https://arxiv.org/abs/1906.01267

6,Visually Grounded Neural Syntax Acquisition

作者:Haoyue Shi(丰田工业大学芝加哥分校)、Juan Mao、Kevin Gimpel and Karen Livescu

https://arxiv.org/abs/1906.02890

7,An Imitation Learning Approach to Unsupervised Parsing

作者:Bowen Li(爱丁堡大学)、Lili Mou、Frank Keller

https://arxiv.org/abs/1906.02276

8,Decomposable Neural Paraphrase Generation

作者:Zichao Li(华为诺亚方舟实验室)、新晋、Lifeng Shang and Qun Liu

https://arxiv.org/abs/1906.09741

9,Robust Neural Machine Translation with Doubly Adversarial Inputs

作者:Yong Ching(Google AI),Lu Jiang and Wolfgang Macherey

https://arxiv.org/abs/1906.02443

10,Bridging the Gap between Training and Inference for Neural Machine Translation

作者:Wen Zhang(中国科学院)、Yang Feng、Fandong Meng、Di You and Qun Liu

https://arxiv.org/abs/1906.02448

11,Do you know that Florence is packed with visitors Evaluating state-of-th