ACL2019最佳论文发表:华人团队独揽最佳长短论文一篇,中科院、华为等上榜—量子位
ACL2019的最佳论文新鲜出炉。
刚才,自然语言处理领域的峰会ACL2019上发表了最佳论文,这次发表了4个奖项,有8个获奖名额,分别是:
最佳长论文最佳短论文最佳DEMO论文5篇杰出论文奖
今年,华人一作团队获得最佳长论文、最佳短论文和两篇杰出论文,中科院、中科院大学、腾讯、华为诺亚方舟实验室、南京理工大学、香港理工大学等。
今年的ACL2019空前热闹。据ACL官方公布,今年共有2906篇帖子,较去年的1544篇增加了75%以上。
今年的最佳论文讲的是什么,看看各国、机构的战况吧。
最佳长度论文
最佳长篇论文获奖者是中国研究人员,该论文名为:
Bridging the Gap between Training and Inference for Neural Machine Translation
本文来自中国科学院计算所智能信息处理重点实验室、中国科学院大学Wen Zhang和Yang Feng、腾讯微信AI的Fandong Meng、伍斯特理工学院的Di You和华为诺亚方舟实验室的Qun Liu。
本文研究了神经机器翻译(NMT)的训练和推理之间的差距应该如何填补。
神经机器翻译(NMT)是一种基于上下文内容预测下一个词的方法,推理过程从一开始,按顺序生成整个序列。这会因上下文未标注而产生累积误差。
另一个挑战是,在单词级训练中,生成的序列必须与ground truth序列严格匹配,这样可以过度修改不同但合理的翻译。
本文提出了一种解决上述问题的方法,称为过矫正恢复(OR)
简而言之,在训练期间,您不仅可以从ground truth序列中提取上下文单词,还可以从模型预测序列中提取上下文单词,并在语句级别选择最佳的预测序列。
也就是说,在翻译过程中,模型不需要为每个单词比较标准来确定损失函数。
具体而言
此方法首先从预测单词中选择“oracle”单词,然后将“oracle”单词和ground truth单词作为上下文示例。
另外,oracle单词不仅通过逐字贪婪检索来选择,还通过句子水平评价(例如BLEU)来选择。在训练开始时,模型以相对大的概率选择上下文真实词,并且随着模型逐渐收敛,词语被更频繁地选择为上下文。
研究人员认为中文-gt;英文及WMT'14英文gt;德语在翻译任务中进行实验的结果表明,该新方法可以在多个数据集中实现提高。
他们在RNNsearch模型和Transformer模型中也验证了新的方法。结果表明,新方法可以大大提高两种模型的性能。
论文地址:
https://arxiv.org/abs/1906.02448
最适合的短论文
△推特来自用户Saif M.Mohammad
最佳短论文的一篇也是华人,俄亥俄州立大学博士生蒋南江,两篇是该校副教授Marie-Catherine de Marneffe。
△蒋南江、她的GitHub自我介绍
这篇论文的题目是“你知道佛罗伦萨到处都是游客吗?评价最先进的说话者承诺模式”。在开头,研究者们借用佛罗伦萨游客解释了两个问题。
“你知道佛罗伦萨到处都是游客吗?”
这时,你会回答:“知道,很拥挤。”
“你觉得佛罗伦萨到处都是游客吗?”
换两个字的话问题就会变,变成主观的问题,可以回答“嗯,我是这么想的。”或者“不,我不这么想。”。
在此,关于估计说话人的承诺(Inferring speaker commitment)的问题,在以往的研究中,将其称为事件事实(event factuality),理解该问题对于信息提取和问题回答是极其重要的。
在这里,研究人员找到了CommitmentBank数据集。
利用这组数据,研究者们评估了两个目前最高级别的模型,发现它们在否定句和非有效嵌入动词上表现更好,而且语言信息模型优于基于LSTM的模型,可以通过具有挑战性的自然数据成功扩展。
也就是说,为了捕捉这些具有挑战性的自然数据,需要语言知识。
但是,出现了问题。模型在否定句中表现得很好,但不能推广到自然语言的各种语言结构,如条件句、模态和负增长。
因此,研究人员发现了对语言模式的改进方向,即为了进行强有力的语言理解,模型需要更多的语言预知,可以推广到更广泛的语言结构。
这也是这篇文章的核心贡献。
Do you know that Florence is packed with visitors
Evaluating state-of-the-art models of speaker commitment
论文地址:
https://linguistics.osu.edu/people/jiang.1879
最佳Demo论文
△推特来自用户Aarne Talman
今年的最佳Demo论文被授予Unbabel团队,他们提出了一个基于Pytorch的开源框架OpenKiwi来评估神经机器的翻译质量。
Unbabel是一家成立于2013年的创业公司,为客户提供人工智能驱动的人工翻译平台,主要专注于客户服务交流的翻译。客户包括Booking.com、Facebook等。
OpenKiwi支持单词水平和句子水平质量评价体系的训练和测试,在WMT 2015-18质量评价大赛中夺冠。在WMT2018(英文-德语SMT和NMT)两个数据集上进行基准测试,OpenKiwi在单词级任务上达到了性能,在句子级任务上接近了最先进的性能。
OpenKiwi的特点包括:。
OpenKiwi: An Open Source Framework for Quality Estimation
论文地址:
https://arxiv.org/abs/1902.08646
代码地址:
https://GitHub.com/Unbabel/OpenKiwi
五篇杰出的论文
1,Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
https://arxiv.org/abs/1906.01267
作者:Rui Xia,Zixiang Ding(南京理工大学)
2,A Simple Theoretical Model of Importance for Summarization
https://www.aclweb.org/anthology/P19-1101
作者:Maxime Peyrard(EPFL)
3,Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems
https://arxiv.org/abs/1905.08743
作者:Chien-Sheng Wu、Andrea Madotto、Ehsan Hosseini-Asl、Caiming Xiong、Richard Socher and Pascale Fung(香港科技大学、Salesforce等)
4,We need to talk about standard splits
https://wellformedness.com/papers/gorman-bedrick-2019.pdf
作者:Kyle Gorman and Steven Bedrick(纽约城市大学、俄勒冈健康与科学大学等)
5,Zero-Shot Entity Linking by Reading Entity Descriptions
https://arxiv.org/abs/1906.07348
作者:Lajanugen Logiswaran、Ming-Wei Chang、Kenton Lee、Kristina Toutanova、Jacob Devlin and Honglak Lee(密歇根大学、谷歌等)
中美投稿最激情
根据ACL的官方发布,今年共有61个国家的机构提交了论文。其中,美国机构的投稿数略高于中国内地机构的投稿数,英国和德国的投稿数分别为第3名和第4名。
△图像根据ACL官方统计数据
ACL官方数据统计:
增加的除了投稿数以外,还有接收数。ACL2019收到765篇论文,接受率为25.8%,较上年24%左右略有上升。
其中,收到长论文447篇,短论文213篇,34篇demo论文,71篇student workshop。
接收论文列表:
http://www.acl2019.org/EN/program/papers.xhtml
最近几年ACL的投稿数也逐年上升,但论文受理没有放宽条件,接收率与几年前没有太大差别。
△ACL2019官方网站
在所有研究领域都很受欢迎,投稿数有信息提取和文本挖掘、机器学习和机器翻译,投稿数超过200。
就接收率而言,最难的领域是文档分析和语句级的含义,接收率小于五分之一。
△ACL2019官方网站
所有国家中最积极发帖的是中国和美国学者,分别发帖超过800篇论文,但考虑到许多中国AI领域的学者在美国读书,大多数论文虽然是美国大学但却是中国人,因此中国人对ACL的热情最高。
但在接收率方面,中国论文比美国论文低近10分。除了投稿较少的国家以外,投稿数超过30的国家相比,接收率最高的前5位是新加坡(34.8%)、以色列(34.1%)、英国(29.7%)、美国(28.8%)、德国(28.7%)
△ACL2019官方网站
在这700多篇论文中,入围最佳论文的有32篇,其中17篇长论文、11篇段落论文以及4篇demo论文。
在提名的论文中,24篇一篇来自各大学和研究所,7篇一篇来自产业界,另一篇来自凯波团队的论文是CMU和凯波成立的公司Petuum两个单位,是产学研结合的作品。
从各个国家来看,1个作品机构是美国14篇,中国6篇(其中1篇2人共同制作,属于日本和中国的大学),英国3篇,瑞士和日本各2篇,加拿大、印度、比利时、巴西、韩国、俄罗斯各1篇。
在被提名论文数量超过两篇的机构中,一家是谷歌,有四篇论文被提名,其中两篇是一篇,另一篇是华为诺亚方舟实验室,两篇论文被提名,一篇是一篇。
另外,在所有论文都被提名的大学和研究机构中,洛桑联邦理工学院、华盛顿大学、爱丁堡大学、丰田工业大学芝加哥分校各有两篇论文被提名。CMU有三篇论文被提名,约翰霍普金斯大学、清华大学和阿兰人工智能研究所分别有两篇论文被提名,每家每户都有一篇论文被提名。
40%的中国人指名论文
从论文作者角度分析,在这32篇提名论文中,13篇论文的第一作者为华人,占40%。
这13篇华人一作的论文,分别是:
1,Detecting Concealed Information in Text and Speech
作者:Shengli Hu(康奈尔大学)
https://www.aclweb.org/anthology/P19-1039
2,AMR Parsing as Sequence-to-Graph Transduction
作者:Sheng Zhang(约翰斯霍普金斯大学)等
https://arxiv.org/abs/1905.08704
3,Transferable Multi-Domain State Generator for Task-Oriented
作者:Chien-Sheng Wu(港科大学)、Andrea Madotto、Ehsan Hosseini-Asl等
https://arxiv.org/abs/1905.08743
4,A Modularized, Versatile, and Extensible Toolkit for Text Generation
作者:Zhiting Hu胡志挺(CMU)、Haoran Shi、Bowen Tan等
https://www.aclweb.org/anthology/W18-2503
5,Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts
作者:Rui Xia(南京理工)、Zixiang Ding
https://arxiv.org/abs/1906.01267
6,Visually Grounded Neural Syntax Acquisition
作者:Haoyue Shi(丰田工业大学芝加哥分校)、Juan Mao、Kevin Gimpel and Karen Livescu
https://arxiv.org/abs/1906.02890
7,An Imitation Learning Approach to Unsupervised Parsing
作者:Bowen Li(爱丁堡大学)、Lili Mou、Frank Keller
https://arxiv.org/abs/1906.02276
8,Decomposable Neural Paraphrase Generation
作者:Zichao Li(华为诺亚方舟实验室)、新晋、Lifeng Shang and Qun Liu
https://arxiv.org/abs/1906.09741
9,Robust Neural Machine Translation with Doubly Adversarial Inputs
作者:Yong Ching(Google AI),Lu Jiang and Wolfgang Macherey
https://arxiv.org/abs/1906.02443
10,Bridging the Gap between Training and Inference for Neural Machine Translation
作者:Wen Zhang(中国科学院)、Yang Feng、Fandong Meng、Di You and Qun Liu
https://arxiv.org/abs/1906.02448
11,Do you know that Florence is packed with visitors Evaluating state-of-th