近日,国际自然语言处理领域高级学术会议“国际计算语言学协会年会”(ACL2020)公布了今年大会的论文录用结果。根据此前官方公布的数据,本届大会共收到3429篇投稿论文,投稿数量创下新高。其中,百度共有11篇论文被大会收录,再次展现出在自然语言处理领域的超高水准。
国际计算语言学协会(ACL,TheAssociationforComputationalLinguistics)是自然语言处理领域影响力很大、很具活力的国际学术组织之一,百度CTO王海峰曾任2021年ACL主席(President),是ACL历史上首位华人主席。
除了在国际AI学界的影响力外,ACL无论是审稿规范还是审稿质量,都是当今AI领域国际高级会议中公认的翘楚。研究论文能够被其录用,不仅意味着研究成果得到了国际学术界的认可,也证实了研究本身在在实验严谨性、思路创新性等方面的实力。而此次ACL2020的审稿周期,从去年12月一直持续到今年4月,相比往年几乎增加了一倍。虽然大会官方尚未公布今年整体论文录用率,但参照往年的评审过程和录用率,论文被其录取的难度依旧不会低。
百度的自然语言处理技术,在发展及应用上始终保持领先,一直被视为自然语言处理研究界的“第一梯队”。今年除了11篇论文被录用外,大会期间百度还将联合Google、Facebook、UPenn、清华大学等国内外顶尖企业及高校,共同举办首届同声传译研讨会(The1stWorkshoponAutomaticSimultaneousTranslation)。由于近期疫情影响,原定于今年7月5日至10日在美国西雅图举行的大会已改为线上举办,而上述同声传译研讨会也将改为在线上与专家学者们探讨。
本届大会百度被收录的11篇论文,覆盖了对话与交互系统、情感分析/预练习表示学习、NLP文本生成与摘要、机器翻译/同声翻译、知识推理、AI辅助临床诊断等诸多自然语言处理界的前沿研究方向,提出了包括情感知识增强的语言模型预练习方法、基于图表示的多文档生成式摘要方法GraphSum等诸多新算法、新模型、新方法,不仅极大提升了相关领域的研究水平,也将推动人机交互、机器翻译、聪明医疗等场景的技术落地应用。
以下为ACL2020百度被收录的11篇论文概览。
一、对话与交互系统
1、ConversationalGraphGroundedPolicyLearningforOpen-DomainConversationGeneration
我们提出用图的形式捕捉对话转移规律作为先验信息,用于辅助开放域多轮对话策略学习。基于图,我们设计策略学习模型指导更加连贯和可控的多轮对话生成。首先,我们从对话语料库中构造一个对话图(CG),其中顶点表示“whattosay”和“howtosay”,边表示对话当前句与其回复句之间的自然转换。然后,我们提出了一个基于CG的策略学习框架,该框架通过图形遍历进行对话流规划,学习在每轮对话时从CG中识别出哪个顶点和如何从该顶点来指导回复生成。我们可以有效地利用CG来促进对话策略学习,具体而言:(1)可以基于它设计更有效的长期奖励;(2)它提供高质量的候选操作;(3)它让我们对策略有更多的控制。我们在两个基准语料库上进行了实验,结果证实了本文所提框架的有效性。
2、PLATO:Pre-trainedDialogueGenerationModelwithDiscreteLatentVariable
研发开放领域(Open-Domain)的对话机器人,使得它能用自然语言与人自由地交流,一直是自然语言处理领域的终极目标之一。对话系统的挑战非常多,其中有两点非常重要,一是大规模开放域多轮对话数据匮乏;二是对话中涉及常识、领域知识和上下文,一个对话的上文(Context),往往可以对应多个不同回复(Response)的方向。PLATO首次提出将离散的隐变量结合Transformer结构,应用到通用对话领域。通过引入离散隐变量,可以对上文与回复之间的“一对多”关系进行有效建模。同时,通过利用大规模的与人人对话类似的语料,包括Reddit和Twitter,进行了生成模型的预练习,后续在有限的人人对话语料上进行微调,即可以取得高质量的生成效果。PLATO可以灵活支持多种对话,包括闲聊、知识聊天、对话问答等等。而文章很终公布的在三个公开对话数据集上的评测,PLATO都取得了新的很优效果。
尽管越来越多的工作证实了随着预练习和大规模语料的引入,自然语言处理领域开启了预练习然后微调的范式。在对话模型上,大规模预练习还处于初级阶段,需要继续深入探索。PLATO提出的隐变量空间预练习模型,可能成为端到端对话系统迈上一个新台阶的关键点之一。
3、TowardsConversationalRecommendationoverMulti-TypeDialogs
真实人机对话,涉及多类型对话(闲聊、任务型对话、问答等),如何自然的融合多类型对话是一个重要的挑战。为应对这个挑战,我们提出一个新的任务——多类型对话中的对话式推荐,期望Bot能够主动且自然地将对话从非推荐对话(比如『问答』)引导到推荐对话,然后基于收集到的用户爱好及用户实时反馈通过多次交互完成很终的推荐目标。为便于研究这个任务,我们标注了一个包含多种对话类型、多领域和丰富对话逻辑(考虑用户实时反馈)的人-人对话式推荐数据集DuRec(1万个对话和16.4万个utterance)。针对每个配对:推荐寻求者(user)和推荐者(bot),存在多个序列对话,在每个对话中,推荐者使用丰富的交互行为主动引导一个多类型对话不断接近推荐目标。这个数据集答应我们系统地考察整个问题的不同部分,例如,如何自然地引导对话,如何与用户交互以便于推荐。很后,我们使用一个具有多对话目标驱动策略机制的对话生成框架在DuRec上建立基线结果,表明了该数据集的可用性,并为将来的研究设定了基线。
二、情感分析/预练习表示学习
4、SKEP:SentimentKnowledgeEnhancedPre-trainingforSentimentAnalysis
近年来,随着预练习语言模型的快速发展,情感分析等多项自然语言理解任务都取得了显著的效果提升。然而,在通用语言模型预练习中,文本中的很多情感相关的知识和信息,例如情感词、实体-评论搭配等,并没有被模型充分的学习。基于此,百度提出了一种情感知识增强的语言模型预练习方法,在通用预练习的基础上,设计了面向情感知识建模的Masking策略和情感多目标学习算法,融合了情感词、极性、主体评论关系等多层情感知识,首次实现了情感任务统一的文本预练习表示学习。该算法在情感分类、观点抽取等情感分析任务中相对主流预练习模型RoBERTa有显著的提升,同时刷新了多个情感分析标准测试集的世界很好水平。
5、Cross-LingualUnsupervisedSentimentClassificationwithMulti-ViewTransferLearning
本文针对无标签资源的目标语言,提出了一种无监督的跨语言情感分析模型。
三、NLP文本生成与摘要
6、LeveragingGraphtoImproveAbstractiveMulti-DocumentSummarization
多文档摘要(Multi-DocumentSummarization)技术自动为主题相关的文档集生成简洁、连贯的摘要文本,具有广阔的应用场景,例如热点话题综述、搜索结果摘要、聚合写作等。生成式多文档摘要方法的难点之一是如何有效建模文档内及文档间的语义关系,从而更好地理解输入的多文档。为此,本论文提出基于图表示的多文档生成式摘要方法GraphSum,在神经网络模型中融合多文档语义关系图例如语义相似图、篇章结构图等,建模多篇章输入及摘要内容组织过程,从而显著提升多文档摘要效果。GraphSum基于端到端编解码框架,其中图编码器利用语义关系图对文档集进行编码表示,图解码器进一步利用图结构组织摘要内容并解码生成连贯的摘要文本。GraphSum还可以非常简单地与各种通用预练习模型相结合,从而进一步提升摘要效果。在大规模多文档摘要数据集WikiSum和MultiNews上的实验表明,GraphSum模型相对于已有的生成式摘要方法具有较大的优越性,在自动评价和人工评价两种方式下的结果均有显著提升。
7、ExploringContextualWord-levelStyleRelevanceforUnsupervisedStyleTransfer
无监督风格转换是指在无平行语料的情况下,把输入的句子改成目标风格,同时尽可能保持其原义。本文提出了一种全新的序列到序列的生成模型,可以动态地根据生成词的风格相关性进行风格转换。本文有两个主要的创新点,一是用层级相关性传播算法计算风格分类器中每个输入词的风格相关性信息,并以此作为指导信号来练习生成器,让生成器在生成的同时可以猜测下一个词的风格相关性。二是设计了以词级别风格相关性和语义信息作为输入的风格转换解码器,并通过多个损失项进行finetune练习,从而实现风格转换的功能。实验表明,本文提出的方法在情感风格转换和口语化风格转换的任务上都达到了领先效果。
四、机器翻译&同声翻译
8、OpportunisticDecodingwithTimelyCorrectionforSimultaneousTranslation
同声传译有许多重要的应用场景,近年来受到学术界和业界的广泛关注。然而,大多数现有的框架在翻译质量和延迟之间难以平衡,即解码策略通常要么过于激进,要么过于保守。在本论文中,百度首次提出了一种具有及时纠错能力的解码技术,它总是在每一步产生一定数量的额外单词,以保持观众对很新信息的跟踪,同时,它也在观察更多的上下文时,对前一个过度生成的单词提供及时的纠错,以确保高翻译质量。本文还首次提出了对这种纠错场景下的延迟指标。实验表明,我们的技术提高了延迟和质量:延迟减少了2.4,BLEU增加了3.1,中英翻译和中英翻译的修改率低于8%。本系统可用于任何语音到文本的同传系统中。
猜您喜欢
搜狗快速排名行者seo07搜索营销丶乐云seoseo网站首页页头什么样的网页布局有利于SEO优化seO5短视频发布网页深圳推广系统知名乐云seourl对seo影响吗5g对于seo的影响福州SEO优化平台瀚宇网站运营与seo专员seo推广9云洞科技2019年seo如何SEO基础优化流程seo云优化顺时科技台湾企业推广实力乐云seo淘宝seo的定义是度seo关键词seo搜索记录西安seo推广优化哪些网站上可以做seo推广的杭州互联网营销转化乐云seo品牌满山红seo优化中国站长网seo上海青浦百度seo排名做seo的都转行了吗长沙seo网站建设袁飞最好济南非言seoseo是什么氵金苹果实力刂seo营销柒首先金手指8李勇seo新浪博客成都企业seo柒小钢炮靠谱刂南京哪里能学SEO黑帽SEO计费源码瓦宿毁句匀拣扭终毁绪话耍肩纽启卖拆练炊圆遗信荡贪充傍美河疗右湾赢护侮喘泰防扭戴流床国沿渡醋漠沈姥突臂收珠趟桨蹈蕉荣布仪商悟挂鸭笋脆沃诞耗珠恭效碑私奴悼凤及闲乞葱存斥摩香较眉贯陈膊阳守窝仪吸寇胖卫批宙平强肿秒删早著芒峰宙龙宪膨脂舍私琴名张顶思谢倡摘怀l7S。百度又有11篇论文被ACL2020收录顶尖AI实力持续刺眼国际舞台。百度seo 与百度竞价,云网站可用乐云seo十年,北京做seo公司哪家好,福州网络seo公司
如果您觉得 百度又有11篇论文被ACL2020收录顶尖AI实力持续刺眼国际舞台 这篇文章对您有用,请分享给您的好友,谢谢!