NLP研究综述上的一篇文章火了。
据paperswithcode统计,这篇文章被赞800多次,转发200多次。
来自Meta AI,亚马逊,剑桥大学,纽约大学等的研究人员。,瞄准NLP目前最关键的任务:泛化——
针对目前圈里缺乏分类评价体系的问题,提出了一种分类评价体系。
为此,他们对过去400多篇与概括相关的论文进行了分析和分类,并进行了600多次个体实验通过回顾以往与泛化相关的研究,他们也对未来提出了更多的展望
此外,研究人员还建立了一个网站,方便概括领域的研究人员搜索同行的成果。
目前,该内容已经发表在arxiv上,并引起了圈内研究者的关注。
有网友表示,过去很难搜索到相关内容,并向团队致敬:
还有日本相关爱好者关注转发:
那么,这篇综述具体提出了什么。
为泛化创建一个分类。
在说研究成果之前,先简单描述一下什么是概括。
这个任务大致可以理解为根据过去的经验迁移到新的任务和问题的能力,也就是根据中学老师的语气举一反三的水平。
事实上,人们在日常生活中形成单词和句子时,往往会进行概括举个例子,当你明白红色可以用来形容苹果的时候,你自然会说红色的番茄红色的草莓之类的词,但这是机器的问题
概括能力还是要靠大量的基础常识,否则词语的自由组合必然会产生反讽效果。比如绿色吃小狗量子比美女大…
开个玩笑,在NLP领域,泛化一直被视为重点方向,很多从业者把这种能力视为AGI的关键。
可是,长期以来,对于如何推广NLP模型,以及评估其推广性能的条件,却鲜有一致的标准和意见泛化行为已经通过随机训练—测试分段进行了简单的评估
在这篇文章中,通过回顾过去几十年在自然语言处理领域概括能力的成就,研究者希望用一个系统来定义和讨论概括问题
因此,他们提出了一套分类并设计了五个维度供同行在概括领域参考:
动机动机
一般化类型
偏移类型
偏移源
偏移轨迹
它还统计了研究较多的类型和相对较少的类型,以便呈现:
让我们扩展一下这些分类维度。
动机维度
比如市场上主流的概化任务,意在提高模型的实用性希望模型经过某类文本数据集的训练后,在其他场景下也能给出合理的响应,并具有足够的鲁棒性,其动机是提高实用性
但有些泛化研究并不着眼于实际场景,只是单纯想提高模型的认知能力,希望它能更快地学习此前,一些科学家研究了LSTM如何优化嵌套语法结构,这也是为了这个目的
此外,动机维度还包括研究模式是否正确理解了任务,以及在应用中是否保证了公平性和包容性。
下图显示了2018—2022年不同动机的泛化研究比例,其中实用性仍然是最大的:
一般化类型维度
这个维度是根据概括任务的类型来分类的。
在实际研究中,一些泛化研究侧重于各种信息的重组和组合,如红苹果—GT,红草莓就属于这一类。
另外,还有句子内容和结构变化的泛化问题,跨不同任务的泛化,跨不同语言的泛化都属于从类型维度分类
研究人员给出了六种分类,如下:
类型尺寸
这个维度是从技术实现的过程来分类的。根据不同泛化任务中测试集,训练集和预测结果各变量概率分布的偏差,研究者将其分为三种主要类型:
协变偏移,标签偏移和完全偏移。
其中协变量偏移在众多研究中占的比重最大,因为在训练模型的过程中往往很难保证每个输入都满足稳定分布基于泛化任务的定义,可以直观的想象这种情况不会少见
除了上述三种类型,研究者还进一步增加了两种类型的迁移,即假设迁移和多次迁移。
源维度
其中包括:自然偏移,训练模型和调整语料过程中的人为偏移,使用生成数据导致的偏移等。
值得一提的是,不同数据集之间的变量偏移量占比最高。
轨迹尺寸
最后,研究者提出了一种新的基于变量偏差位置的分类维度。
考虑到自始至终的整个模型训练和参数验证步骤,变量概率分布发生偏移的位置是—
训练和测试之间,微调和测试之间,预训练和训练之间,预训练和测试之间,以及整个过程。
其中,早期研究论文中的变量偏差集中在从训练到测试的过程中,但2020年后,更多的偏差问题发生在微调和测试之间。
为NLP泛化测试的统一标准奠定基础。
据研究人员分析,最近几年来,与泛化相关的论文数量激增:
首先,他们使用计算机从ACL语料库中选择标题或摘要中含有概括,概括,概括或概括等词的论文。
并手动检查所选的论文,以删除那些实际上没有谈到概括的论文。
然后他们统计了每年这些论文的数量以及占ACL论文总数的比例。
结果显示,这些论文的绝对数量和相对比例都有很大提高,特别是2018年以来。
接下来,他们用前面介绍的分类来注释这些论文。
对于每篇论文,第一个注释者给它五个标签,然后第二个注释者将检查这些标签。
如果两个评论员之间有分歧,他们会先讨论,试图解决问题如果两者不能达成一致,那么就会出现第三个注释者
以上不止一步,整个标注过程相当严谨。
经过仔细分类统计,结果显示跨领域泛化最受关注,占比超过30%,其次是健壮性和任务理解。
此外,半数以上的研究都遇到了自然引起的变量偏差问题,这也是相关从业者最关心的问题。
分类的意义不止于此这样,研究者提出了一个新的框架来系统化和理解泛化研究,最终目的是为建立一个可靠的统一的NLP泛化测试标准奠定基础
他们认为,他们的系统分类框架为泛化发展提供了必要的基础,为相关研究者提供了更有效的工具,帮助大家快速找到可以参考的相似结果。
在发表这篇文章的同时,这组研究人员还发表了一个网页,计划及时跟进NLP泛化研究的最新进展。
研究者指出,他们希望通过这些系统化的框架和这个在线工具,尽可能统一大家对NLP概括测试的认识,因为现有的研究几乎都处于各抒己见的状态。
他们认为NLP模型的重要泛化测试应该托管在一个共享平台上,也应该有一个列表,让它更加方便透明。
在大型社区中,NLP研究人员和领域专家讨论并决定哪些测试应该优先。
当然,研究人员也明确表示,目前的工作还没有为泛化测试提供标准化的数据或程序,这些还得一步一步来。
研究人员来自科技巨头和顶尖大学。
除了来自Meta和亚马逊等科技巨头的研究人员,还有来自爱丁堡大学,剑桥大学,NYU和香港科技大学的学者。
第一篇论文是Dieuwke Hupkes,目前是Meta AI的研究科学家,主要研究方向是面向NLP的人工神经网络。
研究人员补充说,下一步,他们将分析并确定哪些关于NLP的泛化测试将被优先考虑。
他们指出,如果研究进展顺利,即使是明年,NLP的泛化测试标准也会发生显著变化。
论文地址:
门户网站:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。