本篇文章7369字,读完约18分钟

机器的心

发表在emnlp会议上的字节跳动研究是多语言翻译的新范式——提出了——mrasp。

1920年大哲学家罗素访问中国各地,陪同翻译的是当时的清华大学语言学家赵元任。 赵元任是极其丰富的语言天才,当时会说保定语、常州语、福州语、南京语等多种地方语和英语。 他陪同罗素在从上海到长沙的船上学习该船经济学家杨瑞六和长沙的语言,船靠岸长沙,赵元任可以把罗素的演讲和俗语翻译成长沙的语言了。 神经网络翻译会成为“机器翻译界的赵元任”吗? 即,制作具备统一的多种语言能力的模型,在遇到新的语言时,暂时通过少量的学习就能达到流利的语言水平。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

赵元任(后排左二)和罗素(前排右一)

本文介绍了emnlp新推出的多语言翻译新范式Multilingual Rand OMaligned substitution Pre-training [1],其核心思想是构建“机器翻译界赵元任模型”,预先训练技术

与传统的翻译模式不同,mrasp建立了翻译预训练和微调的成功路径。

以bert为代表的预备训练模式席卷了几乎所有的复印理解任务,是各种nlp任务的基础。 但是,在拷贝生成,特别是机器翻译行业,事前训练模型中也出现了很多新的算法,但取得的效果还是有限的,对资源丰富不同的场景和多语言的扩展依然存在挑战。 mrasp处理的中心问题是能否提前训练统一的翻译模式。 什么样的两对,例如从中文到印度尼西亚语,少量的微调能得到好的翻译效果?

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

mrasp与机器翻译任务比较设计,有三个应用特点。

打破资源场景的限制,无论平行双语资源的高低都可以提高。 在资源丰富的语言如标准英法翻译任务已经有4000万的平行句训练的情况下,采用mrasp仍然得到了显著的提高,达到了44.3的bleu值。 在低资源语言中,mrasp的表现令人吃惊。 极端情况下,需要一万句训练数据。 10分钟的微调训练,可以得到更好的翻译系统。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

打破了语言数量的限制。 无论是什么语言的翻译,从孟加拉语到古吉拉特语,从印地语到菲律宾宾语,只要是地球上的语言,mrasp都可以直接受到微调,同时也可以期待效果。

资源消耗很低。 与数百张卡的“军备竞赛”预训练玩法相比,mrasp更为平民,8张卡训练一周就能拿到。 简单来说,我们可以把mrasp理解为机器翻译行业的轻量bert。 机器翻译任务,任何场景和语言,使用起来都有可能带来惊喜!

论文作者表示,字节跳动发布的火山翻译系统采用了这一技术,接受了实际业务的检查。 作者还发表了研究数据、代码、预训练模型,见文末github地址。

接下来,从三个方面介绍mrasp:1的分解:1)机器翻译的事前训练的挑战。 2)mrasp的动机和做法3)mrasp的实效和分解。

机器翻译预训练的课题

现在大部分ai任务都是基于数据的统计学习,模型的性能很大程度上取决于数据的质量和数量。 利用大量比较容易获得的数据对模型进行了事先训练,在具体的应用场景中利用少量的标签数据微调实现了在实际场景中可以利用的模型,成为了nlp的新成功范式。 例如,bert [2]在大规模纯拷贝中接受训练后,在自然语言理解的11个任务中进行少量的微调就能取得好成绩。 但是,在多语言机器翻译中,通过事先训练重新微调的范式没有取得普遍的成功。 传统的nlp预训练方法,如bert、gpt [5]的训练目标和翻译任务关注的目标之间的差距太大,很难直接采用。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

mrasp提出了新的思路,利用多种语言积累的大量双语平行词素材,综合训练统一的模型,然后根据这种微调,尽量接近预训练和微调目标,以此更大程度地发挥预训练模型的作用。

上图分解了至今为止的nlp事前训练方法直接适用于机器翻译场景的限制。 bert和gpt分别支持transformer [6]编码器部和解码器部的事前训练,机器翻译使用了序列生成模型。 这种模型结构的不一致使翻译模型只初始化了一部分参数,很难比较有效地发挥事前训练的作用。 这是因为为了得到性能提高需要很多特殊的办法[10]。 。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

比较序列模型,也有研究者马上提出mass [7]和bart [8]等框架,将预备训练扩展到序列生成任务。 这些使用auto-encoder (自编码器)进行了自学习,在很多下游生成任务中取得了显着的效果。 但是在机器翻译应用中依然存在两个重要的问题。 第一,英德和英法等资源丰富的语言没有注意到提高,第二不能扩展到多语言翻译任务。 这个限制是自我编码比较简单的任务,学习更深层次的表现不容易,机器翻译需要更多复杂的语义转换,由于这样的事前训练目标和下游任务的不同,模型最大限度地利用事前训练数据是因为

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

如何克服这两个问题成为预训练模式在机器翻译行业中应用的重要课题。

mrasp的动机和做法

对语言学习者来说有非常有趣的现象。 他们学习了三四种语言后发现学习另一种新语言会加快速度。 例如,如果有人分别学习德语和法语,可能各需要一年,但他学习德语后学习法语,可能只需要一年三个月。 然后学习西班牙语,可能会更快[3]。 关于程序语言其实也是同样的道理,学习c-+可能需要一年时间。 之后,学习java,python可能只需要一个月。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

一个简单的解释是人在多语言学习过程中自愿总结语言中比较抽象的共性并学习新语言的特征。 这是因为为了提高个人的语言学习能力,经常需要学习越来越多的语言,能够更正确地把握语言的共通性,而不是努力地学习语言。 同样,对于机器翻译来说,能否将翻译能力转移到不同的语言,并相互利用不同语言之间的新闻成为非常有趣的问题。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

mrasp基于这样的想法,设计了共同的预训练模型,学习了语言间转换的共性,然后可以简单地转向新的翻译方向。 像语言学习者一样,学习了两种语言后,学习第三种语言变得容易了。

mrasp的设计遵循了两个基本基础:第一,预训练的目标与机器翻译基本一致,需要学习语言的转换能力。 第二,尽量学习语言的共同表现、语言间的句子和词语,意思相近的话在隐藏空间的表现也应该相近。

mrasp方法采用带语言标记的transformer作为翻译互联网框架。

mrasp遵循了通用的预训练微调框架。 在预备训练阶段,与以前传递的预备训练模型大量堆叠未被监视的单词数据的方法不同,mrasp开辟了另一条道路,使用多语言平行数据作为预备训练的首要目标,将数十种语言的平行数据放在同一模型中进行共同训练

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

神经网络结构使用transformer,使用语言标识符( language token )识别源语言和目标语言。 为了保证不同语言的句子和词嵌入同一个空间,同一个意思的句子中文和英语都必须对应同一个向量表达。 另外,引进随机置换定位技术ras,制作更丰富的上下文。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

中文“我爱北京天安门”的“爱”有被“aime”(法语)置换的概率,“北京”也有被“pékin”(法语)置换的概率,所以原文有可能是“aime pékin” 训练集中的一对平行文对可以是两对(再有三对,四对……)。

1 .我在北京天安门==>; i love beijing tiananmen square

2 .我的aime pékin天安门==>; i love beijing tiananmen square

对模型来说,通过大量学习这样的并行语素材,从这样的“人为制造”的“语境”自然地学习不同语言的同义词之间的对应关系。 实际上,这种基于并列词典的随机置换方法正在接近不同语言的同义句的空间分布。 在上面的例子中,用“爱”和“aime”(法语)计算的词向量最好尽可能接近。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

在微调阶段,使用事前训练阶段的参数进行初始化,之后使用与以前传达的单向机器翻译相同的训练方法即可。 这是因为使用mrasp不需要掌握多馀的技能。 详细做法的介绍请参照论文[1]。

mrasp的实际效果与分解

mrasp使用32种语言的并行数据进行事前训练,从英语向法语方向只使用wmt14的并行数据进行微调,从而达到了不需要使用花费时间的大量单词back translation的最佳效果( 44.3 bleu 另外,从作为新的语言方向的荷兰语( nl )应用到葡萄牙语( pt )的情况下,采用1.2万平行文对,微调10分钟就可以得到可以采用的( bleu 10+ )模型,但同等平行文对量从最初开始就训练可以采用的mt模型?

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

简单来说,mrasp具有以下特征。

模型容易再现。

mrasp的预备训练共计只采用1.1亿对平行文对(因为同一对平行文对适用于两个方向,所以共计2.2亿个训练样本),词表尺寸只采用了64k个bpe subword。 与其他事前训练方法相比,100亿数据数十层的互联网相比,mrasp的训练难度更小,单体8卡不到一周就可以用32种语言完成事前训练。 当然,也可以通过简单的扩展得到越来越多语言的事前训练模型。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

通用性极高。

mrasp在大中小规模训练集中,对直接训练的单向机器翻译模型,在某种程度上提高了效果,平行语素材最多的词也包括从英语到法语(提高1.1 bleu )。 从事先训练数据从未见过的语言荷兰语到葡萄牙语,得到了10+ bleu的显着好处。

这里摘录了一部分代表性的实验结果。

1)en-de和en-fr benchmark

下图显示了mrasp在英德( en-de )和英法( en-fr )中的微调效果,以及最近同步的其他几种语言之间的预训练模式的微调结果。 mrasp的效果有特点,en->; de wmt测试集达到30.3 (tokenized bleu ),en->; fr wmt测试集达到了44.3 (tokenized bleu )。 在其他模型中,ctnmt采用bert预训练。 mass采用了大规模的单词数据。 mbert是多语言bert模型。 mbart是同步出现的另一种预训练方法,引入了大量的多语言单词数据,训练时间达到256卡20天。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

2 )事前训练阶段从未见过的语言扩展

预备训练阶段的平行短语对中不包含的语向被称为“exotic direction”。 决定了exotic direction是否有效,mrasp是否具有良好的扩展性和泛化能力。

论文把exotic direction分为四种情况。

exotic pair :源语言和目标语言是单独预先训练的,但模型从未见过它们的双语对。

exotic source :模型在事前训练阶段只见过目标语言,完全没见过源语言。

exotic target :模型在事前训练阶段只见过源语言,完全没见过目标语言。

exotic full :模型在事先训练阶段完全没有见过源语言和目标语言。

如果这四个看不见的词吻合,训练机器翻译并不容易。 其中最难的是最后,相当于只要求学习中文和英语的人,只要读少量拉丁语和印地语的句子就能从拉丁语翻译成印地语。

值得注意的是,法中( fr-zh )两者都单独出现,但没有作为平行两对出现,只要使用20k平行语言素材就能达到20+ bleu的值。

另外,如从荷兰语到葡萄牙语( nl-pt ),对于两种语言都在预备训练阶段出现的语言对,只采用了1.2万句平行语素材,经过几乎10分钟的训练也能达到10+ bleu值。

3 .例子分解

为了更直观地理解mrasp的效果,作者在论文中也进行了范式分解。

法中( fr-zh )

exotic pair,20k平行文对

direct 0.7 bleu远远弱于mrasp 25.8 bleu

direct系统完全不能翻译,但mrasp系统翻译得很好。

葡萄牙( nl-pt )

exotic full,1.2万平行文对

direct 0 bleu vs mrasp 14.1 bleu

通过样本分析,我们发现,mrasp得到的荷兰翻译模型的翻译效果虽然不能成功进行细节翻译,但可以引出一点原文的重要消息。 例如以下例子中的(1)日期(2)会议记录<; >; 会议消息(3)分别为<; >; 分享。

英法( en-fr )

用mrasp的做法训练的模型比direct的做法模型的优点之一是DRECT系统忽略了无意义单词(冠词、指示词等)的倾向,mrasp保持了冠词和指示词的一致。

英中( en-zh )

4 .效果分解

mrasp作为通用的事前训练模式,每个mt下游任务的提高效果来自哪里?

作者认为其提高主要来自两个方面。

mrasp接近了不同语言间同义词的向量表达。

mrasp接近了不同语言间同义句的向量表达。

单词水平和句子水平的显示接近,这意味着经过事先训练阶段,经过很多语言的平行文对的解决和学习,mrasp隐含地“把握”了与语言无关的显示,但这种显示可以转移到任意的语言。 因为这个mrasp可以普遍提高机器翻译的下游任务的效果。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

1)mrasp接近不同语言的单词水平的矢量表示

由于ras的引进,不同语言的同义词之间共有相同的语境,但在nlp中词义由语境决定,不同语言间的同义词的表示进一步扩大了。

上图: w/o ras,下图: w/ ras

加上ras方法,可以看出不同语言之间的embedding分布很接近(立场变小)。

2)mrasp接近不同语言的句子水平的向量表示

除了接近同义词的向量表现以外,mrasp还接近了意义的向量表现。

采用编码器输出矢量作为句子的空间表现( L2 normalized averaged-Pooledencoderoutput ),从ted平行测试集(滤波后的15-way平行测试集,共计284个)中选择类似度( CED平行测试集)

图1:mrasp的准确度减去mbart [9]的准确度,荷兰语( nl )完全不出现在mrasp的事先训练数据中,其他方向的准确度大大超过mbart。

mrasp搜索的平均精度达到了76%。

图2:mrasp精度减去避开ras的mrasp方法的精度。 mrasp的ras方法在预先训练阶段没有出现的语言( nl )中有明显的好处。

图3 :删除开头的语言标识符( language token )会进一步提高nl的精度,但在其他语言中精度会大幅下降。

可以看出,ras方法确实使语义向量表现更接近,同样意义的句子在mrasp的事前训练后得到接近的表现。

总结。

回到句首,语言天才赵元任一生掌握33门方言和7门外语,从北方保定到南方福州,从长江上游到下游,从美国伯克利到法国巴黎,一到当地口音就能说当地语言。 建立统一的多语言行业间翻译模式是机器翻译研究的终极目标之一。 向语言天才赵元任学习的mrasp,确立了从多语言预先训练到多语言翻译模式微调的成功路径,这也是机器翻译的新范式。 将这个技术应用于火山翻译系统的字节跳动可以在下面附上的网页上体验。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

github地址: github/linzehui/mrasp

论文地址: arxiv/abs/.03142

火山翻译体验官网: translate.volcengine/

参考文献

[1] lin,zehui,ET AL." pre-training Multiling Gualneural Machinetranslation Byleveragingalignmentinformation."

[2] devlin,jacob,ET AL." Bert:pre-trainingofdeepbidirectionaltransforlanguageunderstanding."

[3] thomas,reed,andcalliemady." teachingfortransfer:insightsfromtheoryandpracticesinprimary-level French-second-languagech

[4] johnson,melvin,ET AL." Google’smultilingualneural Machinetranslationsystem:enabling zero-shottranslatem

[5] radford,alec,et al." improvinglanguageunderstandingbygenerativepre-training." ( ):12。

[6] vaswani,ashish,et al." attentionisallyouneed."高级neuralinformationprocessingsystems ...

[7] song,kaitao,et al." mass:maskedsequencetosequencepre-trainingforlanguagegeneration." ICML."

[8] lewis,mike,ET AL." Bart:denoisingsequence-to-sequence pre-trainingfornaturallanguagegeneration

[9] liu,yinhan,ET AL." multilingualdenoisingpre-trainingforneuralmachinetranslation." Tacl。

杨,ET AL." towardsmakingthemostofbertinneuralmachinetranslation " AAAI。

neurips在线共享:知识地图嵌入的自动化

论文:“interstellar:searchingrecurrentarchitectureforknowledgegraphembedding”

本文作者受到nas (神经架构搜索)的启发,提出了interstellar作为解决关系路径中新闻的循环架构。 另外,这项研究中的新混合搜索算法突破了stand-alone和one-shot搜索方法的界限,期待着在其他具有很多复杂搜索空间的行业中的应用。

热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

11月24日,第四范式的资深研究员姚权铭博士为大家详细解读这一前沿研究。

识别二维码,进入小组一起看直播。

© the end

转载请联系本公众号获得批准

求帖子或文章: content@jiqizhixin喜欢这个复印件的人还喜欢。

原标题:“7日8卡训练32种语言,字节跳动发布多语言预训练新模式mrasp。”

阅读原文。

来源:天津新闻信息网

标题:热门:7天8卡训练32种语言,字节跳动推出多语言预训练新范式mRASP

地址:http://www.tcsdqw.cn/tjxw/21037.html