气管炎,三分钟带你读懂 BERT,qq邮箱格式怎么写

本文为 AI 研习社编译的技能博客,原标题 :

BERT Technology introduced in 3-minutes

作者 | Suleiman Khan, Ph.D.

翻译 | 胡黄庆彬瑛皓、stone豪

妈妈美容记

校正 | 酱番梨 审阅 | 约翰逊李加薪 收拾 | 立鱼王

原文链接:

ht军门密爱之娇妻难驯tps://towardsdatascience.com/广州飞威网络科技有限公司bert-technology-introduced-in-3-minutes-2c2f9968268c

由谷歌公司出品的用于自然言语了解的预练习BERT算法,在许自然言语处理的使命体现上远远胜过了其他模型。

BERT算法的原理由两部分组成,第一步,经过对很多未标示的语料进行非监督的预练习,来学习气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写其间的表达法。其次,运用少数符号的练习数据以监督办法微调预练习模型以进行各种监督使命。预练习机器学习模型已经在各种范畴取得了成功,包含图画处理和自然言语处理(NLP)。

气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写

BERT的意义是Transformer的双向编码器表明泰拉瑞亚能跟若虫对话。 它根据Transformer架构(由Google于2017年发布,《Attention Is Al气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写l You Need》)。 Transformer算法运用编码-解码器网络,但气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写是,因为BERT是预练习模型,它仅运用编码来学习输入文本中的潜在表达。

安淘惠

Photo by Franki Chamaki on Unsplash

技能

BERT将多个transformer编码器堆叠在一起。tranformer根据闻名的多头留意模块(multi-head attention)。 它在视觉和言语使命方面都取得了巨大成功。关于attention的回忆,请参阅此处:

http://mlexplained.com/2017/12/29/attention-is-all-you-need-explained/

BERT杰出的功能根据两点。 首要立异预练习使命Masked Language Model (MLM)以及Next Sentence Prediction (NSP). 其次练习BERT运用了很多数据和算力。

MLM使得BERT能够从文本中进行双向学习,也就是说这种办法答应模马驴配种型从单词的前后单词中学习其上下文联系。此前的模型这是做不到的。此前最优的算法称为Generative Pre-training (GPT) 该办法选用了从左到右的练习办法,别的ELMo 选用浅双向学习(shallow bidirectionality)。

MLM预练习使命中星微大厦将文花宝燕本转换为tokens,把token表明作为练习的输入和输出。随机取其间15%的token进行mask,具体来说就是在自拍照练习输入时躲藏,然后用方针函数猜测出正确的token内容。这种办法比照以往的练习办法,以往办法选用单方向猜测作为Gagababa方针或选用从左到右及从右到左两组(单方向)去近似双向。NSP使命经过猜测后一个语句是否应该接在前一句之后,然后使得BERT能够学习语句间的联系。练习数据选用50%次序正确的语句对加上别的50%随机选取的语句对。BERT一起练习MLM和NS气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写P这两个方针。

数据及TPU/GPU运行时

BERT练习运用了33亿单词以及25亿维基百科和8亿文本语料。练习选用TPU, GPU,大致状况如下.

BERT练习设备和时刻 for BERT; 运用TPU数量和GPU预算.

Fine-tuning练习选用了2.5K~392K 标示样本。重要的是当练习数据集逾越100K,在多种超参数设置下模型显现了其稳健的功能。每个fine-tuning试验选用单个TPU均在1小时内完爱乐活蔡虎成,GPU上需求几小时气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写。

成果

BERT在11项NLP使命中逾越了最优的算法。主要是3类使命,文鵷鶵本分类、文字蕴涵和问答。BERT在SQUAD和SWAG使命中,是第一个逾越人类水平的算法!

BERT 论文中成果 https://arxiv.org/abs/1810.04805

在共享中运用 BERT

BERT现在已开源: https://github.com/google-research/bert 分别用TensorFlow和Pytorch预练习了104种语微信文爱言。

模型可进行fine-tune591apd,然后用于多项NLP使命,比如文本分类、文本相似度、问答体系、文本符号如词性POS命名和实体辨认NER等。当然预练习BERT核算上适当贵重,除非你选用TPU或相似Nvidia V100这样的GPU。

BE韩讯五RT技能人员一起也放出了气管炎,三分钟带你读懂 BERT,qq邮箱格局怎样写多言语模央视为啥老放辫子戏型,模型选用Wikipedia里的100多种言语。不过多言语BERT模型比单言语模型的功能要略低几个百分点。

批评

BERT在MLM使命中的mask战略对实在的单词发生成见。现在还未显现这种成见对练习的影响。

参阅文献

[1] https://cloud.google.com/tpu/docs/deci痛失考妣ding-pod-versus-tpu

[2] Assuming second generation TPU, 3rd generation is 8 times faster. https://en.wikipedia.org/wiki/Tensor_processing_unit

[3] http://timdettmers.com/2018/10/17/tpus-vs-gpus-for-transformers-bert/

想要持续检查该篇文章相关链接和参阅文献?

点击【】或长剑巫纪按下方地址:雷锋网雷锋网雷锋网

AI入门、大数据、机器学习免费教程

35本国际尖端本来教程限时敞开,这类书单由闻名数据科学网站 KDnuggets 的副主编,一起也是资深的数据科学家、深度学习技能爱好者的Matthew Mayo引荐,他在机器学习和数据科学范畴具有丰厚的科研和从业经历。

点击链接即可获取:https://ai.yanxishe.com/page/resourceDetail/417

公司 大数据 技能
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
点击展开全文

上一篇:

下一篇:

相关推荐