家喻户晓【IPTD-452】First Impression AYA2009-05-01アイデアポケット&$ティッシュ119分钟,BERT 在预教师时会对某些单词进行拆分 (术语叫作念“WordPiece”)。比如把“loved”、“loving”和“loves”拆分红“lov”、“ed”、“ing”和”es”。
野心是缩减词表、加速教师速率,但这么一来,在某些时候反而会不容模子的理会才智。比如把”lossless”分红”loss”和”less”的时候。
面前,来自哈工大和腾讯 AI Lab 的扣问东谈主员,尝试诳骗不作念单词拆分的词汇表建设了一个 BERT 格调的预教师模子 ——WordBERT。恶果,这个 WordBERT 在完形填空测试和机器阅读理会方面的得益比拟 BERT 有了很大提高。
在其他 NLP 任务,比如词性标注 (POS-Tagging)、组块分析 (Chunking) 和定名实体识别 (NER) 中,WordBERT 的阐述也皆优于 BERT。由于毋庸分词,这个 WordBERT 还不错平直进行中语教师。更值得一提的是,它在性能培植的同期,推理速率并莫得变慢。
可谓一举多得。
NO WordPieces与 BERT 近似,WordBERT 包含两个组件:词向量(word embedding)和 Transformer 层。和畴前的模子相通,WordBERT 礼聘多层双向 Transformer 来学习语境暗示(contextualized representation)。
word embedding 则是用来获取单词向量暗示的参数矩阵,与把单词分红 WordPiece 的 BERT 比拟,WordBERT 的词汇由好意思满的单词构成。他们用当然说话贬责软件包 Spacy 贬责数据,生成了两个词汇表,一个界限为 500K,一个为 1M。词汇表中还被单独添加了 5 个独特单词:[PAD]、[UNK]、 [CLS]、[SEP] 和 [MASK]。
通过不同的词汇表界限、开动化成立和不同说话,终末扣问东谈主员一共教师出四个版块的 WordBERT:WordBERT-500K、WordBERT-1M、WordBERT-Glove 和 WordBERT-ZH。
淫荡尼姑哈工大最新模子在多项任务中击败 BERT,还能平直教师中语" data-original="https://img.ithome.com/newsuploadfiles/2022/3/e70dbfc2-2a06-4fcd-9769-a5831db5fecf.png" width="1080" height="181">
它们的成立如上,镶嵌参数皆是当场开动化的,镶嵌维数和基准 BERT 保捏一致。其中 WordBERT-Glove 用的词汇表是现成的 Glove vocabulary,内部包含约 190 万个未编码的单词,该模子由相应的单词向量(word vectors)在 WordBERT 之上开动化而来。WordBERT-ZH 则是用中语词汇教师出来的 WordBERT【IPTD-452】First Impression AYA2009-05-01アイデアポケット&$ティッシュ119分钟,它也保捏了 768 的词镶嵌维数。
性能与速率兼具在测试要领中,完形填空的测试数据集来自 CLOTH,它由中学教师想象,往往用来对中国初高中学生进行入学测验。其中既有只需在现时句子中进行推理的通俗题,也有需要在全文范围内进行推理的清贫。恶果如下:
△ M 代表初中,H 代表高中
WordBERT-1M 获取了最好得益,并接近东谈主类水平。它在高中题比 BERT 高了 3.18 分,初中题高了 2.59 分,这讲明 WordBERT 在复杂任务中具有更高的理会和推理才智。在词性标注、组块分析和定名实体识别(NER)瓜分类任务中,WordBERT 的得益如下:
比拟来看,它在 NER 任务上的上风更昭着一些(后两列)。
日本鬼父第二季扣问东谈主员揣摸,这可能是 WordBERT 在学习低频词的表征方面有上风,因为定名实体(named entities)频频即是一些不常见的珍爱词。对于“中语版”WordBERT-ZH,扣问东谈主员在 CLUE benchmark 上的各式任务中测试其性能。除了 BERT,对比模子还包括 WoBERT 和 MarkBERT,这亦然两个基于 BERT 预教师的中语模子。
恶果,WordBERT-ZH 在四项任务中皆击败了扫数其他对比模子,在一谈五项任务上的阐述皆优于基线 BERT,并在 TNEWS(分类)、OCNLI(推理)和 CSL(要津字识别)任务上取得了 3 分以上的差距。这讲明,基于词的模子对中语也锐利常灵验的。
终末,推行还发现:性能不差的 WordBERT,在不同任务上的推理速率也并未“落于下风”。
对于作家一动作哈工大计较机专科在读博士生冯掌印,扣问标的为 NLP、文本生成。
他曾在微软亚研院当然说话计较组、哈工大和科大讯飞筹商推行室实习,在 NLP 界限的顶会 ENNLP 发表过一篇一作论文。
通信作家为史树明,来自腾讯 AI Lab。
论文地址:
https://arxiv.org/abs/2202.12142
告白声明:文内含有的对外跳转一语气(包括不限于超一语气、二维码、口令等方法),用于传递更多信息,省俭甄选本事,恶果仅供参考【IPTD-452】First Impression AYA2009-05-01アイデアポケット&$ティッシュ119分钟,IT之家扫数著述均包含本声明。