第15页页尾第二个引用的论文题目删掉最后的Adam Trischler
第36页倒数第二段,BERT没有使用BPE,而是用了类似的WordPiece作为tokenization算法。
第41页第4段,“所有单词的向量都相同”后加上"[1,1,...]"
第46页倒数第4行P(q_i|q_{i-1},q_{i-2})改为P(w_i|q_i)P(q_i|q_{i-1},q_{i-2})
第50页第5行改为: P(<s>)P(我们|<s>)P(</s>|我们) + P(<s>)P(今天|<s>)P(</s>|今天) + P(<s>)P(你们|<s>)P(</s>|你们) < 1,其中P(<s>)=1,即<s>始终是句子第一个单词。
第51页程序倒数1-5行(从for word in cnt2 开始)均去掉一个缩进
第84页倒数第9行t_i改为t_k
第85页第3行m(m-1)/2改为m(m+1)/2
第95页第13行[1,2,3).[4,5,6) 改为[1,2,3]⊙[4,5,6]
第95页倒数第8行W_H, b_H, W_T, W_T 改为 W_H, b_H, W_T, b_T
第104页倒数第5行,“文章又获得了”改为“文章单词又获得了”
第106页倒数第2行:“w_1^Q”与“w_n^Q”上方的~去掉
第108页最后一行:“答案结束位置”改为“答案开始位置”
第109页第5行:“答案开始位置”改为“答案结束位置”
第109页的第1个和第3个公式改为如下图片:
第123页第9行“s_0, ..., s_j均为可训练的参数”改为“s_0, ..., s_L均为可训练的参数“
第141页倒数第二段中所有的BPE改为WordPiece
第145页倒数第12、13行中CUDA_VISIBLE_DEVICE改为CUDA_VISIBLE_DEVICES
第163页倒数第2行需要向右缩进
第173页的脚标删除
第213页第3、4行Input Level改为input layer,output level改为output layer
第215页第14行“由于取最大分数的下标...对于网络参数不可导”改为“由于对应最大分数的类别k*的准确率对于网络参数不可导”
感谢@JeremySun1224等读者的反馈。