使用avg pooling生成句子嵌入时，是否应该加入attention mask做平均 #13

zchuz · 2022-04-07T07:20:42Z

if pooling == 'first_last_avg':
    output_hidden_state = (hidden_states[-1] + hidden_states[1]).mean(dim=1)
if pooling == 'first_last_avg':
    hidden = (hidden_states[-1] + hidden_states[1]) / 2
    output_hidden_state = (hidden * att_mask.unsqueeze(-1)).sum(1) / att_mask.sum(-1).unsqueeze(-1)

The text was updated successfully, but these errors were encountered:

ysngki · 2023-01-01T11:29:08Z

由all_utils.py的sent_to_vec可知，数据是一句一句单独地进行tokenization，没有对齐的需要，所以是没有padding token的。
不过这么做计算很慢，如果要改成整个batch一起tokenization然后编码的话，还是要用attention mask来过滤padding的。亲测前后结果差距很大。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用avg pooling生成句子嵌入时，是否应该加入attention mask做平均 #13

使用avg pooling生成句子嵌入时，是否应该加入attention mask做平均 #13

zchuz commented Apr 7, 2022

ysngki commented Jan 1, 2023

使用avg pooling生成句子嵌入时，是否应该加入attention mask做平均 #13

使用avg pooling生成句子嵌入时，是否应该加入attention mask做平均 #13

Comments

zchuz commented Apr 7, 2022

ysngki commented Jan 1, 2023