flashAttention

算法结构

加速attention计算的工业标准：flash attention 1和2算法的原理及实现

transformers目前大火，但是对于长序列来说，计算很慢，而且很耗费显存。对于transformer中的self attention计算来说，在时间复杂度上，对于每个位置，模…

1天前

1 / 501 2 3 4 5 6