应用介绍
2. 预训练高效,推理时显存开销接近常数:GCA 是一种 sparse attention,其 attention 的视野域保持常数,因此在 batch size 一定的情况下,训练开销几乎与序列长度呈线性。由于 GCA 在生成阶段将所有上文的 KV cache 都卸载到 CPU,每次检索的时候才把相关 chunk 的 kv cache 载入 GPU,因此超长上文也不会有 KV cache 显存爆炸的问题。而 GPU-CPU 的交换控制在每 64 个 token 一次,因此对推理速度影响非常小,从而实现接近常数的显存开销,但仍保持高效的推理速度及长程信息获取能力。