找到
6
篇与
随笔
相关的结果
-
DeepSeek 开源 FlashMLA:高效 MLA 解码新时代 DeepSeek发布的FlashMLA是一个为Hopper GPU设计的高效多头潜在注意力解码内核。它具有BF16数值计算支持、分页KV缓存和极致性能优化等特点。在H800 GPU上可达到3000 GB/s内存带宽和580 TFLOPS计算能力。该项目主要用于优化大模型推理,可显著提升推理速度和效率,同时降低显存占用。其应用场景包括大语言模型推理、机器翻译、语音识别和推荐系统等领域。这一开源项目借鉴了FlashAttention 2&3和CUTLASS的技术,被认为是2025年AI计算优化领域的重要突破之一。项目已开源,开发者可通过GitHub获取并测试其性能。
-
-
-
-