加速FPGA上的LLM推理

作者:
鲍勃·西勒
产品营销总监

发布于:2024年5月9日

将Achronix 真人百家乐与GPU解决方案进行比较,以运行Llama2 70B参数模型并超过LLM推理处理要求。

提供FPGA加速的LLM性能

在运行Llama2 70B参数模型时,真人百家乐与GPU解决方案相比如何?证据令人信服——Achronix 真人百家乐在处理大型语言模型(LLM)方面表现出色,它提供了计算能力、内存带宽和卓越能效的最佳组合,这些都是满足当今LLM复杂需求的基本品质。

Llama2等LLM的快速发展为自然语言处理(NLP)开辟了一条新的道路,有望提供比以往任何时候都更人性化的交互和理解。这些复杂的LLM是创新的催化剂,推动了对先进硬件解决方案的需求,以满足其密集的加工需求。

我们的基准测试突出了Speedster7t系列处理Llama2 70B模型复杂性的能力,重点是FPGA和LLM性能。这些测试(可应要求提供结果)显示了Achronix FPGA对于希望将LLM的强大功能用于NLP应用程序的开发人员和企业的潜力。这些基准测试展示了真人百家乐如何超越市场,在降低运营成本和环境影响的同时提供无与伦比的性能。

Speedster7T FPGAS上的Calma2 70B LLM

2023年7月,微软和Meta发布了他们的开源LLM Llama2,在人工智能驱动的语言处理领域开创了新的先例。Llama2具有多种配置,可满足各种计算需求,包括70亿、13亿和700亿个参数,使其处于LLM创新的前沿。Achronix和我们的合作伙伴, 桃金娘。 对700亿参数的Llama2模型进行了深入的基准分析,展示了使用真人百家乐进行LLM加速的优势。

基准测试结果:真人百家乐与行业领先的GPU

我们在真人百家乐上测试了Llama2 70B模型的推理性能,并将其与领先的GPU进行了比较。该基准测试是通过对输入、输出序列长度(1128)和批大小=1进行建模来完成的。结果表明,Speedster7t AC7t1500在LLM加工中具有有效性。

FPGA成本基于由真人百家乐供电的VectorPath加速器卡的标价。同样,我们在本次分析中使用了可比GPU卡的标价。使用此成本信息和每秒产生的输出令牌数量,我们计算出基于FPGA的解决方案的$/token提高了200%。除了成本优势外,在比较FPGA和GPU卡的相对功耗时,我们观察到与基于GPU的解决方案相比,产生的kWh/令牌提高了200%。这些优势展示了FPGA如何成为一种经济高效的LLM解决方案。

真人百家乐在成本/代币基础上表现优于GPU

真人百家乐在成本/代币方面的表现优于领先的GPU

真人百家乐在功耗/令牌方面优于GPU

真人百家乐在功耗/令牌方面的表现优于领先的GPU

LLM FPGA:Speedster7t的优势

Achronix Speedster7t系列FPGA旨在优化LLM操作,平衡LLM硬件的关键要求,包括:

  • 高性能计算 –具有高性能计算能力的尖端硬件对于管理LLM推理的复杂矩阵计算至关重要。
  • 高带宽存储器y–高效的LLM推理依赖于高带宽内存,通过模型的网络参数快速馈送数据,而不会出现瓶颈。
  • 扩展和适应能力 –现代LLM推理需要硬件能够随着模型规模的增长而扩展,并灵活适应LLM架构的不断进步。
  • 节能处理 –可持续的LLM推理需要硬件最大限度地提高计算输出,同时最大限度地降低能耗,以降低运营成本和环境影响。

真人百家乐提供以下功能,以应对实施现代LLM处理解决方案的挑战。

  • 计算性能 –通过其灵活的机器学习处理器(MLP)块支持复杂的LLM任务。
  • 高GDDR6 DRAM带宽 –确保以4 Tbps的内存带宽快速处理大型LLM数据集。
  • GDDR6 DRAM容量巨大 –可容纳扩展的LLM,如Llama2,每个FPGA的容量为32 GB。
  • 用于LLM的集成SRAM –提供低延迟、高带宽的存储,带有190 Mb的SRAM,非常适合存储激活和模型权重。
  • 多种原生数字格式 –适应LLM需求,支持块浮点(BFP)、FP16、bfloat16等。
  • 高效的模上数据传输 –2D NoC超过20Tbps,简化了片上数据流量。
  • 扩展的横向扩展带宽 –通过32112 Gbps SerDes满足LLM需求,增强连接性。
  • A自适应逻辑级可编程性 –使用690K 6输入LUT为快速LLM进步做好准备。

针对LLM推理进行优化的FPGA

在快速变化的人工智能和自然语言处理领域,使用FPGA而不是GPU来加速LLM是一个相当新的想法。该基准测试显示了设计人员如何从使用Achronix的FPGA技术中受益。Achronix Speedster7t系列FPGA是这一变化的关键技术,在高性能、高带宽内存、易扩展性和能效之间实现了很好的平衡。基于这一详细的基准分析,将真人百家乐在处理Llama2 70B模型方面的能力与领先的GPU进行比较,结果表明Speedster 7t FPGA能够提供高性能,同时大大降低运营成本和环境影响,突显了其在LLM创建和使用的未来中的重要作用。

联系Achronix,了解如何使用FPGA加速您的LLM课程

我们对FPGA加速LLM解决方案的未来感到兴奋。请联系Achronix,以获取详细的基准测试结果,并帮助确定Achronix FPGA技术如何加速您的LLM设计。