探索FPGA加速的语言模型如何通过更快的推理、更低的延迟和更好的语言理解重塑生成式人工智能。
引言:大型语言模型
近年来,大型语言模型(LLM)彻底改变了自然语言处理领域,使机器能够生成类似人类的文本并进行有意义的对话。这些模型,如OpenAI的GPT,具有惊人的理解和生成语言的能力。它们可用于广泛的自然语言处理任务,包括文本生成、翻译、摘要、情感分析等。
大型语言模型通常使用深度学习技术构建,特别是使用转换器架构。Transformer是一种神经网络模型,擅长捕捉序列中的长距离依赖关系,使其非常适合语言理解和生成任务。训练大型语言模型需要将模型暴露于大量文本数据中,这些数据通常来自书籍、网站和其他文本资源等来源。该模型根据所看到的上下文学习预测句子中的下一个单词或填充缺失的单词。通过这个过程,它获得了语法、句法知识,甚至某种程度的世界知识。
与大型语言模型相关的主要挑战之一是它们巨大的计算和内存需求。这些模型由数十亿个参数组成,需要强大的硬件和大量的计算资源来有效地训练和部署它们,正如Nishant Thakur在2023年3月的领英文章中所讨论的那样, “ChatGPT背后令人费解的处理能力和成本:构建终极AI聊天机器人需要什么?”资源有限的组织和研究人员在利用这些模型的全部潜力时经常面临障碍,因为云计算需要大量的处理或资金。此外,在生成响应时,需要存储的上下文长度的极端增长会对内存和计算资源提出更高的要求,以创建适当的令牌、单词或单词的子部分。
这些计算挑战导致了更高的延迟,这使得LLM的采用变得更加困难,而且不是实时的,因此也不那么自然。在本博客中,我们将深入研究大型语言模型遇到的困难,并探索潜在的解决方案,为提高其可用性和可靠性铺平道路。
加速大型语言模型
LLM的构建通常需要一个大型系统来执行模型,该模型会继续增长到仅在CPU上执行不再具有成本、功耗或延迟效率的地步。GPU或FPGA等加速器可用于显著提高计算功率比,大幅降低系统延迟,并在更小的规模上达到更高的计算水平。虽然GPU肯定会成为加速的标准,主要是因为它们的可访问性和易于编程,但FPGA架构实际上以比GPU低得多的延迟产生了卓越的性能。
由于GPU本质上是扭曲锁定的架构,在多个内核上并行执行32个SIMT线程,因此它们也倾向于需要批处理大量数据来尝试和抵消扭曲锁定架构并保持管道满。这相当于更多的延迟和对系统内存的更多需求。同时,FPGA构建自定义数据路径,以同时在多个数据块上执行多个不同的指令,这意味着它可以非常有效地运行到1的批处理大小,这是实时的,延迟低得多,同时最大限度地减少了外部存储器的需求。因此,FPGA能够比竞争架构显著提高其TOP的利用率——这种性能差距只会随着系统扩展到ChatGPT大小的系统而扩大。
Achronix FPGA在吞吐量和延迟方面都优于实现LLM的GPU,因为该系统可扩展到8个以上的设备(10000个GPU用于训练GPT3)。如果模型可以使用INT8精度,那么Achronix FPGA具有更大的优势,如下表所示,使用GPT-20B作为 参考FPGA的使用是有益的,因为GPU的交付周期长(高端GPU超过一年),用户支持最少,而且比FPGA贵得多(每个GPU的成本可能远远超过10000美元).
CPT-208性能比较(低批量)
设备数量 | 领先的GPU | Achronix Speedster 7t AC7t1500 | ||||
---|---|---|---|---|---|---|
延迟(毫秒) | 吞吐量(令牌/秒) | 延迟(毫秒) | 吞吐量(令牌/秒) | 延迟(毫秒) | 吞吐量(令牌/秒) | |
第1批@FP16 | INT 8 | |||||
1 | 28 | 35 | 82.8 | 12 | 41.4 | 24 |
2 | 18 | 55 | 41.4 | 24 | 20.7 | 48 |
4 | 13 | 78 | 20.7 | 48 | 10.3 | 96 |
8 | 11 | 92 | 10.3 | 96 | 5.2 | 193 |
16 | 9* | 109* | 5.1 | 192 | 2.6 | 386.5 |
32 | 8* | 128* | 2.5 | 384 | 1.2 | 773 |
表注: *估计性能。粗体表示性能优势。 |
CPT-208性能比较(高批次)
设备数量 | 领先的GPU | Achronix Speedster 7t AC7t1500 | ||||
---|---|---|---|---|---|---|
延迟(毫秒) | 吞吐量(令牌/秒) | 延迟(毫秒) | 吞吐量(令牌/秒) | 延迟(毫秒) | 吞吐量(令牌/秒) | |
第8批@FP16 | INT 8 | |||||
1 | 37 | 216 | 84.8 | 94 | 42.4 | 188 |
2 | 24 | 328 | 42.4 | 188 | 21.2 | 377 |
4 | 17 | 480 | 21.2 | 377 | 10.6 | 754 |
8 | 12 | 647 | 11.2 | 713 | 5.3 | 1509 |
16 | 9* | 809* | 5.6 | 1426 | 2.6 | 3019 |
32 | 8* | 1011* | 2.5 | 2800 | 1.4 | 5652 |
表注: *估计性能。粗体表示性能优势。 |
将LLM映射到Achronix FPGA加速器
Achronix 真人百家乐 具有独特的架构,非常适合这些类型的模型。首先,它有一个硬件2D NoC,可以解决数据进出和通过设备的进出问题。此外,它使用具有紧密耦合块RAM的机器学习处理器(MLP),以实现计算之间的高效结果重用。最后,与GPU类似,但与其他FPGA不同,Achronix 真人百家乐有八组高效的GDDR6存储器,可以提供更高的带宽,能够以4 Tbps的速度加载参数。
由于这些系统需要扩展,FPGA可以实现各种标准接口,将卡互连在一起,并在它们之间无缝移动数据。Achronix Speedster7t AC7t1500设备具有32100 Gbps SerDes通道,不需要NVLink等专有且昂贵的解决方案。
大型语言模型的未来:扩展以增强语言理解和专业领域
由于这些大型语言模型需要巨大的规模才能以最小的延迟影响进行训练和推理,因此模型的复杂性将继续增长,这将使语言理解、生成甚至预测能力以令人难以置信的精度不断提高。虽然今天的许多GPT风格的模型都是通用的,但下一个可能是专门为医学、法律、工程或金融等特定领域训练的专用模型。无论如何,在很长一段时间内,这些系统将帮助人类专家完成人工智能系统处理的更多日常任务,并为解决方案提供建议或帮助创造性任务。
联系Achronix 讨论我们如何帮助您加速这些大型语言模型系统。