计算加速度

当今计算加速的工作负载与终端应用程序一样多样化,从金融交易和基因组学到机器学习推理和训练。然而,这些工作负载有一些共同的特征,包括算术函数的类型、数字格式(整数和浮点)以及激进的性能目标。此外,随着处理自然地向边缘迁移,功率、热方面和每瓦性能成为关键指标。正是在这些领域,FPGA,尤其是Speedster7t系列,表现出色。

真人百家乐系列针对高带宽工作负载进行了优化,消除了与传统FPGA相关的性能瓶颈。真人百家乐基于台积电7nm FinFET工艺构建,具有革命性的新型2D片上网络(2D NoC)、一系列针对高带宽和人工智能/机器学习(AI/ML)工作负载进行优化的新型机器学习处理器(MLP)、高带宽GDDR6接口、400G以太网和PCI Express Gen5端口。2D NoC将所有接口连接到FPGA结构中的80多个接入点,以提供ASIC级性能,同时保持FPGA的完全可编程性。立即开始使用配备真人百家乐的VectorPath加速卡。

Speedster7t解决方案

  • 真人百家乐为国防、金融、医疗、科学、石油和天然气以及生命科学应用提供了高性能、节能的计算加速解决方案:
    • 机器学习(ML)推理和边缘训练
    • 财务分析和高频交易
    • 基因组分析
    • 视频和图像处理
  • FPGA架构的固有并行性和灵活性非常适合这些高通量应用。 
  • 与PCIe Gen5连接和高性能以太网的高速接口,以及用于高带宽数据传输的专用2D片上网络(NoC)。
  • 使用DDR4/5大容量存储和GDDR6接口可以存储大型数据集,以便对外部存储器进行高带宽访问。
  • 数据处理支持从低位宽整数数学到高性能浮点运算的各种数字格式,包括对矩阵乘法和复数运算的原生支持(例如,支持波束成形应用)。
  • 真人百家乐特别适合机器学习推理和边缘分析操作。

应用要求 Speedster值
需要高带宽外部连接 400G以太网和PCIe Gen5的多个端口
用于缓冲的最高内存带宽,>1 Tbps 高达16个独立的GDDR6信道,速度为16 Gbps,提供高达4 Tbps的总带宽
宽而高性能的数据路径

计算加速度矩阵向量数学的数据流优化

  • 高达20Tbps的NoC带宽,用于高速、宽数据传输
  • 优化总线路由,量化为一个字节
  • 完全灵活的逐位路由
  • 专用路由路径,支持乘法累加器和内存之间的数据重用
  • 级联路径,例如实现收缩期阵列
  • 集成寄存器堆,实现计算的时间复用
整数运算的计算要求很高
  • MLP为int8提供高达61个TOps

  • 改进的Booth算法允许LUT中整数乘法的密度加倍

神经网络推理需要大量的矩阵乘法、高性能计算和大量的数据移动

整数和浮点运算的优化乘法累加核

  • 真正可分整数宽度:4x整数16到16x整数8到32x整数4
  • FP16、bfloat16和自定义浮点支持
  • 对块浮点的原生支持

 

  机器学习
深度学习
高性能计算 基因组学 视频和图像处理
最高性能SerDes
112G多标准SR/MR/LR物理层 是的 是的 是的 是的
最先进的接口IP
PCIe Gen5 是的 是的 是的 是的
GDDR6-4 Tbits/sec的内存带宽 是的 是的 是的 是的
DDR4-高达3200 MHz,3DS堆叠内存 是的 是的 是的 是的
DDR5-高达4400 MHz 是的 是的 是的  
特定应用程序接口     是的 是的
太比特速度路由
NoC 是的 是的 是的 是的
巴士路线 是的     是的
完全灵活的逐位路由 是的      
高吞吐量处理
数据路径加密 是的     是的
MLP 是的 是的 是的 是的
细粒度硬件可重编程性(列出示例) 格式转换、激活功能 蒙特卡罗分析 PairHMM算法 自定义编解码器