Groq 是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是谷歌TPU的原班人马。自创 LPM(Language Processing Unit™)加速方案,

硬件参数

其硬件产品为 GroqCard,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

算力层面,Groq芯片运算速度 INT8 下为 750 TOPS,FP16 下为 188 TFLOPS。

LPU 在芯片计算单元旁边直接集成了 230MB SRAM 内存,没有 HBM 或 DDR 内存,这意味着运行相同模型,Groq 相比 GPU 需要更多芯片,其算力/ 内存比 非常大,所以如果要运行一个大模型,需要采购足够多的LPU 进行加载(个人感觉更适合同一个大模型为海量用户提供服务的场景)。

性能对比

Tokens吞吐量(tokens/s)

以每秒返回的输出 Token 的平均数量来衡量。通过向每个 LLM 推理提供商发送 150 个请求来收集结果,并根据 150 个请求计算平均输出令牌吞吐量。可以看到 groq 185 tokens/s 遥遥领先,其他推理提供商都是使用 GPU。

image-1708934922780

Framework Model Median Mean Min Max P25 P75 P95 P99
anyscale meta-llama/Llama-2-70b-chat-hf 66 63 22 86 56 72 77 82
bedrock meta.llama2-70b-chat-v1 21 21 13 22 20 22 22 22
fireworks accounts/fireworks/models/llama-v2-70b-chat 40 40 33 46 38 42 45 46
groq llama2-70b-4096 185 184 148 208 174 195 207 208
lepton llama2-70b 33 33 31 39 32 34 34 38
perplexity llama-2-70b-chat 30 30 8 44 29 31 36 44
replicate meta/llama-2-70b-chat 10 9 2 11 10 10 11 11
together together_ai/togethercomputer/llama-2-70b-chat 65 64 25 79 61 68 74 76

参数、和GPU相比性能、价格、购买渠道等

延迟

在运行70B模型时,输出第一个token时的延时仅有0.22秒。

image-1708938965757

Framework Model Median Mean Min Max P25 P75 P95 P99
anyscale meta-llama/Llama-2-70b-chat-hf 0.21 0.25 0.18 0.59 0.19 0.30 0.36 0.47
bedrock meta.llama2-70b-chat-v1 0.39 0.41 0.29 0.72 0.37 0.41 0.54 0.69
fireworks accounts/fireworks/models/llama-v2-70b-chat 0.51 0.51 0.32 0.96 0.39 0.56 0.79 0.95
groq llama2-70b-4096 0.22 0.23 0.17 0.36 0.19 0.24 0.3 0.35
lepton llama2-70b 0.93 0.9 0.72 1.12 0.82 0.96 1.01 1.1
perplexity llama-2-70b-chat 0.37 0.42 0.29 0.70 0.34 0.52 0.63 0.66
replicate meta/llama-2-70b-chat 1.19 5.08 0.97 71.57 1.03 1.7 24.23 63.63
together together_ai/togethercomputer/llama-2-70b-chat 0.63 0.62 0.46 0.89 0.55 0.67 0.77 0.87

价格

Mouser上有个链接,目前无货,需要联系 Groq 购买,之前价格为 20,625.00 美元。

https://www.mouser.com/ProductDetail/BittWare/RS-GQ-GC1-0109?qs=ST9lo4GX8V2eGrFMeVQmFw%3D%3D

image-1708939140896

参考:

  1. https://github.com/ray-project/llmperf-leaderboard
  2. https://news.ycombinator.com/item?id=39428880
  3. https://wow.groq.com/groqcard-accelerator/