Groq 是集软硬件服务于一体的大模型推理加速方案,成立于2016年,创始团队中很多都是谷歌TPU的原班人马。自创 LPM(Language Processing Unit™)加速方案,
硬件参数
其硬件产品为 GroqCard,Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。
算力层面,Groq芯片运算速度 INT8 下为 750 TOPS,FP16 下为 188 TFLOPS。
LPU 在芯片计算单元旁边直接集成了 230MB SRAM 内存,没有 HBM 或 DDR 内存,这意味着运行相同模型,Groq 相比 GPU 需要更多芯片,其算力/ 内存比 非常大,所以如果要运行一个大模型,需要采购足够多的LPU 进行加载(个人感觉更适合同一个大模型为海量用户提供服务的场景)。
性能对比
Tokens吞吐量(tokens/s)
以每秒返回的输出 Token 的平均数量来衡量。通过向每个 LLM 推理提供商发送 150 个请求来收集结果,并根据 150 个请求计算平均输出令牌吞吐量。可以看到 groq 185 tokens/s 遥遥领先,其他推理提供商都是使用 GPU。
Framework | Model | Median | Mean | Min | Max | P25 | P75 | P95 | P99 |
---|---|---|---|---|---|---|---|---|---|
anyscale | meta-llama/Llama-2-70b-chat-hf | 66 | 63 | 22 | 86 | 56 | 72 | 77 | 82 |
bedrock | meta.llama2-70b-chat-v1 | 21 | 21 | 13 | 22 | 20 | 22 | 22 | 22 |
fireworks | accounts/fireworks/models/llama-v2-70b-chat | 40 | 40 | 33 | 46 | 38 | 42 | 45 | 46 |
groq | llama2-70b-4096 | 185 | 184 | 148 | 208 | 174 | 195 | 207 | 208 |
lepton | llama2-70b | 33 | 33 | 31 | 39 | 32 | 34 | 34 | 38 |
perplexity | llama-2-70b-chat | 30 | 30 | 8 | 44 | 29 | 31 | 36 | 44 |
replicate | meta/llama-2-70b-chat | 10 | 9 | 2 | 11 | 10 | 10 | 11 | 11 |
together | together_ai/togethercomputer/llama-2-70b-chat | 65 | 64 | 25 | 79 | 61 | 68 | 74 | 76 |
参数、和GPU相比性能、价格、购买渠道等
延迟
在运行70B模型时,输出第一个token时的延时仅有0.22秒。
Framework | Model | Median | Mean | Min | Max | P25 | P75 | P95 | P99 |
---|---|---|---|---|---|---|---|---|---|
anyscale | meta-llama/Llama-2-70b-chat-hf | 0.21 | 0.25 | 0.18 | 0.59 | 0.19 | 0.30 | 0.36 | 0.47 |
bedrock | meta.llama2-70b-chat-v1 | 0.39 | 0.41 | 0.29 | 0.72 | 0.37 | 0.41 | 0.54 | 0.69 |
fireworks | accounts/fireworks/models/llama-v2-70b-chat | 0.51 | 0.51 | 0.32 | 0.96 | 0.39 | 0.56 | 0.79 | 0.95 |
groq | llama2-70b-4096 | 0.22 | 0.23 | 0.17 | 0.36 | 0.19 | 0.24 | 0.3 | 0.35 |
lepton | llama2-70b | 0.93 | 0.9 | 0.72 | 1.12 | 0.82 | 0.96 | 1.01 | 1.1 |
perplexity | llama-2-70b-chat | 0.37 | 0.42 | 0.29 | 0.70 | 0.34 | 0.52 | 0.63 | 0.66 |
replicate | meta/llama-2-70b-chat | 1.19 | 5.08 | 0.97 | 71.57 | 1.03 | 1.7 | 24.23 | 63.63 |
together | together_ai/togethercomputer/llama-2-70b-chat | 0.63 | 0.62 | 0.46 | 0.89 | 0.55 | 0.67 | 0.77 | 0.87 |
价格
Mouser上有个链接,目前无货,需要联系 Groq 购买,之前价格为 20,625.00 美元。
https://www.mouser.com/ProductDetail/BittWare/RS-GQ-GC1-0109?qs=ST9lo4GX8V2eGrFMeVQmFw%3D%3D
参考: