Groq大模型加速

AIGC MachineLearning

Groq 是集软硬件服务于一体的大模型推理加速方案，成立于2016年，创始团队中很多都是谷歌TPU的原班人马。自创 LPM(Language Processing Unit™)加速方案,

硬件参数

其硬件产品为 GroqCard，Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。

算力层面，Groq芯片运算速度 INT8 下为 750 TOPS，FP16 下为 188 TFLOPS。

LPU 在芯片计算单元旁边直接集成了 230MB SRAM 内存，没有 HBM 或 DDR 内存，这意味着运行相同模型，Groq 相比 GPU 需要更多芯片，其算力/ 内存比非常大，所以如果要运行一个大模型，需要采购足够多的LPU 进行加载（个人感觉更适合同一个大模型为海量用户提供服务的场景）。

以每秒返回的输出 Token 的平均数量来衡量。通过向每个 LLM 推理提供商发送 150 个请求来收集结果，并根据 150 个请求计算平均输出令牌吞吐量。可以看到 groq 185 tokens/s 遥遥领先，其他推理提供商都是使用 GPU。

Framework	Model	Median	Mean	Min	Max	P25	P75	P95	P99
anyscale	meta-llama/Llama-2-70b-chat-hf	66	63	22	86	56	72	77	82
bedrock	meta.llama2-70b-chat-v1	21	21	13	22	20	22	22	22
fireworks	accounts/fireworks/models/llama-v2-70b-chat	40	40	33	46	38	42	45	46
groq	llama2-70b-4096	185	184	148	208	174	195	207	208
lepton	llama2-70b	33	33	31	39	32	34	34	38
perplexity	llama-2-70b-chat	30	30	8	44	29	31	36	44
replicate	meta/llama-2-70b-chat	10	9	2	11	10	10	11	11
together	together_ai/togethercomputer/llama-2-70b-chat	65	64	25	79	61	68	74	76

参数、和GPU相比性能、价格、购买渠道等

在运行70B模型时，输出第一个token时的延时仅有0.22秒。

Framework	Model	Median	Mean	Min	Max	P25	P75	P95	P99
anyscale	meta-llama/Llama-2-70b-chat-hf	0.21	0.25	0.18	0.59	0.19	0.30	0.36	0.47
bedrock	meta.llama2-70b-chat-v1	0.39	0.41	0.29	0.72	0.37	0.41	0.54	0.69
fireworks	accounts/fireworks/models/llama-v2-70b-chat	0.51	0.51	0.32	0.96	0.39	0.56	0.79	0.95
groq	llama2-70b-4096	0.22	0.23	0.17	0.36	0.19	0.24	0.3	0.35
lepton	llama2-70b	0.93	0.9	0.72	1.12	0.82	0.96	1.01	1.1
perplexity	llama-2-70b-chat	0.37	0.42	0.29	0.70	0.34	0.52	0.63	0.66
replicate	meta/llama-2-70b-chat	1.19	5.08	0.97	71.57	1.03	1.7	24.23	63.63
together	together_ai/togethercomputer/llama-2-70b-chat	0.63	0.62	0.46	0.89	0.55	0.67	0.77	0.87

Mouser上有个链接，目前无货，需要联系 Groq 购买，之前价格为 20,625.00 美元。

参考：

如果觉得文章对你有用，请随意赞赏

Groq大模型加速

Administrator

2024-02-26

2024-11-26

CC BY 4.0