DeepSeek API Arena

这是一个用于测试不同供应商 DeepSeek R1 模型推理性能的 benchmark。用于比较和评估不同供应商部署的 DeepSeek R1 模型的推理能力和效率。

性能指标说明

TTFT (Time To First Token)

该指标显示了用户在看到模型输出之前需要等待的时间。这是从提交查询到接收到第一个 token（如果响应不为空）所花费的时间。TTFT 越小，用户等待时间越短，体验越好。

TBT（Time Between Tokens）

该指标表示生成相邻 token 之间的平均时间间隔。反映了模型生成文本的连续性和流畅度，数值越低表示生成速度越快，用户获得完整回复的时间越短。

Throughput (吞吐量)

基于 TBT 计算的每秒生成 token 数量(1/TBT)。这个指标直观地反映了模型的实际生成效率，数值越高表示生成速度越快，单个用户每秒能产生更多的文本内容。

供应商	输入 (1M tokens)	输出 (1M tokens)	工具调用	TTFT (s)	TBT (ms)	吞吐 (tokens/s)
火山方舟	¥4.00	¥16.00	✓	0.50	38.80	25.77
阿里百炼	¥2.00	¥8.00	✗	0.70	100.10	9.99
深度求索	¥4.00 (¥1.00 cached)	¥16.00	✗	9.28	44.60	22.42
腾讯知识引擎原子能力	¥4.00	¥16.00	✗	0.48	41.40	24.15
硅基流动	¥4.00	¥16.00	✓	0.41	75.90	13.18