Model Comparison Matrix

模型能力矩阵(完整页)

用统一评分维度比较常用模型,先选对模型,再写提示词。你可以把这页当成“任务开工前”的选择面板。

Score Board

能力维度统一打分

评分范围 0-100,越高代表该维度表现越稳。

移动端可左右滑动查看完整列。

能力维度GPT-4oClaude 3.5DeepSeek V3
逻辑推理复杂问题拆解
94/100
96/100
89/100
创意写作语气和风格控制
88/100
98/100
82/100
代码能力生成与调试效率
92/100
94/100
96/100
处理速度输出速度与稳定性
90/100
78/100
95/100
长文本一致性多轮上下文保持
89/100
97/100
85/100
工具调用稳定性结构化输出和函数调用
93/100
90/100
88/100
成本效率性价比与吞吐能力
84/100
80/100
96/100

How To Use

如何使用这张矩阵

先看任务类型

先确定你是在做写作、代码、分析还是批量处理,再看对应维度得分。

再看稳定性与成本

高分不一定是最优,长周期任务需要同时考虑响应速度和成本效率。

用 A/B 验证结果

同一任务至少试两个模型,对比输出质量后再固化你的默认工作流。

Task Picks

常见任务推荐

长文案润色与风格改写

首选:Claude 3.5 · 备选:GPT-4o

更稳定地保持语气一致和结构完整,适合内容精修。

代码生成与快速调试

首选:DeepSeek V3 · 备选:GPT-4o

在代码效率和成本上更均衡,适合高频迭代。

复杂策略拆解与多步骤推理

首选:Claude 3.5 · 备选:GPT-4o

推理稳定性更高,适合复杂问题的结构化拆解。

高并发批量生成任务

首选:DeepSeek V3 · 备选:GPT-4o

处理速度与成本效率更占优,适合批量生产场景。