先看任务类型
先确定你是在做写作、代码、分析还是批量处理,再看对应维度得分。
Model Comparison Matrix
用统一评分维度比较常用模型,先选对模型,再写提示词。你可以把这页当成“任务开工前”的选择面板。
Score Board
移动端可左右滑动查看完整列。
How To Use
先确定你是在做写作、代码、分析还是批量处理,再看对应维度得分。
高分不一定是最优,长周期任务需要同时考虑响应速度和成本效率。
同一任务至少试两个模型,对比输出质量后再固化你的默认工作流。
Task Picks
首选:Claude 3.5 · 备选:GPT-4o
更稳定地保持语气一致和结构完整,适合内容精修。首选:DeepSeek V3 · 备选:GPT-4o
在代码效率和成本上更均衡,适合高频迭代。首选:Claude 3.5 · 备选:GPT-4o
推理稳定性更高,适合复杂问题的结构化拆解。首选:DeepSeek V3 · 备选:GPT-4o
处理速度与成本效率更占优,适合批量生产场景。