Model Comparison Matrix

模型能力矩阵（完整页）

用统一评分维度比较常用模型，先选对模型，再写提示词。你可以把这页当成“任务开工前”的选择面板。

Score Board

能力维度统一打分

评分范围 0-100，越高代表该维度表现越稳。

移动端可左右滑动查看完整列。

能力维度	GPT-4o	Claude 3.5	DeepSeek V3
逻辑推理复杂问题拆解	94/100	96/100	89/100
创意写作语气和风格控制	88/100	98/100	82/100
代码能力生成与调试效率	92/100	94/100	96/100
处理速度输出速度与稳定性	90/100	78/100	95/100
长文本一致性多轮上下文保持	89/100	97/100	85/100
工具调用稳定性结构化输出和函数调用	93/100	90/100	88/100
成本效率性价比与吞吐能力	84/100	80/100	96/100

How To Use

先确定你是在做写作、代码、分析还是批量处理，再看对应维度得分。

高分不一定是最优，长周期任务需要同时考虑响应速度和成本效率。

同一任务至少试两个模型，对比输出质量后再固化你的默认工作流。

Task Picks