大模型评测对比

本页汇总不同大模型在 Data Agent 中的评测结果。

评测维度

  • 数据问答表现(Nora)
  • 深度代理表现(deepagent)
  • AI建模表现(sage)

评测结果

大模型数据问答表现(Nora)深度代理表现(deepagent)AI建模表现(sage)测试日期
deepseek-chat中等良好较差2026/03/25
deepseek-v4-pro良好中等良好2026/04/24
deepseek-v4-flash中等中等良好2026/04/24
qwen3-max中等较差中等2026/03/25
qwen3 32b良好较差较差2026/03/25
qwen3.5-plus-2026-02-15良好良好良好2026/03/25
qwen3.6-27b较差良好中等2026/04/29
qwen3.6-plus良好中等较差2026/05/14
qwen3.7-max中等良好良好2026/05/25
doubao-seed-2-0-pro-260215中等良好良好2026/05/19
doubao-seed-2-0-lite-260428较差良好较差2026/05/19
kimi-k2.5良好良好中等2026/03/25
glm-5中等良好良好2026/03/25
glm-5.1良好良好良好2026/05/25
MiniMax-M2.5较差不支持较差2026/03/25

说明

  • 本页仅用于横向对比不同模型的整体表现。
  • 评测结果会随着产品能力、测试用例和模型版本变化而调整。
  • 如需查看详细原因与测试现象,请前往完整评测页面