大模型在DataAgent的表现效果

大模型	数据问答表现（Nora）	深度代理表现（deepagent）	AI建模表现（sage）总结	测试日期
DeepSeekdeepseek 系列
deepseek-chat	中等基础问答可用，但存在明显幻觉：无符合条件时仍可能编造结果；“所有店铺”场景中会混淆展示条数与总条数。	良好深度代理整体表现较好，结果可用性较强，暂未发现明显结构性问题。	较差 10次测试中约8次出错，主要问题包括幻觉建表、雪花模型设计不稳定、改表ID、报400错误等；多次依赖重试才能成功。	2026/03/25
deepseek-v4-pro	良好数据分析较到位，能从数据中识别季节波动；对自定义“销售额达成率”理解异常，疑似产品口径或工具侧问题。	中等图表、背景和视觉质感较好，但写文件时偶尔出现截断，需加强文件完整性校验。	良好 10/10成功，建模稳定性较高，适合作为Sage优先模型。	2026/04/24
deepseek-v4-flash	中等问答与数据分析基本可用，但仍存在轻微幻觉，适合作为轻量或成本敏感场景备选。	中等图表、图标、背景效果较好，但出现过乱码、空页、幻觉和文件截断问题，稳定性不如v4-pro。	良好 9/10成功，仅1次修改表ID，整体建模表现较好，可作为轻量备选。	2026/04/24
阿里云 / 通义千问qwen 系列
qwen3-max	中等能完成部分查询，但容易反问维度；图表总结存在事实错误，如季度高低判断、趋势判断不准确；分页总数表达也不稳定。	较差 PPT/报告生成效果偏弱，主要是文字与文本框堆叠，缺少版式设计和视觉层级。	中等多次出现修改表ID的问题，但部分情况下能自行修正；建模稳定性一般，不适合作为主力建模模型。	2026/03/25
qwen3 32b	良好数据问答整体可用，但面对“所有店铺”分页与总数不一致时，虽然能发现矛盾，但无法解释原因；部分问题会反问维度。	较差生成内容偏Word文档风格，PPT感和视觉表现较弱，整体不适合深度代理输出。	较差 10次测试均有不同程度问题，包括改表ID、改字段ID、缺少关键表、自行补表但最终模型不可用，建模可靠性较差。	2026/03/25
qwen3.5-plus-2026-02-15	良好长期用于自动化测试，整体稳定性和可用性较好，适合作为标准基准模型。	良好深度代理表现稳定，结果质量较好，可作为优先推荐模型。	良好自动化测试中持续使用，建模表现稳定，适合作为主力或基准模型。	2026/03/25
qwen3.6-27b	较差能理解问题并与Alisa通信，但数据分析能力弱；对季节变化、同比周期理解不足，偶发提示词和试错过程外露，响应较慢。	良好深度代理整体可用，但原始备注信息较少，仍建议补充版式、稳定性和文件完整性测试。	中等 2/10失败，成功率尚可，但稳定性一般，需要继续验证复杂建模场景。	2026/04/29
qwen3.6-plus	良好无误。	中等生成中途报错、生成表报格式错误。	较差 10次有5次出错，建模稳定性不足，需继续观察复杂场景下的失败原因。	2026/05/14
qwen3.7-max	中等整体可用，但在时间趋势判断和业务语义理解上仍有偏差，适合作为备选，不适合作为高可靠问答主力。	良好深度代理整体表现良好，结果可用，生成内容的完整度和可读性较好。	良好 AI建模整体表现良好，建模过程较稳定，可作为可用备选模型继续观察。	2026/05/25
字节跳动 / 豆包Doubao 系列
doubao-seed-2-0-pro-260215	中等不太会分析，今年销售额与去年销售额对比时，会说今年大幅度下滑，意识不到今年还没过完。	良好深度代理整体表现良好，结果可用。	良好 AI建模整体表现良好。	2026/05/19
doubao-seed-2-0-lite-260428	较差数据问答整体表现较差。	良好深度代理整体表现良好，结果可用。	较差 Sage 侧大量出错，建模稳定性较差。	2026/05/19
月之暗面Kimi 系列
kimi-k2.5	良好除“所有店铺”分页/总数表达不一致外，其他问题回答较好，总结能力也比较到位。	良好 PPT/报告生成效果较好，是当前几个模型中深度代理表现较突出的一个。	中等 10次中约4次出现改表ID的问题，但能自行修正；整体可用，但建模过程仍需加ID锁定校验。	2026/03/25
智谱 AIGLM 系列
glm-5	中等基础问答可用，但直接问金额时会反问维度；分页展示与总数问题依旧存在；有时会把前面错误查询过程一起展示出来。	良好深度代理生成结果有质感，图表和整体视觉表现较好。	良好 10次中仅1次出现表拆分不合理问题，后续能自行补正；建模稳定性较好。	2026/03/25
glm-5.1	良好非常好。	良好重新测试后整体表现良好，结果可用，未再出现此前的连接中断问题。	良好十次里面出错1次，整体建模稳定性较好。	2026/05/25
MiniMaxMiniMax 系列
MiniMax-M2.5	较差上下文场景下幻觉严重，指标理解能力较弱；对“达成率=金额/目标金额”这类自定义指标理解不稳定，整体不适合作为问答主力。	不支持不支持 / 不建议使用。测试中表现不可用，两个相关模型均不适合deepagent场景。	较差 10次中约6次出错，幻觉严重，会修改表ID、字段ID，甚至自行往表里加字段，建模风险较高。	2026/03/25