大模型在DataAgent的表现效果
| 大模型 | 数据问答表现(Nora) | 深度代理表现(deepagent) | AI建模表现(sage)总结 | 测试日期 |
|---|---|---|---|---|
DeepSeekdeepseek 系列 |
||||
| deepseek-chat | 中等 基础问答可用,但存在明显幻觉:无符合条件时仍可能编造结果;“所有店铺”场景中会混淆展示条数与总条数。 |
良好 深度代理整体表现较好,结果可用性较强,暂未发现明显结构性问题。 |
较差 10次测试中约8次出错,主要问题包括幻觉建表、雪花模型设计不稳定、改表ID、报400错误等;多次依赖重试才能成功。 |
2026/03/25 |
| deepseek-v4-pro | 良好 数据分析较到位,能从数据中识别季节波动;对自定义“销售额达成率”理解异常,疑似产品口径或工具侧问题。 |
中等 图表、背景和视觉质感较好,但写文件时偶尔出现截断,需加强文件完整性校验。 |
良好 10/10成功,建模稳定性较高,适合作为Sage优先模型。 |
2026/04/24 |
| deepseek-v4-flash | 中等 问答与数据分析基本可用,但仍存在轻微幻觉,适合作为轻量或成本敏感场景备选。 |
中等 图表、图标、背景效果较好,但出现过乱码、空页、幻觉和文件截断问题,稳定性不如v4-pro。 |
良好 9/10成功,仅1次修改表ID,整体建模表现较好,可作为轻量备选。 |
2026/04/24 |
阿里云 / 通义千问qwen 系列 |
||||
| qwen3-max | 中等 能完成部分查询,但容易反问维度;图表总结存在事实错误,如季度高低判断、趋势判断不准确;分页总数表达也不稳定。 |
较差 PPT/报告生成效果偏弱,主要是文字与文本框堆叠,缺少版式设计和视觉层级。 |
中等 多次出现修改表ID的问题,但部分情况下能自行修正;建模稳定性一般,不适合作为主力建模模型。 |
2026/03/25 |
| qwen3 32b | 良好 数据问答整体可用,但面对“所有店铺”分页与总数不一致时,虽然能发现矛盾,但无法解释原因;部分问题会反问维度。 |
较差 生成内容偏Word文档风格,PPT感和视觉表现较弱,整体不适合深度代理输出。 |
较差 10次测试均有不同程度问题,包括改表ID、改字段ID、缺少关键表、自行补表但最终模型不可用,建模可靠性较差。 |
2026/03/25 |
| qwen3.5-plus-2026-02-15 | 良好 长期用于自动化测试,整体稳定性和可用性较好,适合作为标准基准模型。 |
良好 深度代理表现稳定,结果质量较好,可作为优先推荐模型。 |
良好 自动化测试中持续使用,建模表现稳定,适合作为主力或基准模型。 |
2026/03/25 |
| qwen3.6-27b | 较差 能理解问题并与Alisa通信,但数据分析能力弱;对季节变化、同比周期理解不足,偶发提示词和试错过程外露,响应较慢。 |
良好 深度代理整体可用,但原始备注信息较少,仍建议补充版式、稳定性和文件完整性测试。 |
中等 2/10失败,成功率尚可,但稳定性一般,需要继续验证复杂建模场景。 |
2026/04/29 |
| qwen3.6-plus | 良好 无误。 |
中等 生成中途报错、生成表报格式错误。 |
较差 10次有5次出错,建模稳定性不足,需继续观察复杂场景下的失败原因。 |
2026/05/14 |
| qwen3.7-max | 中等 整体可用,但在时间趋势判断和业务语义理解上仍有偏差,适合作为备选,不适合作为高可靠问答主力。 |
良好 深度代理整体表现良好,结果可用,生成内容的完整度和可读性较好。 |
良好 AI建模整体表现良好,建模过程较稳定,可作为可用备选模型继续观察。 |
2026/05/25 |
字节跳动 / 豆包Doubao 系列 |
||||
| doubao-seed-2-0-pro-260215 | 中等 不太会分析,今年销售额与去年销售额对比时,会说今年大幅度下滑,意识不到今年还没过完。 |
良好 深度代理整体表现良好,结果可用。 |
良好 AI建模整体表现良好。 |
2026/05/19 |
| doubao-seed-2-0-lite-260428 | 较差 数据问答整体表现较差。 |
良好 深度代理整体表现良好,结果可用。 |
较差 Sage 侧大量出错,建模稳定性较差。 |
2026/05/19 |
月之暗面Kimi 系列 |
||||
| kimi-k2.5 | 良好 除“所有店铺”分页/总数表达不一致外,其他问题回答较好,总结能力也比较到位。 |
良好 PPT/报告生成效果较好,是当前几个模型中深度代理表现较突出的一个。 |
中等 10次中约4次出现改表ID的问题,但能自行修正;整体可用,但建模过程仍需加ID锁定校验。 |
2026/03/25 |
智谱 AIGLM 系列 |
||||
| glm-5 | 中等 基础问答可用,但直接问金额时会反问维度;分页展示与总数问题依旧存在;有时会把前面错误查询过程一起展示出来。 |
良好 深度代理生成结果有质感,图表和整体视觉表现较好。 |
良好 10次中仅1次出现表拆分不合理问题,后续能自行补正;建模稳定性较好。 |
2026/03/25 |
| glm-5.1 | 良好 非常好。 |
良好 重新测试后整体表现良好,结果可用,未再出现此前的连接中断问题。 |
良好 十次里面出错1次,整体建模稳定性较好。 |
2026/05/25 |
MiniMaxMiniMax 系列 |
||||
| MiniMax-M2.5 | 较差 上下文场景下幻觉严重,指标理解能力较弱;对“达成率=金额/目标金额”这类自定义指标理解不稳定,整体不适合作为问答主力。 |
不支持 不支持 / 不建议使用。测试中表现不可用,两个相关模型均不适合deepagent场景。 |
较差 10次中约6次出错,幻觉严重,会修改表ID、字段ID,甚至自行往表里加字段,建模风险较高。 |
2026/03/25 |