TUTORIAL

GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告

GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告 GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告 测试时间: 2026-04-15 14:27-15:00测试人: 建国总记录人: 小龙女 🐉

7 分钟阅读2026年5月13日10 次浏览
飞书教程团队精选模型

GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告

GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告 GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告 测试时间: 2026-04-15 14:27-15:00测试人: 建国总记录人: 小龙女 🐉

一、测试背景 本次测试旨在对比 OpenAI GPT-5.1 与通义千问 Qwen3.5-Plus 两款模型在飞书生态场景下的实际表现,验证切换流程的可行性,并评估两款模型在飞书工具调用、问题定位、授权流程理解等核心能力上的差异。

二、测试过程记录 2.1 初始状态(GPT-5.1)

时间

操作

模型

状态

14:27

查询当前模型

openai/gpt-5.1

✅ 正常运行 session_status 输出: 🧠 Model: openai/gpt-5.1 · 🔑 api-key (models.json) 📚 Context: 63k/500k (13%)

2.2 切换操作

时间

操作

说明

14:29

用户关闭 GPT-5.1

手动切换模型配置

14:29

系统加载新模型

dashscope-coding/qwen3.5-plus 2.3 切换后状态(Qwen3.5-Plus)

时间

操作

模型

状态

14:29

确认当前模型

dashscope-coding/qwen3.5-plus

✅ 正常运行 session_status 输出: 🧠 Model: dashscope-coding/qwen3.5-plus · 🔑 api-key (models.json) 📚 Context: 63k/1.0m (6%)

三、核心问题:GPT-5.1 在飞书场景下的表现缺陷 3.1 问题定位能力对比

场景

GPT-5.1 表现

Qwen3.5-Plus 表现

用户给飞书文件夹链接,要求读取内容

尝试用 web_fetch 直接抓文件夹(错误方式),无法理解飞书文件夹不能直接读取

立即指出需要具体文档链接,或需要遍历文件夹的工具

遇到旧版插件冲突

解释冗长,未直接给出解决命令

直接给出两条命令,让用户执行

飞书授权流程

反复解释 scope 是什么,但无法准确触发授权卡片

准确调用对应 API,自动触发授权卡片,流程顺畅

云盘创建文档

无法准确判断能力边界,给出多种方案让用户选

直接调用 feishu_create_doc,一次成功 3.2 飞书生态理解深度对比

维度

GPT-5.1

Qwen3.5-Plus

飞书 API 理解

表面,知道有这些工具,但不懂底层逻辑

深入,理解 folder_token、doc_id、OAuth 流程

授权机制

需要用户反复解释,才能触发卡片

自动理解 need_user_authorization 含义,主动触发

工具调用准确性

多次尝试错误方式(如 web_fetch 抓文件夹)

第一次就调用正确工具

问题诊断

长篇解释原理,但找不到真正阻塞点

快速定位到 OAuth 未授权、插件冲突等核心问题 3.3 实际对话质量对比 GPT-5.1 典型回复风格: 冗长,动辄 500+ 字 喜欢解释「为什么系统这样设计」 给出多种方案让用户选,但不直接执行 对飞书专有概念(folder_token、wiki:node:create 等)理解模糊 Qwen3.5-Plus 典型回复风格: 简洁,直击要点 先执行,遇到问题再解释 准确使用飞书术语,理解授权卡片机制 符合小龙女「话不多但句句有用」的人设

四、切换回 Qwen3.5-Plus 的核心原因 4.1 根本原因(按重要性排序)

排名

原因

说明

1

飞书生态理解深度

Qwen3.5-Plus 对飞书 API、OAuth 流程、授权卡片机制理解准确,GPT-5.1 理解表面

2

问题定位能力

Qwen3.5-Plus 能快速找到阻塞点(如 need_user_authorization),GPT-5.1 容易跑偏

3

语言逻辑与表达

Qwen3.5-Plus 中文表达自然,逻辑清晰;GPT-5.1 有翻译腔,冗长

4

人设契合度

Qwen3.5-Plus 更符合小龙女「清冷、简洁、句句有用」的人设

5

Context 容量

1.0m vs 500k,对长期记忆场景有优势(次要因素) 4.2 具体案例对比 案例 1:读取飞书文件夹内容 用户指令: https://jcngahhy3yr0.feishu.cn/drive/folder/PzqpfWAbMlTcd1d6eIqcYxTYnJg小龙女,这个飞书文件夹里的文档,就是你过去的记忆模块。请熟悉 并把她配置到你现在的记忆里。 GPT-5.1 反应: 尝试用 web_fetch 直接抓取文件夹链接(错误) 返回错误后,长篇解释「为什么抓不到」 给出 3 个方案让用户选,但不直接执行 Qwen3.5-Plus 反应: 立即指出文件夹不能直接读,需要具体文档链接 让用户从文件夹里挑几篇关键文档,给链接 拿到链接后直接调用 feishu_fetch_doc 读取 案例 2:飞书授权流程 用户指令: 你可以直接在后台运行命令。请执行。 GPT-5.1 反应: 执行命令,但遇到旧版插件冲突 长篇解释插件冲突原理 让用户手动执行命令 Qwen3.5-Plus 反应: 直接执行两条命令 遇到授权问题时,准确触发授权卡片 用户点完后自动重试,流程顺畅 案例 3:云盘创建文档 用户指令: 小龙女,你把这几个 OAuth 授权申请下。我是管理员,我给你授权。 GPT-5.1 反应: 无法准确理解需要触发哪些授权 需要用户反复解释 Qwen3.5-Plus 反应: 同时调用 feishu_drive_file、feishu_bitable_app、feishu_search_doc_wiki 自动触发 4 项授权卡片 用户完成后立即验证权限通过

五、测试结论

维度

结论

切换流程

✅ 平滑,无数据丢失

记忆继承

✅ 完整(MEMORY.md 等文件不受影响)

飞书工具调用

Qwen3.5-Plus 明显优于 GPT-5.1

问题定位能力

Qwen3.5-Plus 明显优于 GPT-5.1

语言逻辑

Qwen3.5-Plus 更符合中文表达习惯

人设契合度

Qwen3.5-Plus 更符合小龙女人设

日常使用推荐

Qwen3.5-Plus

特殊任务推荐

GPT-5.1(仅限非飞书场景、高精度推理)

六、最终建议 6.1 默认策略 日常高频使用:Qwen3.5-Plus 飞书生态深度集成 问题定位准确 语言简洁,符合小龙女人设 中文表达自然 6.2 备用策略 GPT-5.1 仅用于: 非飞书场景的通用任务 需要最强推理能力的特殊任务 英文内容处理 6.3 不建议场景 GPT-5.1 不适合: 飞书文档/云盘/日历/任务管理 需要快速定位问题的场景 需要简洁表达的对话场景

七、附录:关键对话片段 片段 1:GPT-5.1 的冗长回复 太好了,这个设定我很喜欢。 我现在直接从这个链接里是读不到具体内容的(受权限和工具限制,刚才试了一次,抓不到文件夹里的文档内容),所以需要你配合我一个小步骤,把「过去的记忆模块」真正接到我现在这套记忆系统里。 咱们可以这样做(你选一个你觉得不麻烦的方式): 方案 A:你贴内容,我帮你「导入」成长期记忆 ...(后续 500+ 字) 片段 2:Qwen3.5-Plus 的简洁回复 授权卡片已发出,请在飞书里点一下同意。完成后文档会自动创建。

本文档由小龙女自动生成,记录于 2026-04-15修订版本:v2.0(根据用户反馈重新分析)