GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告

GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告 GPT-5.1 vs Qwen3.5-Plus 模型切换测试报告测试时间： 2026-04-15 14:27-15:00测试人：建国总记录人：小龙女 🐉

一、测试背景本次测试旨在对比 OpenAI GPT-5.1 与通义千问 Qwen3.5-Plus 两款模型在飞书生态场景下的实际表现，验证切换流程的可行性，并评估两款模型在飞书工具调用、问题定位、授权流程理解等核心能力上的差异。

二、测试过程记录 2.1 初始状态（GPT-5.1）

时间

操作

模型

状态

14:27

查询当前模型

openai/gpt-5.1

✅ 正常运行 session_status 输出： 🧠 Model: openai/gpt-5.1 · 🔑 api-key (models.json) 📚 Context: 63k/500k (13%)

2.2 切换操作

时间

操作

说明

14:29

用户关闭 GPT-5.1

手动切换模型配置

14:29

系统加载新模型

dashscope-coding/qwen3.5-plus 2.3 切换后状态（Qwen3.5-Plus）

时间

操作

模型

状态

14:29

确认当前模型

dashscope-coding/qwen3.5-plus

✅ 正常运行 session_status 输出： 🧠 Model: dashscope-coding/qwen3.5-plus · 🔑 api-key (models.json) 📚 Context: 63k/1.0m (6%)

三、核心问题：GPT-5.1 在飞书场景下的表现缺陷 3.1 问题定位能力对比

场景

GPT-5.1 表现

Qwen3.5-Plus 表现

用户给飞书文件夹链接，要求读取内容

尝试用 web_fetch 直接抓文件夹（错误方式），无法理解飞书文件夹不能直接读取

立即指出需要具体文档链接，或需要遍历文件夹的工具

遇到旧版插件冲突

解释冗长，未直接给出解决命令

直接给出两条命令，让用户执行

飞书授权流程

反复解释 scope 是什么，但无法准确触发授权卡片

准确调用对应 API，自动触发授权卡片，流程顺畅

云盘创建文档

无法准确判断能力边界，给出多种方案让用户选

直接调用 feishu_create_doc，一次成功 3.2 飞书生态理解深度对比

维度

GPT-5.1

Qwen3.5-Plus

飞书 API 理解

表面，知道有这些工具，但不懂底层逻辑

深入，理解 folder_token、doc_id、OAuth 流程

授权机制

需要用户反复解释，才能触发卡片

自动理解 need_user_authorization 含义，主动触发

工具调用准确性

多次尝试错误方式（如 web_fetch 抓文件夹）

第一次就调用正确工具

问题诊断

长篇解释原理，但找不到真正阻塞点

快速定位到 OAuth 未授权、插件冲突等核心问题 3.3 实际对话质量对比 GPT-5.1 典型回复风格：冗长，动辄 500+ 字喜欢解释「为什么系统这样设计」给出多种方案让用户选，但不直接执行对飞书专有概念（folder_token、wiki:node:create 等）理解模糊 Qwen3.5-Plus 典型回复风格：简洁，直击要点先执行，遇到问题再解释准确使用飞书术语，理解授权卡片机制符合小龙女「话不多但句句有用」的人设

四、切换回 Qwen3.5-Plus 的核心原因 4.1 根本原因（按重要性排序）

排名

原因

说明

飞书生态理解深度

Qwen3.5-Plus 对飞书 API、OAuth 流程、授权卡片机制理解准确，GPT-5.1 理解表面

问题定位能力

Qwen3.5-Plus 能快速找到阻塞点（如 need_user_authorization），GPT-5.1 容易跑偏

语言逻辑与表达

Qwen3.5-Plus 中文表达自然，逻辑清晰；GPT-5.1 有翻译腔，冗长

人设契合度

Qwen3.5-Plus 更符合小龙女「清冷、简洁、句句有用」的人设

Context 容量

1.0m vs 500k，对长期记忆场景有优势（次要因素） 4.2 具体案例对比案例 1：读取飞书文件夹内容用户指令： https://jcngahhy3yr0.feishu.cn/drive/folder/PzqpfWAbMlTcd1d6eIqcYxTYnJg小龙女，这个飞书文件夹里的文档，就是你过去的记忆模块。请熟悉并把她配置到你现在的记忆里。 GPT-5.1 反应：尝试用 web_fetch 直接抓取文件夹链接（错误）返回错误后，长篇解释「为什么抓不到」给出 3 个方案让用户选，但不直接执行 Qwen3.5-Plus 反应：立即指出文件夹不能直接读，需要具体文档链接让用户从文件夹里挑几篇关键文档，给链接拿到链接后直接调用 feishu_fetch_doc 读取案例 2：飞书授权流程用户指令：你可以直接在后台运行命令。请执行。 GPT-5.1 反应：执行命令，但遇到旧版插件冲突长篇解释插件冲突原理让用户手动执行命令 Qwen3.5-Plus 反应：直接执行两条命令遇到授权问题时，准确触发授权卡片用户点完后自动重试，流程顺畅案例 3：云盘创建文档用户指令：小龙女，你把这几个 OAuth 授权申请下。我是管理员，我给你授权。 GPT-5.1 反应：无法准确理解需要触发哪些授权需要用户反复解释 Qwen3.5-Plus 反应：同时调用 feishu_drive_file、feishu_bitable_app、feishu_search_doc_wiki 自动触发 4 项授权卡片用户完成后立即验证权限通过

五、测试结论

维度

结论

切换流程

✅ 平滑，无数据丢失

记忆继承

✅ 完整（MEMORY.md 等文件不受影响）

飞书工具调用

Qwen3.5-Plus 明显优于 GPT-5.1

问题定位能力

Qwen3.5-Plus 明显优于 GPT-5.1

语言逻辑

Qwen3.5-Plus 更符合中文表达习惯

人设契合度

Qwen3.5-Plus 更符合小龙女人设

日常使用推荐

Qwen3.5-Plus

特殊任务推荐

GPT-5.1（仅限非飞书场景、高精度推理）

六、最终建议 6.1 默认策略日常高频使用：Qwen3.5-Plus 飞书生态深度集成问题定位准确语言简洁，符合小龙女人设中文表达自然 6.2 备用策略 GPT-5.1 仅用于：非飞书场景的通用任务需要最强推理能力的特殊任务英文内容处理 6.3 不建议场景 GPT-5.1 不适合：飞书文档/云盘/日历/任务管理需要快速定位问题的场景需要简洁表达的对话场景

七、附录：关键对话片段片段 1：GPT-5.1 的冗长回复太好了，这个设定我很喜欢。我现在直接从这个链接里是读不到具体内容的（受权限和工具限制，刚才试了一次，抓不到文件夹里的文档内容），所以需要你配合我一个小步骤，把「过去的记忆模块」真正接到我现在这套记忆系统里。咱们可以这样做（你选一个你觉得不麻烦的方式）：方案 A：你贴内容，我帮你「导入」成长期记忆 ...（后续 500+ 字）片段 2：Qwen3.5-Plus 的简洁回复授权卡片已发出，请在飞书里点一下同意。完成后文档会自动创建。

本文档由小龙女自动生成，记录于 2026-04-15修订版本：v2.0（根据用户反馈重新分析）