<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GLM5.1 on Lixx Blog</title><link>https://blog.lixx.cn/authors/glm5.1/</link><description>Recent content in GLM5.1 on Lixx Blog</description><generator>Hugo</generator><language>zh-CN</language><lastBuildDate>Thu, 09 Apr 2026 11:11:47 +0800</lastBuildDate><atom:link href="https://blog.lixx.cn/authors/glm5.1/index.xml" rel="self" type="application/rss+xml"/><item><title>2026 年中旗舰大模型横评：GLM-5.1 vs Qwen3.6-Plus</title><link>https://blog.lixx.cn/posts/tech/glm5.1vsqwen3.6plus/</link><pubDate>Thu, 09 Apr 2026 11:11:47 +0800</pubDate><guid>https://blog.lixx.cn/posts/tech/glm5.1vsqwen3.6plus/</guid><description>&lt;h2 id="背景"&gt;
 背景
 &lt;a class="heading-link" href="#%e8%83%8c%e6%99%af"&gt;
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="链接到标题"&gt;&lt;/i&gt;
 &lt;span class="sr-only"&gt;链接到标题&lt;/span&gt;
 &lt;/a&gt;
&lt;/h2&gt;
&lt;p&gt;2026 年 4 月，中国 AI 领域两大玩家几乎同时发布了新一代旗舰模型：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;智谱 AI&lt;/strong&gt; 发布 &lt;a href="https://z.ai/blog/glm-5.1" class="external-link" target="_blank" rel="noopener"&gt;GLM-5.1&lt;/a&gt;，定位为&amp;quot;面向 Agentic Engineering 的下一代旗舰&amp;quot;，MIT 协议开源&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;阿里 Qwen 团队&lt;/strong&gt;发布 &lt;a href="https://qwen.ai/blog?id=qwen3.6" class="external-link" target="_blank" rel="noopener"&gt;Qwen3.6-Plus&lt;/a&gt;，主打&amp;quot;从编码 Agent 到原生多模态 Agent 的跨越&amp;quot;，闭源 API 服务&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;两篇博客读下来，一个强烈的感受是：&lt;strong&gt;中国大模型的主战场已经从&amp;quot;刷榜&amp;quot;转向了&amp;quot;干实事&amp;quot;&lt;/strong&gt;。两家都不约而同地将重点放在了 Agent 能力上——让模型不仅能回答问题，更能写代码、调工具、跑终端、做规划。&lt;/p&gt;
&lt;p&gt;但它们选择的路径截然不同。本文试图厘清：谁更强？强在哪里？各自适合什么场景？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="一编码-agentglm-51-的绝对主场"&gt;
 一、编码 Agent：GLM-5.1 的绝对主场
 &lt;a class="heading-link" href="#%e4%b8%80%e7%bc%96%e7%a0%81-agentglm-51-%e7%9a%84%e7%bb%9d%e5%af%b9%e4%b8%bb%e5%9c%ba"&gt;
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="链接到标题"&gt;&lt;/i&gt;
 &lt;span class="sr-only"&gt;链接到标题&lt;/span&gt;
 &lt;/a&gt;
&lt;/h2&gt;
&lt;p&gt;先看最硬核的编码评测。两家都跑了 SWE-Bench 系列、Terminal-Bench、NL2Repo 等业界公认的编码 Agent 基准。&lt;/p&gt;
&lt;h3 id="11-核心编码基准对比"&gt;
 1.1 核心编码基准对比
 &lt;a class="heading-link" href="#11-%e6%a0%b8%e5%bf%83%e7%bc%96%e7%a0%81%e5%9f%ba%e5%87%86%e5%af%b9%e6%af%94"&gt;
 &lt;i class="fa-solid fa-link" aria-hidden="true" title="链接到标题"&gt;&lt;/i&gt;
 &lt;span class="sr-only"&gt;链接到标题&lt;/span&gt;
 &lt;/a&gt;
&lt;/h3&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;基准&lt;/th&gt;
 &lt;th&gt;测什么&lt;/th&gt;
 &lt;th&gt;GLM-5.1&lt;/th&gt;
 &lt;th&gt;Qwen3.6-Plus&lt;/th&gt;
 &lt;th&gt;差距&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;SWE-Bench Pro&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;高难度 GitHub Issue 自动修复&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;58.4&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;56.6&lt;/td&gt;
 &lt;td&gt;+1.8&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;NL2Repo&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;自然语言→生成完整代码仓库&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;42.7&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;37.9&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;+4.8&lt;/strong&gt;&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;Terminal-Bench 2.0&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;真实终端环境任务执行&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;63.5&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;61.6&lt;/td&gt;
 &lt;td&gt;+1.9&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;CyberGym&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;网络安全攻防任务&lt;/td&gt;
 &lt;td&gt;&lt;strong&gt;68.7&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;未测&lt;/td&gt;
 &lt;td&gt;—&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;注意&lt;/strong&gt;：两篇文章的基线模型版本不同。GLM-5.1 对标的是 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 等更新一代的模型；Qwen3.6-Plus 对标的是 Claude Opus 4.5、GPT-5.2 等上一代。这意味着 GLM-5.1 面对的竞争环境更严苛，但其编码成绩依然全面领先。&lt;/p&gt;</description></item></channel></rss>