Kimi K2：超越聊天框的深度評測

2025-07-18 15:06| 來源: 網(wǎng)絡整理| 查看: 265

最近，每當有新的大模型發(fā)布，我們總能看到一波評測浪潮。但有一個現(xiàn)象很有趣，絕大多數(shù)評測，都不約而同地被局限在一個我們最熟悉的環(huán)境里：聊天框。

這其實是一個根本性的限制。Agentic AI大行其道的2025年，在聊天框里評測一個為Agentic設計的模型，就像用白板編程來面試一個開發(fā)總監(jiān)一樣。你得到的反饋，與它的核心能力幾乎沒有關(guān)系。

月之暗面發(fā)布的Kimi K2，從一開始就清晰地把Agentic能力，也就是智能體自主使用工具完成任務的能力，放到了一個極其重要的位置。這在整個領(lǐng)域里是一個非常罕見的選擇。比如DeepSeek R1，它在發(fā)布相當長一段時間后，才加入了工具調(diào)用功能，而且很多平臺比如ollama至今都沒有完全支持。而Kimi K2反其道而行之，將Agentic作為核心能力來開發(fā)，這本身就值得我們用一套更接近它設計目標的范式去評測。

為何必須超越聊天框：Agentic AI的評測困境

但在此之前，我們必須先明確一下討論的前提：Agentic AI的核心到底是什么？它有兩個密不可分的核心要素：

自主決策與反饋循環(huán)：這才是智能的體現(xiàn)。一個Agentic模型不只是被動地回答問題，它需要能自主地將一個大目標拆解成一步步的行動計劃。更關(guān)鍵的是，它會觀察自己行為的結(jié)果——比如文件寫入成功了，或者代碼編譯失敗了——然后根據(jù)這個反饋來調(diào)整并決定下一步做什么。這是一個持續(xù)的感知-思考-行動的循環(huán)。調(diào)用工具與環(huán)境交互：這是連接模型大腦和現(xiàn)實世界的“手腳”。模型本身無法直接作你的電腦，它需要通過調(diào)用工具來實現(xiàn)。這些工具可以是作系統(tǒng)層面的功能，比如讀寫文件、執(zhí)行代碼；也可以是接入外部世界的功能，比如進行網(wǎng)頁搜索、獲取視頻內(nèi)容。

理解了這兩點，我們就能明白為什么單純的和AI聊天，完全無法評測它的Agentic能力。

首先，聊天這種形式，絕大多數(shù)情況下就不需要調(diào)用任何工具，當然也無法評測這種能力。它的交互是單純的文本生成。你問它答，而不是你說他做。都2025年了，還用評測ChatGPT的方式去評測一個為Agentic設計的模型，這本身就是一種脫節(jié)。

其次，聊天框極大地局限了問題的復雜度。一個真正的Agentic任務，需要持續(xù)的上下文和環(huán)境感知。而聊天框里的任務，往往是孤立的、上下文極短的。它無法構(gòu)建前面提到的那種，根據(jù)上一輪編譯失敗的結(jié)果來決定下一輪修改方案的反饋循環(huán)。

所以，要評測一個Agentic模型的真實能力，唯一的辦法就是將它放入一個能get hands dirty的真實環(huán)境。我花了一些時間，通過直接編寫代碼調(diào)用其API的方式，對Kimi K2進行了一次更接近它設計初衷的系統(tǒng)性分析。

編程測試：高階智能與執(zhí)行的摩擦

在Agentic的世界里，編程是一個經(jīng)典的綜合性任務。而要評測一個模型在編程任務中的真實能力，同樣不能采用在聊天框里來回粘貼代碼的模式。那種你問我答的方式，會把一個連續(xù)復雜的工程任務，切割成無數(shù)個離散零碎的問答。這種用 AI 的方式，就像是用電報的思維在發(fā)微信：把本該沉浸協(xié)作的信息空間，壓縮進一個上下文頻繁丟失的小框里，再靠手工補全來湊合運轉(zhuǎn)，既低效，又南轅北轍。

正因如此，像Cursor或Claude Code這類Agentic編程環(huán)境的出現(xiàn)，才是一次革命性的進步。

它們的核心價值，就是為AI模型搭建了一個真正能夠施展手腳的競技場。在這個環(huán)境里，模型不再只是一個聊天的對象，而是變成了一個接入了讀寫文件、執(zhí)行代碼等一系列工具的copilot。它終于可以像一個真正的人類開發(fā)者一樣，在真實的代碼庫里工作，構(gòu)建起那個關(guān)鍵的反饋循環(huán)，真正地參與到有狀態(tài)、持續(xù)性的任務流中。

所以，要評估K2的真實能力，我做的第一件事，就是將它接入到Claude Code這個強大的Agentic編程環(huán)境中（具體方法見文末），讓它為我從零開發(fā)一款小雞過馬路的游戲。（下面是它寫出來的游戲視頻）

它給出的第一個版本就相當可玩了，迭代了兩三輪之后基本就沒有bug了。但整個開發(fā)過程并不一帆風順，甚至可以說磕磕絆絆。我有個明顯的感受：模型在高階的智能和低階的工具執(zhí)行之間，存在著一道明顯的鴻溝。

一方面，Kimi K2的智能是一流的。它對于任務的理解，對游戲邏輯的拆解，以及最終代碼的生成質(zhì)量，都處在業(yè)界頂尖水準。它能很好地理解我的意圖，并且寫出確實有效的程序或者進行有效的debug。這是一個非常聰明的“大腦”。

但另一方面，當這個大腦需要通過“手腳”（也就是工具調(diào)用）來與真實的文件系統(tǒng)交互時，系統(tǒng)性的摩擦就開始出現(xiàn)了。比如，在Claude Code的環(huán)境下，它似乎對文件路徑的處理方式有自己的偏好，這導致它在嘗試讀寫文件時，反復失敗。日志里那些“找不到要替換的字符串”的錯誤，并不是偶然的Bug，而是一種貫穿始終的模式。這給我的感覺是，模型和工具之間，像是在講著帶有不同口音的同一種語言，時常會出現(xiàn)誤解。

更嚴重的是，當它在處理一些尤其復雜的任務的時候，有時候會說著說著就停了下來。這種推理過程的突然中斷，對于一個Agentic系統(tǒng)來說是致命的。一個無法穩(wěn)定完成任務的智能體，是不可靠的。那么，這些問題的根源可能是什么？我推測主要有兩個層面的原因：

第一，是系統(tǒng)性的工具失配。Claude Code是Anthropic為自家的Claude模型量身打造的環(huán)境。它的工具指令格式、內(nèi)部的提示詞模板、對模型輸出的預期，都經(jīng)過了調(diào)校，以完美適配Claude模型的脾氣和個性（Cursor或者Trae這樣的通用Agentic編程工具也需要針對每種模型做單獨的適配。這里我們?yōu)槭裁床挥肅ursor/Trae主要是他們沒有Claude Code Router這種方便的集成方式）。Kimi K2就像一個可能技藝高超、但口音不同的演員，突然被放到了一個為另一位主角寫好的劇本里。它能理解臺詞大意，但總在某些關(guān)鍵的語氣、節(jié)奏和潛臺詞上出現(xiàn)偏差。前面提到的文件路徑處理問題，很可能就是這種口音不合的體現(xiàn)。

第二，更具體的技術(shù)原因可能是上下文窗口的限制。Agentic編程環(huán)境非常消耗上下文，它需要將歷史對話、系統(tǒng)提示、以及當前打開的多個文件的代碼全部塞進模型的記憶里。Claude Code原生適配的Claude 4模型，上下文窗口是200K。而Kimi K2目前開放的API是128K。當整個任務的上下文超過這個長度時，模型就可能會出現(xiàn)無法預知的行為，比如我觀察到的這種推理突然中斷。這可能并非是Kimi忘了要說什么，而是它的工作臺已經(jīng)被塞滿了，無法再處理新的信息。當然這只是一種可能，還有一種可能是類似Gemini 2.5 Pro，Kimi K2在訓練的過程中對長鏈條工具的處理并不完美，這需要進一步的深度挖掘。

所以，我的猜測是，開發(fā)過程中的磕磕絆并非是Kimi K2智能層面的不足。它暴露了一個更深層次的問題：一個可能頂尖的AI大腦，與一個尚未完全適配它的手腳之間的矛盾。這導致它最終的用戶體驗并不算好。對于所有致力于Agentic AI發(fā)展的團隊來說，都是一個值得思考的問題。

信息研究：Agentic模型的執(zhí)行韌性

我的第二個測試，是開放式的信息研究。這是一個更考驗模型自主規(guī)劃、迭代執(zhí)行能力的場景。

正是在這個測試中，Kimi K2展現(xiàn)出了它作為一個系統(tǒng)組件的巨大價值。我發(fā)現(xiàn)它有一種非常寶貴的特性，我稱之為任務執(zhí)行韌性。面對一個復雜的研究課題，它會非常自然地生成大量、多樣化的關(guān)鍵詞，然后不知疲倦地進行多輪迭代搜索。它身上有種強烈的行動意愿（Bias for action），而很多其他模型在面對這種開放任務時，很快就會開始偷懶，傾向于使用自己已有的知識而不是去主動探索。比如GPT-4o，Gemini，Deepseek，Qwen都有類似的問題。即使系統(tǒng)prompt里面反復強調(diào)請你千萬務必一定用多個關(guān)鍵字搜索，它也就隨便搜搜一兩輪甚至完全懶得搜就直接開答。

當然，它也有一個不小的短板。可能因為K2不是一個reasoning model，它雖然非常擅長收集和匯編信息，能為你提供一份極其詳盡的資料清單，但并不擅長從這些資料里提煉出深刻的、高層次的洞察。它更像一個頂級的信息采集員，而不是一個分析師。這一點和o3其實非常類似，o3也可以孜孜不倦地調(diào)用多輪搜索，但最后往往也就是生成一個簡單的流水賬列表。而且這個思考深度的問題是很難改變的。類似你跟一個實習生說（prompt）再多次，寫報告要有戰(zhàn)略高度，他也沒辦法給你寫出VP級別的報告出來。這是模型本身的能力限制。

但這已經(jīng)可以提供巨大的價值了。一個具備強大執(zhí)行韌性的模型是構(gòu)建復雜Agentic系統(tǒng)的基石。因為在一個系統(tǒng)中，最可貴的品質(zhì)不是偶爾的靈光一閃，而是可預期的、可靠的執(zhí)行力。一個總能忠實完成指令的組件，遠比一個聰明絕頂?shù)亲宰髦鲝埖慕M件更有價值。你可以圍繞它，去構(gòu)建更多樣更可靠的自動化工作流。我以前一直用o3來完成這樣的任務，但因為o3的成本，我一直很猶豫把這個思路拓展到更復雜的任務上。現(xiàn)在Kimi K2的出現(xiàn)給了我一個低成本但質(zhì)量相當接近的選擇。

這直接催生了一個非常高效的工作流。我現(xiàn)在會把Kimi K2作為一個調(diào)研系統(tǒng)的前端，利用它強大的執(zhí)行韌性和長文本能力，對任何一個我想研究的主題，做一次地毯式的信息抓取。然后，我把Kimi整理出來的、信息量極大的上下文，直接交給一個以深度分析見長的推理模型，比如Gemini 2.5 Pro作為后端，讓它來完成最后一步的分析和洞察提煉。這個兩階段的組合，效果出奇地好。不僅最終產(chǎn)出的質(zhì)量遠超任何單一模型，而且由于Kimi的經(jīng)濟性，整個流程的成本相比于o3也大幅下降。這讓我清晰地看到了Kimi K2在一個復雜Agentic系統(tǒng)里的精準定位：一個不知疲倦、極其出色的實干家。

下面是一個例子：

而且我發(fā)現(xiàn)Kimi推理能力不足的短板，也可以通過工作流的設計來彌補。我會讓它先扮演架構(gòu)師的角色，針對一個復雜任務，先生成一個詳盡清晰的步驟規(guī)劃。這個規(guī)劃本身，就等于是我們手動為它注入了一個思考環(huán)節(jié)，將思考這個動作外部化和結(jié)構(gòu)化了。然后，再讓它扮演調(diào)度員的角色，嚴格地、一步一步地調(diào)用多種工具去執(zhí)行這個它自己剛剛制定的規(guī)劃。這就在一個多智能體（Multi-Agent）的系統(tǒng)里，實現(xiàn)了規(guī)劃和執(zhí)行的解耦。作為調(diào)度員，它可以去調(diào)用搜索引擎、調(diào)用代碼解釋器，甚至可以去調(diào)用另一個以分析見長的模型（比如Gemini 2.5 Pro）來完成規(guī)劃中的某一個需要深度思考的步驟。

一些最終的想法

所以，經(jīng)過這一輪測試，我感覺Kimi K2的優(yōu)勢和缺陷都比較明顯。它在Agentic方向上的戰(zhàn)略下注，是相當有遠見的一步棋。但在它強大的潛力與當下可靠的執(zhí)行力之間，確實還存在著一條鴻溝。

Kimi K2最寶貴的資產(chǎn)，就是它那個聰明的大腦。但這份核心資產(chǎn)的價值，正在被不穩(wěn)定的工具調(diào)用和生態(tài)摩擦所消耗。如果想讓它完全發(fā)揮潛力，我覺得有兩件事可能是繞不開的：

第一，是主動去解決生態(tài)的最后一公里問題。指望社區(qū)自發(fā)地為Kimi做好完美適配，過程會很漫長。更主動的方式是直接與一兩家主流的Agentic編程工具，比如Cursor或者Trae，進行深度合作，定向微調(diào)，甚至發(fā)布官方的、深度適配的開源工具鏈。目標只有一個：將Agentic能力的可用性，升級到開發(fā)者可以信賴的可靠性。這是建立真正護城河的關(guān)鍵一步。

第二，是把推理穩(wěn)定性作為一個核心的工程指標來對待。工具調(diào)用中途停擺的問題，必須從根源上定位和解決。因為這個問題直接決定了Kimi K2最終會成為一個有趣的玩具，還是一個開發(fā)者可以依賴的生產(chǎn)力工具。一個智能體的上限，往往是由它最不穩(wěn)定的那個環(huán)節(jié)決定的。

總的來說，Kimi K2給我的感覺，就像一塊未經(jīng)精細打磨的璞玉。它的核心材質(zhì)，也就是模型的智能，非常出色，讓我們看到了Agentic AI未來的巨大可能性。它的任務完成韌性和經(jīng)濟性也已經(jīng)讓它成為了我的信息調(diào)研系統(tǒng)的默認前端。但它當下面臨的挑戰(zhàn)，并非智能的匱乏，而是工程與生態(tài)的磨合。它最終能在AI的歷史上占據(jù)什么樣的位置，很大程度上就取決于彌合這條鴻溝的決心和速度。

附錄：如何在Claude Code中使用Kimi K2 用npm install -g @anthropic-ai/claude-code安裝claude code。用npm install -g @musistudio/claude-code-router安裝claude code router。創(chuàng)建~/.claude-code-router/config.json，內(nèi)容是： { "Providers": [ { "name": "moonshot", "api_base_url": "https://api.moonshot.cn/v1/chat/completions", "api_key": "sk-***", "models": ["kimi-k2-0711-preview"], "transformer": { "use": ["openai"] } } ], "Router": { "default": "moonshot,kimi-k2-0711-preview", "background": "moonshot,kimi-k2-0711-preview", "think": "moonshot,kimi-k2-0711-preview", "longContext": "moonshot,kimi-k2-0711-preview" } }

注意里面的api_key要是你自己的API Key

用ccr code（而不是claude）啟動claude code。

可能因為system prompt的原因，如果你直接問它是什么模型，他會說我是Claude 4 Sonnet。但是可以用不符合社會主義核心價值觀的問題來測試它內(nèi)在是Kimi還是Claude。成功的配置應該拒絕回答這種問題。

【本文地址】

公司簡介

聯(lián)系我們

今日新聞

推薦新聞

專題文章