<kbd id="9plqc"><label id="9plqc"></label></kbd>

        <th id="9plqc"></th>
        1. <center id="9plqc"><video id="9plqc"></video></center>
          <sub id="9plqc"><form id="9plqc"><pre id="9plqc"></pre></form></sub>
          <nav id="9plqc"><form id="9plqc"><legend id="9plqc"></legend></form></nav>
          Kimi K2:超越聊天框的深度評測 您所在的位置:網(wǎng)站首頁 屬羊是屬于五行中的哪個(gè)屬性 Kimi K2:超越聊天框的深度評測

          Kimi K2:超越聊天框的深度評測

          2025-07-18 15:06| 來源: 網(wǎng)絡整理| 查看: 265

          最近,每當有新的大模型發(fā)布,我們總能看到一波評測浪潮。但有一個現(xiàn)象很有趣,絕大多數(shù)評測,都不約而同地被局限在一個我們最熟悉的環(huán)境里:聊天框。

          這其實是一個根本性的限制。Agentic AI大行其道的2025年,在聊天框里評測一個為Agentic設計的模型,就像用白板編程來面試一個開發(fā)總監(jiān)一樣。你得到的反饋,與它的核心能力幾乎沒有關(guān)系。

          月之暗面發(fā)布的Kimi K2,從一開始就清晰地把Agentic能力,也就是智能體自主使用工具完成任務的能力,放到了一個極其重要的位置。這在整個領(lǐng)域里是一個非常罕見的選擇。比如DeepSeek R1,它在發(fā)布相當長一段時間后,才加入了工具調(diào)用功能,而且很多平臺比如ollama至今都沒有完全支持。而Kimi K2反其道而行之,將Agentic作為核心能力來開發(fā),這本身就值得我們用一套更接近它設計目標的范式去評測。

          為何必須超越聊天框:Agentic AI的評測困境

          但在此之前,我們必須先明確一下討論的前提:Agentic AI的核心到底是什么?它有兩個密不可分的核心要素:

          自主決策與反饋循環(huán):這才是智能的體現(xiàn)。一個Agentic模型不只是被動地回答問題,它需要能自主地將一個大目標拆解成一步步的行動計劃。更關(guān)鍵的是,它會觀察自己行為的結(jié)果——比如文件寫入成功了,或者代碼編譯失敗了——然后根據(jù)這個反饋來調(diào)整并決定下一步做什么。這是一個持續(xù)的感知-思考-行動的循環(huán)。 調(diào)用工具與環(huán)境交互:這是連接模型大腦和現(xiàn)實世界的“手腳”。模型本身無法直接作你的電腦,它需要通過調(diào)用工具來實現(xiàn)。這些工具可以是作系統(tǒng)層面的功能,比如讀寫文件、執(zhí)行代碼;也可以是接入外部世界的功能,比如進行網(wǎng)頁搜索、獲取視頻內(nèi)容。

          理解了這兩點,我們就能明白為什么單純的和AI聊天,完全無法評測它的Agentic能力。

          首先,聊天這種形式,絕大多數(shù)情況下就不需要調(diào)用任何工具,當然也無法評測這種能力。它的交互是單純的文本生成。你問它答,而不是你說他做。都2025年了,還用評測ChatGPT的方式去評測一個為Agentic設計的模型,這本身就是一種脫節(jié)。

          其次,聊天框極大地局限了問題的復雜度。一個真正的Agentic任務,需要持續(xù)的上下文和環(huán)境感知。而聊天框里的任務,往往是孤立的、上下文極短的。它無法構(gòu)建前面提到的那種,根據(jù)上一輪編譯失敗的結(jié)果來決定下一輪修改方案的反饋循環(huán)。

          所以,要評測一個Agentic模型的真實能力,唯一的辦法就是將它放入一個能get hands dirty的真實環(huán)境。我花了一些時間,通過直接編寫代碼調(diào)用其API的方式,對Kimi K2進行了一次更接近它設計初衷的系統(tǒng)性分析。

          編程測試:高階智能與執(zhí)行的摩擦

          在Agentic的世界里,編程是一個經(jīng)典的綜合性任務。而要評測一個模型在編程任務中的真實能力,同樣不能采用在聊天框里來回粘貼代碼的模式。那種你問我答的方式,會把一個連續(xù)復雜的工程任務,切割成無數(shù)個離散零碎的問答。這種用 AI 的方式,就像是用電報的思維在發(fā)微信:把本該沉浸協(xié)作的信息空間,壓縮進一個上下文頻繁丟失的小框里,再靠手工補全來湊合運轉(zhuǎn),既低效,又南轅北轍。

          正因如此,像Cursor或Claude Code這類Agentic編程環(huán)境的出現(xiàn),才是一次革命性的進步。

          它們的核心價值,就是為AI模型搭建了一個真正能夠施展手腳的競技場。在這個環(huán)境里,模型不再只是一個聊天的對象,而是變成了一個接入了讀寫文件、執(zhí)行代碼等一系列工具的copilot。它終于可以像一個真正的人類開發(fā)者一樣,在真實的代碼庫里工作,構(gòu)建起那個關(guān)鍵的反饋循環(huán),真正地參與到有狀態(tài)、持續(xù)性的任務流中。

          所以,要評估K2的真實能力,我做的第一件事,就是將它接入到Claude Code這個強大的Agentic編程環(huán)境中(具體方法見文末),讓它為我從零開發(fā)一款小雞過馬路的游戲。(下面是它寫出來的游戲視頻)

          它給出的第一個版本就相當可玩了,迭代了兩三輪之后基本就沒有bug了。但整個開發(fā)過程并不一帆風順,甚至可以說磕磕絆絆。我有個明顯的感受:模型在高階的智能和低階的工具執(zhí)行之間,存在著一道明顯的鴻溝。

          一方面,Kimi K2的智能是一流的。它對于任務的理解,對游戲邏輯的拆解,以及最終代碼的生成質(zhì)量,都處在業(yè)界頂尖水準。它能很好地理解我的意圖,并且寫出確實有效的程序或者進行有效的debug。這是一個非常聰明的“大腦”。

          但另一方面,當這個大腦需要通過“手腳”(也就是工具調(diào)用)來與真實的文件系統(tǒng)交互時,系統(tǒng)性的摩擦就開始出現(xiàn)了。比如,在Claude Code的環(huán)境下,它似乎對文件路徑的處理方式有自己的偏好,這導致它在嘗試讀寫文件時,反復失敗。日志里那些“找不到要替換的字符串”的錯誤,并不是偶然的Bug,而是一種貫穿始終的模式。這給我的感覺是,模型和工具之間,像是在講著帶有不同口音的同一種語言,時常會出現(xiàn)誤解。

          更嚴重的是,當它在處理一些尤其復雜的任務的時候,有時候會說著說著就停了下來。這種推理過程的突然中斷,對于一個Agentic系統(tǒng)來說是致命的。一個無法穩(wěn)定完成任務的智能體,是不可靠的。那么,這些問題的根源可能是什么?我推測主要有兩個層面的原因:

          第一,是系統(tǒng)性的工具失配。Claude Code是Anthropic為自家的Claude模型量身打造的環(huán)境。它的工具指令格式、內(nèi)部的提示詞模板、對模型輸出的預期,都經(jīng)過了調(diào)校,以完美適配Claude模型的脾氣和個性(Cursor或者Trae這樣的通用Agentic編程工具也需要針對每種模型做單獨的適配。這里我們?yōu)槭裁床挥肅ursor/Trae主要是他們沒有Claude Code Router這種方便的集成方式)。Kimi K2就像一個可能技藝高超、但口音不同的演員,突然被放到了一個為另一位主角寫好的劇本里。它能理解臺詞大意,但總在某些關(guān)鍵的語氣、節(jié)奏和潛臺詞上出現(xiàn)偏差。前面提到的文件路徑處理問題,很可能就是這種口音不合的體現(xiàn)。

          第二,更具體的技術(shù)原因可能是上下文窗口的限制。Agentic編程環(huán)境非常消耗上下文,它需要將歷史對話、系統(tǒng)提示、以及當前打開的多個文件的代碼全部塞進模型的記憶里。Claude Code原生適配的Claude 4模型,上下文窗口是200K。而Kimi K2目前開放的API是128K。當整個任務的上下文超過這個長度時,模型就可能會出現(xiàn)無法預知的行為,比如我觀察到的這種推理突然中斷。這可能并非是Kimi忘了要說什么,而是它的工作臺已經(jīng)被塞滿了,無法再處理新的信息。當然這只是一種可能,還有一種可能是類似Gemini 2.5 Pro,Kimi K2在訓練的過程中對長鏈條工具的處理并不完美,這需要進一步的深度挖掘。

          所以,我的猜測是,開發(fā)過程中的磕磕絆并非是Kimi K2智能層面的不足。它暴露了一個更深層次的問題:一個可能頂尖的AI大腦,與一個尚未完全適配它的手腳之間的矛盾。這導致它最終的用戶體驗并不算好。對于所有致力于Agentic AI發(fā)展的團隊來說,都是一個值得思考的問題。

          信息研究:Agentic模型的執(zhí)行韌性

          我的第二個測試,是開放式的信息研究。這是一個更考驗模型自主規(guī)劃、迭代執(zhí)行能力的場景。

          正是在這個測試中,Kimi K2展現(xiàn)出了它作為一個系統(tǒng)組件的巨大價值。我發(fā)現(xiàn)它有一種非常寶貴的特性,我稱之為任務執(zhí)行韌性。面對一個復雜的研究課題,它會非常自然地生成大量、多樣化的關(guān)鍵詞,然后不知疲倦地進行多輪迭代搜索。它身上有種強烈的行動意愿(Bias for action),而很多其他模型在面對這種開放任務時,很快就會開始偷懶,傾向于使用自己已有的知識而不是去主動探索。比如GPT-4o,Gemini,Deepseek,Qwen都有類似的問題。即使系統(tǒng)prompt里面反復強調(diào)請你千萬務必一定用多個關(guān)鍵字搜索,它也就隨便搜搜一兩輪甚至完全懶得搜就直接開答。

          當然,它也有一個不小的短板。可能因為K2不是一個reasoning model,它雖然非常擅長收集和匯編信息,能為你提供一份極其詳盡的資料清單,但并不擅長從這些資料里提煉出深刻的、高層次的洞察。它更像一個頂級的信息采集員,而不是一個分析師。這一點和o3其實非常類似,o3也可以孜孜不倦地調(diào)用多輪搜索,但最后往往也就是生成一個簡單的流水賬列表。而且這個思考深度的問題是很難改變的。類似你跟一個實習生說(prompt)再多次,寫報告要有戰(zhàn)略高度,他也沒辦法給你寫出VP級別的報告出來。這是模型本身的能力限制。

          但這已經(jīng)可以提供巨大的價值了。一個具備強大執(zhí)行韌性的模型是構(gòu)建復雜Agentic系統(tǒng)的基石。因為在一個系統(tǒng)中,最可貴的品質(zhì)不是偶爾的靈光一閃,而是可預期的、可靠的執(zhí)行力。一個總能忠實完成指令的組件,遠比一個聰明絕頂?shù)亲宰髦鲝埖慕M件更有價值。你可以圍繞它,去構(gòu)建更多樣更可靠的自動化工作流。我以前一直用o3來完成這樣的任務,但因為o3的成本,我一直很猶豫把這個思路拓展到更復雜的任務上。現(xiàn)在Kimi K2的出現(xiàn)給了我一個低成本但質(zhì)量相當接近的選擇。

          這直接催生了一個非常高效的工作流。我現(xiàn)在會把Kimi K2作為一個調(diào)研系統(tǒng)的前端,利用它強大的執(zhí)行韌性和長文本能力,對任何一個我想研究的主題,做一次地毯式的信息抓取。然后,我把Kimi整理出來的、信息量極大的上下文,直接交給一個以深度分析見長的推理模型,比如Gemini 2.5 Pro作為后端,讓它來完成最后一步的分析和洞察提煉。 這個兩階段的組合,效果出奇地好。不僅最終產(chǎn)出的質(zhì)量遠超任何單一模型,而且由于Kimi的經(jīng)濟性,整個流程的成本相比于o3也大幅下降。這讓我清晰地看到了Kimi K2在一個復雜Agentic系統(tǒng)里的精準定位:一個不知疲倦、極其出色的實干家。

          下面是一個例子:

          而且我發(fā)現(xiàn)Kimi推理能力不足的短板,也可以通過工作流的設計來彌補。我會讓它先扮演架構(gòu)師的角色,針對一個復雜任務,先生成一個詳盡清晰的步驟規(guī)劃。這個規(guī)劃本身,就等于是我們手動為它注入了一個思考環(huán)節(jié),將思考這個動作外部化和結(jié)構(gòu)化了。然后,再讓它扮演調(diào)度員的角色,嚴格地、一步一步地調(diào)用多種工具去執(zhí)行這個它自己剛剛制定的規(guī)劃。這就在一個多智能體(Multi-Agent)的系統(tǒng)里,實現(xiàn)了規(guī)劃和執(zhí)行的解耦。作為調(diào)度員,它可以去調(diào)用搜索引擎、調(diào)用代碼解釋器,甚至可以去調(diào)用另一個以分析見長的模型(比如Gemini 2.5 Pro)來完成規(guī)劃中的某一個需要深度思考的步驟。

          一些最終的想法

          所以,經(jīng)過這一輪測試,我感覺Kimi K2的優(yōu)勢和缺陷都比較明顯。它在Agentic方向上的戰(zhàn)略下注,是相當有遠見的一步棋。但在它強大的潛力與當下可靠的執(zhí)行力之間,確實還存在著一條鴻溝。

          Kimi K2最寶貴的資產(chǎn),就是它那個聰明的大腦。但這份核心資產(chǎn)的價值,正在被不穩(wěn)定的工具調(diào)用和生態(tài)摩擦所消耗。如果想讓它完全發(fā)揮潛力,我覺得有兩件事可能是繞不開的:

          第一,是主動去解決生態(tài)的最后一公里問題。指望社區(qū)自發(fā)地為Kimi做好完美適配,過程會很漫長。更主動的方式是直接與一兩家主流的Agentic編程工具,比如Cursor或者Trae,進行深度合作,定向微調(diào),甚至發(fā)布官方的、深度適配的開源工具鏈。目標只有一個:將Agentic能力的可用性,升級到開發(fā)者可以信賴的可靠性。這是建立真正護城河的關(guān)鍵一步。

          第二,是把推理穩(wěn)定性作為一個核心的工程指標來對待。工具調(diào)用中途停擺的問題,必須從根源上定位和解決。因為這個問題直接決定了Kimi K2最終會成為一個有趣的玩具,還是一個開發(fā)者可以依賴的生產(chǎn)力工具。一個智能體的上限,往往是由它最不穩(wěn)定的那個環(huán)節(jié)決定的。

          總的來說,Kimi K2給我的感覺,就像一塊未經(jīng)精細打磨的璞玉。它的核心材質(zhì),也就是模型的智能,非常出色,讓我們看到了Agentic AI未來的巨大可能性。它的任務完成韌性和經(jīng)濟性也已經(jīng)讓它成為了我的信息調(diào)研系統(tǒng)的默認前端。但它當下面臨的挑戰(zhàn),并非智能的匱乏,而是工程與生態(tài)的磨合。它最終能在AI的歷史上占據(jù)什么樣的位置,很大程度上就取決于彌合這條鴻溝的決心和速度。

          附錄:如何在Claude Code中使用Kimi K2 用npm install -g @anthropic-ai/claude-code安裝claude code。 用npm install -g @musistudio/claude-code-router安裝claude code router。 創(chuàng)建~/.claude-code-router/config.json,內(nèi)容是: { "Providers": [ { "name": "moonshot", "api_base_url": "https://api.moonshot.cn/v1/chat/completions", "api_key": "sk-***", "models": ["kimi-k2-0711-preview"], "transformer": { "use": ["openai"] } } ], "Router": { "default": "moonshot,kimi-k2-0711-preview", "background": "moonshot,kimi-k2-0711-preview", "think": "moonshot,kimi-k2-0711-preview", "longContext": "moonshot,kimi-k2-0711-preview" } }

          注意里面的api_key要是你自己的API Key

          用ccr code(而不是claude)啟動claude code。

          可能因為system prompt的原因,如果你直接問它是什么模型,他會說我是Claude 4 Sonnet。但是可以用不符合社會主義核心價值觀的問題來測試它內(nèi)在是Kimi還是Claude。成功的配置應該拒絕回答這種問題。



          【本文地址】

          公司簡介

          聯(lián)系我們

          今日新聞

          推薦新聞

          專題文章
            CopyRight 2018-2019 實驗室設備網(wǎng) 版權(quán)所有
            黄色免费网站在线看,韩国精品在线观看,韩国美女一区二区,99国产热 南涧| 康乐县| 兴和县| 云梦县| 昌吉市| 蒙城县| 泸西县| 绍兴县| 丹东市| 白城市| 滦平县| 保德县| 镇平县| 上犹县| 新河县| 鲁山县| 兴城市| 合阳县| 吴忠市| 剑河县| 资兴市| 漳浦县| 台江县| 华宁县| 湖州市| 岳池县| 马尔康县| 理塘县| 建宁县| 中卫市| 蒙自县| 和田县| 鹤庆县| 张家港市| 焦作市| 怀宁县| 公安县| 江孜县| 长沙县| 铜陵市| 阳泉市| http://444 http://444 http://444 http://444 http://444 http://444