深夜重磅！全球首個(gè)混合推理模型發(fā)布，Claude 能「思考」了，實(shí)測(cè)發(fā)現(xiàn)這些細(xì)節(jié)

日期:2025-02-26 05:48 點(diǎn)擊數(shù):2224 來(lái)源:新浪科技共有條評(píng)論

分享到

就在剛剛，Claude 3.7 Sonnet 正式發(fā)布。

作為 Claude 有史以來(lái)最智能的模型，它采用混合推理方式，既能快速生成響應(yīng)，也能進(jìn)行深入的逐步推理。

一個(gè)模型，兩種思考模式。

此外， Anthropic 還發(fā)布了一款智能編程工具——Claude Code。

官方表示，Claude 3.7 Sonnet 和 Claude Code 標(biāo)志著 AI 邁向真正增強(qiáng)人類(lèi)能力的重要一步。它們不僅能深入推理、獨(dú)立執(zhí)行任務(wù)，還能高效協(xié)作，讓 AI 在現(xiàn)實(shí)世界中發(fā)揮更大價(jià)值。

太長(zhǎng)不看，省流版如下：

Claude 3.7 Sonnet：全球首款雙模式混合推理模型，標(biāo)準(zhǔn)模式快速響應(yīng)，擴(kuò)展思考模式進(jìn)行深度自我反思，在數(shù)學(xué)、物理和編程等復(fù)雜任務(wù)上表現(xiàn)卓越，注重實(shí)用導(dǎo)向，不必要拒絕減少 45%，強(qiáng)化代碼協(xié)作能力
Claude Code：直接在終端理解并操作代碼庫(kù)，能一次完成需 45 分鐘以上的人工編程任務(wù)，專長(zhǎng)于測(cè)試驅(qū)動(dòng)開(kāi)發(fā)、復(fù)雜調(diào)試和大規(guī)模代碼重構(gòu)，全面支持代碼編輯、測(cè)試執(zhí)行等核心開(kāi)發(fā)流程

全球首款混合推理模型正式發(fā)布，你的 Claude 會(huì)思考了

新發(fā)布的 Claude 3.7 Sonnet 不僅引入了詳細(xì)的逐步推理，而且也公開(kāi)了「思考」過(guò)程。感謝 DeepSeek 的內(nèi)卷，推動(dòng)了行業(yè)透明度的提升。

就像人類(lèi)用同一個(gè)大腦既能快速反應(yīng)，又能深入思考一樣，Anthropic 同樣認(rèn)為推理能力不應(yīng)依賴于單獨(dú)的模型。

最好是，一個(gè)模型搞定所有場(chǎng)景。

用戶可以自由選擇是讓模型快速作答，還是讓其進(jìn)行更長(zhǎng)時(shí)間的深度思考。

在標(biāo)準(zhǔn)模式下，它是 Claude 3.5 Sonnet 的升級(jí)版；在擴(kuò)展思考（Extended Thinking）模式下，它會(huì)在回答前進(jìn)行自我反思，大幅提升在數(shù)學(xué)、物理、指令理解和編程等復(fù)雜任務(wù)上的表現(xiàn)。

從基準(zhǔn)測(cè)試結(jié)果來(lái)看，Claude 3.7 Sonnet（擴(kuò)展思維版）適用于強(qiáng)邏輯推理和數(shù)學(xué)任務(wù)，而 Grok 3 Beta 和 DeepSeek R1 則在特定任務(wù)（推理、數(shù)學(xué)競(jìng)賽）上表現(xiàn)更佳。

DeepSeek R1 在數(shù)學(xué)解題能力（97.3%）方面最強(qiáng)，同時(shí)在其他任務(wù)上也有不錯(cuò)的表現(xiàn)。

在推理模型的優(yōu)化過(guò)程中，Anthropic 減少了對(duì)數(shù)學(xué)和計(jì)算機(jī)科學(xué)競(jìng)賽問(wèn)題的側(cè)重，更專注于滿足企業(yè)對(duì) LLM 的實(shí)際應(yīng)用需求。

在專門(mén)評(píng)估 AI 解決真實(shí)軟件問(wèn)題能力的 SWE-bench Verified 基準(zhǔn)測(cè)試中，Claude 3.7 Sonnet 達(dá)到了行業(yè)領(lǐng)先水平。同時(shí)，該模型在 TAU-bench 測(cè)試中也表現(xiàn)突出，展現(xiàn)了其在與用戶及工具交互方面的優(yōu)異能力。

值得一提的是，Claude 3.7 Sonnet 在 Anthropic 內(nèi)部的 Pokémon 游戲測(cè)試中超越了所有前代模型，展現(xiàn)了更強(qiáng)的決策與規(guī)劃能力。

該模型現(xiàn)已適用于所有 Claude 訂閱計(jì)劃，包括免費(fèi)版、專業(yè)版、團(tuán)隊(duì)版和企業(yè)版，同時(shí)也可通過(guò) Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 訪問(wèn)。

值得注意的是，除免費(fèi)版外，所有平臺(tái)均支持?jǐn)U展思考模式（Extended Thinking Mode）。

無(wú)論使用哪種模式，定價(jià)與前代模型保持一致。輸入 100 萬(wàn)個(gè) token 收費(fèi) 3 美元，輸出 100 萬(wàn)個(gè) token（包括思考過(guò)程中使用的 token）收費(fèi) 15 美元。

在過(guò)去，Claude 出色的編程能力讓其成為許多開(kāi)發(fā)者的首選模型，現(xiàn)在，Claude 3.7 Sonnet 也進(jìn)一步放大了其優(yōu)勢(shì)。

Cursor、Cognition、Vercel、Replit 和 Canva 等公司均確認(rèn)該模型在處理復(fù)雜代碼庫(kù)、高級(jí)工具使用、代碼修改規(guī)劃和全棧更新處理等方面表現(xiàn)出色。

為優(yōu)化用戶體驗(yàn)，GitHub 集成功能已向所有訂閱計(jì)劃開(kāi)放，開(kāi)發(fā)者可以直接將代碼庫(kù)連接到 Claude，實(shí)現(xiàn)更高效的協(xié)作。無(wú)論是修復(fù) Bug、開(kāi)發(fā)新功能還是完善文檔，Claude 3.7 Sonnet 都能為個(gè)人項(xiàng)目和企業(yè)級(jí) GitHub 代碼庫(kù)提供更好的支持。

在安全性方面，通過(guò)與外部專家合作，相比前代模型，Claude 3.7 Sonnet 能更準(zhǔn)確地區(qū)分惡意請(qǐng)求和正常請(qǐng)求，不必要的拒絕減少了 45%，能夠提供更流暢的交互體驗(yàn)。

▲截取自 Claude 3.7 Sonnet 系統(tǒng)卡

代碼寫(xiě)到一半想放棄？把復(fù)雜問(wèn)題甩給 Claude Code

Anthropic 還推出了一款用于智能編程工具——Claude Code，目前作為限量研究預(yù)覽版開(kāi)放，開(kāi)發(fā)者可以直接在終端中將大量工程任務(wù)交給 Claude 處理。

新推出的 Claude Code 能夠搜索和閱讀代碼、編輯文件、編寫(xiě)并運(yùn)行測(cè)試、提交和推送代碼到 GitHub，以及使用命令行工具等。

據(jù) Anthropic 官方介紹，在早期測(cè)試中，Claude Code 能一次性完成通常需要 45 分鐘以上的人工任務(wù)，大幅減少開(kāi)發(fā)時(shí)間和工作量，特別是在測(cè)試驅(qū)動(dòng)開(kāi)發(fā)（TDD）、調(diào)試復(fù)雜問(wèn)題和大規(guī)模重構(gòu)方面表現(xiàn)突出。

作為一款終端運(yùn)行的智能編程助手，Claude Code 能夠直接理解開(kāi)發(fā)者的代碼庫(kù)，并通過(guò)自然語(yǔ)言命令幫助用戶更高效地編碼。它可以無(wú)縫集成到開(kāi)發(fā)環(huán)境中，無(wú)需額外的服務(wù)器或復(fù)雜的配置，極大地簡(jiǎn)化了工作流程。

其核心功能包括編輯文件、修復(fù) Bug、回答關(guān)于代碼架構(gòu)和邏輯的問(wèn)題、執(zhí)行測(cè)試、修復(fù)測(cè)試錯(cuò)誤、進(jìn)行代碼格式檢查，以及搜索 Git 歷史記錄、解決合并沖突、創(chuàng)建提交和拉取請(qǐng)求等。

Anthropic 表示，在接下來(lái)的幾周內(nèi)，他們計(jì)劃持續(xù)優(yōu)化 Claude Code，重點(diǎn)改進(jìn)包括提升工具調(diào)用的穩(wěn)定性、支持長(zhǎng)時(shí)間運(yùn)行的命令、改進(jìn)應(yīng)用內(nèi)的渲染效果，以及增強(qiáng) Claude 對(duì)自身能力的理解。

這次發(fā)布預(yù)覽研究版本也是希望深入了解開(kāi)發(fā)者如何使用 Claude 進(jìn)行編程，從而為進(jìn)一步優(yōu)化未來(lái)的模型版本提供參考。

感興趣的開(kāi)發(fā)者在官方網(wǎng)站查看相關(guān)事項(xiàng)，指路

【上一篇】【返回頂部】【關(guān)閉本頁(yè)】【下一篇】

深夜重磅！全球首個(gè)混合推理模型發(fā)布，Claude 能「思考」了，實(shí)測(cè)發(fā)現(xiàn)這些細(xì)節(jié)

深夜重磅！全球首個(gè)混合推理模型發(fā)布，Claude 能「思考」了，實(shí)測(cè)發(fā)現(xiàn)這些細(xì)節(jié)