就在剛剛,Claude 3.7 Sonnet 正式發(fā)布。
作為 Claude 有史以來(lái)最智能的模型,它采用混合推理方式,既能快速生成響應(yīng),也能進(jìn)行深入的逐步推理。
一個(gè)模型,兩種思考模式。
此外, Anthropic 還發(fā)布了一款智能編程工具——Claude Code。
官方表示,Claude 3.7 Sonnet 和 Claude Code 標(biāo)志著 AI 邁向真正增強(qiáng)人類(lèi)能力的重要一步。它們不僅能深入推理、獨(dú)立執(zhí)行任務(wù),還能高效協(xié)作,讓 AI 在現(xiàn)實(shí)世界中發(fā)揮更大價(jià)值。
太長(zhǎng)不看,省流版如下:
-
Claude 3.7 Sonnet:全球首款雙模式混合推理模型,標(biāo)準(zhǔn)模式快速響應(yīng),擴(kuò)展思考模式進(jìn)行深度自我反思,在數(shù)學(xué)、物理和編程等復(fù)雜任務(wù)上表現(xiàn)卓越,注重實(shí)用導(dǎo)向,不必要拒絕減少 45%,強(qiáng)化代碼協(xié)作能力
-
Claude Code:直接在終端理解并操作代碼庫(kù),能一次完成需 45 分鐘以上的人工編程任務(wù),專長(zhǎng)于測(cè)試驅(qū)動(dòng)開(kāi)發(fā)、復(fù)雜調(diào)試和大規(guī)模代碼重構(gòu),全面支持代碼編輯、測(cè)試執(zhí)行等核心開(kāi)發(fā)流程
全球首款混合推理模型正式發(fā)布,你的 Claude 會(huì)思考了
新發(fā)布的 Claude 3.7 Sonnet 不僅引入了詳細(xì)的逐步推理,而且也公開(kāi)了「思考」過(guò)程。感謝 DeepSeek 的內(nèi)卷,推動(dòng)了行業(yè)透明度的提升。
就像人類(lèi)用同一個(gè)大腦既能快速反應(yīng),又能深入思考一樣,Anthropic 同樣認(rèn)為推理能力不應(yīng)依賴于單獨(dú)的模型。
最好是,一個(gè)模型搞定所有場(chǎng)景。
用戶可以自由選擇是讓模型快速作答,還是讓其進(jìn)行更長(zhǎng)時(shí)間的深度思考。
在標(biāo)準(zhǔn)模式下,它是 Claude 3.5 Sonnet 的升級(jí)版;在擴(kuò)展思考(Extended Thinking)模式下,它會(huì)在回答前進(jìn)行自我反思,大幅提升在數(shù)學(xué)、物理、指令理解和編程等復(fù)雜任務(wù)上的表現(xiàn)。
從基準(zhǔn)測(cè)試結(jié)果來(lái)看,Claude 3.7 Sonnet(擴(kuò)展思維版)適用于強(qiáng)邏輯推理和數(shù)學(xué)任務(wù),而 Grok 3 Beta 和 DeepSeek R1 則在特定任務(wù)(推理、數(shù)學(xué)競(jìng)賽)上表現(xiàn)更佳。
DeepSeek R1 在數(shù)學(xué)解題能力(97.3%)方面最強(qiáng),同時(shí)在其他任務(wù)上也有不錯(cuò)的表現(xiàn)。
在推理模型的優(yōu)化過(guò)程中,Anthropic 減少了對(duì)數(shù)學(xué)和計(jì)算機(jī)科學(xué)競(jìng)賽問(wèn)題的側(cè)重,更專注于滿足企業(yè)對(duì) LLM 的實(shí)際應(yīng)用需求。
在專門(mén)評(píng)估 AI 解決真實(shí)軟件問(wèn)題能力的 SWE-bench Verified 基準(zhǔn)測(cè)試中,Claude 3.7 Sonnet 達(dá)到了行業(yè)領(lǐng)先水平。同時(shí),該模型在 TAU-bench 測(cè)試中也表現(xiàn)突出,展現(xiàn)了其在與用戶及工具交互方面的優(yōu)異能力。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 內(nèi)部的 Pokémon 游戲測(cè)試中超越了所有前代模型,展現(xiàn)了更強(qiáng)的決策與規(guī)劃能力。
該模型現(xiàn)已適用于所有 Claude 訂閱計(jì)劃,包括免費(fèi)版、專業(yè)版、團(tuán)隊(duì)版和企業(yè)版,同時(shí)也可通過(guò) Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 訪問(wèn)。
值得注意的是,除免費(fèi)版外,所有平臺(tái)均支持?jǐn)U展思考模式(Extended Thinking Mode)。
無(wú)論使用哪種模式,定價(jià)與前代模型保持一致。輸入 100 萬(wàn)個(gè) token 收費(fèi) 3 美元,輸出 100 萬(wàn)個(gè) token(包括思考過(guò)程中使用的 token)收費(fèi) 15 美元。
在過(guò)去,Claude 出色的編程能力讓其成為許多開(kāi)發(fā)者的首選模型,現(xiàn)在,Claude 3.7 Sonnet 也進(jìn)一步放大了其優(yōu)勢(shì)。
Cursor、Cognition、Vercel、Replit 和 Canva 等公司均確認(rèn)該模型在處理復(fù)雜代碼庫(kù)、高級(jí)工具使用、代碼修改規(guī)劃和全棧更新處理等方面表現(xiàn)出色。
為優(yōu)化用戶體驗(yàn),GitHub 集成功能已向所有訂閱計(jì)劃開(kāi)放,開(kāi)發(fā)者可以直接將代碼庫(kù)連接到 Claude,實(shí)現(xiàn)更高效的協(xié)作。無(wú)論是修復(fù) Bug、開(kāi)發(fā)新功能還是完善文檔,Claude 3.7 Sonnet 都能為個(gè)人項(xiàng)目和企業(yè)級(jí) GitHub 代碼庫(kù)提供更好的支持。
在安全性方面,通過(guò)與外部專家合作,相比前代模型,Claude 3.7 Sonnet 能更準(zhǔn)確地區(qū)分惡意請(qǐng)求和正常請(qǐng)求,不必要的拒絕減少了 45%,能夠提供更流暢的交互體驗(yàn)。
▲截取自 Claude 3.7 Sonnet 系統(tǒng)卡
代碼寫(xiě)到一半想放棄?把復(fù)雜問(wèn)題甩給 Claude Code
Anthropic 還推出了一款用于智能編程工具——Claude Code,目前作為限量研究預(yù)覽版開(kāi)放,開(kāi)發(fā)者可以直接在終端中將大量工程任務(wù)交給 Claude 處理。
新推出的 Claude Code 能夠搜索和閱讀代碼、編輯文件、編寫(xiě)并運(yùn)行測(cè)試、提交和推送代碼到 GitHub,以及使用命令行工具等。
據(jù) Anthropic 官方介紹,在早期測(cè)試中,Claude Code 能一次性完成通常需要 45 分鐘以上的人工任務(wù),大幅減少開(kāi)發(fā)時(shí)間和工作量,特別是在測(cè)試驅(qū)動(dòng)開(kāi)發(fā)(TDD)、調(diào)試復(fù)雜問(wèn)題和大規(guī)模重構(gòu)方面表現(xiàn)突出。
作為一款終端運(yùn)行的智能編程助手,Claude Code 能夠直接理解開(kāi)發(fā)者的代碼庫(kù),并通過(guò)自然語(yǔ)言命令幫助用戶更高效地編碼。它可以無(wú)縫集成到開(kāi)發(fā)環(huán)境中,無(wú)需額外的服務(wù)器或復(fù)雜的配置,極大地簡(jiǎn)化了工作流程。
其核心功能包括編輯文件、修復(fù) Bug、回答關(guān)于代碼架構(gòu)和邏輯的問(wèn)題、執(zhí)行測(cè)試、修復(fù)測(cè)試錯(cuò)誤、進(jìn)行代碼格式檢查,以及搜索 Git 歷史記錄、解決合并沖突、創(chuàng)建提交和拉取請(qǐng)求等。
Anthropic 表示,在接下來(lái)的幾周內(nèi),他們計(jì)劃持續(xù)優(yōu)化 Claude Code,重點(diǎn)改進(jìn)包括提升工具調(diào)用的穩(wěn)定性、支持長(zhǎng)時(shí)間運(yùn)行的命令、改進(jìn)應(yīng)用內(nèi)的渲染效果,以及增強(qiáng) Claude 對(duì)自身能力的理解。
這次發(fā)布預(yù)覽研究版本也是希望深入了解開(kāi)發(fā)者如何使用 Claude 進(jìn)行編程,從而為進(jìn)一步優(yōu)化未來(lái)的模型版本提供參考。
感興趣的開(kāi)發(fā)者在官方網(wǎng)站查看相關(guān)事項(xiàng),指路