法國AI初創(chuàng)企業(yè)Mistral,過去常被看作是在美國巨頭與中國新興企業(yè)主導(dǎo)的領(lǐng)域里處于弱勢的歐洲參與者,如今正加速追趕:本周二,該公司推出了其有史以來最具野心的新版本,這給開源領(lǐng)域的競爭對手帶來了不小的壓力。

這四個模型系列涵蓋了從口袋大小的便攜助手到配備6750億參數(shù)的尖端系統(tǒng),均采用寬松的Apache 2.0開源許可進(jìn)行發(fā)布。所有模型均可公開獲取,任何具備相應(yīng)硬件條件的用戶,都能在本地環(huán)境中運行、修改、微調(diào)這些模型,或是基于它們開發(fā)各類應(yīng)用程序。
旗艦產(chǎn)品Mistral Large 3采用稀疏專家混合架構(gòu),每個標(biāo)記僅激活其6750億總參數(shù)中的410億。這個工程選擇讓它在前沿重量級中表現(xiàn)出色,同時推理時的計算配置更接近于400億參數(shù)。
Mistral Large 3是在3000臺NVIDIA H200 GPU上從頭訓(xùn)練的并在LMArena排行榜上首次亮相,位列開源非推理模型的第二名。
與DeepSeek的基準(zhǔn)競爭講述了一個復(fù)雜的故事。根據(jù)Mistral的基準(zhǔn)測試,其最佳模型在多個指標(biāo)上擊敗了DeepSeek V3.1,但在LMArena上落后于更新的V3.2幾個點。

在一般知識和專家推理任務(wù)中,Mistral系列表現(xiàn)不俗。DeepSeek領(lǐng)先的地方在于原始編碼速度和數(shù)學(xué)邏輯。但這在意料之中:此次發(fā)布不包括推理模型,因此這些模型的架構(gòu)中沒有嵌入思維鏈。
較小的“Ministral”模型對開發(fā)者來說很有趣。三個尺寸——3B、8B和14B參數(shù)——每個都有基礎(chǔ)和指令變體。所有模型都原生支持視覺輸入。3B模型引起了AI研究員Simon Willison的注意,他指出它可以通過WebGPU完全在瀏覽器中運行。
如果你想嘗試這個,Hugginface空間允許你在本地加載并使用網(wǎng)絡(luò)攝像頭作為輸入進(jìn)行交互。
一個大約3GB文件的具備視覺能力的AI為需要效率的開發(fā)者甚至是業(yè)余愛好者打開了可能性:無人機(jī)、機(jī)器人、離線運行的筆記本電腦、車輛中的嵌入式系統(tǒng)等。
早期測試顯示整個系列有分裂的個性。在快速測試中,我們發(fā)現(xiàn)Mistral 3 Large在對話流暢性方面表現(xiàn)良好。有時它的格式風(fēng)格類似于GPT-5(類似的語言風(fēng)格和對表情符號的偏好),但節(jié)奏更自然。

Mistral 3 Large在審查方面也相對寬松,在ChatGPT、Claude或Gemini之間選擇時,它是快速角色扮演的更好選擇。
對于自然語言任務(wù)、創(chuàng)意寫作和角色扮演,用戶發(fā)現(xiàn)14B指令變體相當(dāng)不錯,但并不特別出色。Reddit上的r/LocalLLaMA標(biāo)記了重復(fù)問題和偶爾依賴于訓(xùn)練數(shù)據(jù)繼承的固定短語,但模型生成長篇內(nèi)容的能力是一個不錯的加分項,尤其是對于其大小而言。
運行本地推理的開發(fā)者報告說,3B和8B模型有時會循環(huán)或產(chǎn)生公式化輸出,特別是在創(chuàng)意任務(wù)上。
盡管如此,3B模型如此小,以至于可以在智能手機(jī)等弱硬件上運行,并可以針對特定目的進(jìn)行訓(xùn)練/微調(diào)。目前在該特定領(lǐng)域唯一的競爭選擇是Google的Gemma 3的最小版本。
企業(yè)采用已經(jīng)在進(jìn)行中。匯豐銀行周一宣布與Mistral達(dá)成多年合作伙伴關(guān)系,將在其運營中部署生成式AI。銀行將在其自身基礎(chǔ)設(shè)施上運行自托管模型,結(jié)合內(nèi)部技術(shù)能力與Mistral的專業(yè)知識。對于在GDPR下處理敏感客戶數(shù)據(jù)的金融機(jī)構(gòu)來說,擁有開放權(quán)重的歐盟總部AI供應(yīng)商的吸引力不言而喻。
Mistral和NVIDIA合作開發(fā)了一個NVFP4壓縮檢查點,使Large 3可以在其最佳卡的八個節(jié)點之一上運行。NVIDIA聲稱Ministral 3B在RTX 5090上每秒大約處理385個標(biāo)記,在Jetson Thor上用于機(jī)器人應(yīng)用時每秒超過50個標(biāo)記。這意味著該模型在推理時非常高效和快速,能夠在不犧牲質(zhì)量的情況下提供更快的答案。
根據(jù)公告,優(yōu)化推理性能的Large 3版本即將發(fā)布。在此之前,DeepSeek R1與GLM、Qwen Thinking等其他中國模型在明確推理任務(wù)中仍存在一定差異化表現(xiàn)。不過對于那些追求前沿技術(shù)能力、開放模型權(quán)重、跨歐洲語言的多語言處理實力,且希望不受中美國家安全相關(guān)法規(guī)影響的企業(yè)而言,選擇其實是唯一的。
瀏覽量:02025-03-07
瀏覽量:02025-03-06
瀏覽量:02025-03-06
瀏覽量:02025-03-01
瀏覽量:02025-02-20