8月14日消息,據(jù)英國(guó)《金融時(shí)報(bào)》報(bào)道,中國(guó)人工智能技術(shù)公司 DeepSeek 在未能使用華為芯片訓(xùn)練其新模型后,推遲了新模型DeepSeek R2的發(fā)布。
據(jù)三位知情人士透露,在今年 1 月份發(fā)布DeepSeek R1 型號(hào)后,當(dāng)局鼓勵(lì) DeepSeek 采用華為的 Ascend AI芯片,以替代使用英偉達(dá)(Nvidia)的AI系統(tǒng)。
但知情人士稱,這家中國(guó)初創(chuàng)公司在使用 Ascend 芯片進(jìn)行 R2 訓(xùn)練過(guò)程中遇到了持續(xù)存在的技術(shù)問(wèn)題,促使它被迫繼續(xù)使用原有的英偉達(dá)的AI芯片進(jìn)行訓(xùn)練,使用華為AI芯片進(jìn)行推理。
一位知情人士表示,這些問(wèn)題是R2的發(fā)布時(shí)間從 5 月份開(kāi)始推遲的主要原因,導(dǎo)致其輸給了競(jìng)爭(zhēng)對(duì)手。
訓(xùn)練涉及模型從大型數(shù)據(jù)集中學(xué)習(xí),而推理是指使用經(jīng)過(guò)訓(xùn)練的模型進(jìn)行預(yù)測(cè)或生成響應(yīng)(例如聊天機(jī)器人查詢)的步驟。
業(yè)內(nèi)人士表示,與英偉達(dá)成熟的AI產(chǎn)品相比,國(guó)產(chǎn)AI芯片存在穩(wěn)定性問(wèn)題、芯片間連接速度較慢和軟件生態(tài)上的劣勢(shì)。
據(jù)兩名人士透露,華為派出工程師團(tuán)隊(duì)前往 DeepSeek 的辦公室,幫助該公司使用其 AI 芯片開(kāi)發(fā) R2 模型。然而,知情人士表示,盡管有華為團(tuán)隊(duì)在現(xiàn)場(chǎng)支持,但 DeepSeek R2模型仍無(wú)法在 Ascend 芯片上成功進(jìn)行訓(xùn)練。
知情人士稱,DeepSeek仍在與華為合作,使該模型與Ascend兼容進(jìn)行推理。
他們表示,創(chuàng)始人梁文峰在內(nèi)部表示,他對(duì) R2 的進(jìn)展不滿意,并一直在推動(dòng)花更多時(shí)間構(gòu)建一個(gè)能夠維持公司在人工智能領(lǐng)域的領(lǐng)先地位的先進(jìn)模型。
另一位人士補(bǔ)充說(shuō),由于其更新模型的數(shù)據(jù)標(biāo)記時(shí)間長(zhǎng)于預(yù)期,R2 的發(fā)布也被推遲。不過(guò)最新的消息稱,該模型最快可能在未來(lái)幾周內(nèi)發(fā)布。
“模型是可以輕松更換的商品,”美國(guó)加州大學(xué)伯克利分校的人工智能研究員 Ritwik Gupta 說(shuō)?!昂芏嚅_(kāi)發(fā)者都在使用阿里巴巴的Qwen3,它功能強(qiáng)大且靈活?!?/p>
Gupta 指出,Qwen3 采用了 DeepSeek 的核心概念,例如其訓(xùn)練算法,使模型能夠進(jìn)行推理,但使用起來(lái)更加高效。
跟蹤華為人工智能生態(tài)系統(tǒng)的古普塔表示,該公司在使用 Ascend 進(jìn)行訓(xùn)練方面面臨著“成長(zhǎng)的煩惱”,盡管他預(yù)計(jì)這位中國(guó)國(guó)家冠軍最終會(huì)適應(yīng)。
“僅僅因?yàn)槲覀兘裉鞗](méi)有看到在華為上訓(xùn)練的領(lǐng)先模型,并不意味著它不會(huì)在未來(lái)發(fā)生。這是時(shí)間問(wèn)題,“他說(shuō)。
英偉達(dá)是一家處于中國(guó)和美國(guó)地緣政治斗爭(zhēng)中心的AI芯片商,最近同意向美國(guó)政府提供在中國(guó)的15%的銷售收入分成,以恢復(fù)向中國(guó)銷售其 H20 芯片。但在這同時(shí),中國(guó)正在要求英偉達(dá)配合調(diào)查其芯片是否存在“安全問(wèn)題”。