過度訓(xùn)練大型語言模型可能會使它們更難進行微調(diào)

2025-04-26 10:57  瀏覽:  

來自美國卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、哈佛大學(xué)和普林斯頓大學(xué)的人工智能研究小組發(fā)現(xiàn),如果大型語言模型過度訓(xùn)練,可能會使其更難進行微調(diào)。該小組在arXiv預(yù)印本服務(wù)器上發(fā)表的論文比較了不同訓(xùn)練量對單個法學(xué)碩士(LLM)的影響。
 

過去幾年,隨著人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著這樣的信條:模型訓(xùn)練得越多,最終效果就越好。在這項新研究中,研究團隊發(fā)現(xiàn)了一些證據(jù)表明,語言模型訓(xùn)練可能存在收益遞減點。

研究人員在訓(xùn)練兩個不同版本的 LLM OLMo-1B 模型并測試其回報時得出了這一結(jié)論。在一個場景下,他們使用了 2.3 萬億個 token 進行訓(xùn)練,而在另一種場景下,他們使用了 3 萬億個 token。然后,他們通過使用 ARC 和 AlpacaEval 等多個基準(zhǔn)測試來比較這兩個場景。結(jié)果發(fā)現(xiàn),使用更多 token 訓(xùn)練的模型在測試中的表現(xiàn)實際上更差,最多差了 3%。

他們對自己的研究結(jié)果感到驚訝,并進行了更多測試,仍然發(fā)現(xiàn)了類似的結(jié)果。這表明,在某個臨界點上,更多的訓(xùn)練反而會降低模型的“智能”。研究團隊稱之為“災(zāi)難性的過度訓(xùn)練”,并認(rèn)為這是他們所謂的“漸進性敏感性”造成的。

他們進一步指出,隨著令牌數(shù)量的增加,模型變得越脆弱,這意味著微調(diào)(可以被視為增加噪音)開始逆轉(zhuǎn)在壓力點之前看到的改進收益。

為了驗證他們的理論,他們在一些模型中添加了高斯噪聲,結(jié)果發(fā)現(xiàn)這樣做會導(dǎo)致與之前觀察到的相同類型的性能下降。他們將這個不可逆轉(zhuǎn)的點稱為“拐點”。他們認(rèn)為,在此之后,任何進一步的訓(xùn)練都會降低模型的穩(wěn)定性,使其更難以以適合特定應(yīng)用的方式進行調(diào)整。

研究人員最后建議,展望未來,LLM 模型的開發(fā)人員可能必須估計多少訓(xùn)練才足夠,或者找到其他類型的方法,以便進行具有更遠(yuǎn)拐點的額外訓(xùn)練。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自合作媒體、機構(gòu)或其他網(wǎng)站的信息,登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性。本網(wǎng)所有信息僅供參考,不做交易和服務(wù)的根據(jù)。本網(wǎng)內(nèi)容如有侵權(quán)或其它問題請及時告之,本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。
相關(guān)推薦
意法半導(dǎo)體推出新一代嵌入汽車微控制器的可擴展存儲器

意法半導(dǎo)體推出新一代嵌入汽車微控制器的可擴展存儲器

意法半導(dǎo)體(STMicroelectronics)近日發(fā)布搭載xMemory技術(shù)的Stellar系列汽車微控制器,旨在簡化軟件定義汽車(SDV)和電動汽車平臺的開發(fā)流程。該技術(shù)通過可擴展內(nèi)存設(shè)計,解決了傳統(tǒng)方案需要管理多款內(nèi)存配置設(shè)備的難題。首款采用xMemory的Stellar P6 MCU將于2025年下半年量產(chǎn),專為電動汽車動力系統(tǒng)設(shè)計。該技術(shù)基于意法半導(dǎo)體領(lǐng)先的28nm嵌入式相變存儲器(ePCM)技術(shù),具有業(yè)界最小的非易失性存儲單元尺寸,內(nèi)存密度達(dá)其他技術(shù)的兩倍。公司汽車...
俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯擬推出電力優(yōu)惠政策支持AI技術(shù)發(fā)展

俄羅斯數(shù)字發(fā)展部部長馬克蘇特·沙達(dá)耶夫近日表示,政府正考慮為人工智能技術(shù)公司提供電網(wǎng)連接和電力價格方面的優(yōu)惠政策。這一舉措旨在降低AI企業(yè)的運營成本,促進本國人工智能產(chǎn)業(yè)發(fā)展。沙達(dá)耶夫在數(shù)據(jù)融合論壇上指出:"當(dāng)前條件下,電力優(yōu)惠是最可行的支持方式。"由于AI技術(shù)研發(fā)需要大量計算資源和專業(yè)硬件投入,在高利率環(huán)境下企業(yè)面臨較大資金壓力。2023年11月,俄羅斯總理米舒斯京已要求多個部門研究為新建數(shù)據(jù)中心提供電力優(yōu)惠的方案。...
全球首場機器人跑馬拉松

全球首場機器人跑馬拉松

4月18日上午,全球首場人形機器人半程馬拉松公布了參賽選手名單。在明日上午7:30舉行的半程馬拉松中,共有21支機器人隊伍會在北京亦莊南海子公園一期南門起跑,這些參賽隊伍分別來自國家隊、民營企業(yè)和學(xué)??蒲袌F隊。從速度上來看,國家隊一馬當(dāng)先。由北京人形機器人創(chuàng)新中心研發(fā)的天工Ultra身高一米八,是參賽選手中身高最高的機器人,體重52公斤,實測平均時速可以達(dá)到10km/h,最高奔跑速度已經(jīng)達(dá)到了12km/h。在此前的訓(xùn)練視頻中,天工Ultra已經(jīng)穿...
瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市,市場份額全球第二

瑞士工業(yè)巨頭ABB擬分拆機器人業(yè)務(wù)獨立上市,市場份額全球第二

瑞士工業(yè)巨頭ABB 4月17日宣布,決定對其機器人業(yè)務(wù)單元實施100%分拆,計劃于2026年第二季度完成,并將推動該業(yè)務(wù)作為獨立上市公司啟動上市交易。ABB的機器人業(yè)務(wù)在全球市場排名第二,僅次于日本發(fā)那科,在機器人四大家族中領(lǐng)先于日本安川電機和德國庫卡。2024年,該部門的銷售收入達(dá)23億美元,約占ABB集團總收入的7%,運營息稅攤銷前利潤率為12.1%。ABB機器人業(yè)務(wù)單元擁有約7000名員工。ABB稱,相關(guān)提案如獲股東批準(zhǔn),拆分計劃將通過股份分配的方式進行...
英偉達(dá)CEO黃仁勛:堅定不移服務(wù)中國市場

英偉達(dá)CEO黃仁勛:堅定不移服務(wù)中國市場

中國貿(mào)促會會長 任鴻斌:兩天前,美國政府決定對英偉達(dá)對華出口的H20芯片,實施無限期出口管制,您如何評估這一決定的影響?英偉達(dá)首席執(zhí)行官 黃仁勛:美國政府加強芯片出口管制已對英偉達(dá)業(yè)務(wù)產(chǎn)生重大影響,當(dāng)前全球正掀起一場激烈的人工智能競賽,作為當(dāng)代最具變革性的核心技術(shù),AI對各行業(yè)發(fā)展的推動前景廣闊,世界各國都在加速推進技術(shù)應(yīng)用,研發(fā)創(chuàng)新與能力提升,這必將對包括中國在內(nèi)的全球市場格局產(chǎn)生深遠(yuǎn)影響。作為深耕中國市場三十載的企業(yè),我們與...

推薦閱讀

熱文

Copyright © 能源界