免费国产一区二区三区,国产成年码av片在线观看

過度訓練大型語言模型可能會使它們更難進行微調(diào)

2025-04-26 10:57 瀏覽：

來自美國卡內(nèi)基梅隆大學、斯坦福大學、哈佛大學和普林斯頓大學的人工智能研究小組發(fā)現(xiàn)，如果大型語言模型過度訓練，可能會使其更難進行微調(diào)。該小組在arXiv預印本服務器上發(fā)表的論文比較了不同訓練量對單個法學碩士(LLM)的影響。

過去幾年，隨著人工智能研究人員不斷提升產(chǎn)品性能，使其更加“智能”，許多人都秉持著這樣的信條：模型訓練得越多，最終效果就越好。在這項新研究中，研究團隊發(fā)現(xiàn)了一些證據(jù)表明，語言模型訓練可能存在收益遞減點。

研究人員在訓練兩個不同版本的 LLM OLMo-1B 模型并測試其回報時得出了這一結論。在一個場景下，他們使用了 2.3 萬億個 token 進行訓練，而在另一種場景下，他們使用了 3 萬億個 token。然后，他們通過使用 ARC 和 AlpacaEval 等多個基準測試來比較這兩個場景。結果發(fā)現(xiàn)，使用更多 token 訓練的模型在測試中的表現(xiàn)實際上更差，最多差了 3%。

他們對自己的研究結果感到驚訝，并進行了更多測試，仍然發(fā)現(xiàn)了類似的結果。這表明，在某個臨界點上，更多的訓練反而會降低模型的“智能”。研究團隊稱之為“災難性的過度訓練”，并認為這是他們所謂的“漸進性敏感性”造成的。

他們進一步指出，隨著令牌數(shù)量的增加，模型變得越脆弱，這意味著微調(diào)(可以被視為增加噪音)開始逆轉(zhuǎn)在壓力點之前看到的改進收益。

為了驗證他們的理論，他們在一些模型中添加了高斯噪聲，結果發(fā)現(xiàn)這樣做會導致與之前觀察到的相同類型的性能下降。他們將這個不可逆轉(zhuǎn)的點稱為“拐點”。他們認為，在此之后，任何進一步的訓練都會降低模型的穩(wěn)定性，使其更難以以適合特定應用的方式進行調(diào)整。

研究人員最后建議，展望未來，LLM 模型的開發(fā)人員可能必須估計多少訓練才足夠，或者找到其他類型的方法，以便進行具有更遠拐點的額外訓練。