過去幾年,隨著人工智能研究人員不斷提升產(chǎn)品性能,使其更加“智能”,許多人都秉持著這樣的信條:模型訓(xùn)練得越多,最終效果就越好。在這項新研究中,研究團隊發(fā)現(xiàn)了一些證據(jù)表明,語言模型訓(xùn)練可能存在收益遞減點。
研究人員在訓(xùn)練兩個不同版本的 LLM OLMo-1B 模型并測試其回報時得出了這一結(jié)論。在一個場景下,他們使用了 2.3 萬億個 token 進行訓(xùn)練,而在另一種場景下,他們使用了 3 萬億個 token。然后,他們通過使用 ARC 和 AlpacaEval 等多個基準(zhǔn)測試來比較這兩個場景。結(jié)果發(fā)現(xiàn),使用更多 token 訓(xùn)練的模型在測試中的表現(xiàn)實際上更差,最多差了 3%。
他們對自己的研究結(jié)果感到驚訝,并進行了更多測試,仍然發(fā)現(xiàn)了類似的結(jié)果。這表明,在某個臨界點上,更多的訓(xùn)練反而會降低模型的“智能”。研究團隊稱之為“災(zāi)難性的過度訓(xùn)練”,并認(rèn)為這是他們所謂的“漸進性敏感性”造成的。
他們進一步指出,隨著令牌數(shù)量的增加,模型變得越脆弱,這意味著微調(diào)(可以被視為增加噪音)開始逆轉(zhuǎn)在壓力點之前看到的改進收益。
為了驗證他們的理論,他們在一些模型中添加了高斯噪聲,結(jié)果發(fā)現(xiàn)這樣做會導(dǎo)致與之前觀察到的相同類型的性能下降。他們將這個不可逆轉(zhuǎn)的點稱為“拐點”。他們認(rèn)為,在此之后,任何進一步的訓(xùn)練都會降低模型的穩(wěn)定性,使其更難以以適合特定應(yīng)用的方式進行調(diào)整。
研究人員最后建議,展望未來,LLM 模型的開發(fā)人員可能必須估計多少訓(xùn)練才足夠,或者找到其他類型的方法,以便進行具有更遠(yuǎn)拐點的額外訓(xùn)練。