九av三十区,国产 在线 无码 视频,国外av一区在线播放,91亚洲福利导航

斯坦福团队:已开发出高效低成本方式训练大模型

斯坦福团队:已开发出高效低成本方式训练大模型

chushichang 2025-03-05 经营范围 2 次浏览 0个评论

来源:雪球App,作者: 亿欧网,(https://xueqiu.com/3191247421/254907205)

近日,据美国科技媒体Techexplore报道,美国斯坦福大学的一个团队开发了新型优化器Sophia,这是一种优化大型语言模型预训练的新方法,其速度是此前模型速度的两倍。

ChatGPT和其他依赖于大型语言模型(LLM)的应用程序如今正在获得广泛使用,并引起媒体的广泛关注。但少数几家大型科技公司主导着LLM领域,因为对这些模型进行预训练极其昂贵,成本估计从1000万美元开始,可能达到这个数字的几十倍或数百倍。

“大型语言模型对于较小的组织或学术团体来说不是很容易获得。”斯坦福大学科学研究员刘洪(音译)说道。

为了改变这种情况,刘洪和他的同事着手改进当前的LLM优化方法。结果是:一种叫做Sophia的方法将预训练时间缩短了一半。这种方法的详细信息发布在arXiv预印本服务器上。

斯坦福团队:已开发出高效低成本方式训练大模型

优化不能停

为了更好地优化LLM预训练模式,刘洪和他的同事,包括斯坦福大学博士后李致远(音译)、斯坦福大学研究工程师David Hall、科学助理教授马腾宇和副教授Percy Liang,使用了两个技巧。第一种被称为曲率估计(curvature estimation),即指是指对模型损失函数的曲率进行估计的过程。这种技术并不前沿,但斯坦福大学的团队找到了一种提高效率的方法。

举个例子,如工厂装配线那般,为了有效运作,工厂经理需要优化,将原材料转化为最终产品所需的生产步骤,并需要了解并适当安排生产线每一步的工作量。

LLM的预训练也是如此。这些模型有数百万甚至数十亿个参数,斯坦福大学团队把这些参数比作为了提高工作效率的工厂工人。这些参数的一个特性是它们的曲率,团队认为这是它们朝着预训练LLM的最终目标前进时,达到的最快可实现速度。在工厂的比喻中,曲率类似于工厂工人的工作量。

如果优化程序能够估计曲率(工作量),则可以使LLM预训练更加高效。问题是:用现有的方法估计曲率是非常困难且昂贵。“事实上,这比不做曲率预测的工作更昂贵,”刘洪说。这就是当前优化LLM预训练的最先进方法(Adam及其变体)放弃曲率估计步骤的部分原因。

尽管如此,刘洪和他的同事们注意到,使用参数曲率估计的先验方法可能效率低下:先验研究人员在优化的每一步都更新了他们的曲率估计。斯坦福大学的团队想知道他们是否可以通过减少更新次数来提高这一过程的效率。

斯坦福团队:已开发出高效低成本方式训练大模型

为了验证这一想法,斯坦福大学的团队设计Sophia仅每10步估计一次参数的曲率。“结果证明这是一个巨大的胜利,”刘洪说道。

该团队的第二个优化技巧,称为剪裁(clipping),这个技术解决了一个问题:曲率估计不准确的问题。斯坦福大学团队认为,“如果估计是错误的,那就好比给那些做艰苦工作的人更多的工作要做。这比没有估计的情况更糟。”

剪裁通过设置阈值或最大曲率估计来防止这种情况发生。刘洪说:“在我们的工厂比喻中,这就像为所有员工设定了工作量限制。”另一个常用于优化的比喻是山丘和山谷的景观,其目标是最终到达最低的山谷。刘洪认为如果不进行修剪,就有可能在两座山之间的马鞍上着陆。

Sophia将扩大应用范围

刘洪和他的同事使用Sophia预训练了一个相对较小的LLM,使用了与创建OpenAI的GPT-2相同的模型大小和配置。

Sophia将曲率估计和裁剪相结合,使得LLM预训练优化能够在Adam所需的一半步数和一半时间内顺利地进行到最低谷。

斯坦福团队:已开发出高效低成本方式训练大模型

刘洪说:“Sophia的适应能力使它与Adam不同。”Adam很难处理曲率不均匀的参数,因为它无法提前预测。”

此外,刘洪还表示,这也是九年来第一次有人在语言模型预训练方面比Adam有任何实质性的进步。“这可能意味着训练现实世界中的大型模型的成本将大幅降低。”他说,随着模型的扩大,Sophia的优势只会增加。

接下来,斯坦福大学研究团队希望利用Sophia开发一个更大的LLM。他还希望看到Sophia应用于机器人的其他领域。

转载请注明来自石家庄天鲲化工设备有限公司 ,本文标题:《斯坦福团队:已开发出高效低成本方式训练大模型》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

验证码

评论列表 (暂无评论,2人围观)参与讨论

还没有评论,来说两句吧...

Top
主站蜘蛛池模板: 洪雅县| 马龙县| 当阳市| 曲麻莱县| 垣曲县| 滕州市| 宁强县| 嘉荫县| 东乌珠穆沁旗| 河源市| 屯昌县| 板桥市| 图片| 塘沽区| 潞城市| 上杭县| 宁海县| 徐州市| 赤峰市| 平山县| 日土县| 东安县| 德州市| 江源县| 扎赉特旗| 巍山| 梅州市| 新干县| 明星| 丘北县| 太和县| 莫力| 安化县| 清苑县| 水城县| 象山县| 嘉黎县| 泰兴市| 崇信县| 普兰店市| 永仁县|