热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
关于大型语言模型(LLMs)的叙述是,它们的改进纯粹是通过扩大预训练的*计算*。实际上,它们的改进是通过扩大预训练的*数据*,而计算只是将更多数据塞入模型的手段。数据是根本的瓶颈。没有更多的数据,你无法扩大预训练的计算。
到目前为止,这些数据主要是人类生成的——在过去几年中,有超过20,000人全职工作,提供注释以训练LLMs。即使数据来自强化学习环境,这些环境仍然必须由人类精心设计。
这就是这里的根本瓶颈:这些模型完全依赖于人类的输出。它们是我们输入内容的插值数据库。
与此同时,AGI 实际上会通过简单地增加更多的 *计算* 而变得更好。它不会受到人类生成文本可用性的瓶颈。
57.98K
热门
排行
收藏