机器之心编辑部的报道:“这是我写过的最疯狂的代码之一。”周一,AI领域大师Andrej Karpathy发布了他最新的开源项目,立即引起了整个社区的关注。该项目名为 nanochat,表示只需 100 美元,您就可以学习如何从头开始构建 ChatGPT。了解有关 LLM 培训和推理的更多信息。只需按照此操作,您就会了解构建大型模型的所有步骤。总共有8000行代码。在 GitHub 上发布后 12 小时内,它就获得了超过 4,500 颗星。 GitHub 链接:https://github.com/karpathy/nanochat 与 Karpathy 之前发布的 nanoGPT 存储库(仅涵盖预训练阶段)不同。 nanochat 是一个最小但完整的 ChatGPT 克隆训练实现。这是一个完整的流程推理项目,全部以代码库为中心,具有最小的依赖性和干净的结构演讲。只需在云中启动 GPU 计算机,运行脚本,大约 4 小时后,您就可以在 ChatGPT 风格的 Web 界面中与您自己的法学硕士聊天。该存储库大约有 8000 行代码,但包含以下所有功能: 使用新的 Rust 实现训练分词器。 Transformer LLM 在 FineWeb 数据集上进行预训练,并根据多个指标评估 CORE 分数。中间培训阶段对 SmolTalk 用户进行与与会者互动、多项选择题和答案、工具使用和其他数据方面的培训。 SFT 调整了世界知识多项选择(ARC-E/C、MMLU)、数学(GSM8K)和代码(HumanEval)上的模型性能。我会评估一下。可选:使用 GRPO 在 GSM8K 中进行 RL 强化训练。高效的推理引擎支持 KV 缓存、预取/解码推理、工具调用(轻量级沙盒 Python 解释器),并且可以通过 CLI 或 ChatGPT 风格的 WebUI 进行交互。自动生成Markdown 报告卡对整个培训过程进行总结和游戏化。 Karpathy 表示,只需花费约 100 美元(8xH100 训练 4 小时),就可以训练一个“会说话”的迷你 ChatGPT,它可以写故事、诗歌并回答简单的问题。通过 GPT-2 的 CORE 指标大约需要 12 小时的训练。扩大到 1,000 美元的额外预算(41.6 小时的培训)将快速提高模型的一致性,使您能够解决基本的数学/编码任务并通过多项多项选择测试。试图。例如,30层深度、训练24小时的模型(相当于GPT-3 Small 125M FLOP,约为GPT-3规模的1/1000)在MMLU上可以得到40+分,在ARC-Easy上可以得到70+分,在GSM8K上可以得到20+分等。Karpathy的目标是将一套“基础扎实”的能力完全封装到一个统一的仓库中。结构。可读性、可读性技巧和有用的分叉。 nanochat 将是 LLM101n 课程的最终项目(课程仍在开发中)。 Karpathy认为nanochat也可以像nanoGPT一样逐渐成为一个研究平台和标准基准。它距离完美还很远,并且还没有针对性能进行专门调整或优化(尽管它认为它接近完美)。不过,整体框架已经成型,适合放在 GitHub 上,让社区能够协作并迭代改进每个模块。 WebU4 小时 nanochat 对话示例,价格为 100 美元con I. 下图总结了 Karpathy 针对这个 100 美元速通示例报告的一些指标。看起来构建具有聊天功能的大型模型非常容易且成本低廉,但是有了 Karpathy 成熟的开源代码支持,是否可以创建自己的自定义模型来帮助您的工作?有网友提出了大家都担心的问题。但卡帕蒂给这些类型的应用泼了一盆冷水。我认为这不是适合定制的代码化目的。卡帕西认为,这个微型模型应该被视为一个非常小的孩子,没有太多原始智力。使用自己的数据进行修改/训练可以给您带来有趣的鹦鹉效应,让您感觉自己正在以风格写作,但这将是一场灾难。概括地说,需要执行以下步骤才能达到自定义模型的效果。准备原始数据并根据它们生成和重新存储大量合成数据(复杂、不明显且需要考虑)。利用这些数据来完善目前开源的强大的大型模型,例如Tinker。调优时,您可能需要对大量预训练数据进行混洗,以防止模型丢失太多通用智能。仍需要科学研究才能在实践中有效实施该解决方案。更详细的技术介绍和分步构建示例,请参考以下链接:https://github.com/karpathy/nanochat/Discuss离子/1
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意:c 以上内容(包括照片和视频,如果有)是社交媒体平台和信息仓库。由网易好用户上传发布,仅提供存储服务。