Karpathy 的最新开源项目售价 100 美元，代码 8,000 行，人气爆炸式增长

机器之心编辑部的报道：“这是我写过的最疯狂的代码之一。”周一，AI领域大师Andrej Karpathy发布了他最新的开源项目，立即引起了整个社区的关注。该项目名为 nanochat，表示只需 100 美元，您就可以学习如何从头开始构建 ChatGPT。了解有关 LLM 培训和推理的更多信息。只需按照此操作，您就会了解构建大型模型的所有步骤。总共有8000行代码。在 GitHub 上发布后 12 小时内，它就获得了超过 4,500 颗星。 GitHub 链接：https://github.com/karpathy/nanochat 与 Karpathy 之前发布的 nanoGPT 存储库（仅涵盖预训练阶段）不同。 nanochat 是一个最小但完整的 ChatGPT 克隆训练实现。这是一个完整的流程推理项目，全部以代码库为中心，具有最小的依赖性和干净的结构演讲。只需在云中启动 GPU 计算机，运行脚本，大约 4 小时后，您就可以在 ChatGPT 风格的 Web 界面中与您自己的法学硕士聊天。该存储库大约有 8000 行代码，但包含以下所有功能：使用新的 Rust 实现训练分词器。 Transformer LLM 在 FineWeb 数据集上进行预训练，并根据多个指标评估 CORE 分数。中间培训阶段对 SmolTalk 用户进行与与会者互动、多项选择题和答案、工具使用和其他数据方面的培训。 SFT 调整了世界知识多项选择（ARC-E/C、MMLU）、数学（GSM8K）和代码（HumanEval）上的模型性能。我会评估一下。可选：使用 GRPO 在 GSM8K 中进行 RL 强化训练。高效的推理引擎支持 KV 缓存、预取/解码推理、工具调用（轻量级沙盒 Python 解释器），并且可以通过 CLI 或 ChatGPT 风格的 WebUI 进行交互。自动生成Markdown 报告卡对整个培训过程进行总结和游戏化。 Karpathy 表示，只需花费约 100 美元（8xH100 训练 4 小时），就可以训练一个“会说话”的迷你 ChatGPT，它可以写故事、诗歌并回答简单的问题。通过 GPT-2 的 CORE 指标大约需要 12 小时的训练。扩大到 1,000 美元的额外预算（41.6 小时的培训）将快速提高模型的一致性，使您能够解决基本的数学/编码任务并通过多项多项选择测试。试图。例如，30层深度、训练24小时的模型（相当于GPT-3 Small 125M FLOP，约为GPT-3规模的1/1000）在MMLU上可以得到40+分，在ARC-Easy上可以得到70+分，在GSM8K上可以得到20+分等。Karpathy的目标是将一套“基础扎实”的能力完全封装到一个统一的仓库中。结构。可读性、可读性技巧和有用的分叉。 nanochat 将是 LLM101n 课程的最终项目（课程仍在开发中）。 Karpathy认为nanochat也可以像nanoGPT一样逐渐成为一个研究平台和标准基准。它距离完美还很远，并且还没有针对性能进行专门调整或优化（尽管它认为它接近完美）。不过，整体框架已经成型，适合放在 GitHub 上，让社区能够协作并迭代改进每个模块。 WebU4 小时 nanochat 对话示例，价格为 100 美元con I. 下图总结了 Karpathy 针对这个 100 美元速通示例报告的一些指标。看起来构建具有聊天功能的大型模型非常容易且成本低廉，但是有了 Karpathy 成熟的开源代码支持，是否可以创建自己的自定义模型来帮助您的工作？有网友提出了大家都担心的问题。但卡帕蒂给这些类型的应用泼了一盆冷水。我认为这不是适合定制的代码化目的。卡帕西认为，这个微型模型应该被视为一个非常小的孩子，没有太多原始智力。使用自己的数据进行修改/训练可以给您带来有趣的鹦鹉效应，让您感觉自己正在以风格写作，但这将是一场灾难。概括地说，需要执行以下步骤才能达到自定义模型的效果。准备原始数据并根据它们生成和重新存储大量合成数据（复杂、不明显且需要考虑）。利用这些数据来完善目前开源的强大的大型模型，例如Tinker。调优时，您可能需要对大量预训练数据进行混洗，以防止模型丢失太多通用智能。仍需要科学研究才能在实践中有效实施该解决方案。更详细的技术介绍和分步构建示例，请参考以下链接：https://github.com/karpathy/nanochat/Discuss离子/1
特别提示：以上内容（包括图片、视频，如有）由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
请注意：c 以上内容（包括照片和视频，如果有）是社交媒体平台和信息仓库。由网易好用户上传发布，仅提供存储服务。

Karpathy 的最新开源项目售价 100 美元，代码 8,000 行，人气爆炸式增长

你也可能喜欢

鼻病毒感冒：这不是流感！错误地擤鼻涕会导致耳朵感染吗？

国际戏剧国际北京人展览将于下个月开幕。风水PHRA：戏剧和朋友会议

视频：中国空间站首次迎来四名老鼠“宇航员”

纯动力加续航里程，极虎新款阿尔法T5售价12.38万起

发表评论取消回复

你也可能喜欢

发表评论 取消回复

发表评论取消回复