观澜Media

AI技术 · 深度资讯 · 前沿观察

临时 GPU 上的自主强化学习微调:扩展 Karpathy 的自动研究

临时 GPU 上的自主 RL 微调:使用 auto..

临时 GPU 上的自主 RL 微调:使用 autoresearch-rl 扩展 Karpathy 的自动研究 自主 ML 研究的困难部分不是搜索算法。

Covenant Labs 和 Evangelos Pappas 2026 年 3 月 27 日 5 分享 当 Karpathy 发布 autoresearch [1] 时,他向 LLM 展示了您可以向 LLM 提供训练脚本,让它提出更改建议,运行实验,观察结果,然后重复。

相同的 GPU、相同的环境、几分钟内的迭代。

我想测试一个更难的主张:相同的循环是否可以用于 RL 微调,其中每次迭代都需要自己的 GPU,奖励稀疏,并且单个错误的超参数会浪费一个小时的 A100 时间。

答案是肯定的,但困难的部分并不是我想象的那样。

一条命令: uv run autoresearch-rlexperiment。

来源:HackerNews New

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注