临时 GPU 上的自主强化学习微调：扩展 Karpathy 的自动研究

科技

临时 GPU 上的自主强化学习微调：扩展 Karpathy 的自动研究

临时 GPU 上的自主 RL 微调：使用 auto..

作者

观澜Media

2026-04-01

无评论

2 分

阅读时间

临时 GPU 上的自主 RL 微调：使用 autoresearch-rl 扩展 Karpathy 的自动研究自主 ML 研究的困难部分不是搜索算法。

Covenant Labs 和 Evangelos Pappas 2026 年 3 月 27 日 5 分享当 Karpathy 发布 autoresearch [1] 时，他向 LLM 展示了您可以向 LLM 提供训练脚本，让它提出更改建议，运行实验，观察结果，然后重复。

相同的 GPU、相同的环境、几分钟内的迭代。

我想测试一个更难的主张：相同的循环是否可以用于 RL 微调，其中每次迭代都需要自己的 GPU，奖励稀疏，并且单个错误的超参数会浪费一个小时的 A100 时间。

答案是肯定的，但困难的部分并不是我想象的那样。

一条命令： uv run autoresearch-rlexperiment。

来源：HackerNews New

关于作者

观澜Media

See author's post

关于我们

观澜Media

AI技术 · 深度资讯 · 前沿观察。专注科技、AI、互联网领域的深度报道与前沿资讯。

关注我们

搜索归档

Access over the years of investigative journalism and breaking reports

你可能错过了

查看全部

科技

捷豹路虎 × 奇瑞：神行者全球首批搭载高通骁龙 8397 车机芯片，全球首发宁德时代全地形专用骁遥增混电池、全系标配华为乾崑 ADS 4.1

观澜Media

2026-04-01
互联网

华为汪涛接任轮值董事长，任期自 2026 年 4 月 1 日至 9 月 30 日

观澜Media

2026-04-01
科技

HKC 推出“锋芒 K5”24.5 英寸显示器：1080P 320Hz，799 元

观澜Media

2026-04-01
科技

奇瑞路虎 FREELANDER 神行者官宣全系标配华为乾崑 ADS V4.1，全地形 SUV 全球首搭 896 线激光雷达

观澜Media

2026-04-01
互联网

捷豹路虎 × 奇瑞：硬派越野神行者 97 概念车确认今年投产，6 月公布详情

观澜Media

2026-04-01
互联网

599 元 2K 144Hz，HKC 旗下 23.8 英寸显示器“V2419Q”发售

观澜Media

2026-04-01

观澜Media