Andrej Karpathy刚刚开源了一个叫autoresearch的项目,把AI研究这件事变成了一个可以通宵跑的自动化流水线。这个项目只有630行代码,但能让AI代理在你睡觉的时候跑100个机器学习实验。
传统的AI研究流程是:研究员写代码 → 跑实验 → 看结果 → 改代码 → 重复。现在变成了:研究员写提示词 → AI代理改代码 → 自动跑实验 → 自动评估 → 自动迭代。
思路很简单:AI代理修改训练代码,跑5分钟,检查结果,保留好的丢弃差的,然后重复。你只要写个指令文件告诉它研究方向,其他全自动。固定5分钟强制AI在模型大小、学习率、架构之间做权衡,每小时能跑12次实验。

项目只有三个文件:prepare.py(基础设施,不能动)、train.py(AI代理修改的唯一文件,包含GPT模型、优化器、训练循环)、program.md(人类编写的代理指令)。AI在git分支上工作,每次找到更好设置就提交代码。
Karpathy展示了大规模版本:8个H100一晚上跑了276次实验,29次有改进。有趣的是AI开始优化随机种子,从经典的42改成137。Karpathy说看到这个就知道要当宣传图了。

争议在于这到底算不算真正的研究。批评者说这是"受控优化循环,而非自主科学研究",本质上是"基于指标驱动的爬山算法"。真正的研究是创造范式转变,而不是优化现有方法。目标函数还是验证损失这种代理指标,容易困在局部最优解里出不来。但支持者认为固定时间窗口很巧妙,强制AI做真正的架构权衡而不是靠暴力计算。
真正的转变是:研究瓶颈从"能不能跑实验"变成了"会不会问问题"。你的工作从写训练代码变成了写研究策略。有网友说得对,真正的技能变成了设计能培养更聪明提示工程师的提示词。
有网友总结得很到位:nanoGPT让你训练模型,nanochat让你做聊天机器人,autoresearch让你跑完整研究循环。每一步都在消除"需要实验室才能做AI研究"的理由。630行代码加一张GPU就是新时代的车库。
Karpathy在README开头写了段科幻式的话:以前AI研究是"肉身电脑"在吃饭睡觉之余完成的,现在完全属于天空计算集群中的自主AI代理群。有人开玩笑说"睡觉是新的计算预算"。
目前只支持NVIDIA GPU,已经有人fork了macOS版本。项目MIT协议开源,也许下个突破就来自某台深夜自动运行的机器。
项目地址:https://github.com/karpathy/autoresearch