玩家不等大厂做 — 自己写代码接 LLM, 让 AI 来玩传统经典游戏。Hermes 接入星露谷 替玩家种田打理农场 · AI 接入杀戮尖塔 2 把 deck-building 当成 LLM 策略测试场 · Claude / GPT / Gemini 同台直播玩 Pokemon — 玩家社区把传统经典游戏当成 AI 能力的真正 benchmark。
这一页是 骨架预览。我们正在按 Voyage 详情页的格式整理本期 "玩家让 AI 玩传统游戏" 浪潮的完整内容 — 从 Hermes 玩星露谷的开源项目, 到杀戮尖塔成为 LLM benchmark 的过程, 到大厂模型的 Pokemon Twitch 战。
下方先列 三个核心案例 和 计划要写的内容大纲。
骨架预览 · 详情待补Nous Research 的 Hermes 系列开源大模型被玩家接入 Stardew Valley — AI 自动决策当天该种什么、浇水、跟谁聊天、何时进矿。
这是开源 LLM 在沙盒/经营游戏中的真实使用, 不是 demo。玩家把整个农场决策交给 AI, 自己只看结果。
杀戮尖塔 2 因为决策树清晰 + 长远规划要求高, 被玩家社区当作 LLM 策略推理的标准 benchmark。
玩家自己写脚本接 GPT / Claude / Gemini, 让 AI 自己选牌、自己打 boss、自己复盘。战绩公开 PK, 比 paper benchmark 直观得多。
Anthropic / OpenAI / Google 三家 frontier model 同时在 Twitch 直播玩 Pokemon Red。Claude Opus 4.5 已玩 500+ 人类小时, 仍卡在 "gym 外 4 天打转因不懂砍树"。
这把 "Pokemon 通关" 推成了大厂模型公认的 game-agent benchmark — 比抽象 reasoning 测试有说服力得多。
从 OpenAI Five 到 LLM 玩 Pokemon · 玩家自驱的工具化历程
每个案例的技术栈 + 进展 + 玩家反应
vs 抽象 reasoning · 玩家直觉评估 · 长 horizon 任务
什么样的游戏适合当 benchmark · 玩家与 AI 共生的新形态