← 返回本期
AI Weekly · Issue 01 · 产品 03

玩家自发让 AI 玩传统游戏

玩家不等大厂做 — 自己写代码接 LLM, 让 AI 来玩传统经典游戏。Hermes 接入星露谷 替玩家种田打理农场 · AI 接入杀戮尖塔 2 把 deck-building 当成 LLM 策略测试场 · Claude / GPT / Gemini 同台直播玩 Pokemon — 玩家社区把传统经典游戏当成 AI 能力的真正 benchmark。

AI plays game Hermes Stardew Slay the Spire 2 AI Pokemon Twitch 玩家自驱 LLM benchmark
CULTURE · GitHub + Twitch + Reddit · 2026 Q2 爆发
AI Plays Classic Games · Hero 截图待补

详情整理中 — 完整介绍即将上线

这一页是 骨架预览。我们正在按 Voyage 详情页的格式整理本期 "玩家让 AI 玩传统游戏" 浪潮的完整内容 — 从 Hermes 玩星露谷的开源项目, 到杀戮尖塔成为 LLM benchmark 的过程, 到大厂模型的 Pokemon Twitch 战。

下方先列 三个核心案例计划要写的内容大纲

骨架预览 · 详情待补
— Three Key Cases · 三个标杆案例 —
CASE A · Hermes 玩星露谷

用开源 LLM 替你打理农场

Nous Research · Hermes 系列开源 LLM

Nous Research 的 Hermes 系列开源大模型被玩家接入 Stardew Valley — AI 自动决策当天该种什么、浇水、跟谁聊天、何时进矿。

这是开源 LLM 在沙盒/经营游戏中的真实使用, 不是 demo。玩家把整个农场决策交给 AI, 自己只看结果。

CASE B · AI 玩杀戮尖塔 2

Deck-building 成为 LLM 策略测试场

Slay the Spire 2 · 玩家自驱

杀戮尖塔 2 因为决策树清晰 + 长远规划要求高, 被玩家社区当作 LLM 策略推理的标准 benchmark

玩家自己写脚本接 GPT / Claude / Gemini, 让 AI 自己选牌、自己打 boss、自己复盘。战绩公开 PK, 比 paper benchmark 直观得多。

CASE C · Pokemon Twitch 直播

三大厂 frontier model 同台 PK

Claude Opus 4.5 · GPT-5.2 · Gemini 3 Pro

Anthropic / OpenAI / Google 三家 frontier model 同时在 Twitch 直播玩 Pokemon Red。Claude Opus 4.5 已玩 500+ 人类小时, 仍卡在 "gym 外 4 天打转因不懂砍树"。

这把 "Pokemon 通关" 推成了大厂模型公认的 game-agent benchmark — 比抽象 reasoning 测试有说服力得多。

— 计划详情大纲 · Content Outline —
01 · 现象

"AI 玩家" 浪潮是怎么起来的

从 OpenAI Five 到 LLM 玩 Pokemon · 玩家自驱的工具化历程

02 · 三个案例

Hermes / 杀戮尖塔 / Pokemon 拆解

每个案例的技术栈 + 进展 + 玩家反应

03 · benchmark 化

为什么传统游戏成了 AI 测试场

vs 抽象 reasoning · 玩家直觉评估 · 长 horizon 任务

04 · 浪潮意义

对大厂 / AI 评测 / 玩家文化的启示

什么样的游戏适合当 benchmark · 玩家与 AI 共生的新形态