AI 玩传统游戏 — AI Gaming Weekly

◐

详情整理中 — 完整介绍即将上线

这一页是 骨架预览。我们正在按 Voyage 详情页的格式整理本期 "玩家让 AI 玩传统游戏" 浪潮的完整内容 — 从 Hermes 玩星露谷的开源项目, 到杀戮尖塔成为 LLM benchmark 的过程, 到大厂模型的 Pokemon Twitch 战。

下方先列 三个核心案例 和 计划要写的内容大纲。

骨架预览 · 详情待补

— Three Key Cases · 三个标杆案例 —

CASE A · Hermes 玩星露谷

Nous Research · Hermes 系列开源 LLM

Nous Research 的 Hermes 系列开源大模型被玩家接入 Stardew Valley — AI 自动决策当天该种什么、浇水、跟谁聊天、何时进矿。

这是开源 LLM 在沙盒/经营游戏中的真实使用, 不是 demo。玩家把整个农场决策交给 AI, 自己只看结果。

CASE B · AI 玩杀戮尖塔 2

Slay the Spire 2 · 玩家自驱

杀戮尖塔 2 因为决策树清晰 + 长远规划要求高, 被玩家社区当作 LLM 策略推理的标准 benchmark。

玩家自己写脚本接 GPT / Claude / Gemini, 让 AI 自己选牌、自己打 boss、自己复盘。战绩公开 PK, 比 paper benchmark 直观得多。

CASE C · Pokemon Twitch 直播

Claude Opus 4.5 · GPT-5.2 · Gemini 3 Pro

Anthropic / OpenAI / Google 三家 frontier model 同时在 Twitch 直播玩 Pokemon Red。Claude Opus 4.5 已玩 500+ 人类小时, 仍卡在 "gym 外 4 天打转因不懂砍树"。

这把 "Pokemon 通关" 推成了大厂模型公认的 game-agent benchmark — 比抽象 reasoning 测试有说服力得多。

— 计划详情大纲 · Content Outline —

01 · 现象

从 OpenAI Five 到 LLM 玩 Pokemon · 玩家自驱的工具化历程

02 · 三个案例

每个案例的技术栈 + 进展 + 玩家反应

03 · benchmark 化

vs 抽象 reasoning · 玩家直觉评估 · 长 horizon 任务

04 · 浪潮意义

什么样的游戏适合当 benchmark · 玩家与 AI 共生的新形态