腾讯研发全新框架：用AI打，让DeepSeek学会战略性思考

来源：24直播网发布时间：2025-10-05 15:09:17

电竞资讯10月05日称据 decoder 今天报道，腾讯研究人员最近用《王者荣耀》游戏作为训练平台，探索如何让 AI 在游戏中学会“战略性思考”，研究全新 TiG（Think in Games）框架，相关成果已发表于 Hugging Face 网站和 arXiv 平台。

undefined

研究团队指出，目前的 AI 模型存在明显的功能鸿沟，以游戏为取向的 AI 能正常游玩但无法理解自己所做的决策，而语言模型虽然可以推理策略，但很难真正执行操作，为此他们研发了全新 TiG 框架，让模型在游戏中同步思考、行动。

团队选择以《王者荣耀》游戏作为训练范本，先使用匿名且标准化的赛事数据定义推上路、击杀暴君、守家等 40 种宏观行动，胜负回数均衡，AI 模型们必须要在每个定义好的场景下选择最佳策略，并解释其战略缘由。

具体来说，训练分为两个阶段，首先是在监督中学习，弄清楚这些策略的基本机制；随后通过奖励机制进行强化学习，如果行动正确能得 1 分，错误行动则得 0 分。

随后团队测试了多种语言模型，涵盖 Qwen2.5（7B、14B、32B）、Qwen3-14B 模型，并使用 DeepSeek-R1 大模型作为对照组；先从 DeepSeek-R1 提炼高质量训练数据，然后使用群体相对策略优化（GRPO）技术，比较不同策略之间的优劣。

最终经过 TiG 框架训练的模型不仅能制定行动计划，还能解释原因，例如 AI 会指出某个防御塔防守薄弱，是理想的进攻目标，但需要注意埋伏的敌人。模型训练后仍保持原有的文本理解、数学推理与问答能力。

TAG学会战略思考

相关阅读

无缘决赛！国米对阵博洛尼亚2连败，近7次交手仅取胜1场

2025-12-20

隆戈：米兰不会签回蒂亚戈席尔瓦，未与球员展开对话

2025-12-20

世体：巴埃纳和吉梅内斯恢复有球训练，但本周末西甲不会冒险复出

2025-12-20

英媒：白宫要求FIFA和平奖杯需和大力神杯一样大曾想让士兵护送

2025-12-20

米体：米兰3天内签下菲尔克鲁格，半年薪水100万1300万选择买断

2025-12-20

莫耶斯：赖斯值1.5亿镑，西汉姆联让他1.05亿镑转会阿森纳是贱卖

2025-12-20

19951996赛季之后，博洛尼亚首次通过点球大战晋级

2025-12-20

萨维尼奥：我减少了骑马频率以避免受伤，没尝试过骑牛因为太危险

2025-12-20

默森：马杜埃凯是一对一最好的边锋之一，我之前的评价完全错误

2025-12-20

博洛尼亚门将：我们在点球大战幸运地获胜，来这里是为了创造历史

2025-12-20

热词推荐

1

pp体育足球直播免费最新版本 12-20

2

淘宝美胸大赛 12-20

3

篮球黄蜂vs快船 12-20

4

马刺快船季后赛 12-20

5

中国vs马来西亚足球4月十六 12-20

6

2018世界杯巴西vs瑞士视频 12-20

7

英超比赛直播在线 12-20

8

德甲26轮多特vs法兰克福 12-20

9

库里vs开拓者超远三分 12-20

10

NCAA三月直播 12-20

热门TAG