在游戏开发领域,场景的多样性和创新性一直是一个挑战。最近,香港大学与快手科技合作开发了一种名为GameFactory的创新框架,旨在解决游戏视频生成中的场景泛化问题。该框架利用预训练的视频扩散模型,能够在开放领域视频数据上进行训练,生成全新的、多样化的游戏场景。
视频扩散模型作为一种先进的生成技术,在近年来的视频生成和物理模拟中展现了巨大的潜力。这些模型能够响应用户的输入,如键盘和鼠标操作,类似于视频生成工具来创建相应的游戏视觉效果。然而,场景泛化——即创造全新的游戏场景而不局限于现有场景——仍然是这一领域的重大挑战。尽管收集大量带有动作标签的视频数据集是解决这一问题的一种直接方法,但在开放领域中这需要大量时间和劳动。
GameFactory框架正是为了解决这一挑战而推出的。通过利用预训练的视频扩散模型,GameFactory能够减少对特定游戏数据集的依赖,并支持多样化的游戏场景生成。此外,为了弥合开放领域先验知识与有限的游戏数据集之间的差距,GameFactory采用了独特的三阶段训练策略。
在第一阶段,使用LoRA(低秩适应)技术对预训练模型进行微调,使其适应特定的游戏领域同时保留原始参数。第二阶段则冻结预训练参数,并专注于训练动作控制模块以避免风格与控制之间的混淆。最后,在第三阶段移除LoRA权重,保留动作控制模块参数,使系统能够在不同开放领域的场景中生成受控的游戏视频。
研究人员还评估了不同的控制机制的有效性,发现交叉注意力机制在处理键盘输入等离散控制信号方面表现更好,而连接方法则更适合鼠标移动信号。GameFactory还支持自回归动作控制功能,能够生成无限长度的互动游戏视频。此外,研究团队还发布了高质量的动作标签视频数据集GF-Minecraft用于框架的训练和评估。
总结:本文介绍了香港大学与快手科技合作开发的GameFactory框架。该框架通过利用预训练的视频扩散模型和独特的三阶段训练策略解决了游戏视频生成中的场景泛化问题,并通过GF-Minecraft数据集支持其进一步的研究和发展。关键点:
- 🌟 GameFactory框架由香港大学和快手科技联合开发,旨在解决游戏视频生成中的场景泛化问题。
- 🎮 该框架利用预训练的视频扩散模型生成多样化的游戏场景,并采用三阶段训练策略以提高效果。
- 📊 研究人员还发布了动作标签视频数据集GF-Minecraft以支持GameFactory的训练和评估。