探索小说的世界：AI自动生成的多模态互动体验-哈工大深圳人类语言技术研究团队

探索小说的世界：AI自动生成的多模态互动体验

2023-11-27 13:04 (浏览量)

题目：NarrativePlay: An Automated System for Crafting Visual Worlds in Novels for Role-Playing

作者：Runcong Zhao, Wenjia Zhang, Jiazheng Li, Lixing Zhu, Yanran Li, Yulan He, and Lin Gui

单位：伦敦国王学院

收录于AAAI-2024 demonstration track

目前的沙盒式游戏往往基于预定义的规则和模板，与此类方法不同，我们的工作提出了一种新的基于大语言模型的框架，从文本中提取详细的角色特征，使用户能够扮演虚构角色并与动态生成的叙事环境进行互动。此外，我们还整合了自动生成的叙事设置、角色肖像和角色语音的视觉显示，极大地提升了整体用户体验。

图1: NarrativePlay系统框架图

整个NarrativePlay包括了三个主要组件（图1所示）：

1）主故事线抽取

我们利用GPT3.5-turbo从分块文本中提取结构化信息（角色、事件、对话和环境）。针对GPT模型在复杂提取场景中往往会产生更多的格式错误的现象，我们设计了一种基于提示的结构化事件表示方法，对于每个事件，分别提取描述、涉及的角色、位置和对话。这种方法将事件与它们各自的角色和位置联系起来，并同时对事件进行描述。

此外，我们还提出了一个以主线故事事件为中心的展开策略，并在事件描述的过程中创建环境的可视化。这种从事件环境描述生成图像在一定程度上缓解了事件发生地点位置共指的问题，因为动态的位置变化，比如冬天开始下雪，可以更容易地在生成的图像中表示出来。

此外，我们的设计方案还有意通过事件参与和共享来增加不同角色（包括用户选择的角色和AI代理）之间的可见性，以此来降低用户选择的角色视角下的世界复杂性。

2）多模态交互环境生成

针对多模态的交互环境构建，我们主要是通过外部API来实现，包括生成人物立绘的Hotpot AI，用于生成事件环境的Midjourney，还有生成语音的Fakeyou。这里生成多模态图片和语音的提示词或者关键词，都是由上一个模块中对于事件和人物的生成结果来确定的。

3）主故事线推进

在主故事线推进模块中，用户首先选择或上传他们故事（小说或者其他形式的文字）。在上述步骤之后，NarrativePlay提取主线故事情节，随后呈现有关背景和角色的信息。然后，我们会要求用户从列出的主要角色中选择自己喜欢的角色并开始他们的冒险。在这个阶段，角色的记忆会被初始化，为未来的交互奠定基础。用户选择角色后，系统就会向其呈现与所选角色相关的事件，场景图片，语音对话等等。

演示视频

可以预见的是，这种由 AI 构建的交互世界不单单可以用于电影、小说、游戏这样的娱乐产品，也可以扩展到教育领域，去重现一段历史，或者是在人文领域去拓展一段记忆。通过这种图文语音结合，以及自由对话的形式，我们希望不管是玩家，还是学生，都能够获得更加沉浸式的体验。

作者简介：赵润聪，剑桥大学数学学士，华威大学计算机博士，目前在伦敦国王学院担任博士后研究员，在ACL/ SIGIR/TACL/EMNLP/EACL等会议以第一作者/共同一作身份发表论文多篇，欧莱雅英国及爱尔兰2024年度女性科学家候选人。

参考文献：

[1] Runcong Zhao, Wenjia Zhang, Jiazheng Li, Lixing Zhu, Yanran Li, Yulan He, and Lin Gui. NarrativePlay: An Automated System for Crafting Visual Worlds in Novels for Role-Playing. In AAAI 2024 demo track.

[2] Runcong Zhao, Wenjia Zhang, Jiazheng Li, Lixing Zhu, Yanran Li, Yulan He, Lin Gui. NarrativePlay: Interactive Narrative Understanding. arXiv preprint arXiv:2310.01459.

审稿：徐睿峰

校正：王丹

打印收藏

【关闭窗口】

Return Top

常用站点

© 2019 哈尔滨工业大学（深圳）·智能计算研究中心 All rights reserved.