复杂场景下,指令驱动的动作生成任务存在着指令理解不准确、生成的动作与指令任务不相关等挑战.为了解决这个问题,提出了一种方法框架,通过结合指令和场景信息,风格化生成虚拟角色的动作.该方法框架分为指令解析和动作生成两个部分.方法首先预定义了一组有限的原子动作集合,指令解析部分运用大模型,将文本指令解析成由原子动作组成的子任务,动作生成部分基于条件变分自编码器(conditional variational autoencoder,cVAE)设计了一个逐帧动作生成网络.在动作生成阶段,考虑不同的风格特征,例如角色的高矮胖瘦等属性和文本指令描述的开心、难过等特征,实现风格化动作生成任务.在卧室、公园、客厅和厨房等4个场景中进行了定性实验和用户研究,证明了方法的有效性、动作的真实性和风格的多样性.