航天宏图虚拟数字人小派 ——为用户提供智能化交互服务

http://www.chaguwang.cn 2023-04-18 航天宏图内幕信息

来源 :航天宏图2023-04-18

　　伴随着数字技术的广泛运用，虚拟数字人正成为各行业的火热风口。对于消费者而言，数字人不只是前卫的先进技术，更是突破“次元壁”、能够交流互动、情感联结的助手与朋友。

　　虚拟“数字人”是具有数字化外形的虚拟人物，酷炫外表背后集成了多模态交互、视觉唤醒、语音识别、问答聊天、形体驱动等综合AI能力。对用户而言，虚拟人是进入虚拟世界的必要化身，用户可以根据喜好设置多个形态各异的分身。对企业而言，多样化“数字人”是线上服务的入口，不仅能够提供7x24小时不间断服务，还能创造更多的商业化服务场景。

　　随着数字人相关技术高速发展与成熟，“数字人”作为与虚实世界交互的重要载体，具有广阔的应用场景。从应用角度看，虚拟数字人分为身份型和服务型两大类。身份型虚拟数字人强调身份属性，虚拟数字人拥有自己的“人格”，是现实世界真人的“分身”，主要应用在娱乐、社交、办公等场景，用于虚拟偶像表演、虚拟会议、直播等。服务型虚拟数字人强调功能属性，为体验者提供各种专业化服务，在经济活动中具有降本增效的特征，主要应用在客服、电商、教学、影视等领域，例如虚拟客服、虚拟导游、虚拟助手、虚拟教师、虚拟主播等。

　　根据速途元宇宙研究院发布的《2022 虚拟人产业研究报告》，2021年国内数字虚拟人整体市场规模为 147.3 亿元。在元宇宙概念的驱动下，虚拟数字人产业正从娱乐化向工具化、基建化的形式渗透，越来越多的数字虚拟人将应用在生产经营、内容创作、社交、营销宣传、IP经济等方面。预计到 2030 年，数字虚拟人整体市场规模将达到 3095.3 亿元。

　　为打造全新企业形象，适应元宇宙的快速发展，2022年4月航天宏图自主研发了数字虚拟人“派安晴"，赋能智慧地球大讲堂和短视频的节目制作。2023年1月研发出大屏数字人客服“小派“，在公司展厅中提供便捷的咨询服务。2023年3月进一步推出线上数字人导游“小派“，在公司官网的元宇宙展厅中精彩讲解，服务于企业品牌宣传和产品解决方案的推广。

　　▲左图：智慧地球大讲堂，虚拟数字主持人“派安晴”

　　右图：大屏数字人客服“小派”

　　▲元宇宙展厅，数字人导游“小派”，精彩讲解各展厅内容

　　1.产品功能

　　航天宏图自主研发的数字人派安晴基于影视级3D建模、计算机视觉、智能语音和自然语言处理等AI技术实现，具有超写实、高精度、智能问答、表情丰富等特点。数字人可依据不同行业特点定制专属个性化 IP 形象，提供个性化服务；虚拟人与智能问答GPT大模型相结合，可广泛应用于客服、文旅、教育、媒体等行业，丰富文化传播，有效降低人力成本，提升服务质量和效率。

　　2.使用方法

　　航天宏图大屏数字人客服自带写实基因，打破电子屏幕界限。在接待客户时，她以全媒体取代纯文字答复，具有高灵敏度的视觉感知算法和自然语言理解能力，自动识别客户进入服务区域唤醒，客服形象跃然于客户眼前，招手和客户开启面对面会话场景，使客户体验到数字人服务的“温暖走心”。

　　大屏数字人客服的使用步骤如下：

　　1、连接电源：打开大屏电源开关，系统默认开启自动开关机服务，默认为08:00开机，18:00关机；

　　2、系统启动：数字人各服务模块每天随系统自启动，部署服务监控和保活机制可自动拉起无需人工值守，服务就绪后展示待命状态欢迎词“请走近，对我说话吧”；

　　3、唤醒阶段：数字人进入视觉唤醒状态并开启语音监听通道。客户进入服务区，自动展示迎宾动作和“猜您想问”引导问题列表；

　　4、对话阶段：客户提问，数字人收音后进行语音识别、有效问题判断、智能问答、语音合成、语音驱动动画等逻辑处理，精准回答客户问题；

　　5、打断回答：客户可随时提出新问题，或通过“小派”、“好了”、“别说了”等中断当前回答；

　　6、休眠状态：客户离开体验区后1分钟，数字人关闭监听通道并重新进入待机状态；

　　7、知识库维护：对话日志服务记录，自动维护知识库内容和系统参数，请参考《数字人大屏使用说明书》。

　　▲大屏数字人客服的使用步骤

　　3.技术特点

　　1）技术体系

　　虚拟数字人研发中涉及众多技术领域。通过总结现有数字人系统中涉及的常用技术，技术体系可分为人物生成、人物表达、合成显示、识别感知、分析决策等 5 大模块。其中，人物生成、人物表达、合成显示模块为虚拟数字人的制作技术，识别感知、分析决策模块为虚拟数字人的交互技术。下面针对航天宏图数字人派安晴的技术特点进行重点介绍。

　　▲虚拟数字人的技术体系

　　2）无感式唤醒

　　在与数字人进行问答交互之前需要对它进行唤醒，启动问答服务。传统唤醒流程是用户通过语音呼叫数字人名字来实现，而展厅中经常有杂音与过往游客的干扰，对通过语音唤醒数字人有较大影响。研发团队在保留传统语音唤醒流程的同时，应用视觉唤醒判断是否有用户正站在服务区内准备提问，实现无感唤醒。用户如需同数字人派安晴进行交互，只需站到她的面前即可立刻展开交流，从而避免了语音呼叫的繁琐操作。通过在视觉检测基础上添加交互距离、侧脸比例、眼间距等参数校验，进一步提升正脸交互唤醒准确度，避免无效唤醒。

　　▲左图：虚拟数字人的站位服务区（小脚丫）

　　右图：大屏待机状态下的“请走近”提示语

　　3）多模态交互

　　多模态交互能力是利用数字化技术模拟人与人之间的自然交互方式，支持通过语言、文本、甚至是不同手势或表情来与数字人进行交互和沟通，用户可同时使用多种不同方式和数字人进行交互。派安晴融合多模态交互技术，支持多种问答输入方式，包括：文本输入、语音输入、图像输入、手势输入等。通过与多模态交互技术相结合，派安晴可根据PC机、大屏、手机、VR头盔等应用场景自由组合交互方式，输出文本、语音、图片、视频、动作等答复，满足不同用户需求，提高用户体验。

　　▲左图：PC虚拟数字人的对话框式问答

　　右图：大屏虚拟数字人的多模态问答

　　4）快速应答

　　虚拟数字人对输入的文字、语音、视觉可在短时间内快速做出识别，配合多路并发技术，快速将语音转化为文字信息。Kenlm算法验证文字流畅度通过以后，经过多模型并行调用，Bert系列模型识别短文本中的用户对话意图，从中抽取出问题的关键词后，生成query文本。双塔模型首先匹配公司自有知识库，从海量知识库检索答案，并对返回的知识库答案结果进行精排序处理，给出最佳答案。如果给出的答案相关性得分过低，则快速启用互联网搜索功能和大模型问答引擎，将最佳答案反馈到用户。

　　问答系统中的各个模块保持相互独立，提供不间断在线实时运行，将最终的答案文字信息转化为音频进行输出，并同时驱动数字人的口型、表情和动作进行动画呈现。转化过程采用先进的分片技术，实现流水作业方式，边转化、边输出、边播报，总体时间达到最低。

　　5）智能内容生成

　　随着ChatGPT的火爆，生成式AI算法的突破，人工智能生产内容（AIGC）进入应用爆发期。AIGC将人工智能技术应用于内容创作过程中，辅助数字人自动化生成内容，大幅度提升内容制作效率，且充分考虑用户需求，提升内容实用性和可读性，为用户带来更多的收益和体验。

　　▲AIGC内容创作的发展历程

　　为高效制作视频内容，能够与用户像朋友一样实现顺畅沟通，我们研发了虚拟数字人内容制作平台。用户可通过选择数字人形象、服饰、背景图片，画中画视频，设定剧情脚本、语音类型、背景音乐、动作表达等方式，系统自动整合多媒体素材，快速制作短视频，线上教学、天气播报等AIGC内容服务。随着自然语言生成等底层技术的突破，及人工智能技术的不断发展，AIGC的应用场景将不断扩展，为数字人的创新发展注入新动力。

　　▲左图：虚拟数字人内容制作平台

　　右图：虚拟数字人天气播报

　　4.总结与展望

　　虚拟数字人是元宇宙的重要组成部分，作为人机交互的媒介，在生产和生活中扮演着越来越重要的角色。伴随着数字人在形象建模、自然交互、AI仿真等方面的技术进步，未来数字人将会越来越逼真，越来越聪明，甚至超过人类的某些智能。数字人在社交、客服、教学、媒体等领域具有非常广阔的应用前景，为人们带来更多便捷服务的同时，也带来更多的欣赏与快乐。