来源 :云从科技CLOUDWALK2023-06-16
近日,国际语音及信号处理领域顶级会议ICASSP2023在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近4000人共襄盛会,探讨技术、产业发展趋势,交流最新成果。
云从科技与上海交通大学联合研究团队的《基于扩散模型的音频驱动说话人生成》成功入选会议论文,并于大会进行现场宣讲,获得多方高度关注。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是语音、声学领域的顶级国际会议之一, ICASSP学术会议上展示的研究成果,被认为代表着声学、语音领域的前沿水平与未来发展方向。
本次入选论文,围绕“基于音频驱动的说话人视频生成”这一视觉-音频的跨模态任务,将语音与视觉技术结合,提出的方法能够根据输入的语音片段技术,生成自然的头部动作,准确的唇部动作和高质量的面部表情说话视频。该项成果在多个数据集上,都取得了优于过去研究的表现。
此外,在实战场景中,随着现实生活中对于数字人引用的愈来愈广泛,实现用音频驱动的生成与输入音频同步的说话人脸视频的需求也越来越大。本项成果基于扩散模型的跨模态说话人生成技术,可以推广到广泛的应用场景,例如虚拟新闻广播,虚拟演讲和视频会议等等。