一种视频会议中视频预测处理的方法、装置、设备及介质与流程

    专利2025-04-05  29


    本发明涉及通信,特别是涉及一种视频会议中视频预测处理的方法、装置、设备及介质。


    背景技术:

    1、随着通信技术的发展,用户对通信的质量和效率的要求越来越高,需求也越来越多样化和差异化。在视频会议场景下,用户不满足于仅仅能看到实时的视频图像,对高清晰、高质量、高稳定的视讯业务的需求越来越强烈。

    2、在视频会议中,由会议终端将拍摄到的视频流上传到服务器,再由服务器分发给各会场的显示设备进行显示,但是鉴于会议终端的性能不同,会出现部分会议终端上传的是高清视频流、部分会议终端上传的不是高清视频流,而如果将所有的会议终端都换成高清拍摄,在视频流传输时可能因带宽波动较大等原因导致出现视频会议画面卡顿的情况。


    技术实现思路

    1、鉴于上述问题,提出了以便提供克服上述问题或者至少部分地解决上述问题的一种视频会议中视频预测处理的方法、装置、设备及介质,包括:

    2、一种视频会议中视频预测处理的方法,所述方法包括:

    3、在检测到针对目标会议终端的第一触发事件的情况下,获取所述目标会议终端采集的至少包含音频数据的数据流和目标视频帧;其中,所述目标视频帧为检测到所述第一触发事件前最后的n个视频帧,n大于等于1;

    4、根据所述音频数据和所述目标视频帧,生成人像动作预测信息;

    5、根据所述至少包含音频数据的数据流、所述目标视频帧,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,并将所述视频流发送至其他会议终端。

    6、可选地,所述根据至少包含音频数据的数据流、所述目标视频帧,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    7、获取所述目标会议终端关联的目标图像数据;

    8、根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流。

    9、可选地,所述数据流还包含根据所述目标会议终端采集的视频流生成的视频特征属性信息,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    10、根据所述至少包含音频数据和视频特征属性信息的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流。

    11、可选地,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    12、获取所述目标会议终端关联的参考人像变化特征信息;

    13、根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据、所述参考人像变化特征信息,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流。

    14、可选地,所述数据流还包含根据所述目标会议终端采集的视频流生成的视频特征属性信息,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据、所述参考人像变化特征信息,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    15、根据所述至少包含音频数据和视频特征属性信息的数据流、所述目标视频帧、所述目标图像数据、所述参考人像变化特征信息,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流。

    16、可选地,所述根据所述音频数据和所述目标视频帧,生成人像动作预测信息,包括:

    17、将所述音频数据转换为文字信息;

    18、根据所述文字信息和所述目标视频帧,生成人像动作预测信息。

    19、可选地,还包括:

    20、在检测到针对所述目标会议终端的第二触发事件的情况下,对接收到所述目标会议终端上传的视频流进行指定时长的加速播放。

    21、一种视频会议中视频预测处理的装置,所述装置包括:

    22、数据流和视频帧获取模块,用于在检测到针对目标会议终端的第一触发事件的情况下,获取所述目标会议终端采集的至少包含音频数据的数据流和目标视频帧;其中,所述目标视频帧为检测到所述第一触发事件前最后的n个视频帧,n大于等于1;

    23、人像动作预测信息生成模块,用于根据所述音频数据和所述目标视频帧,生成人像动作预测信息;

    24、视频流合成模块,用于根据所述至少包含音频数据的数据流、所述目标视频帧,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,并将所述视频流发送至其他会议终端。

    25、一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的视频会议中视频预测处理的方法。

    26、一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的视频会议中视频预测处理的方法。

    27、本发明实施例具有以下优点:

    28、在本发明实施例中,通过在检测到针对目标会议终端的第一触发事件的情况下,获取目标会议终端采集的至少包含音频数据的数据流和目标视频帧,目标视频帧为检测到第一触发事件前最后的n个视频帧,然后根据音频数据和目标视频帧,生成人像动作预测信息,根据至少包含音频数据的数据流、目标视频帧,以及人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,并将视频流发送至其他会议终端,实现了根据人像动作预测信息来进行视频流合成,进而能够在视频会议中出现音视频都出现卡顿时,通过获取到的音频和部分帧画面补全缺失的帧画面,提升视频流质量。

    29、而且,通过根据会议终端上传的音频数据合成视频流,降低了会议终端上传数据对带宽等方面的要求,能够以较低的带宽来上传数据且能够保持其他终端显示高清视频会议画面,进而能够弥补由于非高清拍摄、带宽波动较大等原因导致视频流难以满足需求的情况。



    技术特征:

    1.一种视频会议中视频预测处理的方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述根据至少包含音频数据的数据流、所述目标视频帧,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    3.根据权利要求2所述的方法,其特征在于,所述数据流还包含根据所述目标会议终端采集的视频流生成的视频特征属性信息,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    4.根据权利要求2所述的方法,其特征在于,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    5.根据权利要求4所述的方法,其特征在于,所述数据流还包含根据所述目标会议终端采集的视频流生成的视频特征属性信息,所述根据所述至少包含音频数据的数据流、所述目标视频帧、所述目标图像数据、所述参考人像变化特征信息,以及所述人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,包括:

    6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述音频数据和所述目标视频帧,生成人像动作预测信息,包括:

    7.根据权利要求1所述的方法,其特征在于,还包括:

    8.一种视频会议中视频预测处理的装置,其特征在于,所述装置包括:

    9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频会议中视频预测处理的方法。

    10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视频会议中视频预测处理的方法。


    技术总结
    本发明实施例提供了一种视频会议中视频预测处理的方法、装置、设备及介质,所述方法包括:在检测到针对目标会议终端的第一触发事件的情况下,获取目标会议终端采集的至少包含音频数据的数据流和目标视频帧;其中,目标视频帧为检测到第一触发事件前最后的N个视频帧;根据音频数据和目标视频帧,生成人像动作预测信息;根据至少包含音频数据的数据流、目标视频帧,以及人像动作预测信息,进行视频流合成,得到用于呈现数字人像的视频流,并将视频流发送至其他会议终端。通过本发明实施例,实现了根据人像动作预测信息来进行视频流合成,进而能够在视频会议中出现音视频都出现卡顿时,通过获取到的音频和部分帧画面补全缺失的帧画面。

    技术研发人员:张鉴石,曹裕民,方东,杨春晖
    受保护的技术使用者:海南乾唐视联信息技术有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-85073.html

    最新回复(0)