视频处理方法及视频处理装置与流程

专利2022-07-08 131

本申请属于视频处理技术领域，具体涉及一种视频处理方法及视频处理装置。

背景技术：

视频编辑技术是一种针对视频文件进行处理的技术，通常指对视频文件进行剪切、拼凑、添加文字、添加图片、添加音效等编辑操作的技术。目前，视频编辑技术已广泛应用于生活的各个方面。例如通过视频编辑技术对现有视频进行编辑操作，从而制作一些搞笑、逗趣的剪辑视频，发布在各社交网站上供大家日常消遣欣赏。

在通过视频编辑技术处理视频文件过程中，均由操作人员对原视频的视频内容进行分析和判断，然后根据分析和判断的结果对视频进行相应的处理，从而得到符合自己需求的视频文件。

然而，通过人工分析和判断原视频的视频内容，不仅可能会造成疏漏，同时使得整个过程耗时过长。

技术实现要素：

本申请实施例的目的是提供一种视频处理方法及视频处理装置，能够解决现有技术中视频处理过程中人工分析和判断视频内容，可能会造成的疏漏以及耗时过程的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了视频处理方法，所述视频处理方法包括：

获取目标视频和第一目标语音；其中，所述目标视频包括：视频帧以及对应所述视频帧的音频数据；所述第一目标语音包括：目标人物声音；

通过声纹识别确定所述音频数据中的第二目标语音；其中，所述第二目标语音包括与所述目标人物声音相匹配的声音；

根据所述第二目标语音对所述目标视频进行处理，生成目标文件。

第二方面，本申请实施例提供了视频处理装置，所述视频处理装置包括：

获取模块，用于获取目标视频和第一目标语音；其中，所述目标视频包括：视频帧以及对应所述视频帧的音频数据；所述第一目标语音包括：目标人物声音；

声纹识别模块，用于通过声纹识别确定所述音频数据中的第二目标语音；其中，所述第二目标语音包括与所述目标人物声音相匹配的声音；

文件生成模块，用于根据所述第二目标语音对所述目标视频进行处理，生成目标文件。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的视频处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的视频处理方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的视频处理方法。

在本申请实施例中，可以通过声纹识别，确定目标视频中与第一目标语音相匹配的第二目标语音。这里，第二目标语音包括的声音和第一目标语音包括的声音均属于目标人物的声音。进而根据第二目标语音对目标视频进行处理，得到目标视频中与目标人物的声音相关联的目标文件。整个过程无需人工分析和判断，就可以快速准确的在目标视频中确定目标人物的声音，进而得到与目标人物的声音相关联的目标文件，不仅减少了整个过程的时间消耗，同时也可以避免人工疏忽造成的疏漏。

附图说明

图1是本申请实施例提供的视频处理方法的步骤流程图；

图2是本申请实施例获取目标视频的过程展示示意图；

图3是本申请实施例获取第一目标语音的过程展示示意图；

图4是本申请实施例从视频中获取第一目标语音的界面展示图；

图5是本申请实施例提供的视频处理装置的结构框图；

图6是本申请实施例提供的电子设备的硬件结构示意图之一；

图7是本申请实施例提供的电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频处理方法进行详细地说明。

如图1所示，为本申请实施例提供的视频处理方法，该视频处理方法包括：

步骤101，获取目标视频和第一目标语音。

本步骤中，目标视频包括：视频帧以及对应视频帧的音频数据。也就是说在播放目标视频时，将在展示视频帧的同时，播放对应的音频数据。即同时存在声音和画面的视频。在获取目标视频时，可以提供多种方式供用户选择。如图2所示，电子设备的显示单元显示的第一界面21中包括选择视频控件，用户在对选择视频控件进行输入之后，显示单元将显示包括从本地导入控件、从三方导入控件以及视频链接控件的第二界面22。用户对第二界面22中不同的控件进行输入，将采用不同的方式获取目标视频。例如用户对从本地导入控件进行输入，将在电子设备本地获取目标视频。用户对从三方导入控件进行输入，将在第三方软件中获取目标视频。用户对视频链接控件进行输入时，可以输入视频网站的网址，在网址指示的视频网站获取目标视频。这里获取目标视频的方式并不限于图2所示提供三种方式，也可以仅提供其中的任意一种或两种方式。

第一目标语音包括：目标人物声音。这里可以通过录音的方式在目标人物说话时进行录制得到目标人物声音。当然也可以选择已生成的语音文件和视频文件，在语音文件和视频文件中截取第一目标语音。同样的，在获取第一目标语音时，可以提供多种方式供用户选择。如图3所示，电子设备的显示单元显示的第一界面31中包括选择声源控件，用户在对选择声源控件进行输入之后，显示单元将显示包括录入声源控件以及从视频中选择控件的第二界面32。用户对第二界面32中不同的控件进行输入，将采用不同的方式获取第一目标语音。例如用户对录入声源控件进行输入，将开启电子设备的录音模块进行录音，通过将录音模块录入的声音作为第一目标语音。较佳地，录音时长大于30秒。用户对从视频中选择控件进行输入，将提供多个视频供用户选择，在用户选择视频之后接收用户输入的开始时间和结束时间；将用户选择的视频中开始时间和结束时间之间对应的语音作为第一目标语音，可参见图4所示，用户对从视频中选择控件进行输入之后，通过在选择的视频中输入开始时间和结束时间获取第一目标语音。其中，第一目标语音的数量可以为一个或者至少两个。这里获取第一目标语音的方式并不限于图3所示提供两种方式，也可以仅提供其中的任意一种方式。

步骤102，通过声纹识别确定音频数据中的第二目标语音。

本步骤中，第二目标语音包括与目标人物声音相匹配的声音。声纹识别有两种判别方式，一种是说话人辨认，另一种是说话人确认。前者用于判断某段语音是若干人中的哪一个说的，后者用以确认某段语音是否是制定的某个人所说的。本申请中声纹识别采用前一种判别方式。这里通过声纹识别确定的第二目标语音包括的声音与目标人物声音属于同一人物的声音。

步骤103，根据第二目标语音对目标视频进行处理，生成目标文件。

本步骤中，目标文件可以为语音文件或者视频文件；其中，视频文件可以仅包括视频帧，也可以既包含视频帧也包含语音。

本申请实施例中，可以通过声纹识别，确定目标视频中与第一目标语音相匹配的第二目标语音。这里，第二目标语音包括的声音和第一目标语音包括的声音均属于目标人物的声音。进而根据第二目标语音对目标视频进行处理，得到目标视频中与目标人物的声音相关联的目标文件。整个过程无需人工分析和判断，就可以快速准确的在目标视频中确定目标人物的声音，进而得到与目标人物的声音相关联的目标文件，不仅减少了整个过程的时间消耗，同时也可以避免人工疏忽造成的疏漏。

可选地，通过声纹识别确定音频数据中的第二目标语音，包括：

确定目标人物声音的第一声纹特征以及音频数据中不同声音各自对应的第二声纹特征。

本步骤中，利用声纹识别技术可以人物声音的声纹特征，得到目标人物声音对应的第一声纹特征以及音频数据中不同声音各自对应的第二声纹特征。

将音频数据中与目标声纹特征对应的声音确定为第二目标语音；其中，目标声纹特征包括与第一声纹特征相匹配的第二声纹特征。

本步骤中，当两个声音各自对应的声纹特征相匹配时，说明这两个声音是同一人物的声音。因此，这里第二目标语音包括的声音与目标人物声音属于同一人物的声音。

本申请实施例中，利用人物声音的声纹特征，可以在目标视频包括的音频数据中快速准确的确定目标人物的声音。这里，目标人物为目标人物声音指示的人物。

可选地，根据第二目标语音对目标视频进行处理，生成目标文件，包括：

确定第二目标语音在目标视频中的时间区间。

本步骤中，第二目标语音可以为一段语音，也可以为不连续的至少两段语音。这里的时间区间为每段语音的开始时间到结束时间之间的区间。例如确定的第二目标语音在目标视频中的开始时间为3分15秒，结束时间为5分12秒，则时间区间为目标视频中3分15秒到5分12秒之间的区间。

按时间区间截取目标视频的视频帧，得到目标视频片段。

本步骤中，每一个时间区间对应一个目标视频片段，每个目标视频片段为目标视频中目标视频片段对应的时间区间内的视频帧组成的视频片段。

去除目标视频片段中的目标元素。

本步骤中，目标元素包括：除第一目标人物以外的人物和目标视频背景中的至少一个，第一目标人物包括：目标视频片段中均包含的人物。通常目标视频片段的数量较多，当所有目标视频片段均包含某一个人物时，则认为该人物就是第二目标语音包括的声音指示的人物。目标视频背景即为目标视频中的背景画面。在去除目标视频片段中除第一目标人物以外的人物和目标视频背景之后，目标视频片段将仅保留第一目标人物的影像。

将去除目标元素的目标视频片段确定为目标文件。

本步骤中，可以将得到的所有目标视频片段展示给用户，供用户进行选择。在接收到用户对某一目标视频片段的输入之后，将保存该输入对应的目标视频片段。当然也可以将所有的目标视频片段拼接为一个连续的视频文件，保存拼接后得到的视频文件。

本申请实施例中，第二目标语音包含的声音指示的人物与第一目标语音包括的目标人物声音指示的人物相同，均为目标人物。通过第二目标语音在目标视频中的时间区间，可以在目标视频中截取包含目标人物的视频片段，从而将截取的视频片段作为视频素材供用户使用，同时进一步去除目标视频片段中除第一目标人物以外的人物和目标视频背景中的至少一个，从而自由选择最终目标视频片段中保留的对象。

可选地，根据第二目标语音对目标视频进行处理，生成目标文件，包括：

确定第二目标语音在目标视频中的时间区间。

按时间区间截取目标视频的视频帧，得到第一目标视频片段。

本步骤中，每一个时间区间对应一个第一目标视频片段，每个第一目标视频片段为目标视频中第一目标视频片段对应的时间区间内的视频帧组成的视频片段。

确定第一目标视频片段中均包含的第一目标人物。

本步骤中，通常第一目标视频片段的数量较多，当所有第一目标视频片段均包含某一个人物时，则认为该人物就是第二目标语音包括的声音指示的人物，即第一目标人物。

截取剩余视频中包含第一目标人物的视频帧，得到第二目标视频片段。

本步骤中，剩余视频包括目标视频中除第一目标视频片段之外的视频。这里，在目标视频中可能存在第一目标人物出现之后没有发声的场景。第二目标视频片段即为这些场景对应的视频片段。

将第一目标视频片段以及第二目标视频片段确定为目标文件。

本步骤中，可以将得到的所有第一目标视频片段以及第二目标视频片段展示给用户，供用户进行选择。在接收到用户对某一第一目标视频片段或者第二目标视频片段的输入之后，将保存该输入对应的第一目标视频片段或者第二目标视频片段。当然也可以将所有的第一目标视频片段以及第二目标视频片段拼接为一个连续的视频文件，保存拼接后得到的视频文件。

本申请实施例中，第二目标语音包括的声音指示的人物与第一目标语音包括的目标人物声音指示的人物相同，均为目标人物。通过第二目标语音在目标视频中的时间区间，可以在目标视频中截取包含目标人物的第一目标视频片段；并且通过第一目标视频片段均包含的人物，在剩余视频中截取同样包含目标人物的第二目标视频片段，将第一目标视频片段和第二目标视频片段作为视频素材供用户使用。

可选地，根据第二目标语音对目标视频进行处理，生成目标文件，包括：

确定第二目标语音在目标视频中的第一时间区间。

本步骤中，第二目标语音可以为一段语音，也可以为不连续的至少两段语音。这里的第一时间区间为每段语音的开始时间到结束时间之间的区间。例如确定的第二目标语音在目标视频中的开始时间为3分15秒，结束时间为5分12秒，则第一时间区间为目标视频中3分15秒到5分12秒之间的区间。

确定第三目标语音在目标视频中的第二时间区间。

本步骤中，第三目标语音和第二目标语音在目标视频中的时间间隔小于预设时间阈值。在满足该条件时，可以认为第三目标语音和第二目标语音之间在进行互动。这里第三目标语音可以一段语音或者多段不连续的语音。较佳地，每段语音仅包含一个人物的声音。

按第一时间区间和第二时间区间截取目标视频的视频帧，得到目标视频片段。

本步骤中，每一个第一时间区间和每一个第二时间区间分别对应一个目标视频片段。也就是说，每个目标视频片段为目标视频中目标视频片段对应的时间区间内的视频帧组成的视频片段。这里的时间区间可以为第一时间区间或者第二时间区间。

将目标视频片段确定为目标文件。

本申请实施例中，第二目标语音包括的声音指示的人物与第一目标语音包括的目标人物声音指示的人物相同，均为目标人物。通过第二目标语音在目标视频中的时间区间，可以在目标视频中截取包含目标人物的视频片段。由于第三目标语音和第二目标语音在目标视频中的时间间隔小于预设时间阈值。所以通过第三目标语音在目标视频中的第二时间区间，可以在目标视频中截取与目标人物互动的人物的视频片段。从而将截取的视频片段作为视频素材供用户使用。

可选地，在按第一时间区间和第二时间区间截取目标视频的视频帧，得到目标视频片段的步骤之后，视频处理方法还包括：

去除目标视频片段中的目标元素。

本步骤中，目标元素包括：除第一目标人物和第二目标人物以外的人物，第一目标人物包括：按第一时间区间截取的视频帧中均包含的人物，第二目标人物包括：按第二时间区间截取的视频帧中均包含的人物。当然目标元素还可以包括目标视频背景。

将目标视频片段确定为目标文件，包括：

将去除目标元素的目标视频片段确定为目标文件。

本申请实施例中，可以去除目标视频片段中除第一目标人物和第二目标人物之外的人物，从而自由选择最终目标视频片段中保留的对象。

可选地，根据与第二目标语音相关联的音频数据，生成目标文件，包括：

在目标视频中截取第二目标语音，生成目标文件。

这里，目标文件仅保留了目标视频中目标人物的声音。这里，第二目标语音包括的声音指示的人物与第一目标语音包括的目标人物声音指示的人物相同，均为目标人物。较佳的，在生成目标文件之前，还可以在目标视频中截取第三目标语音，其中，第三目标语音和第二目标语音在目标视频中的时间间隔小于预设时间阈值。在满足该条件时，可以认为第三目标语音和第二目标语音之间在进行互动。这里第三目标语音可以一段语音或者多段不连续的语音。较佳地，每段语音仅包含一个人物的声音。根据第二目标语音以及第三目标语音生成目标文件。

本申请实施例中，第二目标语音包括的声音指示的人物与第一目标语音包括的目标人物声音指示的人物相同，均为目标人物。通过截取第二目标语音，可以生成仅包含目标人物声音的目标文件，并将其作为素材供用户使用。

需要说明的是，本申请实施例提供的视频处理方法，执行主体可以为视频处理装置，或者该视频处理装置中的用于执行视频处理方法的控制模块。本申请实施例中以视频处理装置执行视频处理方法为例，说明本申请实施例提供的视频处理装置。

如图5所示，本申请实施例还提供了一种视频处理装置，该装置包括：

获取模块51，用于获取目标视频和第一目标语音；其中，目标视频包括：视频帧以及对应视频帧的音频数据；第一目标语音包括：目标人物声音；

声纹识别模块52，用于通过声纹识别确定音频数据中的第二目标语音；其中，第二目标语音包括与目标人物声音相匹配的声音；

文件生成模块53，用于根据第二目标语音对目标视频进行处理，生成目标文件。

可选地，声纹识别模块52，包括：

声纹单元，用于确定目标人物声音的第一声纹特征以及音频数据中不同声音各自对应的第二声纹特征；

识别单元，用于将音频数据中与目标声纹特征对应的声音确定为第二目标语音；其中，目标声纹特征包括与第一声纹特征相匹配的第二声纹特征。

可选地，文件生成模块53，包括：

第一确定单元，用于确定第二目标语音在目标视频中的时间区间；

截取单元，用于按时间区间截取目标视频的视频帧，得到目标视频片段；

去除模块，用于去除目标视频片段中的目标元素；目标元素包括：除第一目标人物以外的人物和目标视频背景中的至少一个，第一目标人物包括：目标视频片段中均包含的人物；

第二确定单元，具体用于将去除目标元素的目标视频片段确定为目标文件。

可选地，文件生成模块53，包括：

第一确定单元，用于确定第二目标语音在目标视频中的时间区间；

第一截取单元，用于按时间区间截取目标视频的视频帧，得到第一目标视频片段；

第二确定单元，用于确定第一目标视频片段中均包含的第一目标人物；

第二截取单元，用于截取剩余视频中包含第一目标人物的视频帧，得到第二目标视频片段；其中，剩余视频包括目标视频中除第一目标视频片段之外的视频；

第三确定单元，用于将第一目标视频片段以及第二目标视频片段确定为目标文件。

可选地，文件生成模块53，包括：

第一确定单元，用于确定第二目标语音在目标视频中的第一时间区间；

第二确定单元，用于确定第三目标语音在目标视频中的第二时间区间；其中，第三目标语音和第二目标语音在目标视频中的时间间隔小于预设时间阈值；

截取单元，用于按第一时间区间和第二时间区间截取目标视频的视频帧，得到目标视频片段；

第三确定单元，用于将目标视频片段确定为目标文件。

可选地，视频处理装置还包括：

去除模块，用于去除目标视频片段中的目标元素；目标元素包括：除第一目标人物和第二目标人物以外的人物，第一目标人物包括：按第一时间区间截取的视频帧中均包含的人物，第二目标人物包括：按第二时间区间截取的视频帧中均包含的人物；

第三确定单元，具体用于将去除目标元素的目标视频片段确定为目标文件。

可选地，文件生成模块53，具体用于在目标视频中截取第二目标语音，生成目标文件。

本申请实施例中的视频处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，umpc)、上网本或者个人数字助理(personaldigitalassistant，pda)等，非移动电子设备可以为服务器、网络附属存储器(networkattachedstorage，nas)、个人计算机(personalcomputer，pc)、电视机(television，tv)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频处理装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频处理装置能够实现图1的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601，存储器602，存储在存储器602上并可在所述处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

处理器710，用于获取目标视频和第一目标语音；其中，目标视频包括：视频帧以及对应视频帧的音频数据；第一目标语音包括：目标人物声音；

处理器710，还用于通过声纹识别确定音频数据中的第二目标语音；其中，第二目标语音包括与目标人物声音相匹配的声音；

处理器710，还用于根据第二目标语音对目标视频进行处理，生成目标文件。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(graphicsprocessingunit，gpu)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器709可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

技术特征：

1.一种视频处理方法，其特征在于，所述视频处理方法包括：

获取目标视频和第一目标语音；其中，所述目标视频包括：视频帧以及对应所述视频帧的音频数据；所述第一目标语音包括：目标人物声音；

通过声纹识别确定所述音频数据中的第二目标语音；其中，所述第二目标语音包括与所述目标人物声音相匹配的声音；

根据所述第二目标语音对所述目标视频进行处理，生成目标文件。

2.根据权利要求1所述的视频处理方法，其特征在于，根据所述第二目标语音对所述目标视频进行处理，生成目标文件，包括：

确定所述第二目标语音在所述目标视频中的时间区间；

按所述时间区间截取所述目标视频的视频帧，得到目标视频片段；

去除所述目标视频片段中的目标元素；所述目标元素包括：除第一目标人物以外的人物和目标视频背景中的至少一个，所述第一目标人物包括：所述目标视频片段中均包含的人物；

将去除所述目标元素的所述目标视频片段确定为所述目标文件。

3.根据权利要求1所述的视频处理方法，其特征在于，根据所述第二目标语音对所述目标视频进行处理，生成目标文件，包括：

确定所述第二目标语音在所述目标视频中的时间区间；

按所述时间区间截取所述目标视频的视频帧，得到第一目标视频片段；

确定所述第一目标视频片段中均包含的第一目标人物；

截取剩余视频中包含所述第一目标人物的视频帧，得到第二目标视频片段；其中，所述剩余视频包括所述目标视频中除所述第一目标视频片段之外的视频；

将所述第一目标视频片段以及所述第二目标视频片段确定为目标文件。

4.根据权利要求1所述的视频处理方法，其特征在于，根据所述第二目标语音对所述目标视频进行处理，生成目标文件，包括：

确定所述第二目标语音在所述目标视频中的第一时间区间；

确定第三目标语音在所述目标视频中的第二时间区间；其中，所述第三目标语音和所述第二目标语音在所述目标视频中的时间间隔小于预设时间阈值；

按所述第一时间区间和所述第二时间区间截取所述目标视频的视频帧，得到目标视频片段；

将所述目标视频片段确定为所述目标文件。

5.根据权利要求4所述的视频处理方法，其特征在于，在所述按所述第一时间区间和所述第二时间区间截取所述目标视频的视频帧，得到目标视频片段的步骤之后，所述视频处理方法还包括：

去除所述目标视频片段中的目标元素；所述目标元素包括：除第一目标人物和第二目标人物以外的人物，所述第一目标人物包括：按所述第一时间区间截取的视频帧中均包含的人物，所述第二目标人物包括：按所述第二时间区间截取的视频帧中均包含的人物；

所述将所述目标视频片段确定为所述目标文件，包括：

将去除所述目标元素的所述目标视频片段确定为所述目标文件。

6.一种视频处理装置，其特征在于，所述视频处理装置包括：

声纹识别模块，用于通过声纹识别确定所述音频数据中的第二目标语音；其中，所述第二目标语音包括与所述目标人物声音相匹配的声音；

文件生成模块，用于根据所述第二目标语音对所述目标视频进行处理，生成目标文件。

7.根据权利要求6所述的视频处理装置，其特征在于，所述文件生成模块，包括：

第一确定单元，用于确定所述第二目标语音在所述目标视频中的时间区间；

截取单元，用于按所述时间区间截取所述目标视频的视频帧，得到目标视频片段；

去除模块，用于去除所述目标视频片段中的目标元素；所述目标元素包括：除第一目标人物以外的人物和目标视频背景中的至少一个，所述第一目标人物包括：所述目标视频片段中均包含的人物；

第二确定单元，具体用于将去除所述目标元素的所述目标视频片段确定为所述目标文件。

8.根据权利要求6所述的视频处理装置，其特征在于，所述文件生成模块，包括：

第一确定单元，用于确定所述第二目标语音在所述目标视频中的时间区间；

第一截取单元，用于按所述时间区间截取所述目标视频的视频帧，得到第一目标视频片段；

第二确定单元，用于确定所述第一目标视频片段中均包含的第一目标人物；

第二截取单元，用于截取剩余视频中包含所述第一目标人物的视频帧，得到第二目标视频片段；其中，所述剩余视频包括所述目标视频中除所述第一目标视频片段之外的视频；

第三确定单元，用于将所述第一目标视频片段以及所述第二目标视频片段确定为目标文件。

9.根据权利要求6所述的视频处理装置，其特征在于，所述文件生成模块，包括：

第一确定单元，用于确定所述第二目标语音在所述目标视频中的第一时间区间；

第二确定单元，用于确定第三目标语音在所述目标视频中的第二时间区间；其中，所述第三目标语音和所述第二目标语音在所述目标视频中的时间间隔小于预设时间阈值；

截取单元，用于按所述第一时间区间和所述第二时间区间截取所述目标视频的视频帧，得到目标视频片段；

第三确定单元，用于将所述目标视频片段确定为所述目标文件。

10.根据权利要求9所述的视频处理装置，其特征在于，所述视频处理装置还包括：

去除模块，用于去除所述目标视频片段中的目标元素；所述目标元素包括：除第一目标人物和第二目标人物以外的人物，所述第一目标人物包括：按所述第一时间区间截取的视频帧中均包含的人物，所述第二目标人物包括：按所述第二时间区间截取的视频帧中均包含的人物；

所述第三确定单元，具体用于将去除所述目标元素的所述目标视频片段确定为所述目标文件。

技术总结
本申请公开了一种视频处理方法及视频处理装置，属于视频处理技术领域。该视频处理方法包括：获取目标视频和第一目标语音；其中，所述目标视频包括：视频帧以及对应所述视频帧的音频数据；所述第一目标语音包括：目标人物声音；通过声纹识别确定所述音频数据中的第二目标语音；其中，所述第二目标语音包括与所述目标人物声音相匹配的声音；根据第二目标语音对目标视频进行处理，生成目标文件。本申请无需人工分析和判断，就可以快速准确的在目标视频中确定目标人物的声音，进而得到与目标人物的声音相关联的目标文件，不仅减少了整个过程的时间消耗，同时也可以避免人工疏忽造成的疏漏。

技术研发人员：曹岱
受保护的技术使用者：维沃移动通信(深圳)有限公司
技术研发日：2020.11.30
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-21478.html

专利

最新回复(0)