视频文件的标签生成方法、装置、智能终端及存储介质与流程

专利2022-07-08 115

本发明涉及视频标签生成技术领域，尤其涉及视频文件的标签生成方法、装置、智能终端及存储介质。

背景技术：

现有技术中，对于视频文件的标签基本都是用户自己手动设置的，比如，用户在下载完该视频文件后，手动为该视频文件设置标签信息，以实现对该视频文件的分类。但是这样操作十分繁琐，给用户带来了不便。

因此，现有技术还有待改进和提高。

技术实现要素：

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种视频文件的标签生成方法、装置、智能终端及存储介质，旨在解决现有技术中手动为该视频文件设置标签信息的操作十分繁琐，给用户带来了不便的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

第一方面，本发明提供一种视频文件的标签生成方法，其中，所述方法包括：

获取视频文件中的音频数据；

根据所述音频数据确定所述音频数据对应的关键词信息；

根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

在一种实现方式中，所述获取视频文件中的音频数据，包括：

获取所述视频文件；

对所述视频文件进行音频与视频之间的分离，得到所述视频文件中的音频数据，所述音频数据包括台词人声数据与背景音数据。

在一种实现方式中，所述根据所述音频数据确定所述音频数据对应的关键词信息，包括：

获取所述音频数据中的台词人声数据；

对所述台词人声数据进行语音识别，确定所述人声数据对应的语义信息；

根据所述语义信息，确定所述语义信息所对应的关键词信息。

在一种实现方式中，所述根据所述音频数据确定所述音频数据对应的关键词信息，包括：

获取所述音频数据中的背景音数据；

根据所述背景音数据，对所述背景音数据进行分析，确定背景音数据对应曲调信息；

根据所述曲调信息，确定所述音频数据对应的关键词信息。

在一种实现方式中，所述根据所述曲调信息，确定所述音频数据对应的关键词信息，包括：

获取所述曲调信息中的歌声信息以及所述曲调信息对应的情感特征；

根据所述歌声信息以及所述情感特征，确定所述背景音数据的歌曲信息，并将所述歌曲信息作为所述关键词信息。

在一种实现方式中，所述根据所述关键词信息，生成与所述关键词信息对应的标签信息，包括：

获取所述关键信息，并对所述关键词信息进行数据清洗，得到有效关键词；

根据所述有效关键词，确定所述有效关键词所对应的标签信息。

在一种实现方式中，所述根据所述有效关键词，确定所述有效关键词所对应的标签信息，包括：

将所述有效关键词与预设的标签数据库进行匹配，所述标签数据库中存储有若干关键词以及与若干关键词一一对应的标签信息；

确定与所述有效关键词匹配成功的标签信息。

第二方面，本发明实施例还提供一种视频文件的标签生成方法，其中，所述方法包括：

音频数据获取模块，用于获取视频文件中的音频数据；

关键词信息获取模块，用于根据所述音频数据确定所述音频数据对应的关键词信息；

标签信息生成模块，用于根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

第三方面，本发明实施例还提供一种智能终端，其中，所述智能终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文件的标签生成程序，所述视频文件的标签生成程序被所述处理器执行时，实现如上述方案中任意一项所述的视频文件的标签生成方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，其中，其上存储有视频文件的标签生成程序，所述视频文件的标签生成程序被处理器执行时，实现上述方案中任一项所述的视频文件的标签生成方法的步骤。

有益效果：与现有技术相比，本发明提供了一种视频文件的标签生成方法，首先，本发明获取视频文件中的音频数据；然后根据所述音频数据确定所述音频数据对应的关键词信息；最后根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。由此可见，本发明是通过视频文件中的音频数据所对应的关键词信息来确定出该视频文件所对应的标签信息的，并将所述标签信息关联至视频文件中，从而实现对该视频文件的分类，无需手动操作，给用户的使用提供了方便。

附图说明

图1为本发明实施例提供的视频文件的标签生成方法的具体实施方式的流程图。

图2是本发明实施例提供的视频文件的标签生成装置的原理框图。

图3是本发明实施例提供的智能终端的内部结构原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

为了解决现有技术的问题，本实施例提供一种视频文件的标签生成方法，通过本实施例的方法，可实现对视频文件自动打上标签信息，并且该标签信息是基于视频文件中的音频数据确定的。具体地，本实施例首先获取视频文件中的音频数据；然后根据所述音频数据确定所述音频数据对应的关键词信息；最后根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。由此可见，本发明是通过视频文件中的音频数据所对应的关键词信息来确定出该视频文件所对应的标签信息的，并将所述标签信息关联至视频文件中，从而实现对该视频文件的分类，无需手动操作，给用户的使用提供了方便。

示例性方法

本实施例中的视频文件的标签生成方法可应用于智能终端中，如图1中所示，该视频文件的标签生成方法具体包括如下步骤：

步骤s100、获取视频文件中的音频数据。

在本实施例中，所述视频文件可用户从网页上或者视频播放器下载的视频，比如可以为电视剧的剧集或者短视频。为了使得对所述视频文件进行标签信息的添加，可首先获取到该视频文件。由于视频文件中存在视频画面以及音频数据，而音频数据是可以体现及反映出该视频文件所真正表现的内容，且由于音频数据是具备语义的，因此本实施例可利用语义识别技术来对视频文件中的音频数据进行分析，从而确定出该音频数据所对应的标签信息，从而得到视频文件的标签信息。

具体地，所述步骤s100具体包括如下步骤:

步骤s101、获取所述视频文件；

步骤s102、对所述视频文件进行音频与视频之间的分离，得到所述视频文件中的音频数据，所述音频数据包括台词人声数据与背景音数据。

具体实施时，本实施例在获取到所述视频文件后，需要从所述视频文件中获取得到音频数据。而由于视频文件中是包括有视频数据和音频数据的，因此，本实施例是需要对所述视频文件进行音频与视频之间的分离，得到所述视频文件中的音频数据。在一种实现方式中，在进行视频和音频分离时，本实施例可采用分割技术，将视频文件中的视频数据和音频数据分割出来。或者，本实施例还可以采用深度学习技术，通过预先构建一个深度学习网络模型，该网络模型是可以实现自动对视频文件中的视频数据和音频数据进行分离的，从而实现准确分离所述视频文件中的视频数据和音频数据。

由于视频文件是一个具有图像以及声音的视频，并且该视频文件的音频数据是具有台词人声数据和背景音数据的，比如，在一段电视剧集的片段的视频文件中，演员的台词是台词人声数据的，而该片段中所播放的背景音乐是背景音数据的。因此在对音频数据进行分析时，是需要对台词人声数据以及背景音数据分别来进行分析的。这样才可以准确地分析出音频数据所对的关键词信息以及对应的标签信息。

步骤s200、根据所述音频数据确定所述音频数据对应的关键词信息。

由于所述视频文件中的音频数据是包括有台词人声数据和背景音数据的，因此在确定音频数据的关键词信息时，是需要对台词人声数据以及背景音数据分别来进行分析的。在本实施例中，所述关键词信息指的是用来反映音频数据类型以及内容的关键词。因此，本实施例可在得到所述音频数据后，对所述音频数据进行分析，并确定所述音频数据所对应的关键词信息，以便后续步骤中根据所述关键词信息来确定出对应的标签信息。

在一种实现方式中，所述步骤s200具体包括如下步骤：

步骤s201、获取所述音频数据中的台词人声数据；

步骤s202、对所述台词人声数据进行语音识别，确定所述人声数据对应的文本信息；

步骤s203、根据所述文本信息，根据自然语言处理技术确定所述语义信息以及应的关键词信息。

具体实施时，本实施例中的音频数据中是包括有台词人声数据的，而台词人声数据是包括有视频内容的(即该视频文件中所表现出的内容)，因此本实施例可通过语音识别来对该台词人声数据进行文本识别，得到该台词人声数据的文本信息，当识别出文本信息后就可以通过自然语言处理技术，对文本进行语义理解，进行文本分类、噪声消除、命名实体识别获取文本中的语义，并确定出该语义信息中的关键词信息。在本实施例中，从台词人声数据中所识别出的文本信息，通过对文本信息再处理得到语义信息，从语义信息语义信息包括该音频数据的情感分类、关键词。即确定出该视频文件的情感分类与关键词。

在另一种实现方式中，所述步骤s200还可以包括：

步骤s201、获取所述音频数据中的背景音数据；

步骤s202、根据所述背景音数据，对所述背景音数据进行分析，确定背景音数据对应曲调信息；

步骤s203、根据所述曲调信息，确定所述音频数据对应的关键词信息。

在本实施例中，当对所述音频数据中的背景音数据中确定出对应的关键词信息时，本实施例可对该背景音数据进行分析。由于背景音数据是该视频文件的背景音乐，而背景音乐的关键词信息指的是该背景音乐的歌曲信息的。因此本实施例需要获取到该背景音数据的歌曲信息。本实施例可首先从所述背景音数据中获取到曲调信息，该曲调信息在一定程度上是可以反映出该背景音数据的歌曲信息。比如，可根据曲调信息识别出该背景音数据所对应的歌曲是哪一首等。因此，本实施例在得到该曲调信息后获取所述曲调信息中的歌声信息以及所述曲调信息对应的情感特征；根据所述歌声信息以及所述情感特征，确定所述背景音数据的歌曲信息，并将所述歌曲信息作为所述关键词信息。在本实施例中，歌声信息可反映出该背景音数据是哪一个位歌手唱的，而情感特征可以反映出该背景音数据对应的曲风，比如可根据情感特征确定该背景音数据是缓慢的抒情风歌曲还是欢快的摇滚歌曲。这样就可以根据歌声信息和情感特征来确定出该背景音数据的关键词信息。以便后续步骤中根据从台词人声数据中识别出关键词信息和从背景音数据中识别出的关键词信息进行整合分析，确定出整个音频数据的关键词信息。

步骤s300、根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

当得到所述关键词信息后，实施例可对关键词信息进行分析，确定出与该关键词信息所对应的标签信息。由于所述关键词信息是从台词人声数据中识别出关键词信息和从背景音数据中识别出的关键词信息进行整合分析得到的，因此是可以准确地判断出该音频数据所对应的关键词信息的，这样根据该关键词信息所得到标签信息就是可以反映出该视频文件的类型，可以更好地实现对视频文件的分类。

在一种实现方式中，所述步骤s300包括：

步骤s301、获取所述关键信息，并对所述关键词信息进行数据清洗，得到有效关键词；

步骤s302、根据所述有效关键词，确定所述有效关键词所对应的标签信息。

具体实施时，本实例可对所有得到的关键词信息进行数据清洗，以提出无效的关键词，比如，当关键词中具有语气词时，可以将语气词删除，以使得得到的关键词信息更为准确，因此当关键词信息经过数据清洗后，即可得到有效关键词。当得到所述有效关键词后，本实施例可将所述有效关键词与预设的标签数据库进行匹配，所述标签数据库中存储有若干关键词以及与若干关键词一一对应的标签信息；这样当将所述有效关键词与标签数据库进行匹配后，即可确定与所述有效关键词匹配成功的标签信息。当得到所述标签信息后即可将该标签信息关联至视频文件中，从而实现对视频文件打标签，当视频文件中具有该标签信息后，即可对该视频文件进行分类。

综上，本实施例提供了一种视频文件的标签生成方法，首先，本实施例获取视频文件中的音频数据；然后根据所述音频数据确定所述音频数据对应的关键词信息；最后根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。由此可见，本实施例是通过视频文件中的音频数据所对应的关键词信息来确定出该视频文件所对应的标签信息的，并将所述标签信息关联至视频文件中，从而实现对该视频文件的分类，无需手动操作，给用户的使用提供了方便。

示例性设备

如图2中所示，本发明实施例提供一种视频文件的标签生成装置，该装置包括：音频数据获取模块10、关键词信息获取模块20、标签信息生成模块30。具体地，所述音频数据获取模块10，用于获取视频文件中的音频数据。所述关键词信息获取模块20，用于根据所述音频数据确定所述音频数据对应的关键词信息。所述标签信息生成模块30，用于根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

在一种实现方式中，所述标识信息获取单元10包括：

视频获取单元，用于获取所述视频文件；

音视分离单元，用于对所述视频文件进行音频与视频之间的分离，得到所述视频文件中的音频数据，所述音频数据包括台词人声数据与背景音数据。

在一种实现方式中，所述关键词信息获取模块20包括：

人声数据获取单元，用于获取所述音频数据中的台词人声数据；

语义识别单元，用哪个与对所述台词人声数据进行语音识别，确定所述人声数据对应的语义信息；

关键词信息第一获取单元，用于根据所述语义信息，确定所述语义信息所对应的关键词信息。

在一种实现方式中，所述关键词信息获取模块20还包括：

背景音数据获取单元，用于获取所述音频数据中的背景音数据；

曲调信息获取单元，用于根据所述背景音数据，对所述背景音数据进行分析，确定背景音数据对应曲调信息；

关键词信息第二获取单元，用于根据所述曲调信息，确定所述音频数据对应的关键词信息。

在一种实现方式中，所述标签信息生成模块30包括：

数据清洗单元，用于获取所述关键信息，并对所述关键词信息进行数据清洗，得到有效关键词；

标签确定单元，用于根据所述有效关键词，确定所述有效关键词所对应的标签信息。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图3所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频文件的标签生成方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏，该智能终端的温度传感器是预先在智能终端内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取视频文件中的音频数据；

根据所述音频数据确定所述音频数据对应的关键词信息；

根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

综上，本发明公开了一种视频文件的标签生成方法、智能终端及存储介质，所述方法包括：获取视频文件中的音频数据；根据所述音频数据确定所述音频数据对应的关键词信息；根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。本发明可为视频文件自动添加相应的标签，以便对视频文件进行自动分类，给用户的使用提供了方便。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种视频文件的标签生成方法，其特征在于，所述方法包括：

获取视频文件中的音频数据；

根据所述音频数据确定所述音频数据对应的关键词信息；

根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

2.根据权利要求1所述的视频文件的标签生成方法，其特征在于，所述获取视频文件中的音频数据，包括：

获取所述视频文件；

对所述视频文件进行音频与视频之间的分离，得到所述视频文件中的音频数据，所述音频数据包括台词人声数据与背景音数据。

3.根据权利要求2所述的视频文件的标签生成方法，其特征在于，所述根据所述音频数据确定所述音频数据对应的关键词信息，包括：

获取所述音频数据中的台词人声数据；

对所述台词人声数据进行语音识别，确定所述人声数据对应的语义信息；

根据所述语义信息，确定所述语义信息所对应的关键词信息。

4.根据权利要求2所述的视频文件的标签生成方法，其特征在于，所述根据所述音频数据确定所述音频数据对应的关键词信息，包括：

获取所述音频数据中的背景音数据；

根据所述背景音数据，对所述背景音数据进行分析，确定背景音数据对应曲调信息；

根据所述曲调信息，确定所述音频数据对应的关键词信息。

5.根据权利要求4所述的视频文件的标签生成方法，其特征在于，所述根据所述曲调信息，确定所述音频数据对应的关键词信息，包括：

获取所述曲调信息中的歌声信息以及所述曲调信息对应的情感特征；

根据所述歌声信息以及所述情感特征，确定所述背景音数据的歌曲信息，并将所述歌曲信息作为所述关键词信息。

6.根据权利要求1所述的视频文件的标签生成方法，其特征在于，所述根据所述关键词信息，生成与所述关键词信息对应的标签信息，包括：

获取所述关键信息，并对所述关键词信息进行数据清洗，得到有效关键词；

根据所述有效关键词，确定所述有效关键词所对应的标签信息。

7.根据权利要求6所述的视频文件的标签生成方法，其特征在于，所述根据所述有效关键词，确定所述有效关键词所对应的标签信息，包括：

将所述有效关键词与预设的标签数据库进行匹配，所述标签数据库中存储有若干关键词以及与若干关键词一一对应的标签信息；

确定与所述有效关键词匹配成功的标签信息。

8.一种视频文件的标签生成方法，其特征在于，所述方法包括：

音频数据获取模块，用于获取视频文件中的音频数据；

关键词信息获取模块，用于根据所述音频数据确定所述音频数据对应的关键词信息；

标签信息生成模块，用于根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。

9.一种智能终端，其特征在于，所述智能终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频文件的标签生成程序，所述视频文件的标签生成程序被所述处理器执行时，实现如权利要求1-7任一项所述的视频文件的标签生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有视频文件的标签生成程序，所述视频文件的标签生成程序被处理器执行时，实现如权利要求1-7任一项所述的视频文件的标签生成方法的步骤。

技术总结
本发明公开了一种视频文件的标签生成方法、装置、智能终端及存储介质，所述方法包括：获取视频文件中的音频数据；根据所述音频数据确定所述音频数据对应的关键词信息；根据所述关键词信息，生成与所述关键词信息对应的标签信息，并将所述标签信息关联至所述视频文件中。本发明可为视频文件自动添加相应的标签，以便对视频文件进行自动分类，给用户的使用提供了方便。

技术研发人员：胡翰涛
受保护的技术使用者：深圳市易平方网络科技有限公司
技术研发日：2020.12.01
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-21475.html

专利

最新回复(0)