语料向量化处理方法、装置、计算机设备及存储介质与流程

    专利2022-07-08  107


    本发明涉及数据处理技术领域,具体而言,涉及一种语料向量化处理方法、装置、计算机设备及存储介质。



    背景技术:

    如今图像处理与自然语言处理的解决方案,都有采用基于深度学习或神经网络的架构。图像处理的粒度是基于像素点的,每个像素点具有具体的图像数值信息(rgb值,灰度值,透明度等)表征,因此图像可以方便应用于深度学习和神经网络中。与图像处理领域不同,自然语言处理的粒度是基于文字的,虽然每个文字具有对应的编码,但是却无法展现出文字的特征,直接运用文字的编码是没有意义的。因此,在自然语言处理领域,对于文字的表征,即文字向量化技术,就成为了其最基础和重要的技术。文字向量化就是将文字映射到具有统一维度的向量,以表征该文字的特征信息。

    而现有技术中,主要是针对英文文字的提供了很多向量化技术,很难或者无法应用于结构化文字的处理,或者应用效果不佳。



    技术实现要素:

    本发明的主要目的在于,提供一种对结构化文字进行处理的语料向量化处理方法、装置、计算机设备及存储介质,至少为解决现有技术中结构化文字处理欠缺的技术问题。

    第一方面,本发明实施例提供了一种语料向量化处理方法,包括如下步骤:

    从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;

    构建所述分词数据对应的结构表征向量;

    基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    第二方面,本发明实施例提供了一种语料向量化处理装置,包括:

    分词模块,用于从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;

    确定模块,用于构建所述分词数据对应的结构表征向量;

    所述确定模块,还用于基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    第三方面,本发明实施例提供了一种计算机设备,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序,以实现上述任一所述的语料向量化处理方法。

    第四方面,本发明实施例提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一所述的语料向量化处理方法。

    本发明实施例提供的语料向量化处理方法、装置、计算机设备及存储介质,通过从语料中提取设定类型的文字数据,对其进行分词处理,并确定分词数据对应的结构表征向量,利用结构表征向量确定分词数据对应的隐层词义表征向量,利用结构化信息进行语料向量化表征能够表征出结构化文字的语义特征,能够更加契合地应用于自然语言处理的相关算法中,提升其相关模型和算法的实用效果。

    附图说明

    为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

    图1是本发明一实施例提供的语料向量化处理方法的流程示意图;

    图2是本发明另一实施例提供的语料向量化处理方法的流程示意图;

    图3是本发明一实施例提供的一种语料向量化处理装置;

    图4是本发明一实施例提供的一种计算机设备的结构示意图。

    具体实施方式

    为了更清楚地说明本申请实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

    如图1所示,本发明实施例提供的一种语料向量化处理方法,可以包括如下步骤。

    步骤s11,从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据。

    本实施例提供的语料向量化处理方法,应用于对语料的处理,该语料可以是,但不限于:单句、短文本、长文本等,在该语料中可以包括一种或多种类型的文字。

    需要说明的是,本实施例的处理方法处理的语料为包含有笔画结构的文字,如中文,日文等。

    例如,语料可以是一篇论文,在该论文中包含有中文文字、英文文字、日文文字、韩文文字等,从语料中提取设定类型的文字数据为:在一篇论文中,提取出其中同一类型的语言,例如提取其中的所需的中文文字数据或所需的英文文字数据或所需的日文文字等。

    进一步地,可采用分词工具(如jieba、snownlp、thulac、nlpir等)对设定类型的文字数据进行分词处理,对于分词处理的规则可根据实际需求进行设定,如根据中文文字的词属性(如,动词、名词等)进行分词,得到一组或多组对应的分词数据;具体的,输入的语料为单个词,分词数据可能为一组;当输入的语料为一句话、一段话或一篇文章,分词数据可能为多组。

    步骤s12,构建所述分词数据对应的结构表征向量。

    将得到的分词数据进行结构分析,并进行向量化处理得到结构表征向量,其中,结构表征向量可以是二维的向量,包括,但不限于,所述分词数据中每个文字的笔画和笔画顺序。

    在一实施例中,所述构建所述分词数据对应的结构表征向量可以包括,但不限于,下述步骤:确定各分词数据中各字的各基本笔画和笔顺,所述基本笔画(如“横”,“竖”,“撇”等)源自基本笔画集,所述基本笔画集可自行定义(如可定义28种中文基本笔画);按照基本笔画集空间维度和笔顺空间维度,建立该词的各字的结构表征矩阵;对所述结构表征矩阵进行向量化展开,得到该词的各字的结构表征向量;合并该词的各字的结构表征向量,得到该词的结构表征向量。

    在一实施方式中,所述该词的各字的结构表征向量的合并方法可以通过多种形式进行,如通过求和或求平均值进行合并;所述向量化展开可以按基本笔画集空间维度展开,也可按笔顺空间维度展开;所述结构表征矩阵的维度独立且可交换,其矩阵性质不变;所述笔顺空间维度由中文文字中最多笔画的汉字决定,设定为中文文字中最多笔画的汉字的笔顺数。

    步骤s13,基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    每个与分词数据对应的结构表征向量,相适应的具有该分词数据的语义,根据得到的结构表征向量对分词数据提取语义特征,构建神经网络模型,通过隐层词义提取网络得到分词数据对应的隐层词义表征向量,该隐层词义表征向量表征分词数据中隐含的深层语义。

    通过从语料中提取设定类型的文字数据,对其进行分词处理,并确定分词数据对应的结构表征向量,利用结构表征向量确定分词数据对应的隐层词义表征向量,利用结构化信息进行语料向量化表征能够表征出结构化文字的语义特征,能够更加契合地应用于自然语言处理的相关算法中,提升其相关模型和算法的实用效果。本专利至少根据结构化文字的特征从笔画和笔顺两个维度进行扩展,将结构化文字里的结构信息融入了词向量中,提高了结构化文字向量的实用性。

    如图2所示,本发明实施例提供的另一种语料向量化处理方法,包括如下步骤:

    步骤s21,从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据。

    步骤s22,从所述分词数据中确定各字对应的笔画信息和笔画顺序信息。

    其中,中文的笔画信息源自基本笔画集,基本笔画集可自行定义,如可定义为“横”,“竖”,“撇”等28种中文基本笔画。

    步骤s23,根据所述笔画信息和所述笔画顺序信息确定各字的结构表征矩阵。

    可按基本笔画空间维度和笔顺空间维度对各词中的各字进行二维表征,得到各词中的各字的结构表征矩阵。

    步骤s24,对所述结构表征矩阵向量化处理得到各字的结构表征向量。

    对各词中的各字的结构表征矩阵进行向量化展开,得到该词的各字的结构表征向量;合并该词的各字的结构表征向量,得到该词的结构表征向量;

    其中,向量化展开可以按笔画空间维度展开,也可按笔顺空间维度展开;结构表征矩阵的维度独立且可交换,其矩阵性质不变;笔顺空间维度由设定类型的结构化文字中最多笔画的文字决定,设定为设定类型的结构化文字中最多笔画的文字的笔顺数。该词的各字的结构表征向量的合并方法可以通过多种形式进行,如通过求和或求平均值进行合并。

    步骤s25,将所述结构表征向量输入预先构建的神经网络模型,输出隐层词义表征向量。其中,本步骤中利用前向传播算法(forwardpropagation)计算神经网络模型中相邻两层神经元之间的参数,并通过非线性函数计算输出隐层词义表征向量。

    值得说明的是,神经网络模型用于提取结构表征向量的隐层语义,如果语料是多个字或词或句,则仍按照先分词的方式,提取每个分词的结构表征向量,然后合并多个分词的结构表征向量(合并的方式可以是结构表征向量之间相加,当然也可以有其他方式),合并之后的结构表征向量输入神经网络模型中。各结构表征向量对应的隐层词义表征向量由数值构成,为稠密向量,稠密向量具有表征该词在所在语料中隐含的深层语义的作用。

    其中,所述神经网络模型包括:浅层神经网络、深度神经网络或用来产生词向量的相关模型word2vec(wordtovector,由词到向量的方法,使用一层神经网络将词向量映射到分布式形式的词向量)。

    隐层词义表征向量的结点w的计算可采用前向传播算法:通过上一层结构表征向量的结点i以及对应的连接权值进行加权和运算,再加上一个偏置项,通过一个非线性函数(即激活函数),如relu,sigmoid等函数,得到本层结点w的输出。

    步骤s26,以所述结构表征向量作为训练目标,将所述隐层词义表征向量输入神经网络模型,输出待训练结构表征向量;在训练过程中,相较于步骤s25的输入、输出为逆过程。

    步骤s27,通过反向传播算法(backpropagation)计算神经网络每一层的每个神经元的损失值;采用梯度下降法计算得到神经网络每一层的每个神经元的参数的梯度,利用损失值和梯度更新神经网络每一层的每个神经元的参数;并利用损失函数计算待训练结构表征向量与所述结构表征向量之间的损失值。

    损失函数(costfunction)的训练目标是通过调整隐层词义提取网络中相邻两层神经元之间的参数来使得待训练结构表征向量与所述结构表征向量之间的损失值达到最小。损失函数可看成是由所有待求参数(权重和偏置等)为自变量的复合函数。

    上述损失函数可以为均方误差函数,以下述公式表示:

    其中,xn表示第n个样本,n表示训练样本总数,l表示神经网路的层数,c表示神经网路的损失函数,y(xn)为输入为xn时对应的真实输出,al(xn)为输入为xn时神经网络最后一层的输出层的输出,也就是神经网络的输出。

    步骤s28,通过训练得到损失函数的损失值满足给定条件下的网络参数,利用训练好的网络参数确定隐层词义提取网络层的参数,得到隐层词义表征向量。

    其中,梯度也是一个向量,包括损失函数对每一个权重的偏导数,梯度总是指向损失函数增长最快的方向。

    采用训练的方式对隐层词义表征向量进行调整更新,使得经过训练的隐层词义表征向量与结构表征向量在分词数据中表达的语义更一致。以结构表征向量为训练目标,通过搭建神经网络模型及损失函数,确定隐层词义表征向量与训练目标之间的损失值,根据该损失值对隐层词义表征向量进行调整更新得到损失值满足给定条件时的隐层词义表征向量,该隐层词义表征向量即为与结构表征向量在分词数据中表达的语义最一致的隐层词义表征向量。

    图3是本发明实施例提供的一种语料向量化处理装置,该装置具体包括:

    分词模块301,用于从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;

    表征模块302,用于构建所述分词数据对应的结构表征向量;

    所述确定模块302,还用于基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    在一实施例中,所述确定模块302,还可以包括:

    结构表征向量子模块3022,用于从所述分词数据中确定各字对应的笔画信息和笔画顺序信息;根据所述笔画信息和所述笔画顺序信息确定各字的结构表征矩阵;对所述结构表征矩阵向量化处理得到各字的结构表征向量。

    在一实施例中,所述确定模块302,还可以包括:

    隐层词义表征向量子模块3021,将所述结构表征向量输入预先构建的神经网络模型,输出隐层词义表征向量。

    在一实施例中,所述语料向量化处理装置还可以包括:调整模块303,用于以所述结构表征向量作为训练目标,将所述隐层词义表征向量输入神经网络模型,输出待训练结构表征向量;通过反向传播算法计算神经网络每一层的每个神经元的损失值,采用梯度下降法计算得到神经网络每一层的每个神经元的参数的梯度,利用损失值和梯度更新神经网络每一层的每个神经元的参数;并利用损失函数计算待训练结构表征向量与所述结构表征向量之间的损失值;通过训练得到损失函数的损失值满足给定条件下的网络参数,利用训练好的网络参数确定隐层词义提取网络层的参数,得到隐层词义表征向量。

    在一实施例中,所述隐层词义提取网络可以包括,但不限于:浅层神经网络、深度神经网络或用来产生词向量的相关模型word2vec。

    本发明实施例中提供的语料向量化处理装置,可应用于语音产品、自然语言处理相关产品、文字处理类产品、人工智能类产品等对结构化文字进行处理的场景中;适用于互联网公司,科技公司等。语料向量化处理装置可以通过在线和离线两种网络环境中应用,需要搭建词向量训练所需的硬件平台(如服务器平台或嵌入式平台)、软件平台(如spark平台,hadoop平台)和编程环境(如java语言环境),以及所需要用到的大数据或机器学习工具包等。

    图4为本发明实施例提供的一种的计算机设备的结构示意图,图4所示的计算机设备400包括:至少一个处理器401、存储器402、至少一个网络接口404和其他用户接口403。计算机设备400中的各个组件通过总线系统405耦合在一起。可理解,总线系统405用于实现这些组件之间的连接通信。总线系统405除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统405。

    其中,用户接口403可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

    可以理解,本发明实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,rom)、可编程只读存储器(programmablerom,prom)、可擦除可编程只读存储器(erasableprom,eprom)、电可擦除可编程只读存储器(electricallyeprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(randomaccessmemory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(staticram,sram)、动态随机存取存储器(dynamicram,dram)、同步动态随机存取存储器(synchronousdram,sdram)、双倍数据速率同步动态随机存取存储器(doubledataratesdram,ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,esdram)、同步连接动态随机存取存储器(synchlinkdram,sldram)和直接内存总线随机存取存储器(directrambusram,drram)。本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。

    在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统4021和应用程序4022。

    其中,操作系统4021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序4022,包含各种应用程序,例如媒体播放器(mediaplayer)、浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序4022中。

    在本发明实施例中,通过调用存储器402存储的程序或指令,具体的,可以是应用程序4022中存储的程序或指令,处理器401用于执行上述各方法实施例所提供的方法步骤。

    上述本发明实施例揭示的方法可以应用于处理器401中,或者由处理器401实现。处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成上述方法的步骤。

    可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuits,asic)、数字信号处理器(digitalsignalprocessing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

    对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

    本实施例提供的计算机设备可以是如图4中所示的计算机设备,可执行如图1-2中控制方法的所有步骤,进而实现图1-2所示控制方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。

    本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。

    当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中的语料向量化处理方法的至少一个步骤。

    所述处理器用于执行存储器中存储的控制程序,以实现上述各实施例中的语料向量化处理方法的至少一个步骤。

    专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

    结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

    以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


    技术特征:

    1.一种语料向量化处理方法,其特征在于,包括如下步骤:

    从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;

    构建所述分词数据对应的结构表征向量;

    基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    2.根据权利要求1所述的语料向量化处理方法,其特征在于,所述构建所述分词数据对应的结构表征向量,包括:

    从所述分词数据中确定各字对应的笔画信息和笔画顺序信息;

    根据所述笔画信息和所述笔画顺序信息确定各字的结构表征矩阵;

    对所述结构表征矩阵向量化处理得到各字的结构表征向量。

    3.根据权利要求1所述的语料向量化处理方法,其特征在于,所述基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量,包括:

    将所述结构表征向量输入预先构建的神经网络模型,输出隐层词义表征向量。

    4.根据权利要求3所述的语料向量化处理方法,其特征在于,所述基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量,还包括:

    以所述结构表征向量作为训练目标,将所述隐层词义表征向量输入神经网络模型,输出待训练结构表征向量;

    通过反向传播算法计算神经网络每一层的每个神经元的损失值,采用梯度下降法计算得到神经网络每一层的每个神经元的参数的梯度,利用损失值和梯度更新神经网络每一层的每个神经元的参数;并利用损失函数计算待训练结构表征向量与所述结构表征向量之间的损失值;

    通过训练得到损失函数的损失值满足给定条件下的网络参数,利用训练好的神经网络参数确定隐层词义提取网络层的参数,得到隐层词义表征向量。

    5.一种语料向量化处理装置,其特征在于,包括:

    分词模块,用于从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;

    确定模块,用于构建所述分词数据对应的结构表征向量;

    所述确定模块,还用于基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。

    6.根据权利要求5所述的语料向量化处理装置,其特征在于,所述确定模块,还包括:

    结构表征向量子模块,用于从所述分词数据中确定各字对应的笔画信息和笔画顺序信息;根据所述笔画信息和所述笔画顺序信息确定各字的结构表征矩阵;对所述结构表征矩阵向量化处理得到各字的结构表征向量。

    7.根据权利要求5所述的语料向量化处理装置,其特征在于,所述确定模块,包括:

    隐层词义表征向量子模块,将所述结构表征向量输入预先构建的神经网络模型,输出隐层词义表征向量。

    8.根据权利要求7所述的语料向量化处理装置,其特征在于,还包括,调整模块,用于以所述结构表征向量作为训练目标,将所述隐层词义表征向量输入神经网络模型,输出待训练结构表征向量;通过反向传播算法计算神经网络每一层的每个神经元的损失值,采用梯度下降法计算得到神经网络每一层的每个神经元的参数的梯度,利用损失值和梯度更新神经网络每一层的每个神经元的参数;并利用损失函数计算待训练结构表征向量与所述结构表征向量之间的损失值;通过训练得到损失函数的损失值满足给定条件下的网络参数,利用训练好的网络参数确定隐层词义提取网络层的参数,得到隐层词义表征向量。

    9.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序,以实现权利要求1-4中任一所述的语料向量化处理方法。

    10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1-4中任一所述的语料向量化处理方法。

    技术总结
    本发明提供了一种语料向量化处理方法、装置、计算机设备及存储介质,涉及数据处理技术领域,所述方法,包括如下步骤:从语料中提取设定类型的文字数据,对所述文字数据进行分词处理得到分词数据;构建所述分词数据对应的结构表征向量;基于所述结构表征向量确定所述分词数据对应的隐层词义表征向量。利用结构化信息进行语料向量化表征能够表征出结构化文字的语义特征,能够更加契合地应用于自然语言处理的相关算法中,提升其相关模型和算法的实用效果。

    技术研发人员:胡恒
    受保护的技术使用者:中兴通讯股份有限公司
    技术研发日:2019.08.22
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-20006.html

    最新回复(0)