行业分类方法、装置、终端设备及存储介质与流程

    专利2022-07-08  116


    本发明涉及计算机技术领域,具体涉及一种行业分类方法、装置、终端设备及存储介质。



    背景技术:

    随着企业数量的爆发式增长以及企业之间合作网络的复杂和多样化,企业的物流诉求会更加强烈和多样化。作为联系供应链以及合作企业之间的纽带,物流企业需要承接跨行业的服务需求。立足于此场景,精确地识别企业在物流领域的行业标签,有利于物流企业推广定制化的物流服务,提供更精准的行业分析报告,从而立足于行业发展现状,更好地推动供应链上下游资源整合。

    现有技术主要是根据通用的分类标准,利用人工,规则,或者是机器学习算法等手段对企业的行业进行分类,但是目前还没有专门针对物流场景下的行业标签识别方法。直接复用现有行业分类成果或者移植现有技术来解决针对物流场景下的行业标签识别问题存在一定的局限性。

    由于现有的行业分类方法是针对通用场景的,不符合物流场景下行业标签定制化的需求,例如在通用的行业分类问题的定义中,每个企业只能从属于一个行业,行业标签的定义和通用的逻辑并不完全契合,有些通用的行业标签比较笼统,不够细化。



    技术实现要素:

    本发明实施例提供一种行业分类方法、装置、终端设备及存储介质,在行业分来中加入关键词信息的考量,自动进行分类得到多个行业标签,解决了现有技术人工分类带来的低效,不准确的问题,提高了行业标签分类的准确性、多样性,同时提高了行业分类效率。

    一方面,本申请提供一种行业分类方法,所述行业分类方法,包括:

    获取物流平台上目标企业的业务信息;

    根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    根据所述词向量矩阵提取关键词信息,得到关键向量;

    根据所述关键向量,确定所述目标企业的多个行业标签。

    在本申请一些实施例中,所述业务信息包括经营范围信息和托寄物信息,所述根据所述业务信息,计算所述目标企业对应的词向量矩阵,包括:

    根据所述目标企业的经营范围信息,计算第一词向量矩阵;

    根据所述托寄物信息,计算第二词向量矩阵。

    在本申请一些实施例中,所述根据所述目标企业的经营范围信息,计算第一词向量矩阵,包括:

    对所述经营范围信息对应的文本进行分词处理,获取预设数目的词汇;

    根据所述预设数目的词汇,确定词序列;

    根据所述词序列,计算第一词向量矩阵。

    在本申请一些实施例中,所述根据所述预设数目的词汇,确定词序列,包括:

    将所述预设数目的词汇输入预设的词向量模型,输出词序列。

    在本申请一些实施例中,所述根据所述词序列,计算第一词向量矩阵,包括:

    获取所述词向量模型的权重矩阵;

    计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    在本申请一些实施例中,所述根据所述托寄物信息,计算第二词向量矩阵,包括:

    获取物流场景下托寄物对应的分类信息;

    根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别,n为正整数;

    将所述前n名的托寄物类别作为关键词,得到n个关键词对应的词向量;

    对所述n个关键词对应的词向量进行排序组合,得到所述第二词向量矩阵。

    在本申请一些实施例中,所述根据所述词向量矩阵提取关键词信息,得到关键向量,包括:

    根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量;

    根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量。

    在本申请一些实施例中,所述根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量,包括:

    计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量;

    将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量;

    根据所述拼接向量,获取所述目标企业的经营范围的语序信息;

    按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    在本申请一些实施例中,所述根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量,包括:

    获取反映托寄物类别信息重要程度的三角函数位置编码向量;

    将所述第二词向量矩阵与所述三角函数位置编码向量相加,得到和值向量;

    提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量。

    在本申请一些实施例中,所述获取反映托寄物类别信息重要程度的三角函数位置编码向量,包括:

    利用三角函数捕获第二词向量中各向量排序信息,获取排序位置词向量与权重的对应关系,根据第二词向量中各向量排序信息和排序位置词向量与权重的对应关系,确定第二词向量中各向量的权重,根据第二词向量中各向量的权重组成三角函数位置编码向量。

    在本申请一些实施例中,所述根据所述关键向量,确定所述目标企业的多个行业标签,包括:

    对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量;

    利用激活函数对所述第一行业向量进行处理,所述目标企业的第二行业向量;

    对所述第二行业向量进行二值化处理,得到所述目标企业的第三行业向量;

    根据所述第三行业向量,确定所述目标企业的多个行业标签。

    另一方面,本申请提供一种行业分类装置,所述行业分类装置,包括:

    获取单元,用于获取物流平台上目标企业的业务信息;

    计算单元,用于根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    提取单元,用于根据所述词向量矩阵提取关键词信息,得到关键向量;

    确定单元,用于根据所述关键向量,确定所述目标企业的多个行业标签。

    在本申请一些实施例中,所述业务信息包括经营范围信息和托寄物信息,所述计算单元具体用于:

    根据所述目标企业的经营范围信息,计算第一词向量矩阵;

    根据所述托寄物信息,计算第二词向量矩阵。

    在本申请一些实施例中,所述计算单元具体用于:

    对所述经营范围信息对应的文本进行分词处理,获取预设数目的词汇;

    根据所述预设数目的词汇,确定词序列;

    根据所述词序列,计算第一词向量矩阵。

    在本申请一些实施例中,所述计算单元具体用于:

    将所述预设数目的词汇输入预设的词向量模型,输出词序列。

    在本申请一些实施例中,所述计算单元具体用于:

    获取所述词向量模型的权重矩阵;

    计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    在本申请一些实施例中,所述计算单元具体用于:

    获取物流场景下托寄物对应的分类信息;

    根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别,n为正整数;

    将所述前n名的托寄物类别作为关键词,得到n个关键词对应的词向量;

    对所述n个关键词对应的词向量进行排序组合,得到所述第二词向量矩阵。

    在本申请一些实施例中,所述提取单元具体用于:

    根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量;

    根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量。

    在本申请一些实施例中,所述提取单元具体用于:

    计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量;

    将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量;

    根据所述拼接向量,获取所述目标企业的经营范围的语序信息;

    按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    在本申请一些实施例中,所述提取单元具体用于:

    获取反映托寄物类别信息重要程度的三角函数位置编码向量;

    将所述第二词向量矩阵与所述三角函数位置编码向量相加,得到和值向量;

    提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量。

    在本申请一些实施例中,所述提取单元具体用于:利用三角函数捕获第二词向量中各向量排序信息,获取排序位置词向量与权重的对应关系,根据第二词向量中各向量排序信息和排序位置词向量与权重的对应关系,确定第二词向量中各向量的权重,根据第二词向量中各向量的权重组成三角函数位置编码向量。

    在本申请一些实施例中,所述确定单元具体用于:

    对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量;

    利用激活函数对所述第一行业向量进行处理,所述目标企业的第二行业向量;

    对所述第二行业向量进行二值化处理,得到所述目标企业的第三行业向量;

    根据所述第三行业向量,确定所述目标企业的多个行业标签。

    另一方面,本申请还提供一种终端设备,所述终端设备包括:

    一个或多个处理器;

    存储器;以及

    一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现上述的行业分类方法。

    另一方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行上述的行业分类方法中的步骤。

    本发明实施例中通过获取物流平台上目标企业的经营范围信息和托寄物信息;根据所述目标企业的经营范围信息和托寄物信息,计算词向量矩阵;根据所述词向量矩阵提取关键词信息,得到关键向量;根据所述关键向量,确定所述目标企业的多个行业标签。本发明实施例在现有行业分类方法针对通用场景,每个企业的行业标签唯一的基础上,在行业分来中加入关键词信息的考量,自动进行分类得到多个行业标签,解决了现有技术人工分类带来的低效,不准确的问题,提高了行业标签分类的准确性、多样性,同时提高了行业分类效率。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1是本发明实施例提供的行业分类系统的场景示意图;

    图2是本发明实施例中提供的行业分类方法的一个实施例流程示意图;

    图3是本发明实施例中步骤202的一个实施例流程示意图;

    图4是本发明实施例中步骤203的一个实施例流程示意图;

    图5是本发明实施例中步骤204的一个实施例流程示意图;

    图6是本发明实施例中提供的行业分类装置的一个实施例结构示意图;

    图7是本发明实施例中提供的终端设备的一个实施例结构示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

    在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

    在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本发明。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本发明的描述变得晦涩。因此,本发明并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

    本发明实施例提供一种行业分类方法、装置、终端设备及存储介质,以下分别进行详细说明。

    本发明实施例提供一种行业分类方法、装置、终端设备及存储介质。以下分别进行详细说明。

    请参阅图1,图1为本发明实施例所提供的行业分类系统的场景示意图,该行业分类系统可以包括终端设备100,终端设备100中集成有行业分类装置,如图1中的终端设备。

    本发明实施例中终端设备100主要用于获取物流平台上目标企业的业务信息;根据所述业务信息,计算所述目标企业对应的词向量矩阵;根据所述词向量矩阵提取关键词信息,得到关键向量;根据所述关键向量,确定所述目标企业的多个行业标签。

    本发明实施例中,该终端设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本发明实施例中所描述的终端设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(cloudcomputing)的大量计算机或网络服务器构成。

    本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的终端设备,例如图1中仅示出1个终端设备,可以理解的,该行业分类系统还可以包括一个或多个其他服务,具体此处不作限定。

    另外,如图1所示,该行业分类系统还可以包括存储器200,用于存储数据,如存储物流数据,例如物流平台的各种数据,具体如企业的经营范围信息,企业的托寄物信息等。

    需要说明的是,图1所示的行业分类系统的场景示意图仅仅是一个示例,本发明实施例描述的行业分类系统以及场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着行业分类系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。

    首先,本发明实施例中提供一种行业分类方法,所述行业分类方法,包括:获取物流平台上目标企业的业务信息;根据所述业务信息,计算所述目标企业对应的词向量矩阵;根据所述词向量矩阵提取关键词信息,得到关键向量;根据所述关键向量,确定所述目标企业的多个行业标签。

    如图2所示,为本发明实施例中行业分类方法的一个实施例流程示意图,该行业分类方法包括:

    201、获取物流平台上目标企业的业务信息。

    其中,物流平台为物流企业对应的物流服务平台,例如,顺丰的大数据平台等。目标企业为通过物流平台进行收派件的企业,例如,a有限公司等。另外,目标企业的业务信息可以包括目标企业的经营范围信息和托寄物信息,所述目标企业的经营范围可以是目标企业的营业执照经营范围信息,例如某服务公司,营业执照经营范围信息包括:包装盒的设计、制作、产品包装开发、纸盒纸箱包装和塑料制品包装等。所述托寄物信息可以包括目标企业在物流平台上预设时间段(如一个月或一周等)内的历史托寄物信息。

    202、根据所述业务信息,计算所述目标企业对应的词向量矩阵。

    词向量(wordembedding),又叫word嵌入式自然语言处理(nlp)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量可以基于矩阵的分布表示(词向量矩阵),具体的,即构建一个“词-上下文”矩阵,从矩阵中获取词的表示,矩阵中,每行对应一个词,每列表示不同的上下文,矩阵中每个元素对应相关词和上下文的共现信息。

    当所述业务信息包括经营范围信息和托寄物信息时,如图3所示,所述根据所述业务信息,计算所述目标企业对应的词向量矩阵的步骤可以包括:

    301、根据所述目标企业的经营范围信息,计算第一词向量矩阵。

    具体的,在本发明一些实施例中,所述根据所述目标企业的经营范围信息,计算第一词向量矩阵,可以进一步包括:

    (1)对所述经营范围信息对应的文本进行分词处理,获取预设数目的词汇。

    本发明实施例中,针对所述经营范围信息会有对应的文本,对所述经营范围信息对应的文本进行分词处理,去掉停用词,在不改变语序的前提下,可以从前往后获取预设数目(例如5个)的词汇。由于每个企业的经营范围信息对应文本的长短不一,若目标企业未达到预设数目的词汇,通过重复词汇的方式填充,例如预设数目为5个,对所述经营范围信息对应的文本进行分词处理,得到3个词汇,可以将这3个词汇中其中一个或两个词汇进行重复填充,得到5个词汇,以达到预设数目5个词汇。而对于目标企业超过预设数目的词汇,可以进行截取,例如预设数目为5个,对所述经营范围信息对应的文本进行分词处理,得到8个词汇,在其中随机选择5个词汇,或者按照排序顺序选择5个词汇即可。

    (2)根据所述预设数目的词汇,确定词序列。

    数学上,序列是被排成一列的对象(或事件),这样每个元素不是在其他元素之前,就是在其他元素之后。序列中,元素之间的顺序非常重要。本发明实施例中,所述词序列就是指所述预设数目的词汇的排序形成的序列。

    其中,所述根据所述预设数目的词汇,确定词序列,可以包括:将所述预设数目的词汇输入预设的词向量模型,输出词序列。

    本发明实施例中词向量模型可以是word2vec模型,就是一个简单的神经网络结构,word2vec模型是用来产生词向量的相关模型,该模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。

    word2vec模型主要有skip-gram和cbow两种模型,从直观上理解,skip-gram是给定inputword来预测上下文。而cbow是给定上下文,来预测inputword。本发明实施例中的word2vec模型可以是skip-gram模型。

    其中,将所述预设数目的词汇输入预设的词向量模型之后,即可输出词序列,该词序列也是一个词向量。

    (3)根据所述词序列,计算第一词向量矩阵。

    具体的,在本发明一些实施例中,所述根据所述词序列,计算第一词向量矩阵,可以包括:获取所述词向量模型的权重矩阵;计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    其中,获取所述词向量模型的权重矩阵的方式可以是:通过采集文本信息进行对词向量模型进行训练,从而得到词向量模型的权重矩阵,之后,即可计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    302、根据所述托寄物信息,计算第二词向量矩阵。

    具体的,在本发明一些实施例中,所述根据所述托寄物信息,计算第二词向量矩阵,可以进一步包括:

    (1)获取物流场景下托寄物对应的分类信息。

    本发明实施例中,预先对物流领域托寄物进行分类,该分类符合物流领域的使用场景,后续即可获取物流场景下托寄物对应的分类信息。

    (2)根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别,n为正整数。

    例如,所述托寄物信息中包括目标企业在物流平台上的预设时间段内的寄件信息,其中,每个寄件信息都对应一个托寄物类别,此时即可根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别。其中,n可以根据实际应用情况进行设置,例如n为5,即统计目标企业寄件量top5的托寄物类别。

    由于件量的多少可以在一定程度上表征该类托寄物反映的行业信息的显著性,因此本发明实施例中以件量的多少为依据,统计所述目标企业寄件量前n名的托寄物类别,一遍后续对这n个托寄物类别对应的词向量进行排序组合,得到第二词向量矩阵。

    (3)将所述前n名的托寄物类别作为关键词,得到n个关键词对应的词向量。

    在得到前n名的托寄物类别之后,即可以该前n名的托寄物类别作为关键词,得到n个关键词对应的词向量。

    (4)对所述n个关键词对应的词向量进行排序组合,得到所述第二词向量矩阵。

    此处,由于n个关键词中每个关键词一个词向量,因此,n个关键词对应的词向量进行排序组合的方式,可以是,对n个关键词对应的词向量按照件量从多到少进行排序,得到第二词向量矩阵。

    203、根据所述词向量矩阵提取关键词信息,得到关键向量。

    本发明实施例中,步骤203以及步骤204可以是通过行业分类模型完成的,该行业分类模型可以是卷积神经网络模型(convolutionalneuralnetworks,cnn),根据预先采集的数据(如大量企业对应的词向量矩阵)可以训练得到该行业分类模型。后续将目标企业的词向量矩阵输入训练后的行业分类模型即可得到多个行业标签。

    具体的,行业分类模型的网络架构具体可以包括如下结构:

    卷积层:主要用于对输入的特征数据(如词向量矩阵)进行特征提取(即将原始数据映射到隐层特征空间),其中,卷积核大小可以根据实际应用而定,比如(3,3),可选的,为了降低计算的复杂度,提高计算效率,这两个卷积层的卷积核大小也可以都设置为(3,3)。可选的,为了提高模型的表达能力,还可以通过加入激活函数来加入非线性因素,在本发明实施例中,该激活函数均为“relu(线性整流函数,rectifiedlinearunit)”。

    池化层:与卷积层交替设置,具体的,即在第一个卷积层之后和第二个卷积层之后分别设置池化层,池化层用于进行下采样(pooling)操作,该下采样操作与卷积的操作基本相同,只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(meanpooling)等。

    全连接层:可以将学到的“分布式特征表示”映射到样本标记空间,其在整个卷积神经网络中主要起到“分类器”的作用,全连接层的每一个结点都与上一层(如第二个池化层)输出的所有结点相连,其中,全连接层的一个结点即称为全连接层中的一个神经元,全连接层中神经元的数量可以根据实际应用的需求而定,比如,在该行业分类模型中,全连接层的神经元数量可以设置为512个,或者,也可以设置为128个等等。与卷积层类似,可选的,在全连接层中,也可以通过加入激活函数来加入非线性因素,比如,可以加入激活函数sigmoid(s型函数)。

    本发明实施例中,行业分类模型中可以设置有两个全连接层,两个全连接层的神经元数量可以设置为不同数量,具体可以根据实际应用需要进行设置,例如第一个全连接层的神经元数量可以设置为1024个,第二个全连接层神经元可以设置为512个。

    损失层:对于行业分类模型,损失层用于在行业分类模型训练时,计算比较行业分类预测行业标签和实际的行业标签之间的差异,并通过反向传播算法对行业分类模型中的参数进行不断地修正优化,得到行业分类模型,其中,损失函数可以采用softmax函数。

    需说明的是,在本发明实施例中,还可以包括用于输入数据的输入层和用于输出数据的输出层,在此不作赘述。

    在本发明一些实施例中,当所述业务信息包括经营范围信息和托寄物信息时,此时,如图4所示,所述根据所述词向量矩阵提取关键词信息,得到关键向量,可以包括:

    401、根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量。

    其中,所述根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量,具体可以包括:

    (1)计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量。

    本发明实施例中,通过引入注意力机制,通过考虑第一词向量矩阵内各向量之间的相关性,得到由所述第一词向量矩阵内每个词向量重要性权重组成的权重向量,使得后续计算得到的经营范围关键向量更关注有用信息。

    其中,可以通过现有的文本相关性算法来计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量,具体文本相关性算法此处不作限定。

    (2)将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量。

    具体的,可以利用上述行业分类模型中的全连接层,将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量。

    (3)根据所述拼接向量,获取所述目标企业的经营范围的语序信息。

    其中,该行业分类模型中还可以包括长短时记忆层,该长短时记忆层即为长短时记忆网络(longshorttermmemorynetwork,lstm)组成的,将拼接向量输入行业分类模型中的长短时记忆层,即可获取所述目标企业的经营范围的语序信息。

    (4)按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    具体的,可以根据该行业分类模型中卷积层,通过学习不同词向量对最终识别结果的影响程度,按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    402、根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量。

    具体的,所述根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量,进一步可以包括:获取反映托寄物类别信息重要程度的三角函数位置编码向量;将所述第二词向量矩阵与所述三角函数位置编码向量相加,得到和值向量;提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量。

    本发明实施例中,引入三角函数位置编码捕获第二词向量中各向量排序信息,也就是本发明实施例根据件量的多少反映的托寄物类别信息的重要程度,给予不同位置词向量不同权重,不同位置词向量与权重的对应关系可以预先设置好,此时,获取反映托寄物类别信息重要程度的三角函数位置编码向量即可包括:利用三角函数捕获第二词向量中各向量排序信息;获取排序位置词向量与权重的对应关系,根据第二词向量中各向量排序信息和排序位置词向量与权重的对应关系,确定第二词向量中各向量的权重,根据第二词向量中各向量的权重组成三角函数位置编码向量。其中三角函数可以采用现有的常用三角函数,具体此处不作限定。

    另外,提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量的方式可以是将所述和值向量输入该行业分类模型中的卷积层,即提取输出得到得到所述托寄物关键向量。

    204、根据所述关键向量,确定所述目标企业的多个行业标签。

    具体的,如图5所示,所述根据所述关键向量,确定所述目标企业的多个行业标签,可以进一步包括:

    501、对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量。

    其中,可以将所述经营范围关键向量和所述托寄物关键向量输入上述行业分类模型中的全连接层,对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量。

    502、利用激活函数对所述第一行业向量进行处理,所述目标企业的第二行业向量。

    其中,该激活函数可以在行业分类模型的全连接层中设置,以通过加入激活函数来加入非线性因素,具体的,激活函数可以是sigmoid函数。

    其中,第二行业向量即表示目标企业从属于不用行业标签的概率。

    503、对所述第二行业向量进行二值化处理,得到所述目标企业的第三行业向量。

    在得到第二行业向量之后,可以通过设定一定的阈值(即预设阈值),对所述第二行业向量进行二值化处理,就可以得到目标企业对应的行业标签向量,即得到所述目标企业的第三行业向量。

    具体的,该预设阈值是人工预设设定的,针对每个行业标签,这个行业标签属于该企业和不属于该企业的概率相加为1,将第二行业向量中大于预设阈值的可以取值为1,将小于预设阈值的值可以取值为0,例如第二行业向量中包括三个行业的向量值(0.3,0.8,0.9),分别表示a行业,b行业和c行业的概率,若预设阈值为0.75,此时进行二值化处理后,则第三行业向量为(0,1,1)。

    504、根据所述第三行业向量,确定所述目标企业的多个行业标签。

    当第三行业向量中向量值为1时,即可以认为该企业具备该行业标签,当第三行业向量中向量值为0时,可以认为该企业不具备该行业标签,以上述步骤503中第三行业向量(0,1,1)为例,表示不具备a行业标签,具备b行业标签和c行业标签,即可确定目标企业的b行业标签和c行业标签。

    本发明实施例中通过获取物流平台上目标企业的经营范围信息和托寄物信息;根据所述目标企业的经营范围信息和托寄物信息,计算词向量矩阵;根据所述词向量矩阵提取关键词信息,得到关键向量;根据所述关键向量,确定所述目标企业的多个行业标签。本发明实施例在现有行业分类方法针对通用场景,每个企业的行业标签唯一的基础上,在行业分来中加入关键词信息的考量,自动进行分类得到多个行业标签,解决了现有技术人工分类带来的低效,不准确的问题,提高了行业标签分类的准确性、多样性,同时提高了行业分类效率。

    为了更好实施本发明实施例中行业分类方法,在行业分类方法基础之上,本发明实施例中还提供一种行业分类装置,如图6所示,该行业分类装置600包括:

    获取单元601,用于获取物流平台上目标企业的业务信息;

    计算单元602,用于根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    提取单元603,用于根据所述词向量矩阵提取关键词信息,得到关键向量;

    确定单元604,用于根据所述关键向量,确定所述目标企业的多个行业标签。

    在本申请一些实施例中,所述业务信息包括经营范围信息和托寄物信息,所述计算单元602具体用于:

    根据所述目标企业的经营范围信息,计算第一词向量矩阵;

    根据所述托寄物信息,计算第二词向量矩阵。

    在本申请一些实施例中,所述计算单元602具体用于:

    对所述经营范围信息对应的文本进行分词处理,获取预设数目的词汇;

    根据所述预设数目的词汇,确定词序列;

    根据所述词序列,计算第一词向量矩阵。

    在本申请一些实施例中,所述计算单元602具体用于:

    将所述预设数目的词汇输入预设的词向量模型,输出词序列。

    在本申请一些实施例中,所述计算单元602具体用于:

    获取所述词向量模型的权重矩阵;

    计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    在本申请一些实施例中,所述计算单元602具体用于:

    获取物流场景下托寄物对应的分类信息;

    根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别,n为正整数;

    将所述前n名的托寄物类别作为关键词,得到n个关键词对应的词向量;

    对所述n个关键词对应的词向量进行排序组合,得到所述第二词向量矩阵。

    在本申请一些实施例中,所述提取单元603具体用于:

    根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量;

    根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量。

    在本申请一些实施例中,所述提取单元603具体用于:

    计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量;

    将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量;

    根据所述拼接向量,获取所述目标企业的经营范围的语序信息;

    按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    在本申请一些实施例中,所述提取单元603具体用于:

    获取反映托寄物类别信息重要程度的三角函数位置编码向量;

    将所述第二词向量矩阵与所述三角函数位置编码向量相加,得到和值向量;

    提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量。

    在本申请一些实施例中,所述确定单元604具体用于:

    对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量;

    利用激活函数对所述第一行业向量进行处理,所述目标企业的第二行业向量;

    对所述第二行业向量进行二值化处理,得到所述目标企业的第三行业向量;

    根据所述第三行业向量,确定所述目标企业的多个行业标签。

    本发明实施例中通过获取单元601获取物流平台上目标企业的经营范围信息和托寄物信息;计算单元602根据所述目标企业的经营范围信息和托寄物信息,计算词向量矩阵;提取单元603根据所述词向量矩阵提取关键词信息,得到关键向量;确定单元604根据所述关键向量,确定所述目标企业的多个行业标签。本发明实施例在现有行业分类方法针对通用场景,每个企业的行业标签唯一的基础上,在行业分来中加入关键词信息的考量,自动进行分类得到多个行业标签,解决了现有技术人工分类带来的低效,不准确的问题,提高了行业标签分类的准确性、多样性,同时提高了行业分类效率。

    本发明实施例还提供一种终端设备,其集成了本发明实施例所提供的任一种行业分类装置,所述终端设备包括:

    一个或多个处理器;

    存储器;以及

    一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述行业分类方法实施例中任一实施例中所述的行业分类方法中的步骤。

    本发明实施例还提供一种终端设备,其集成了本发明实施例所提供的任一种行业分类装置。如图7所示,其示出了本发明实施例所涉及的终端设备的结构示意图,具体来讲:

    该终端设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图7中示出的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

    处理器701是该终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。

    存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。

    终端设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

    该终端设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

    尽管未示出,终端设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:

    获取物流平台上目标企业的业务信息;

    根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    根据所述词向量矩阵提取关键词信息,得到关键向量;

    根据所述关键向量,确定所述目标企业的多个行业标签。

    本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

    为此,本发明实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行本发明实施例所提供的任一种行业分类方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:

    获取物流平台上目标企业的业务信息;

    根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    根据所述词向量矩阵提取关键词信息,得到关键向量;

    根据所述关键向量,确定所述目标企业的多个行业标签。

    在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。

    具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。

    以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

    以上对本发明实施例所提供的一种行业分类方法、装置、终端设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。


    技术特征:

    1.一种行业分类方法,其特征在于,所述行业分类方法包括:

    获取物流平台上目标企业的业务信息;

    根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    根据所述词向量矩阵提取关键词信息,得到关键向量;

    根据所述关键向量,确定所述目标企业的多个行业标签。

    2.根据权利要求1所述的行业分类方法,其特征在于,所述业务信息包括经营范围信息和托寄物信息,所述根据所述业务信息,计算所述目标企业对应的词向量矩阵,包括:

    根据所述目标企业的经营范围信息,计算第一词向量矩阵;

    根据所述托寄物信息,计算第二词向量矩阵。

    3.根据权利要求2所述的行业分类方法,其特征在于,所述根据所述目标企业的经营范围信息,计算第一词向量矩阵,包括:

    对所述经营范围信息对应的文本进行分词处理,获取预设数目的词汇;

    根据所述预设数目的词汇,确定词序列;

    根据所述词序列,计算第一词向量矩阵。

    4.根据权利要求3所述的行业分类方法,其特征在于,所述根据所述预设数目的词汇,确定词序列,包括:

    将所述预设数目的词汇输入预设的词向量模型,输出所述词序列。

    5.根据权利要求4所述的行业分类方法,其特征在于,所述根据所述词序列,计算第一词向量矩阵,包括:

    获取所述词向量模型的权重矩阵;

    计算所述词序列和所述权重矩阵的乘积,得到所述第一词向量矩阵。

    6.根据权利要求2所述的行业分类方法,其特征在于,所述根据所述托寄物信息,计算第二词向量矩阵,包括:

    获取物流场景下托寄物对应的分类信息;

    根据所述分类信息和所述托寄物信息,统计所述目标企业寄件量前n名的托寄物类别,n为正整数;

    将所述前n名的托寄物类别作为关键词,得到n个关键词对应的词向量;

    对所述n个关键词对应的词向量进行排序组合,得到所述第二词向量矩阵。

    7.根据权利要求2至6中任一所述的行业分类方法,其特征在于,所述根据所述词向量矩阵提取关键词信息,得到关键向量,包括:

    根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量;

    根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量。

    8.根据权利要求7所述的行业分类方法,其特征在于,所述根据所述第一词向量矩阵提取关键的词向量信息,得到经营范围关键向量,包括:

    计算所述第一词向量矩阵内各向量之间的相关性,得到所述第一词向量矩阵内每个词向量重要性权重组成的权重向量;

    将所述第一词向量矩阵和所述权重向量进行拼接,得到拼接向量;

    根据所述拼接向量,获取所述目标企业的经营范围的语序信息;

    按照所述语序信息提取所述经营范围信息对应的文本中关键的词向量信息,得到经营范围关键向量。

    9.根据权利要求7所述的行业分类方法,其特征在于,所述根据所述第二词向量矩阵提取关键的词向量信息,得到托寄物关键向量,包括:

    获取反映托寄物类别信息重要程度的三角函数位置编码向量;

    将所述第二词向量矩阵与所述三角函数位置编码向量相加,得到和值向量;

    提取所述和值向量中关键的词向量信息,得到所述托寄物关键向量。

    10.根据权利要求7所述的行业分类方法,其特征在于,所述根据所述关键向量,确定所述目标企业的多个行业标签,包括:

    对所述经营范围关键向量和所述托寄物关键向量进行拼接,得到所述目标企业的第一行业向量;

    利用激活函数对所述第一行业向量进行处理,所述目标企业的第二行业向量;

    对所述第二行业向量进行二值化处理,得到所述目标企业的第三行业向量;

    根据所述第三行业向量,确定所述目标企业的多个行业标签。

    11.一种行业分类装置,其特征在于,所述行业分类装置,包括:

    获取单元,用于获取物流平台上目标企业的业务信息;

    计算单元,用于根据所述业务信息,计算所述目标企业对应的词向量矩阵;

    提取单元,用于根据所述词向量矩阵提取关键词信息,得到关键向量;

    确定单元,用于根据所述关键向量,确定所述目标企业的多个行业标签。

    12.一种终端设备,其特征在于,所述终端设备包括:

    一个或多个处理器;

    存储器;以及

    一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1至10中任一项所述的行业分类方法。

    13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至10任一项所述的行业分类方法中的步骤。

    技术总结
    本申请实施例公开了一种行业分类方法、装置、终端设备及存储介质。其中,该行业分类方法包括:获取物流平台上目标企业的业务信息;根据所述目标企业的业务信息,计算词向量矩阵;根据所述词向量矩阵提取关键词信息,得到关键向量;根据所述关键向量,确定所述目标企业的多个行业标签。另外,本申请还提供行业分类方法对应的装置、终端设备及存储介质,本申请在现有行业分类方法针对通用场景,每个企业的行业标签唯一的基础上,在行业分来中加入关键词信息的考量,自动进行分类得到多个行业标签,解决了现有技术人工分类带来的低效,不准确的问题,提高了行业标签分类的准确性、多样性,同时提高了行业分类效率。

    技术研发人员:陈垦;谢泽雄;姚小龙;王桥;余烨芸;任潘龙
    受保护的技术使用者:顺丰科技有限公司;深圳顺丰泰森控股(集团)有限公司
    技术研发日:2019.08.21
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-20075.html

    最新回复(0)