特征提取方法、特征提取装置、存储介质与电子设备与流程

    专利2022-07-08  88


    本公开涉及数据处理技术领域,尤其涉及一种特征提取方法、特征提取装置、计算机可读存储介质与电子设备。



    背景技术:

    随着互联网与移动互联网的普及,以互联网与移动互联网为载体的信息投放已成为一种主流的宣传与推广方式。例如,将广告、新闻、自媒体文章等信息,投放至app(application,应用程序)页面、网页,或者以短信、桌面弹窗、app消息等方式推送给用户。

    为了提高信息投放的精准度,通常采用信息标签进行定向投放,例如将运动商品网店主的广告投放给具有“运动”标签的用户。然而,相关技术经常无法为需求方准确匹配到合适的信息标签,导致信息被投放给不感兴趣的用户群体,影响投放效果。



    技术实现要素:

    本公开提供了一种特征提取方法、特征提取装置、计算机可读存储介质与电子设备,进而至少在一定程度上解决需求方与信息标签的匹配问题。

    本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

    根据本公开的第一方面,提供一种特征提取方法,包括:从信息投放数据中获取多个需求方与多个信息标签的关联关系;基于所述关联关系建立信息投放关系图,所述信息投放关系图的顶点包括所述需求方与所述信息标签;通过所述信息投放关系图中的路径形成多个顶点序列;根据所述顶点序列提取至少一个顶点的特征数据。

    根据本公开的第二方面,提供一种特征提取装置,包括:关联关系获取模块,被配置为从信息投放数据中获取多个需求方与多个信息标签的关联关系;关系图建立模块,被配置为基于所述关联关系建立信息投放关系图,所述信息投放关系图的顶点包括所述需求方与所述信息标签;顶点序列提取模块,被配置为通过所述信息投放关系图中的路径形成多个顶点序列;特征数据提取模块,被配置为根据所述顶点序列提取至少一个顶点的特征数据。

    根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的特征提取方法及其可能的实现方式。

    根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的特征提取方法及其可能的实现方式。

    本公开的技术方案具有以下有益效果:

    基于信息投放数据中需求方与信息标签的关联关系建立信息投放关系图,从中提取顶点序列,并进一步根据顶点序列提取特征数据。一方面,提供了一种提取需求方或信息标签特征的方案,通过信息投放关系图中的顶点序列挖掘了不同顶点之间的深度关联,以得到稠密化的特征数据,能够反映需求方或信息标签的抽象化特征,准确性较高。另一方面,本方案基于信息投放的历史记录数据即可实现,可以部署在离线阶段,降低线上实际应用中的数据处理量,提高信息投放的处理效率。

    进一步的,利用本方案得到的特征数据,可以确定需求方与信息标签之间的相关度,从而解决需求方与信息标签的匹配问题,有利于对需求方的信息投放用户群体进行精准定位与有效扩展。不再局限于固定群体,同时避免人为选择信息标签可能导致的标签使用不当的情况,有利于实现全局最优的投放推荐方案,并且推荐信息标签时无需进行实际投放的试验,因此降低了试错成本。

    应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

    附图说明

    此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施方式,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1示出本示例性实施方式中系统架构的示意图;

    图2示出本示例性实施方式中一种特征提取方法的流程图;

    图3示出本示例性实施方式中一种信息投放关系图;

    图4示出本示例性实施方式中另一种信息投放关系图;

    图5示出本示例性实施方式中一种提取顶点序列的流程图;

    图6示出本示例性实施方式中嵌入模型的示意图;

    图7示出本示例性实施方式中一种提取特征数据的流程图;

    图8示出本示例性实施方式中另一种特征提取方法的流程图;

    图9示出本示例性实施方式中一种特征提取装置的结构图;

    图10示出本示例性实施方式中一种电子设备的结构图。

    具体实施方式

    现在将参考附图更全面地描述示例性实施方式。然而,示例性实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例性实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

    此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

    附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

    相关技术的一种方案中,提出了对广告投放进行扩展的方法:首先获取当前投放广告的历史相关广告,包括同类型的广告,以及同一广告主所投放的历史广告;然后进行相关广告定向使用情况的分析,通常使用转化率等指标进行定向条件的效果判断;再筛选出效果好的定向条件作为已有定向条件的扩展定向;最终进行投放。然而,该方案中,获取相关广告的方式较为局限,如果同类型的广告、同一广告主的广告数量较少,会导致所扩展得到的定向条件有限,且准确性较低;并且定向条件的效果判断较为片面,会导致筛选出的定向条件脱离实际情况(如竞价过高)。

    相关技术的另一种方案中,提出了通过评估两轮投放效果的方法:首先通过人工组合标签,进行第一轮的信息投放,并回收投放的效果数据;再对第一轮的人工组合标签进行重新组合,进行第二轮的信息投放;对比第一轮和第二轮的投放效果,选择效果好的标签组合作为最终的标签组合。然而,该方案中,第一轮的组合标签是人工确定的,存在局限性,即使第二轮对组合标签进行了优化,也无法脱离第一轮组合标签的基础,难以得到全局的最优方案;并且,该方案是通过实际投放进行效果评估,无法在事前进行预测,在第一轮和第二轮投放中,具有很大概率无法准确投放到感兴趣的群体,从而增加了试错成本。

    鉴于上述一个或多个问题,本公开的示例性实施方式提供一种特征提取方法,其应用场景包括但不限于:对信息投放的需求方或信息标签进行特征提取,以更加准确地匹配需求方与信息标签,进而实现信息投放用户群体的精准定位与有效扩展。

    图1示出了特征提取方法运行环境的系统架构图。如图1所示,信息投放系统100包括需求方110、平台方120和用户130。需求方110是指生产信息、具有投放需求的一方,包括广告主、自媒体、网店等,其通过个人电脑、智能手机或服务器等接入平台方120。平台方120是指提供信息投放平台的一方,一般为互联网服务商,部署有相关的服务器与数据库。用户130是指通过客户端、浏览器等登陆平台的终端用户,能够在平台中看到被投放的信息。

    本示例性实施方式中的特征提取方法可以由平台方120执行,在一些情况下也可以由需求方110执行。图2示出了特征提取方法的示例性流程,可以包括:

    步骤s210,从信息投放数据中获取多个需求方与多个信息标签的关联关系;

    步骤s220,基于上述关联关系建立信息投放关系图,信息投放关系图的顶点包括需求方与信息标签;

    步骤s230,通过信息投放关系图中的路径形成多个顶点序列;

    步骤s240,根据顶点序列提取至少一个顶点的特征数据。

    通过上述方法,基于信息投放数据中需求方与信息标签的关联关系建立信息投放关系图,从中提取顶点序列,并进一步根据顶点序列提取特征数据。一方面,提供了一种提取需求方或信息标签特征的方案,通过信息投放关系图中的顶点序列挖掘了不同顶点之间的深度关联,以得到稠密化的特征数据,能够反映需求方或信息标签的抽象化特征,准确性较高。另一方面,本方案基于信息投放的历史记录数据即可实现,可以部署在离线阶段,降低线上实际应用中的数据处理量,提高信息投放的处理效率。进一步的,利用本方案得到的特征数据,可以确定需求方与信息标签之间的相关度,从而解决需求方与信息标签的匹配问题,有利于对需求方的信息投放用户群体进行精准定位与有效扩展。不再局限于固定群体,同时避免人为选择信息标签可能导致的标签使用不当的情况,有利于实现全局最优的投放推荐方案,并且推荐信息标签时无需进行实际投放的试验,因此降低了试错成本。

    下面分别对图2中的每个步骤进行具体说明。

    步骤s210中,从信息投放数据中获取多个需求方与多个信息标签的关联关系。

    信息投放数据是指信息投放的历史记录数据。在投放信息时,一般对需求方的信息打上信息标签,投放给信息标签对应的用户群体。因此,可以将每条信息投放数据整理为二元数组(需求方,信息标签)的形式,二元数组中的需求方与信息标签具有关联关系。

    在获取信息投放数据时,可以进行适当的筛选,使得信息投放数据中需求方与信息标签的关联关系更加有效。包括但不限于:

    按照时间范围进行筛选,可以筛选出最近的预设时间范围(如最近一个月、最近半年等)内的信息投放数据,从中获取需求方与信息标签的关联关系。由于需求方的业务内容与范围可能发生变化,由此得到的关联关系反映了其最新的情况。

    按照投放反馈数据进行筛选,可以筛选出投放反馈数据达到预设标准的信息投放数据,从中获取需求方与信息标签的关联关系。投放反馈数据是指反映投放效果的指标数据,例如在投放信息后,统计点击率、转化率等指标数据,记录在信息投放数据中,即投放反馈数据。预设标准可以根据经验与实际需求而定,通过预设标准可以筛选出投放效果较好的信息投放数据,其中的需求方与信息标签的关联性更强,由此得到的关联关系更加有效。

    举例来说,获取最近一个月的广告投放数据,每条数据中包括:广告、所属的广告主(即需求方)、广告标签(即信息标签)、ctr(clickthroughrate,点击率)。样例如下所示:

    广告a,广告主a,广告标签:篮球|足球|欧美剧|小说,ctr_a;

    广告b,广告主a,广告标签:小说|理财|小学教育,ctr_b;

    广告c,广告主b,广告标签:股票|理财|小说|高中教育,ctr_c;

    广告d,广告主c,广告标签:足球|小学教育|韩剧,ctr_d。

    筛选出ctr≥0.5(即预设标准)的信息投放数据,假设ctr_a=0.7,即上述广告a的信息投放数据满足预设标准,从中获取广告主与广告标签的关联关系,包括:

    (广告主a,篮球)

    (广告主a,足球)

    (广告主a,欧美剧)

    (广告主a,小说)

    采用同样的方式对其他满足预设标准的信息投放数据进行处理,得到全部的广告主与广告标签的关联关系。

    在一种实施方式中,执行步骤s210时,还可以获取信息标签与标签类别的关联关系。一般的,可以预先对信息标签进行分类,得到多个标签类别。一个标签类别下通常包括多个信息标签,一个信息标签也可以属于多个标签类别。还可以设置多级标签类别,例如一级标签类别下包括多个二级标签类别,每个二级标签类别下包括多个信息标签。下面提供了信息标签与标签类别关联关系的样例:

    (篮球,运动)

    (足球,运动)

    (欧美剧,影视剧/休闲)

    (小说,休闲)

    (理财,金融)

    (小学教育,教育)

    在一种实施方式中,将需求方与信息标签的关联关系,以及信息标签与标签类别的关联关系结合起来,可以得到需求方、信息标签、标签类别三者之间的关联关系,例如得到如下的数据形式:

    (广告主a,篮球(运动),足球(运动),欧美剧(影视,休闲),小说(休闲))

    (广告主a,小说(休闲),理财(金融),小学教育(教育))

    (广告主b,股票(金融),理财(金融),小说(休闲),高中教育(教育))

    (广告主c,足球(运动),小学教育(教育),韩剧(影视剧,休闲))

    继续参考图2,步骤s220中,基于上述关联关系建立信息投放关系图,信息投放关系图的顶点包括需求方与信息标签。

    将每个需求方、每个信息标签分别形成一个顶点,在具有关联关系的需求方与信息标签之间连接形成边,可以得到信息投放关系图。图3示出了由广告主a、广告主c及其关联的广告标签所形成的信息投放关系图。其中,广告主a与篮球、足球、欧美剧、小说存在关联关系,其顶点之间具有边,广告主c与足球、韩剧、小学教育存在关联关系,其顶点之间具有边。通过信息投放关系图可以记录全部的关联关系。

    在一种实施方式中,如果获取了需求方与信息标签的关联关系,以及信息标签与标签类别的关联关系,则可以基于这两种关联关系建立信息投放关系图。信息投放关系图的顶点包括需求方、信息标签与标签类别。图4示出了由广告主、广告标签、标签类别共同形成的信息投放关系图。与图3相比,增加了标签类别的顶点,存在关联关系的广告标签与标签类别之间具有边。

    上述信息投放关系图中的边可以是无权重的,可视为所有的边权重相等。也可以为不同的边设置不同的权重。在一种实施方式中,可以根据投放反馈数据设置需求方与信息标签之间的边权重,例如采用点击率设置权重,统计近一个月广告主a的广告投放至广告标签“篮球”对应的用户群体中所得到的点击率ctr(广告主a->篮球),作为广告主a与广告标签“篮球”这两个顶点之间的边权重,也可以将ctr数值归一化后作为边权重,还可以设置ctr低于一定的值(如0.5)则两顶点之间无边。

    继续参考图2,步骤s230中,通过信息投放关系图中的路径形成多个顶点序列。

    基于信息投放关系图中的连接关系,可以提取一条或多条路径。路径是图中由多个依次连接的顶点所形成的子图,每条路径中相邻两个顶点之间存在边,且每条路径中不存在重复顶点。将路径中的顶点按顺序提取出来,可以形成一个或多个顶点序列。例如在图3中,广告主a->足球->广告主c是一条路径,则可以形成顶点序列(广告主a,足球,广告主c)。

    在一种实施方式中,可以按照预设规则在信息投放关系图中游走,以获取路径。其中,预设规则可以包括以下任意一条或多条:

    ①如果当前顶点为需求方,则下一顶点为信息标签;

    ②如果当前顶点为信息标签,则下一顶点为需求方;

    ③如果上一顶点为需求方,当前顶点为信息标签,则下一顶点为标签类别;

    ④如果上一顶点为标签类别,当前顶点为信息标签,则下一顶点为需求方;

    ⑤路径的起始顶点为需求方;

    ⑥路径的结束顶点为需求方;

    ⑦路径中除了起始顶点与结束顶点外,其他顶点均为信息标签或标签类别;

    ⑧路径中顶点的数量处于预设范围内,实际上限定了路径的长度。

    实际应用中可以根据需求任意组合使用上述规则。举例来说:

    组合规则①②⑤⑥,实际设定了需求方->信息标签->需求方->信息标签->…这样的循环游走规则(记为循环游走规则一);

    组合规则①③④⑤⑥,实际设定了需求方->信息标签->标签类别->信息标签->需求方->…这样的循环游走规则(记为循环游走规则二)。

    在上述规则下,实际游走时可以采用随机游走,也可以按照边权重设置不同边的游走概率。例如到达顶点vi后,下一步遍历与vi连接、且满足预设规则的相邻顶点vj的概率,如下:

    其中,g表示信息投放关系图;n (vi)是与顶点vi连接的相邻顶点集合;c(vi)是与满足预设规则的顶点vi的下一顶点集合;eij表示顶点vi和顶点vj之间的边,mij表示该边的权重。

    在图4中分别采用上述循环游走规则一和二进行游走,可以得到路径如下:

    路径一,广告主a->篮球->广告主d->股票->广告主b->理财....

    路径二,广告主a->篮球->运动->足球->广告主c->小学教育->教育->高中教育->广告主b...

    需要说明的是,可以采用不同的预设规则,以不同的顶点为起始顶点或结束顶点,设置不同长度的路径,因此从一张信息投放关系图中可以提取大量满足要求的路径。对于每条路径来说,可以选取其中所有的顶点,也可以选取一部分顶点,形成顶点序列,因此一条路径可以对应形成多个顶点序列。由此可以得到多个顶点序列。

    在一种实施方式中,步骤s230可以包括:

    从路径中按顺序提取同质的顶点,得到顶点序列。

    其中,相同类型的顶点为同质的顶点,例如广告主a和广告主b都是需求方的顶点,为同质的顶点,篮球和足球都是信息标签的顶点,为同质的顶点,运动和休闲都是标签类别的顶点,为同质的顶点;反之则为异质的顶点,例如广告主a和篮球为异质的顶点。

    上述路径中包含了不同类型的顶点,在提取顶点时提取同质的顶点,得到由相同类型的顶点组成的顶点序列。在一种实施方式中,参考图5所示,所述从路径中按顺序提取同质的顶点,得到顶点序列,可以包括:

    步骤s510,从路径中按顺序提取需求方对应的顶点,得到需求方序列;

    步骤s520,从路径中按顺序提取信息标签对应的顶点,得到信息标签序列。

    例如从上述路径一和路径二提取需求方对应的顶点,得到需求方序列:

    广告主a,广告主d,广告主b,...

    广告主a,广告主c,广告主b,...

    从上述路径一和路径二提取信息标签对应的顶点,得到信息标签序列:

    篮球,股票,理财,...

    篮球,足球,小学教育,高中教育,...

    继续参考图2,步骤s240中,根据顶点序列提取至少一个顶点的特征数据。

    通过上述建立信息投放关系图以及提取顶点序列,将无直接关联的顶点之间建立了联系,进一步挖掘了顶点之间的关系。这样的关系体现在顶点序列中不同顶点之间的位置关系上。由此可以提取顶点的特征数据。

    在一种实施方式中,步骤s240可以包括:

    利用嵌入模型对顶点序列进行处理,得到至少一个顶点的特征数据。

    将每个顶点序列看成是一个句子或一段文本,其中的顶点是不同的词,则可以将词的特征嵌入到数据空间中,采用词嵌入的方式进行处理,得到顶点的特征数据。以嵌入模型word2vec的实现方式cbow(continuousbag-of-words,连续词袋)为例进行说明。cbow的原理可以参考图6所示,输入顶点序列中某个顶点(以wt表示)的上下文(即wt前后一定范围内的顶点,如wt-c,…,wt-1,wt 1,…,wt c),预测wt,可以表示为如下的条件概率:

    p(wt|wt-c:wt c)(2)

    因而,嵌入模型的目标是最大化上述条件概率的对数似然函数:

    其中,t表示顶点序列的长度,即序列中顶点的数量。可以通过softmax函数(归一化指数函数)获取条件概率:

    将步骤s230中得到顶点序列导入上述嵌入模型中,即可对嵌入模型进行训练。再利用训练后的嵌入模型的中间层输出不同顶点的特征数据,可以是稠密的embedding向量。

    在一种实施方式中,参考图7所示,步骤s240可以包括:

    步骤s710,根据需求方序列得到至少一个需求方的特征数据;

    步骤s720,根据信息标签序列得到至少一个信息标签的特征数据。

    一般的,可以将需求方序列形成一个数据集,将信息标签序列形成另一个数据集,分别采用两个数据集训练嵌入模型,以分别输出需求方的特征数据和信息标签的特征数据。

    例如可以对图3或图4中的广告主与广告标签分别输出对应的特征数据:

    广告主a:0.3345,0.1240,0.1763,0.6421,0.0144,0.3721,0.1983,0.6311;

    广告主b:0.5521,0.1392,0.1732,0.3124,0.0211,0.1359,0.2345,0.5367;

    广告主c:0.3340,0.2321,0.6161,0.4223,0.8315,0.1482,0.3984,0.4124;

    ....

    篮球:0.0342,0.1230,0.7762,0.6481,0.6144,0.1721,0.8983,0.2319;

    足球:0.5223,0.2392,0.5731,0.2124,0.3211,0.7359,0.2315,0.1362;

    理财:0.5341,0.2323,0.1169,0.4233,0.8317,0.2482,0.1981,0.6112。

    在一种实施方式中,得到上述需求方的特征数据与信息标签的特征数据后,还可以执行以下步骤:

    根据需求方的特征数据与信息标签的特征数据,确定需求方与信息标签的相关度。

    例如,将需求方的特征数据与信息标签的特征数据分别作为不同的数组,计算两个数组的相似度。或者,特征数据可以是特征向量的形式,计算需求方的特征向量与信息标签的特征向量的内积(或余弦相似度、欧式距离等),得到需求方与信息标签的相关度。

    在一种实施方式中,可以以任一需求方作为目标需求方,确定目标需求方与每个信息标签的相关度,以向目标需求方推荐用于信息投放的信息标签。例如计算广告主a与每个广告标签的相关度,确定相关度最高的n个广告标签,以推荐给广告主a。或者对每个广告主进行广告标签的相关度排序,如下所示:

    广告主a:欧美大片,足球,篮球,彩票,小说...

    广告主b:直播,短视频,小说,篮球,贷款...

    广告主c:韩剧,直播,小说,篮球,足球...

    由此,可以为需求方确定相关度较高的信息标签,便于在信息投放中对用户群体进行准确定位与有效扩展。

    在一种实施方式中,可以将上述通过特征数据计算的相关度进行归一化,结果记为第一相关度。根据投放反馈数据确定需求方与信息标签的第二相关度,例如可以统计近一个月广告主a的广告投放至不同广告标签对应的用户群体中所得到的点击率,将点击率归一化后记为第二相关度。然后将第一相关度与第二相关度加权:

    最终相关度=w1*第一相关度 w2*第二相关度(6)

    其中w1和w2分别为第一相关度与第二相关度的权重,可以根据经验设定,例如w1为0.7,w2为0.3。由此,融合了特征数据与历史投放的反馈数据这两方面信息,得到的最终相关度具有更高的准确性。

    在一种实施方式中,可以通过上述方法计算每个需求方与每个信息标签的相关度,建立相关度数据表,以便于后续查找使用。

    在一种实施方式中,特征提取方法的示例性流程可以参考图8所示,包括:

    步骤s801,获取最近一个月的信息投放数据;

    步骤s802,筛选出ctr较高(如ctr≥0.5)的信息投放数据;然后一方面执行步骤s803至s808,另一方面执行步骤s809和s810;

    步骤s803,从信息投放数据中确定需求方、信息标签、标签类别间的关联关系;

    步骤s804,基于上述关联关系建立信息投放关系图;

    步骤s805,按照预设规则,在信息投放关系图中进行随机游走,得到多条路径;

    步骤s806,从上述路径中提取需求方序列与信息标签序列;

    步骤s807,利用嵌入模型分别对需求方序列与信息标签序列进行处理,得到需求方与信息标签的特征向量;

    步骤s808,计算需求方与信息标签的特征向量的內积,得到需求方与信息标签的第一相关度;

    步骤s809,从信息投放数据中统计需求方与信息标签的平均ctr;

    步骤s810,通过统计的平均ctr进行归一化计算,得到需求方与信息标签的第二相关度;

    步骤s811,对第一相关度与第二相关度进行加权计算,得到需求方与信息标签的最终相关度。

    由此,可以为需求方推荐最终相关度最高的一个或多个信息标签,有利于确定合适的信息投放用户群体。

    本公开的示例性实施方式还提供一种特征提取装置。参考图9所示,该特征提取装置900可以包括:

    关联关系获取模块910,被配置为从信息投放数据中获取多个需求方与多个信息标签的关联关系;

    关系图建立模块920,被配置为基于上述关联关系建立信息投放关系图,信息投放关系图的顶点包括需求方与信息标签;

    顶点序列提取模块930,被配置为通过信息投放关系图中的路径形成多个顶点序列;

    特征数据提取模块940,被配置为根据顶点序列提取至少一个顶点的特征数据。

    在一种实施方式中,关联关系获取模块910,被配置为:

    获取信息标签与标签类别的关联关系。

    关系图建立模块920,被配置为:

    基于需求方与信息标签的关联关系,以及信息标签与标签类别的关联关系,建立信息投放关系图,信息投放关系图的顶点包括需求方、信息标签与标签类别。

    在一种实施方式中,顶点序列提取模块930,被配置为:

    按照预设规则在信息投放关系图中游走,以获取路径。

    其中,预设规则包括以下至少一条:

    如果当前顶点为需求方,则下一顶点为信息标签;

    如果当前顶点为信息标签,则下一顶点为需求方;

    如果上一顶点为需求方,当前顶点为信息标签,则下一顶点为标签类别;

    如果上一顶点为标签类别,当前顶点为信息标签,则下一顶点为需求方;

    路径的起始顶点为需求方;

    路径的结束顶点为需求方;

    路径中除了起始顶点与结束顶点外,其他顶点均为信息标签或标签类别;

    路径中顶点的数量处于预设范围内。

    在一种实施方式中,顶点序列提取模块930,被配置为:

    从路径中按顺序提取同质的顶点,得到顶点序列。

    在一种实施方式中,顶点序列提取模块930,被配置为:

    从路径中按顺序提取需求方对应的顶点,得到需求方序列;

    从路径中按顺序提取信息标签对应的顶点,得到信息标签序列。

    在一种实施方式中,特征数据提取模块940,被配置为:

    根据需求方序列得到至少一个需求方的特征数据;

    根据信息标签序列得到至少一个信息标签的特征数据。

    在一种实施方式中,特征提取装置900还包括相关度确定模块,被配置为:

    根据需求方的特征数据与信息标签的特征数据,确定需求方与信息标签的相关度。

    在一种实施方式中,特征数据包括特征向量。

    相关度确定模块,被配置为:

    计算需求方的特征向量与信息标签的特征向量的内积,得到需求方与信息标签的相关度。

    在一种实施方式中,相关度确定模块,被配置为:

    确定目标需求方与每个信息标签的相关度,以向目标需求方推荐被配置为信息投放的信息标签,目标需求方为任一需求方。

    在一种实施方式中,特征数据提取模块940,被配置为:

    利用嵌入模型对顶点序列进行处理,得到至少一个顶点的特征数据。

    在一种实施方式中,关联关系获取模块910,被配置为:

    筛选出投放反馈数据达到预设标准的信息投放数据,从信息投放数据中获取多个需求方与多个信息标签的关联关系。

    上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,因而不再赘述。

    本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

    程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

    计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

    可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

    可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

    本公开的示例性实施方式还提供了一种电子设备,可以是信息平台的后台服务器。下面参考图10对该电子设备进行说明。应当理解,图10显示的电子设备1000仅仅是一个示例,不应对本本公开实施方式的功能和使用范围带来任何限制。

    如图10所示,电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于:至少一个处理单元1010、至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030。

    其中,存储单元存储有程序代码,程序代码可以被处理单元1010执行,使得处理单元1010执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元1010可以执行如图2所示的方法步骤等。

    存储单元1020可以包括易失性存储单元,例如随机存取存储单元(ram)1021和/或高速缓存存储单元1022,还可以进一步包括只读存储单元(rom)1023。

    存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

    总线1030可以包括数据总线、地址总线和控制总线。

    电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(i/o)接口1040进行。电子设备1000还可以通过网络适配器1050与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1050通过总线1030与电子设备1000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

    应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

    所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

    应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。


    技术特征:

    1.一种特征提取方法,其特征在于,包括:

    从信息投放数据中获取多个需求方与多个信息标签的关联关系;

    基于所述关联关系建立信息投放关系图,所述信息投放关系图的顶点包括所述需求方与所述信息标签;

    通过所述信息投放关系图中的路径形成多个顶点序列;

    根据所述顶点序列提取至少一个顶点的特征数据。

    2.根据权利要求1所述的方法,其特征在于,在从信息投放数据中获取多个需求方与多个信息标签的关联关系时,所述方法还包括:

    获取所述信息标签与标签类别的关联关系;

    所述基于所述关联关系建立信息投放关系图,包括:

    基于所述需求方与信息标签的关联关系,以及所述信息标签与标签类别的关联关系,建立所述信息投放关系图,所述信息投放关系图的顶点包括所述需求方、所述信息标签与所述标签类别。

    3.根据权利要求2所述的方法,其特征在于,所述信息投放关系图中的路径,通过以下方式获取:

    按照预设规则在所述信息投放关系图中游走,以获取所述路径;

    其中,所述预设规则包括以下至少一条:

    如果当前顶点为需求方,则下一顶点为信息标签;

    如果当前顶点为信息标签,则下一顶点为需求方;

    如果上一顶点为需求方,当前顶点为信息标签,则下一顶点为标签类别;

    如果上一顶点为标签类别,当前顶点为信息标签,则下一顶点为需求方;

    路径的起始顶点为需求方;

    路径的结束顶点为需求方;

    路径中除了起始顶点与结束顶点外,其他顶点均为信息标签或标签类别;

    路径中顶点的数量处于预设范围内。

    4.根据权利要求1所述的方法,其特征在于,所述通过所述信息投放关系图中的路径形成多个顶点序列,包括:

    从所述路径中按顺序提取同质的顶点,得到所述顶点序列。

    5.根据权利要求4所述的方法,其特征在于,所述从所述路径中按顺序提取同质的顶点,得到所述顶点序列,包括:

    从所述路径中按顺序提取所述需求方对应的顶点,得到需求方序列;

    从所述路径中按顺序提取所述信息标签对应的顶点,得到信息标签序列。

    6.根据权利要求5所述的方法,其特征在于,所述根据所述顶点序列提取至少一个顶点的特征数据,包括:

    根据所述需求方序列得到至少一个需求方的特征数据;

    根据所述信息标签序列得到至少一个信息标签的特征数据。

    7.根据权利要求6所述的方法,其特征在于,所述方法还包括:

    根据需求方的特征数据与信息标签的特征数据,确定所述需求方与所述信息标签的相关度。

    8.根据权利要求7所述的方法,其特征在于,所述特征数据包括特征向量;

    所述根据需求方的特征数据与信息标签的特征数据,确定所述需求方与所述信息标签的相关度,包括:

    计算所述需求方的特征向量与所述信息标签的特征向量的内积,得到所述需求方与所述信息标签的相关度。

    9.根据权利要求7所述的方法,其特征在于,所述根据需求方的特征数据与信息标签的特征数据,确定所述需求方与所述信息标签的相关度,包括:

    确定目标需求方与每个信息标签的相关度,以向所述目标需求方推荐用于信息投放的信息标签,所述目标需求方为任一需求方。

    10.根据权利要求1所述的方法,其特征在于,所述根据所述顶点序列提取至少一个顶点的特征数据,包括:

    利用嵌入模型对所述顶点序列进行处理,得到所述至少一个顶点的特征数据。

    11.根据权利要求1所述的方法,其特征在于,所述从信息投放数据中获取多个需求方与多个信息标签的关联关系,包括:

    筛选出投放反馈数据达到预设标准的信息投放数据,从所述信息投放数据中获取多个需求方与多个信息标签的关联关系。

    12.一种特征提取装置,其特征在于,包括:

    关联关系获取模块,被配置为从信息投放数据中获取多个需求方与多个信息标签的关联关系;

    关系图建立模块,被配置为基于所述关联关系建立信息投放关系图,所述信息投放关系图的顶点包括所述需求方与所述信息标签;

    顶点序列提取模块,被配置为通过所述信息投放关系图中的路径形成多个顶点序列;

    特征数据提取模块,被配置为根据所述顶点序列提取至少一个顶点的特征数据。

    13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任一项所述的方法。

    14.一种电子设备,其特征在于,包括:

    处理器;以及

    存储器,用于存储所述处理器的可执行指令;

    其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至11任一项所述的方法。

    技术总结
    本公开提供了一种特征提取方法、装置、存储介质与电子设备,涉及数据处理技术领域。所述特征提取方法包括:从信息投放数据中获取多个需求方与多个信息标签的关联关系;基于所述关联关系建立信息投放关系图,所述信息投放关系图的顶点包括所述需求方与所述信息标签;通过所述信息投放关系图中的路径形成多个顶点序列;根据所述顶点序列提取至少一个顶点的特征数据。本公开能够提高需求方或信息标签特征提取的准确性,有利于需求方与信息标签的精准匹配。

    技术研发人员:黄崇远
    受保护的技术使用者:深圳市欢太科技有限公司;OPPO广东移动通信有限公司
    技术研发日:2020.12.10
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-17238.html

    最新回复(0)