本发明属于数据处理
技术领域:
,尤其涉及一种用户id数据关联方法及装置。
背景技术:
:随着网络技术飞速发展,人们基于网络的行为越来越多,网络中的用户行为数据、属性数据也越来越多。这些数据都分散在不同的服务器中,从单个服务器中的数据看,只是这个用户一个片面的信息,无法将属于同一个用户的分散在不同的服务器中的数据(例如,userid)关联起来,因此,无法获得一个用户更全面的信息。技术实现要素:有鉴于此,本发明的目的在于提供一种用户id数据关联方法及装置,以解决相关技术无法将同一用户对应的分散在不同服务器中的用户id数据关联在一起,得到一个用户更全面的信息。其公开的具体技术方案如下:一方面,本发明提供了一种用户id数据关联方法,包括:获取来自至少两个不同服务器的用户id数据集,所述用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识rid,所述rid能够表征不同的用户;对于所述用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合;将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联;将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。另一方面,本发明提供了一种用户id数据关联装置,包括:获取模块,用于获取来自至少两个不同服务器的用户id数据集,所述用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识rid,所述rid能够表征不同的用户;提取模块,用于对于所述用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合;合并模块,用于将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联;存储模块,用于将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。又一方面,本发明还提供了一种设备,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以实现上述的用户id数据关联方法。再一方面,本发明还提供了一种存储介质,其上存储有程序,其特征在于,所述程序被处理器加载并执行时实现上述的用户id数据关联方法。本发明提供的用户id数据关联方法,从不同的服务器中获得多条用户id数据,这些用户id数据构成用户id数据集。对于任意一条用户id数据提取该用户id数据中包括的全部rid得到一个rid集合;将包含有相同rid的rid集合进行合并,合并得到的每个rid集合内的全部rid均与同一个用户相关联。将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合构成一个连通图。利用该方案能够将来自不同服务器的属于同一人的用户id关联起来,从而为进一步完善用户画像做出巨大贡献。此外,与同一个人关联的用户id以图数据结构进行存储,当有新的用户id数据产生时,直接更新与新的用户id数据关联的连通图即可,数据更新过程更简单。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明提供的一种用户id数据关联方法的流程图;图2是本发明提供的一种rid的连通图;图3是本发明提供的另一种用户id数据关联方法的流程图;图4是图2所示的rid连通图增加vid之后的rid的连通图;图5是本发明提供的一种用户id数据关联装置的结构示意图;图6是本发明提供的另一种用户id数据关联装置的结构示意图;图7是本发明提供的另一种用户id数据关联装置的结构示意图;图8是本发明提供的一种设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参见图1,示出了本发明提供的一种用户id数据关联方法的流程图,该方法应用于数据关联服务器中,利用该方法能够从来自不同服务器的用户id数据中识别出与同一个用户相关的用户id,即打通了同一个用户的不同用户id。如图1所示,该方法可以包括以下步骤:s110,获取来自至少两个不同服务器的用户id数据集。通常情况下,每个服务器对应一个用户id数据集,该用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识(realid,rid),该rid能够表征不同的用户。本文中的服务器是指为网络用户提供各种业务服务的服务器,例如,某个网站的服务器,或者,某个应用程序的服务器。网站或应用程序中会记录用户的历史行为数据,例如,浏览、点击、下单等,为了区分不同的用户,会记录与该用户相关联的rid。本文中rid可以包括设备id(如mac地址、idfa、imei等)、账户id(如邮箱id、手机号码、在网站或应用程序上注册的id)、cookieid等。其中,mac(mediaaccesscontrol)地址是网卡的标识,能够唯一标识网络设备;idfa(identifierforadvertising)是使用ios系统的设备的广告标识符,通常与设备唯一对应;imei(internationalmobileequipmentidentity)是国际移动设备识别码,用于在移动电话网络中识别每一部独立的移动通信设备。cookieid是用户访问某个网站时该网站为该用户分配的编号,并存储到浏览器中,当用户下一次访问该网站时,浏览器将该cookieid上传给网站,cookieid对应一个用户设备。在本发明的一个实施例中,不同服务器中的用户id数据中包含的rid类型不同,用户可以设置将属于不同服务器的哪些rid类型的数据进行关联。需要说明的是,服务器中每一条用户id数据通常包括多个字段,每个字段对应一个rid类型;各个服务器中每个字段所对应的rid类型可以预先配置;通常情况下,不同服务器的字段命名规则可能不同,因此,同一rid类型的rid在不同服务器中使用的字段名可能不同。可以根据各服务器中关于各个字段对应的rid类型的配置信息确定出包含同一rid类型的字段,然后,从服务器中获取包含该字段的用户id数据,以便下一步依据该字段rid打通用户id数据。例如,在服务器1中c1字段对应的rid类型是idfa,c2字段对应的rid类型是gropeid,该gropeid表示某个应用程序或网站的账户id。而且,从服务器1中获取的包含c1字段和c2字段的用户id数据如下面的表1所示。在服务器2中c3字段对应的rid类型是androidid、c4字段对应的rid类型是idfa、c5字段对应的rid类型是imei。从服务器2中获取的包含c3、c4、c5字段的用户id数据如下面的表2所示。s120,对于用户id数据集中的任意一条用户id数据,提取该用户id数据中所包括的全部rid得到一个rid集合。例如,来自服务器1的用户id数据如表1所示:表1序号c1字段(idfa)c2字段(gropeid)1i01g012i02g023i01g03来自服务器2的用户id数据如表2所示:表2序号c3字段(androidid)c4字段(idfa)c5字段(imei)1a01i04m012a02i02m023a03i05m03其中,androidid是android系统随机生成的设备id。其中,表1中的c1字段对应的rid类型为idfa,而且,表2中的c4字段对应的rid类型为idfa,因此,通过两个表包含的相同类型的rid将同一用户的rid关联起来。分析表1所示用户id数据得到的rid集合分别为:(i01,g01)、(i02,g02),(i01,g03)。分析表2所示的用户id数据得到的rid集合分别为:(a01,i04,m01)、(a02,i02,m02)、(a03,i05,m03)。s130,将存在至少一个rid相同的至少两个rid集合合并为一个rid集合,合并得到每个rid集合内的全部rid均与同一个用户相关联。分析得到每一条用户id数据对应的rid集合后,依据各rid集合中的rid进行合并。仍沿用表1和表2所示的实例,(i01,g01)和(i01,g03)都包含idfa类型的i01,因此这两个rid集合可以合并为一个rid集合,合并后的rid集合为(i01,g01,g03)。同理,(i02,g02)和(a02,i02,m02)合并得到(i02,g02,a02,m02);(a01,i04,m01)、(a03,i05,m03)均不存在可合并的rid集合。综上,表1和表2所示的用户id数据对应的rid集合合并后分别为:(i01,g01,g03)、(i02,g02,a02,m02)、(a01,i04,m01)和(a03,i05,m03)。s140,将合并得到的每个rid集合内的全部rid存储至图数据库中。对于合并得到的每一个rid集合而言,该rid集合所包含的全部rid中的每一个rid存储为图数据结构的一个顶点,且该rid集合内的rid之间以边串连在一起,每个rid集合包含的rid构成一个连通图。一个连通图中的任意两个顶点都可以通过边和其它顶点进行连通,而不必然存在直接连接的边。例如,rid集合为(i02,g02,a02,m02),则该rid集合对应的连通图如图2所示。本实施例提供的用户id数据关联方法,从不同的服务器中获得多条用户id数据,这些用户id数据构成用户id数据集。对于任意一条用户id数据提取该用户id数据中包括的全部rid得到一个rid集合;将包含有相同rid的rid集合进行合并,合并得到的每个rid集合内的全部rid均与同一个用户相关联。将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合构成一个连通图。利用该方案能够将来自不同服务器的属于同一人的用户id关联起来,从而为进一步完善用户画像做出巨大贡献。此外,与同一个人关联的用户id以图数据结构进行存储,当有新的用户id数据产生时,直接更新与新的用户id数据关联的连通图即可,数据更新过程更简单。请参见图3,示出了本发明提供的另一种用户id数据关联方法的流程图,该方法在图1所示实施例的基础上还包括以下步骤:s210,为合并得到的每个rid集合生成一个唯一对应的vid,且将该vid存储为与该vid关联的rid集合所对应的连通图中的顶点,并将vid对应的顶点与相关联的rid集合中的rid之间以边相连。在执行s140将包含相同rid的rid集合进行合并之后,为每一个rid集合生成一个唯一的虚拟标识(virtualid,vid),合并得到的每个rid集合内的rid都与同一个用户关联,为rid集合生成唯一对应的vid之后,相当于为每个用户生成一个vid,该vid是为用户生成的虚拟id。例如,仍以表1和表2所示的实例进行说明,vid1→(i01,g01,g03),vid2→(i02,g02,a02,m02),vid3→(a01,i04,m01)和vid4→(a03,i05,m03)。生成的vid也需要存储至图数据库中,vid存储为一个顶点,并建立该顶点与该vid对应的rid集合中的全部rid之间的连通关系,即利用边将vid与相关联的rid集合中的任意一个rid相连,即将vid与相关联的rid构成一个连通图,例如,图2所示的rid集合,生成对应的vid之后得到的连通图如图4所示。通过该vid能够唯一确定一个用户,便于对该用户对应的rid进行管理,尤其在图数据库中通过查找某个用户对应的vid即可查找到与该vid对应的全部rid。s220,对于每个vid,获取与该vid对应的rid集合内的每个rid所对应的用户行为数据。在生成rid集合对应的vid之后,可以依据与该vid关联的rid,从服务器(例如,网站、应用程序等)中获取与该rid相对应的用户行为数据,例如,用户的浏览行为数据。s230,分析用户行为数据生成与该vid对应的标签。进一步分析从不同服务器中获得的与该用户对应的用户行为数据,并依据对该用户的用户行为数据的分析结果生成该用户对应的标签。该vid对应的rid集合中的全部rid共享该标签。在一种可能的实现方式中,生成的标签可以包括事实标签和模型标签,其中,事实标签由用户行为数据直接转化产生,例如可以采用正则匹配替换方式生成事实标签;模型标签基于事实标签和维度建模表字段产生,经过一系列函数计算转化得到。在本发明的一个实施例中,随时间推移,各服务器中的用户id数据会不断更新,可以按照指定的时间间隔分别从各服务器中拉取新的用户id数据,例如,只拉取上一次数据拉取时间之后产生的用户id数据。然后,依据新拉取的用户id数据更新图数据库。具体的,可以通过以下步骤更新图数据库中的数据:s240,当获得新的用户id数据后,获得所述新的用户id数据对应的新获得的rid集合。获取最新获得的用户id数据集合中的rid,并生成每一条数据对应的rid集合,并依据各rid集合中的rid进行合并得到该用户id数据对应的新获得的rid集合,即得到该用户id数据对应的待增加的rid集合。具体合并过程请参见图1所示实施例中的相关内容,此处不再赘述。s250,查询图数据库中是否存在与新获得的rid集合中的任意一个rid相同的顶点;如果是,则执行s260;如果否,则执行s270。该新获得的rid集合即待增加的rid集合。s260,依据所述新获得的rid集合更新顶点对应的连通图。仍以表1和表2所示的用户id数据为例,如果待增加的rid集合为(a01,i07,m03),则(a01,i07,m03)与图数据库中的vid3→(a01,i04,m01)都包含a01,且(a01,i07,m03)与图数据库中的vid4→(a03,i05,m03)都包含m03,因此,可以将(a01,i07,m03)、vid3→(a01,i04,m01)和vid4→(a03,i05,m03)合并为一个rid集合,并保留合并的这几个rid集合中最早的vid(即vid3),并删除vid4;合并后的rid集合为:vid3→(a01,i04,m01,a03,i05,m03,i07)。s270,在图数据库中新增新获得的rid集合所包含的rid的顶点,以及新增的各顶点之间的边相连。本实施例提供的用户id数据关联方法,为每个rid集合生成一个vid,并基于vid为每个rid集合生成对应的标签,以使该rid集合中的全部rid共享一个标签。而且,与同一个人关联的用户id以图数据结构进行存储,当有新的用户id数据产生时,直接更新与新的用户id数据关联的连通图即可,数据更新过程更简单。另一方面,本发明还提供了用户id数据关联装置实施例。请参见图5,示出了本发明提供的一种用户id数据关联装置的结构示意图,该装置可以应用于服务器或终端设备中,如图5所示,该装置包括:获取模块110、提取模块120、合并模块130和存储模块140。获取模块110,用于获取来自至少两个不同服务器的用户id数据集。其中,该用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的rid,所述rid能够表征不同的用户。在一种可能的实现方式中,获取模块110具体用于:对于至少两个不同服务器中的任意一个服务器,从该服务器中获取预先配置的rid类型所对应的rid数据得到所述用户id数据集。提取模块120,用于对于用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合。合并模块130,用于将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联。存储模块140,用于将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。在一种可能的实现方式中,该存储模块140具体用于:对于合并得到的任意一个rid集合,将该rid集合中的每一个rid存储为一个顶点,且该rid集合中的全部rid之间以边相互串连,得到该rid集合对应的连通图。本发明提供的用户id数据关联装置,从不同的服务器中获得多条用户id数据,这些用户id数据构成用户id数据集。对于任意一条用户id数据提取该用户id数据中包括的全部rid得到一个rid集合;将包含有相同rid的rid集合进行合并,合并得到的每个rid集合内的全部rid均与同一个用户相关联。将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合构成一个连通图。利用该方案能够将来自不同服务器的属于同一人的用户id关联起来,从而为进一步完善用户画像做出巨大贡献。此外,与同一个人关联的用户id以图数据结构进行存储,当有新的用户id数据产生时,直接更新与新的用户id数据关联的连通图即可,数据更新过程更简单。在本发明的另一个实施例中,如图6所示,上述用户id数据关联装置还包括:虚拟标识生成模块210。虚拟标识生成模块210,用于为合并得到的每个rid集合生成一个唯一对应的vid,且将该vid存储为与该vid关联的rid集合所对应的连通图中的顶点,并将该vid对应的顶点与相关联的rid集合中的任意一个rid之间以边相连。在本发明的又一个实施例中,如图7所示,在图6所示的用户id数据关联装置还可以包括:行为数据获取模块310和标签生成模块320。行为数据获取模块310,用于对于每个vid,获取与该vid对应的rid集合内的每个rid所对应的用户行为数据。标签生成模块320,用于分析用户行为数据生成与该vid对应的标签。本实施例提供的用户id数据关联装置,为每个rid集合生成一个vid,并基于vid为每个rid集合生成对应的标签,以使该rid集合中的全部rid共享一个标签;以便后续从标签维度分析用户信息。在本发明的再一个实施例中,在图5~图7所示的用户id数据关联装置的基础上还可以包括以下内容。该装置以图5所示实施例为基础,还可以包括:新数据获取模块、查询模块和数据更新模块。新数据获取模块,用于当获得新的用户id数据后,获得该新的用户id数据对应的新获得的rid集合;查询模块,用于查询所述图数据库中是否存在与新获得的rid集合中的任意一个rid相同的顶点。数据更新模块,用于当图数据库中存在与新获得的rid集合中的任意一个rid相同的顶点,则依据该新获得的rid集合更新该顶点对应的连通图。本实施例提供的用户id数据关联装置,与同一个人关联的用户id以图数据结构进行存储,当有新的用户id数据产生时,直接更新与新的用户id数据关联的连通图即可,数据更新过程更简单。所述用户id数据关联装置包括处理器和存储器,上述获取模块110、提取模块120、合并模块130和存储模块140等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数以实现将来自不同服务器的属于同一人的用户id关联起来,从而为进一步完善用户画像做出巨大贡献。本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述用户id数据关联方法。本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行用户id数据关联方法。另一方面,本发明实施例提供了一种设备,如图8所示,设备包括至少一个处理器510、以及与处理器510连接的至少一个存储器520、总线530;其中,处理器510、存储器520通过总线530完成相互间的通信;处理器510用于调用存储器520中的程序指令,以执行上述的用户id数据关联方法。本文中的设备可以是服务器、pc、pad、手机等。本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取来自至少两个不同服务器的用户id数据集,所述用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识rid,所述rid能够表征不同的用户;对于所述用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合;将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联;将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。在一种可能的实现方式中,所述将合并得到的每个rid集合内的全部rid存储至图数据库中,包括:对于合并得到的任意一个rid集合,将该rid集合中的每一个rid存储为一个顶点,且该rid集合中的全部rid之间以边相互串连,得到该rid集合对应的连通图。在另一种可能的实现方式中,所述方法还包括:为合并得到的每个rid集合生成一个唯一对应的虚拟标识vid,且将该vid存储为与该vid关联的rid集合所对应的连通图中的顶点,并将该vid对应的顶点与相关联的rid集合中的任意一个rid之间以边相连。在又一种可能的实现方式中,所述方法还包括:对于每个vid,获取与该vid对应的rid集合内的每个rid所对应的用户行为数据;分析所述用户行为数据生成与该vid对应的标签。在又一种可能的实现方式中,所述方法还包括:当获得新的用户id数据后,获得所述新的用户id数据对应的新获得的rid集合;查询所述图数据库中是否存在与新获得的rid集合中的任意一个rid相同的顶点;若所述图数据库中存在与新获得的rid集合中的任意一个rid相同的顶点,则依据所述新获得的rid集合更新该顶点对应的连通图。在再一种可能的实现方式中,所述获取来自至少两个不同服务器的用户id数据集,包括:对于所述至少两个不同服务器中的任意一个服务器,从该服务器中获取预先配置的rid类型所对应的rid数据得到所述用户id数据集。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。在一个典型的配置中,设备包括一个或多个处理器(cpu)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 
技术特征:1.一种用户id数据关联方法,其特征在于,包括:
获取来自至少两个不同服务器的用户id数据集,所述用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识rid,所述rid能够表征不同的用户;
对于所述用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合;
将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联;
将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。
2.根据权利要求1所述的方法,其特征在于,所述将合并得到的每个rid集合内的全部rid存储至图数据库中,包括:
对于合并得到的任意一个rid集合,将该rid集合中的每一个rid存储为一个顶点,且该rid集合中的全部rid之间以边相互串连,得到该rid集合对应的连通图。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
为合并得到的每个rid集合生成一个唯一对应的虚拟标识vid,且将该vid存储为与该vid关联的rid集合所对应的连通图中的顶点,并将该vid对应的顶点与相关联的rid集合中的任意一个rid之间以边相连。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于每个vid,获取与该vid对应的rid集合内的每个rid所对应的用户行为数据;
分析所述用户行为数据生成与该vid对应的标签。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
当获得新的用户id数据后,获得所述新的用户id数据对应的新获得的rid集合;
查询所述图数据库中是否存在与新获得的rid集合中的任意一个rid相同的顶点;
若所述图数据库中存在与新获得的rid集合中的任意一个rid相同的顶点,则依据所述新获得的rid集合更新该顶点对应的连通图。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述获取来自至少两个不同服务器的用户id数据集,包括:
对于所述至少两个不同服务器中的任意一个服务器,从该服务器中获取预先配置的rid类型所对应的rid数据得到所述用户id数据集。
7.一种用户id数据关联装置,其特征在于,包括:
获取模块,用于获取来自至少两个不同服务器的用户id数据集,所述用户id数据集包括多条用户id数据,每一条用户id数据包括与同一用户关联的至少两个不同类型的真实标识rid,所述rid能够表征不同的用户;
提取模块,用于对于所述用户id数据集中的任意一条用户id数据,提取该用户id数据中所包含的全部rid得到一个rid集合;
合并模块,用于将存在相同rid的至少两个rid集合合并为一个rid集合,合并得到的每个rid集合内的全部rid均与同一个用户相关联;
存储模块,用于将合并得到的每个rid集合内的全部rid存储至图数据库中,合并得到的每个rid集合包含的rid构成一个连通图。
8.根据权利要求7所述的装置,其特征在于,所述存储模块具体用于:
对于合并得到的任意一个rid集合,将该rid集合中的每一个rid存储为一个顶点,且该rid集合中的全部rid之间以边相互串连,得到该rid集合对应的连通图。
9.一种设备,其特征在于,所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;
其中,所述处理器、存储器通过总线完成相互间的通信;
所述处理器用于调用所述存储器中的程序指令,以实现权利要求1-6任一项所述的用户id数据关联方法。
10.一种存储介质,其上存储有程序,其特征在于,所述程序被处理器加载并执行时实现权利要求1-6任一项所述的用户id数据关联方法。
技术总结本发明提供了用户ID数据关联方法及装置,从不同的服务器中获得多条用户ID数据,这些用户ID数据构成用户ID数据集。对于任意一条用户ID数据提取该用户ID数据中包括的全部RID得到一个RID集合;将包含有相同RID的RID集合进行合并,合并得到的每个RID集合内的全部RID均与同一个用户相关联。将合并得到的每个RID集合内的全部RID存储至图数据库中,合并得到的每个RID集合构成一个连通图。利用该方案能够将来自不同服务器的属于同一人的用户ID关联起来。此外,与同一个人关联的用户ID以图数据结构进行存储,当有新的用户ID数据产生时,直接更新与新的用户ID数据关联的连通图即可,数据更新过程更简单。
技术研发人员:张孟旭;蔡波;王际彭
受保护的技术使用者:北京国双科技有限公司
技术研发日:2019.09.12
技术公布日:2021.03.12