本申请涉及用户行为的档案资源推送领域,尤其是指一种基于用户行为的档案资源精准推送方法。
背景技术:
语义网提供了对信息资源智能利用的工具:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。当用户用网络搜索进行查询的时候,通常会最先想到一些关键的信息词汇,但实际上所需要的要求常常很复杂,而掌握的知识往往也是多方面、多角度的。如在搜索引擎中输入“世界贸易组织”的时候,也许要了解的是中国加入世贸组织的相关信息,但一般搜索的结果也许要进行无数次的过滤却无功而返;这是因为计算机根本无法知道要找的是世贸组织的机构情况、主要功能还是其协议及宗旨等,但是语义信息能够让程序更容易分辨不同网页中的元素,理解“中国加入世贸组织的详细经过”这样的一个事实,而且能够把它们结合在一起。语义信息不仅可以更准确地完成检索,而且能够自动处理复杂的过程。在档案管理系统中,由于数据庞大,利用率较低,因此就需要通过语义分析采集,对客户进行精确、优化推荐的方法。
现有技术中尚未将nlp自然语言与档案专业数据进行信息交互,当前自然语言识别是基于nlp自然语言处理技术,总体上是基于已有数据库进行训练后执行匹配的流程,而基于档案的文本实体抽取、文本分类、关键短语抽取、短文本匹配、关系抽取、智能语音交互、文字识别、文本相似度算法等相关技术还无法完全实现档案与用户之间的精准识别与推送,更无法结合档案专业数据与信息实现向用户精准推送目标档案的关联档案,用户检索档案过程中仍然需要花费时间构建检索式、并耗费大量精力筛选目标档案。
技术实现要素:
为解决上述问题,本申请提供一种基于用户行为的档案资源精准推送方法,其中,包括服务器,所述服务器包括用户行为库,所述用户行为库中包括用户行为信息,所述用户行为信息包括用户标签和用户类型;所述档案库包括档案资料,所述档案资料包括档案标签和档案类型;具体操作步骤为:
步骤s100,获取用户标签u=[ux1,ux2,…,uxm]和档案标签d=[dx1,dx2,…,dxn];其中,uxi为所述用户的第i个用户标签;dxj为所述档案的第j个档案标签;
步骤s200,获得用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj);
步骤s300,根据用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj),对档案进行加权评分,得到相对于用户i的档案j的评分,将高分档案推荐给用户;
步骤s400,根据用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj)计算用户相似度,判断与所述用户相似的用户。
其中,所述用户标签uxi的权重uw(uxi)的获取方法为:
获取用户行为库中该用户标签uxi的词频tf和逆文档频率idf;其中,词频tf为:
ni是该词在全文中出现的次数,σpnp,i是所有词汇出现的次数总和;逆文档频率idf为:
其中n是当前用户类型中用户总数,n'是其他用户类型档案总数,dj是在当前用户类型中含有该标签的用户总数,di'是在其他用户类型中含有该标签的用户总数。
所述用户标签uxi的权重uw(uxi)=tfi×idfi。
其中,在步骤s200中,所述档案标签dxj的权重dw(dxj)的计算方法为:
获取档案库中该档案标签dxj的词频tf和逆文档频率idf;其中,词频tf为:
其中,ty是该词在档案标题中出现的次数,py是该词在档案第一段中出现的次数,ny是该词在档案全文中出现的次数,∑knk,y是档案中所有词汇出现的次数总和;
逆文档频率idf为:
其中,n是当前档案类型档案总数,n'是其他档案类型档案总数,dj是在当前档案类型中含有该词的档案总数,dj'是在其他档案类型中含有该词的档案总数。
所述档案标签dxj的权重dw(dxj)=tfj×idfj。
其中,在步骤s300中,档案j相对于用户i的评分f为
如上所述的一种基于用户行为的档案资源精准推送方法,其中,在步骤s400中,相似度
本申请实现的有益效果如下:
本申请通过对用户在档案库中检索和获取等行为构建了相应的数据库并进行自主学习和训练,同时,基于自然语义识别对用户偏好的档案类型进行了分组匹配,从而实现了为用户提供精准的档案推送,提升了用户查询档案数据速度和体验度,并能够更好的辅助用户精确获取其偏好相关档案。
具体实施方式
下面结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请包括一种基于用户行为的档案推送服务器,所述服务器包括用户行为库,所述用户行为库中包括用户行为信息,所述用户行为信息包括用户标签和用户类型;所述档案库包括档案资料,所述档案资料包括档案标签和档案类型;
所述服务器还包括处理器和存储有计算机程序的非瞬时性计算机可读存储介质,当所述计算机程序被所述处理器执行时,实现以下基于用户行为的档案资源精准推送方法;
步骤s100,获取用户标签u=[ux1,ux2,…,uxm]和档案标签d=[dx1,dx2,…,dxn];其中,uxi为所述用户的第i个用户标签;dxj为所述档案的第j个档案标签;
步骤s200,得到用户标签uxi的权重uw(uxi);档案标签dxj的权重dw(dxj);
步骤s300,根据用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj),对档案进行加权评分,将高分档案推荐给用户;
步骤s400,通过用户标签计算用户相似度,判断与所述用户相似的用户。
在一些实施例中,所述用户标签uxi的权重uw(uxi)的计算方法为:
获取用户行为库中该用户标签uxi的词频tf和逆文档频率idf;其中,词频tf为:
ni是该词在全文中出现的次数,∑pnp,i是所有词汇出现的次数总和;逆文档频率idf为:
其中n是当前用户类型中用户总数,n'是其他用户类型档案总数,dj是在当前用户类型中含有该标签的用户总数,di'是在其他用户类型中含有该标签的用户总数。
所述用户标签uxi的权重uw(uxi)=tfi×idfi。
实施例1:
用户系统包括有档案员和普通用户两种用户类型,其中用户a的类型为档案员,用户a的用户标签的出现次数的情况为:[江苏*2、档案*1、档案局*1、文书档案*1、图纸档案*1]。
用户数量和含“江苏”用户标签的用户数的情况如表1所示:
表1
计算“江苏”和“档案局”两个用户标签权重,根据公式计算,可得:
江苏
江苏
“江苏”用户标签的权重uw江苏=tf×idf=9.5228787×0.6197887=5.9021726
根据相同方法计算出“档案局”标签的权重uw档案局=5.7155976
可以看出对于用户a来说“江苏”标签比“档案局”标签更重要。
实施例2:
在另外一些实施方式中,权重根据算法自动设置,多次阅读或改动喜好,权重会变化。用户有一个行为库,存储用户的档案类型,关键字、档案的标签,根据行为库计算权重,多次检索后,行为库会发生改变,权重也会随着改变;另有一个过滤库,在推荐时去除用户不喜欢或已经阅读过的档案。
如表2所示,一个新用户执行了以下操作,行为库会相应变化,标签权重也会相应变化:
表2
在一些实施方式中,所述档案标签dxj的权重dw(dxj)的计算方法为:
获取档案库中该档案标签dxj的词频tf和逆文档频率idf;其中,词频tf为:
其中,ty是该词在档案标题中出现的次数,py是该词在档案第一段中出现的次数,ny是该词在档案全文中出现的次数,∑knk,y是档案中所有词汇出现的次数总和;
逆文档频率idf为:
其中,n是当前档案类型档案总数,n'是其他档案类型档案总数,dj是在当前档案类型中含有该词的档案总数,dj'是在其他档案类型中含有该词的档案总数。
所述档案标签dxj的权重dw(dxj)=tfj×idfj;
实施例3:
设置档案类型为文书档案和会计档案,其中,档案a的档案类型为文书档案,档案a的词分布情况如表3所示:
表3
文书档案类型的档案总数为50,其中,含有“调研”的数量为10,含有“工作”的数量为30;会计档案类型的档案总数为60,其中,含有“调研”的数量为5,含有“工作”的数量为20;
计算文档标签“调研”和“工作”的权重:
调研
调研
调研权重dw调研=tf×idf=16.8628661
根据同样方法计算“工作”的权重dw工作=6.6285913
通过上述结果,可以直观得到,对于档案a来说“调研”标签比“工作”标签更重要。
在一些事实方式中,通过获得档案标签和用户行为标签的权重,能够对档案进行加权评分,将高分档案推荐给用户,具体步骤为:
档案j相对于用户i的评分f为
实施例4:
设置第一档案标签权重为:[江苏0.5,南京0.1,历史0.9]
第二档案标签权重为:[江苏0.9,南京0.1,历史0.1]
用户标签权重为:[江苏0.11,南京0.12,历史0.2]
第一档案和第二档案的得分为:
f1=0.5x0.11 0.1x0.12 0.9x0.2=0.242
f2=0.9x0.11 0.1x0.12 0.1x0.2=0.131
可以看出第一档案得分更高,因为用户更偏重于历史相关的档案。
计算完成后,排序获取得分高的档案,从中去除用户不喜欢和已阅读过的档案,并加入根据协同过滤获取到的档案,形成最终的档案列表,推荐给用户。
在另外一些事实方式中,还包括协同过滤推荐算法,协同过滤推荐使用相似度算法计算用户相似度,推荐相似用户的偏好档案。具体实现过程为:当前用户打开了一个档案,系统获取打开过该档案的其他用户,计算当前用户和其他用户的相似度,获取相似度高的一个或多个用户,将相似度高的用户的喜好档案推荐给当前用户。
其中,计算相似度似的算法为余弦相似度算法,计算公式为:相似度
实施例5:
设置现在有3个用户x、y、z,需要计算用户x和另外两个用户的相似度
其中,所述x的各个用户标签权重为[江苏0.147、档案局0.095、文书档案0.1]
y的各个用户标签权重为[江苏0.177、档案局0.105、文书档案0.155]
z的各个用户标签权重为[江苏0.09、档案局0.175、文书档案0.032]
可以得到x和y的相似度值更高。
通过上述实施方式,能够实现对用户状态、用户需求及管理的实时监测、全面、真实的感知。利用大数据分析技术,从海量数据中获得对用户需求的深刻洞察,并对感知数据进行融合、分析和处理,与业务系统集成并做出主动的响应,能够对不同类型的客户、具有相似的客户进行精确的推荐。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
1.一种基于用户行为的档案资源精准推送方法,其中,包括服务器,所述服务器包括用户行为库和档案库,所述用户行为库包括用户标签和用户类型;所述档案库包括档案标签和档案类型;具体操作步骤为:
步骤s100,获取该用户的用户标签u=[ux1,ux2,…,uxm]和档案标签d=[dx1,dx2,…,dxn];其中,uxi为所述用户的第i个用户标签;dxj为所述档案的第j个档案标签;
步骤s200,获得用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj);
步骤s300,根据用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj),对档案进行加权评分,得到相对于用户i的档案j的评分,将高分档案推荐给用户;
步骤s400,根据用户标签uxi的权重uw(uxi)和档案标签dxj的权重dw(dxj)计算用户相似度,判断与所述用户相似的用户。
2.如权利要求1所述的一种基于用户行为的档案资源精准推送方法,其中,在步骤s200中,所述用户标签uxi的权重uw(uxi)的获取方法为:
获取用户行为库中该用户标签uxi的词频tf和逆文档频率idf;其中,词频tf为:
ni是该词在全文中出现的次数,
逆文档频率idf为:
其中n是当前用户类型中用户总数,n'是其他用户类型档案总数,dj是在当前用户类型中含有该标签的用户总数,di'是在其他用户类型中含有该标签的用户总数;
所述用户标签uxi的权重uw(uxi)=tfi×idfi。
3.如权利要求1所述的一种基于用户行为的档案精准推送方法,其中,在步骤s200中,所述档案标签dxj的权重dw(dxj)的计算方法为:
获取档案库中该档案标签dxj的词频tf和逆文档频率idf;其中,词频tf为:
其中,tj是该词在档案标题中出现的次数,pj是该词在档案第一段中出现的次数,nj是该词在档案全文中出现的次数,
逆文档频率idf为:
其中,n是当前档案类型档案总数,n'是其他档案类型档案总数,dj是在当前档案类型中含有该词的档案总数,dj'是在其他档案类型中含有该词的档案总数;
所述档案标签dxj的权重dw(dxj)=tfj×idfj。
4.如权利要求1所述的一种基于用户行为的档案资源精准推送方法,其中,在步骤s300中,档案j相对于用户i的评分f为
5.如权利要求1所述的一种基于用户行为的档案资源精准推送方法,其中,在步骤s400中,相似度