本发明涉及数据处理,特别涉及一种基于知识图谱的web api推荐方法及系统。
背景技术:
1、基于协同过滤的推荐方法无法做出预测,推荐的准确性受可用数据的影响较大。基于模型的web api的推荐准确度会受到用户与web api潜在的特征向量的简单的点积计算的限制,同时深度学习中所依赖的人工特征工程也会影响模型的可扩展性。
2、鉴于此,目前需要一种更加高效的web api推荐方法。
技术实现思路
1、本发明提供一种基于知识图谱的web api推荐方法及系统,能够提高web api推荐的效率。
2、鉴于此,本发明一方面提供一种基于知识图谱的web api推荐方法,所述方法包括:
3、对web api的异构数据信息进行分析,并基于分析结果构建web api知识图谱;
4、将用户对web api的历史使用记录作为在所述知识图谱中传播的历史兴趣信息,并基于所述历史兴趣信息中各个实体间的关联关系,更新所述知识图谱中的邻居信息;
5、根据更新后的知识图谱中的邻居信息,确定用户的潜在兴趣特征,以及捕获webapi的内在特征,并基于所述潜在兴趣特征和所述内在特征,向对应的用户推荐匹配的webapi。
6、在一个实施方式中,基于分析结果构建web api知识图谱包括:
7、统计异构数据信息分析后得到的信息文本,并对所述信息文本进行文本聚类,得到若干不同文本类型的知识文本数据集;
8、将所述知识文本数据集提交至分布式服务器,进行分布式文件储存;
9、按照知识文本的长度,有序从所述分布式服务器中提取相应的知识文本,并对提取的所述知识文本进行知识实体识别,获得各个知识实体的关联信息;
10、将各个知识实体的关联信息提交至知识图谱构建模块,以使得所述知识图谱构建模块根据各个知识实体的关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱。
11、在一个实施方式中,对所述信息文本进行文本聚类,得到若干不同文本类型的知识文本数据集包括:
12、构建支持向量机,并将所述支持向量机部署于后台服务器;
13、将所述信息文本发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;
14、所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本并输出;
15、所述后台服务器对输出的若干不同文本类型的所述知识文本进行聚集处理,得到所述知识文本数据集。
16、在一个实施方式中,将所述知识文本数据集提交至分布式服务器,进行分布式文件储存包括:
17、对所述知识文本数据集中的各项知识文本,进行文本类型长度计算,将计算得到的长度值标记在各项知识文本上;
18、将所述长度值按照从大到小的顺序,对所述知识文本数据集中的各项知识文本进行有序排列,重排所述知识文本数据集;
19、遍历所述分布式服务器的各个存储节点,查看可用的存储节点,将重排后所述知识文本数据集中的各项知识文本,按照重排顺序依次储存于所述可用的存储节点中;
20、将各项知识文本数据块的存储地址,发送至后台服务器。
21、在一个实施方式中,基于所述历史兴趣信息中各个实体间的关联关系,更新所述知识图谱中的邻居信息包括:
22、从所述历史兴趣信息中提取用户与web api的关联关系,针对任一关联关系,在所述关联关系中确定用户实体;
23、在所述知识图谱中识别所述用户实体的邻居网格,并根据所述用户实体引用的web api,对所述邻居网格中的邻居信息进行更新。
24、本发明还提供一种基于知识图谱的web api推荐系统,所述系统包括:
25、图谱构建单元,用于对web api的异构数据信息进行分析,并基于分析结果构建web api知识图谱;
26、更新单元,用于将用户对web api的历史使用记录作为在所述知识图谱中传播的历史兴趣信息,并基于所述历史兴趣信息中各个实体间的关联关系,更新所述知识图谱中的邻居信息;
27、推荐单元,用于根据更新后的知识图谱中的邻居信息,确定用户的潜在兴趣特征,以及捕获web api的内在特征,并基于所述潜在兴趣特征和所述内在特征,向对应的用户推荐匹配的web api。
28、在一个实施方式中,所述图谱构建单元具体用于,统计异构数据信息分析后得到的信息文本,并对所述信息文本进行文本聚类,得到若干不同文本类型的知识文本数据集;将所述知识文本数据集提交至分布式服务器,进行分布式文件储存;按照知识文本的长度,有序从所述分布式服务器中提取相应的知识文本,并对提取的所述知识文本进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的关联信息提交至知识图谱构建模块,以使得所述知识图谱构建模块根据各个知识实体的关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱。
29、在一个实施方式中,所述图谱构建单元具体用于,构建支持向量机,并将所述支持向量机部署于后台服务器;将所述信息文本发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本并输出;所述后台服务器对输出的若干不同文本类型的所述知识文本进行聚集处理,得到所述知识文本数据集。
30、在一个实施方式中,所述图谱构建单元具体用于,对所述知识文本数据集中的各项知识文本,进行文本类型长度计算,将计算得到的长度值标记在各项知识文本上;将所述长度值按照从大到小的顺序,对所述知识文本数据集中的各项知识文本进行有序排列,重排所述知识文本数据集;遍历所述分布式服务器的各个存储节点,查看可用的存储节点,将重排后所述知识文本数据集中的各项知识文本,按照重排顺序依次储存于所述可用的存储节点中;将各项知识文本数据块的存储地址,发送至后台服务器。
31、在一个实施方式中,所述更新单元具体用于,从所述历史兴趣信息中提取用户与web api的关联关系,针对任一关联关系,在所述关联关系中确定用户实体;在所述知识图谱中识别所述用户实体的邻居网格,并根据所述用户实体引用的web api,对所述邻居网格中的邻居信息进行更新。
32、本发明提供的技术方案,对web api相关的异构数据信息进行分析,发掘出webapi生态中存在的概念和关系,构建web api知识图谱。将用户对web api的历史使用记录作为在知识图谱中传播的历史兴趣信息,然后利用实体间存在的关系,实现自动迭代地使用每一跳知识图谱邻居信息来发现用户的层次化潜在兴趣特征,同时可以捕获web api的内在特征,得到用户和web api的多元表示,避免人工特征选择对预测精度和效率的影响。
33、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
34、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种基于知识图谱的web api推荐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,基于分析结果构建web api知识图谱包括:
3.根据权利要求2所述的方法,其特征在于,对所述信息文本进行文本聚类,得到若干不同文本类型的知识文本数据集包括:
4.根据权利要求2所述的方法,其特征在于,将所述知识文本数据集提交至分布式服务器,进行分布式文件储存包括:
5.根据权利要求1所述的方法,其特征在于,基于所述历史兴趣信息中各个实体间的关联关系,更新所述知识图谱中的邻居信息包括:
6.根据权利要求1所述的方法,其特征在于,在确定用户的潜在兴趣特征时,所述方法还包括:
7.一种基于知识图谱的webapi推荐系统,其特征在于,所述系统包括:
8.根据权利要求7所述的系统,其特征在于,所述图谱构建单元具体用于,统计异构数据信息分析后得到的信息文本,并对所述信息文本进行文本聚类,得到若干不同文本类型的知识文本数据集;将所述知识文本数据集提交至分布式服务器,进行分布式文件储存;按照知识文本的长度,有序从所述分布式服务器中提取相应的知识文本,并对提取的所述知识文本进行知识实体识别,获得各个知识实体的关联信息;将各个知识实体的关联信息提交至知识图谱构建模块,以使得所述知识图谱构建模块根据各个知识实体的关联信息,构建各个知识实体之间的图谱节点链接,得到知识图谱。
9.根据权利要求8所述的系统,其特征在于,所述图谱构建单元具体用于,构建支持向量机,并将所述支持向量机部署于后台服务器;将所述信息文本发送至所述后台服务器,作为文本聚类的样本,由所述后台服务器转发至所述支持向量机进行文本聚类处理;所述支持向量机利用支持向量聚类算法,对所述样本进行文本结构识别和聚类处理,得到若干不同文本类型的知识文本并输出;所述后台服务器对输出的若干不同文本类型的所述知识文本进行聚集处理,得到所述知识文本数据集。
10.根据权利要求8所述的系统,其特征在于,所述图谱构建单元具体用于,对所述知识文本数据集中的各项知识文本,进行文本类型长度计算,将计算得到的长度值标记在各项知识文本上;将所述长度值按照从大到小的顺序,对所述知识文本数据集中的各项知识文本进行有序排列,重排所述知识文本数据集;遍历所述分布式服务器的各个存储节点,查看可用的存储节点,将重排后所述知识文本数据集中的各项知识文本,按照重排顺序依次储存于所述可用的存储节点中;将各项知识文本数据块的存储地址,发送至后台服务器。