一种用户群体聚类方法、装置、计算机设备和存储介质与流程

    专利2025-12-06  2


    本发明属于自然语言处理,尤其涉及一种用户群体聚类方法、装置、计算机设备和存储介质。


    背景技术:

    1、用户群体聚类是指基于用户公开信息将用户划分为若干个群体。现有的聚类方法主要是将社交媒体网络关系构建为图关系后,再利用图论相关算法对用户进行聚类。由于该方法的特征主要是社交网络关系,其只考虑了用户之间的社交网络关系,如关注、被关注、点赞等,缺乏多视角特征,导致用户群体聚类的准确性不高。


    技术实现思路

    1、基于此,有必要针对上述技术问题,提供一种能够提高用户群体聚类精确性的用户群体聚类方法、装置、计算机设备和存储介质。

    2、本发明提供一种用户群体聚类方法,包括:

    3、获取待聚类用户的公开信息,所述待聚类用户的公开信息包括用户公开发表的言论文本和用户社交行为数据;

    4、基于所述言论文本进行言论认知特征构建,得到所述待聚类用户的言论认知特征矩阵;

    5、基于所述用户社交行为数据进行用户社交关系特征构建,得到所述待聚类用户的用户社交关系特征矩阵;

    6、融合所述言论认知特征矩阵和所述用户社交关系特征矩阵,得到所述待聚类用户的多视角特征矩阵;

    7、对所述多视角特征矩阵进行特征聚类,得到用户群体。

    8、进一步的,所述基于所述言论文本进行言论认知特征构建,得到所述待聚类用户的言论认知特征矩阵,包括:

    9、对于每一个所述待聚类用户,分别根据预设筛选条件,从所述待聚类用户对应的所述言论文本中筛选得到候选言论文本;

    10、对于每一个所述待聚类用户的每一篇所述候选言论文本,分别输入文本向量表征模型,得到所述候选言论文本的第一文本特征向量;其中,所述第一文本特征向量是概率向量;

    11、将每一个所述待聚类用户的每一篇所述候选言论文本对应的所述第一文本特征向量合并,得到所述待聚类用户对应的文本特征矩阵;所述文本特征矩阵的行数等于所述候选言论文本的数量,列数等于所述第一文本特征向量的长度;

    12、将每一个所述待聚类用户对应的所述文本特征矩阵分别聚合成第二文本特征向量,合并所有的所述第二文本特征向量,得到言论认知特征矩阵。

    13、进一步的,所述对于每一个所述待聚类用户的每一篇所述候选言论文本,分别输入文本向量表征模型,得到所述候选言论文本的第一文本特征向量,包括:

    14、将所述候选言论文本分别输入向量空间不同的文本向量表征模型,得到所述向量空间下的第三文本特征向量;

    15、将各个所述第三文本特征向量进行融合,并对融合后的向量进行概率化处理,得到所述第一文本特征向量。

    16、在其中一个实施例中,所述基于所述用户社交行为数据进行用户社交关系特征构建,得到所述待聚类用户的用户社交关系特征矩阵,包括:

    17、根据所述用户社交行为数据确定所述待聚类用户两两之间的社交关系评分,得到每一个所述待聚类用户对应的社交关系评分向量;

    18、将所有所述待聚类用户对应的社交关系评分向量合并,得到所述待聚类用户的社交评分特征矩阵;

    19、对所述社交评分特征矩阵的列向量进行归一化处理后,按照目标矩阵形状将所述社交评分特征矩阵降维,得到用户社交关系特征矩阵。

    20、进一步的,所述用户社交行为数据包括关注、点赞、转发、引用以及评论等数据中的任意一项或多项;所述根据所述用户社交行为数据确定所述待聚类用户两两之间的社交关系评分,包括:

    21、将当前计算社交关系的所述待聚类用户视为第一用户,所述第一用户之外的所述待聚类用户视为第二用户;

    22、在所述第一用户关注了所述第二用户时,将关注基础分值作为关注得分;在所述第一用户未关注所述第二用户时,所述关注得分等于0;

    23、统计所述第一用户对所述第二用户的点赞数量,计算所述点赞数量与点赞基础分数的第一乘积;

    24、统计所述第一用户对所述第二用户的转发数量,计算所述转发数量与转发基础分数的第二乘积;

    25、统计所述第一用户对所述第二用户的社交言论的评论,利用亲疏判别模型对所述评论进行语义分析输出评论亲疏度,求所有的所述评论亲疏度的平均值值得到均值评论亲疏度,然后计算均值评论亲疏度与评论基础分数的第三乘积;

    26、统计所述第一用户引用的所述第二用户的社交言论,利用亲疏判别模型对所述社交言论进行语义分析输出引用亲疏度,求所有的所述引用亲疏度的平均值得到均值引用亲疏度,然后计算均值引用亲疏度与引用基础分数的第四乘积;其中,所述亲疏判别模型是经过深度训练的语义分析模型;

    27、求和所述关注得分、所述第一乘积、所述第二乘积、所述第三乘积以及所述第四乘积,得到所述第一用户与所述第二用户的社交关系评分;

    28、将所述第一用户与所有所述第二用户对应的社交关系评分合并,得到所述第一用户的社交关系评分向量。

    29、进一步的,所述对所述社交评分特征矩阵的列向量进行归一化处理,包括:

    30、分别计算所述社交评分特征矩阵中每一个列向量的和值;

    31、将每一个所述列向量中每一个元素分别除以对应的所述和值作为新的元素,得到新的列向量。

    32、进一步的,所述融合所述言论认知特征矩阵和所述用户社交关系特征矩阵,得到所述待聚类用户的多视角特征矩阵,包括:将所述言论认知特征矩阵和所述用户社交关系特征矩阵进行特征拼接,得到多视角特征矩阵。

    33、本发明还提供一种用户群体聚类装置,包括:

    34、获取模块,用于获取待聚类用户的公开信息,所述待聚类用户的公开信息包括用户公开发表的言论文本和用户社交行为数据;

    35、言论认知特征构建模块,用于基于所述言论文本进行言论认知特征构建,得到所述待聚类用户的言论认知特征矩阵;

    36、社交关系特征构建模块,用于基于所述用户社交行为数据进行用户社交关系特征构建,得到所述待聚类用户的用户社交关系特征矩阵;

    37、多视角特征融合模块,用于融合所述言论认知特征矩阵和所述用户社交关系特征矩阵,得到所述待聚类用户的多视角特征矩阵;

    38、聚类模块,用于对所述多视角特征矩阵进行特征聚类,得到用户群体。

    39、本发明还提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储由计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的用户群体聚类方法的步骤。

    40、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的用户群体聚类方法的步骤。

    41、上述用户群体聚类方法、装置、计算机设备和存储介质,获取到待聚类用户的用户公开发表的言论文本和用户社交行为数据之后,先基于言论文本构建特征得到言论认知特征矩阵,以及基于用户社交行为数据构建特征得到用户社交关系特征矩阵;然后,融合两个特征矩阵得到多视角特征矩阵;最后,基于这个多视角特征矩阵进行用户群体聚类。由此可见,该用户群体聚类方法不仅考虑了用户之间的社交网络关系,还结合了用户言论特征的联合理解,从言论认知特征、用户关注关系、用户间言论关系等多视角特征实现用户群体聚类,有效提高了用户群体聚类的准确性。


    技术特征:

    1.一种用户群体聚类方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述基于所述言论文本进行言论认知特征构建,得到所述待聚类用户的言论认知特征矩阵,包括:

    3.根据权利要求2所述的方法,其特征在于,所述对于每一个所述待聚类用户的每一篇所述候选言论文本,分别输入文本向量表征模型,得到所述候选言论文本的第一文本特征向量,包括:

    4.根据权利要求1所述的方法,其特征在于,所述基于所述用户社交行为数据进行用户社交关系特征构建,得到所述待聚类用户的用户社交关系特征矩阵,包括:

    5.根据权利要求4所述的方法,其特征在于,所述用户社交行为数据包括关注、点赞、转发、引用以及评论等数据中的任意一项或多项;所述根据所述用户社交行为数据确定所述待聚类用户两两之间的社交关系评分,包括:

    6.根据权利要求4所述的方法,其特征在于,所述对所述社交评分特征矩阵的列向量进行归一化处理,包括:

    7.根据权利要求1-6中任一项所述的方法,其特征在于,所述融合所述言论认知特征矩阵和所述用户社交关系特征矩阵,得到所述待聚类用户的多视角特征矩阵,包括:将所述言论认知特征矩阵和所述用户社交关系特征矩阵进行特征拼接,得到多视角特征矩阵。

    8.一种用户群体聚类装置,其特征在于,包括:

    9.一种计算机设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序时实现权利要求1-7中任意一项所述的用户群体聚类方法。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中任意一项所述的用户群体聚类方法。


    技术总结
    本发明涉及自然语言处理技术领域,提供了一种用户群体聚类方法、装置、计算机设备和存储介质,所述方法包括:获取待聚类用户的公开信息,待聚类用户的公开信息包括用户公开发表的言论文本和用户社交行为数据;基于言论文本进行言论认知特征构建,得到待聚类用户的言论认知特征矩阵;基于用户社交行为数据进行用户社交关系特征构建,得到待聚类用户的用户社交关系特征矩阵;融合言论认知特征矩阵和所述用户社交关系特征矩阵,得到待聚类用户的多视角特征矩阵;对多视角特征矩阵进行特征聚类,得到用户群体。该方法利用从言论认知特征和用户社交论关系等多视角实现用户群体聚类,提高了用户群体聚类的准确性。

    技术研发人员:段炼,易志翔,张圣栋,黄九鸣
    受保护的技术使用者:湖南四方天箭信息科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-92561.html

    最新回复(0)