一种基于空间格网粒子群的多维度相似度计算方法与流程

    专利2022-07-08  109


    本发明涉及智能空间计算技术领域,具体为一种基于空间格网粒子群的多维度相似度计算方法。



    背景技术:

    格网数据又称为栅格数据,是将空间分割成有规律性的网格,并在每个栅格单元(格网粒子)赋予属性来表示实体的一种数据形式,地理栅格数据也是gis空间数据存储管理的一种重要手段,对于提升计算机空间存储效率具有重要意义。

    多维度相似度计算是通过格网粒子之间计算,从而预测出相似空间区域。在智能广告投放与区域推荐领域,如何提高其预测空间范围合理性与高效性一直是个难题。



    技术实现要素:

    本发明提供一种基于空间格网粒子群的多维度相似度计算方法,可以有效解决上述背景技术中提出多维度相似度计算是通过格网粒子之间计算,从而预测出相似空间区域。在智能广告投放与区域推荐领域,如何提高其预测空间范围合理性与高效性一直是个难题的问题。

    为实现上述目的,本发明提供如下技术方案:一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:

    首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;

    对归一化后的格网粒子画像利用euclidean距离算法与cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topn排序;

    根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。

    根据上述技术方案,所述归一化(min-maxnormalization)处理,归一化的具体作用是归纳统一样本的统计分布性将空间格网粒子画像属性映射到0~1范围之内,特征处理映射公式如下:

    根据上述技术方案,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:

    根据上述技术方案,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topn倒排表,n为常量控制参数。

    根据上述技术方案,所述cosinesimilarity算法进行模型计算,cosinesimilarity算法计算公式如下:

    根据上述技术方案,通过高维空间向量之间的对比分析,根据cosinesimilarity算法,将数据集代入计算模型中,可以计算得到空间格网粒子topn倒排表,n为常量控制参数,可以根据调整n的大小来控制,倒排表的规模。

    根据上述技术方案,所述euclidean倒排表与cosinesimilarity倒排表分别代入混合相似度计算模型中,混合相似度计算模型通过权重参数β控制两算法的重要度排比,并且将根据聚合函数混合计算euclidean倒排表与cosinesimilarity倒排表的混合相似结果,生成二者排序结果最优的格网粒子,并针对于混合相似度计算进行综合排序,生成最终的倒排表。

    根据上述技术方案,使用测试数据集进行算法评估,gridsreachcv(网格搜索交叉验证),可以得出算法优化方案,并得出结论,算法的有优异性与使用的格网粒子数据的颗粒度有关。

    与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集成多种特征工程算法与空间距离算法,通过聚合多种空间距离计算方法来提升准确度,利用构建完整的空间格网粒子画像来进行特征相关性的验证,从而实现“物尽其用”的最佳优化,从空间格网粒子画像中将离散特征转化为连续特征,从而去除部分噪声特征影响,使用matplotlab(datavisualization)将部分特征通过曲线拟合进行相关性筛选,从而实现空间格网粒子画像的特征工程,去除噪声特征对计算模型的影响,基于空间格网粒子群画像初步特征工程处理,能够充分利用同空间粒子不同维度的空间信息的拓扑结构,优化空间计算模型的准确率,通过特征工程处理,减少计算数据无效维度,提升模型计算效率。

    附图说明

    附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

    图1是本发明的算法流程结构示意图。

    具体实施方式

    以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

    实施例:如图1所示,本发明提供技术方案,一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:

    首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;

    对归一化后的格网粒子画像利用euclidean距离算法与cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topn排序;

    根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。

    根据上述技术方案,所述归一化(min-maxnormalization)处理,归一化的具体作用是归纳统一样本的统计分布性,归一化在0-1之间是统计的概率分布,归一化在-1- 1之间是统计的坐标分布,基于统计学归一化方法,我们将空间格网粒子画像属性映射到0~1范围之内,从而提升空间计算模型的高效性与准确度,归一化也称为离差标准化,特征处理映射公式如下:

    根据上述技术方案,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:

    根据上述技术方案,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topn倒排表,n为常量控制参数,可以根据调整n的大小来控制,倒排表的规模,从而实现对相似召回规模的控制使计算存储效率大大提升。

    根据上述技术方案,所述cosinesimilarity算法进行模型计算,cosinesimilarity算法优势在于突出高维度方向相似性的对比分析,对于高维度的空间格网粒子拥有极高的耦合度,cosinesimilarity算法计算公式如下:

    根据上述技术方案,通过高维空间向量之间的对比分析,实现超参对离群点敏感,从而剔除高维异常空间格网粒子,根据上述cosinesimilarity算法,将数据集代入计算模型中,可以计算得到空间格网粒子topn倒排表,n为常量控制参数,可以根据调整n的大小来控制,倒排表的规模,从而实现对相似召回规模的控制使计算存储效率大大提升。

    根据上述技术方案,所述euclidean倒排表与cosinesimilarity倒排表分别代入混合相似度计算模型中,混合相似度计算模型通过权重参数β控制两算法的重要度排比,并且将根据聚合函数混合计算euclidean倒排表与cosinesimilarity倒排表的混合相似结果,生成二者排序结果最优的格网粒子,并针对于混合相似度计算进行综合排序,生成最终的倒排表。

    根据上述技术方案,使用测试数据集进行算法评估,gridsreachcv(网格搜索交叉验证),可以得出算法优化方案,并得出结论,算法的有优异性与使用的格网粒子数据的颗粒度有关,在200m×200m的正方形空间格网粒子中cosinesimilarity算法的准确率大于euclidean算法,在相同维度2000m×2000m的正方形空间格网粒子中euclidean算法的准确率大于cosinesimilarity算法,由此可得格网粒子颗粒度会影响空间计算模型,而本方法通过混合相似度计算层,可大大提高模型对空间格网粒子颗粒度大小的兼容,实现强鲁棒性的空间计算模型。

    与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,本发明集成多种特征工程算法与空间距离算法,通过聚合多种空间距离计算方法来提升准确度,利用构建完整的空间格网粒子画像来进行特征相关性的验证,从而实现“物尽其用”的最佳优化,从空间格网粒子画像中将离散特征转化为连续特征,从而去除部分噪声特征影响,使用matplotlab(datavisualization)将部分特征通过曲线拟合进行相关性筛选,从而实现空间格网粒子画像的特征工程,去除噪声特征对计算模型的影响,基于空间格网粒子群画像初步特征工程处理,能够充分利用同空间粒子不同维度的空间信息的拓扑结构,优化空间计算模型的准确率,通过特征工程处理,减少计算数据无效维度,提升模型计算效率。

    最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


    技术特征:

    1.一种基于空间格网粒子群的多维度相似度计算方法,其特征在于:包括如下步骤:

    首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;

    对归一化后的格网粒子画像利用euclidean距离算法与cosinesimilarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topn排序;

    根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果。

    2.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述归一化(min-maxnormalization)处理,归一化的具体作用是归纳统一样本的统计分布性将空间格网粒子画像属性映射到0~1范围之内,特征处理映射公式如下:

    3.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述euclidean距离公式,利用两点间距离最小相似度最高的方式判定,两空间格网粒子之间的相似度大小,具体euclidean公式如下:

    4.根据权利要求3所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述euclidean距离公式将数据集代入计算模型中,可以计算出得到所有空间格网粒子的topn倒排表,n为常量控制参数。

    5.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述cosinesimilarity算法进行模型计算,cosinesimilarity算法计算公式如下:

    6.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,通过高维空间向量之间的对比分析,根据cosinesimilarity算法,将数据集代入计算模型中,可以计算得到空间格网粒子topn倒排表,n为常量控制参数,可以根据调整n的大小来控制,倒排表的规模。

    7.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,所述euclidean倒排表与cosinesimilarity倒排表分别代入混合相似度计算模型中,混合相似度计算模型通过权重参数β控制两算法的重要度排比,并且将根据聚合函数混合计算euclidean倒排表与cosinesimilarity倒排表的混合相似结果,生成二者排序结果最优的格网粒子,并针对于混合相似度计算进行综合排序,生成最终的倒排表。

    8.根据权利要求1所述的一种基于空间格网粒子群的多维度相似度计算方法,其特征在于,使用测试数据集进行算法评估,gridsreachcv(网格搜索交叉验证),可以得出算法优化方案,并得出结论,算法的有优异性与使用的格网粒子数据的颗粒度有关。

    技术总结
    本发明公开了一种基于空间格网粒子群的多维度相似度计算方法,包括如下步骤:首先针对已构建的格网粒子画像进行初步特征工程,以此为基础进行归一化特征处理,形成归一化的格网粒子画像;对归一化后的格网粒子画像利用Euclidean距离算法与Cosine similarity算法分别对格网粒子画像间进行相似度计算,并针对计算结果进行topN排序;根据二者排序表通过权重控制,再进行聚合运算从而对格网相似度进行去拟合优化,最终生成最佳相似格网粒子群top结果,本发明结构科学合理,使用安全方便,本发明集成多种特征工程算法与空间距离算法,通过聚合多种空间距离计算方法来提升准确度。

    技术研发人员:朱与墨;田鹏飞;吴丹
    受保护的技术使用者:亿景智联(北京)科技有限公司
    技术研发日:2020.12.08
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21229.html

    最新回复(0)