基于随机森林-点到面克里金回归的多源数据人口空间化方法与流程

    专利2022-07-08  86


    本发明属于互联网与计算机技术领域,涉及一种基于随机森林-点到面克里金回归的多源数据人口空间化方法。



    背景技术:

    人口空间分布是指一定时间点上人口在地域上的分布状况,是人口过程在空间上的表现形式,是人口地理学研究的核心问题,是人地关系研究的重要基础。关于人口的数据资料一般是人口统计数据,描述每个确定的统计单位(例如行政单位、邮政编码区和人口普查区)内的人口数量、结构和其他资料。人口普查数据是人口统计数据的主要来源,在地球科学应用中具有一定的局限性。首先,人口普查数据仅为每个普查单位提供一个人口计数值;因此,它不能明确每个人口普查单元内的空间人口分布,也不能反映人口内部的变化。此外,普查数据的单位有时与社会经济变量的单位不一致,与自然变量的区域系统(如遥感图像的层)不一致,由于缺乏明确和详细的地理参考,将人口统计数据与地理参考的环境数据结合起来是困难的。因此,对人口统计数据进行空间化是一个十分重要的任务。

    在过去的几十年里,人们发展了各种各样的方法来将不规则行政单元的人口普查数据降尺度到精细尺度上的网格化人口分布图。最早主要是基于数学函数的负指数模型和简单的面积加权方法。由于这些模型没有考虑空间人口分布的影响,随后提出了空间插值法,其中具有代表性的是面插值法、点插值法和地统计方法。后来随着技术的更新,越来越多的辅助数据加入模型,分区密度思想(dasymetricmapping)被发展来结合辅助数据来改进网格化人口地图的细节,赖特(wright)(1936)使用美国地质勘探局地形图,估计不同居民点类型人口密度,首次将分区密度制图技术引入人口空间分布特征研究;著名的worldpop人口分布项目开发了一种基于随机森林回归半自动dasymetric方法生成网格人口地图;还有许多国外学者使用基于分区密度思想的随机森林模型并通过结合poi数据等进行人口空间化,提高网格人口的精度和细节。国内研究者主要使用多元回归模型、多元素融合模型,多元回归模型选择和人口强相关的因素,在现有研究中按主要因素大概分为3类,刘艳姣等人基于夜晚灯光数据的人口空间化;柏中强等人基于土地利用/土地覆盖数据的人口空间化;董南等人基于建筑物信息在建筑物尺度的人口空间化。还有一些研究者使用智能体模型,其中具有代表性的是卓莉[19]利用建筑物信息以泰日社区为例进行了居住人口分布仿真模拟,董春等人创新性地以人口智能体为中心,结合gis利用地理数据、poi兴趣点数据、夜间灯光数据、遥感影像数据来模拟居住环境,将心理学和经济学观点引入到智能体对居住地选择的决策行为中。虽然很多学者已经对不同数据源、不同尺度、不同模拟方法作了很多探索,但大多都是中尺度的研究,空间分辨率大部分为1km,难以达到现在对精细化城市管理的要求,而且较少探究了空间变量对于人口分布的影响。



    技术实现要素:

    有鉴于此,本发明的目的在于提供一种基于随机森林-点到面克里金回归的多源数据人口空间化方法,使用随机森林-点到面克里金回归模型探索夜晚灯光数据、居民点数据、土地利用数据、高程数据和地形地貌数据、poi数据等空间辅助数据与城市人口分布之间的关系,并实现100m分辨率的城市人口栅格化,并通过随机森林-点到面克里金回归模型得到的变量重要性,分析影响城市人口分布的空间数据。

    为达到上述目的,本发明提供如下技术方案:

    一种基于随机森林-点到面克里金回归的多源数据人口空间化方法,具体包括以下步骤:

    s1:驱动因子筛选与数据处理:对采集到的地理空间数据和社会感知数据进行预处理,生成辅助数据;将辅助数据生成网格化的协变量数据;

    s2:栅格数据升尺度聚合:将网格化的协变量数据聚集到县级行政单元,生成人口普查单位尺度上的协变量;将人口普查数据和县级行政单元数据结合得到县级行政单元的人口密度数据,作为模型的因变量;

    s3:对人口密度数据(因变量)和协变量(自变量)执行随机森林,然后对随机森林的残差分量执行面到点克里金回归;

    s4:将精细网格尺度下的面到点克里金回归结果与保留的随机森林结果相结合,得到基于随机森林-点到面克里金回归的网格化人口分布图。

    进一步,步骤s1中,生成的辅助数据包括:投影变换、剪裁矢量数据和栅格数据。

    进一步,步骤s3中,构建随机森林-点到面克里金回归具体包括:模型公式表达为:

    p(vj)=m(vj) e(vj)

    其中,m(vj)为网格vj的空间趋势量,e(vj)为网格vj的剩余分量,p(vj)为预测值。

    本发明的有益效果在于:本发明通过使用随机森林-点到面克里金回归模型探索夜晚灯光数据、居民点数据、土地利用数据、高程数据和地形地貌数据、poi数据等空间辅助数据与城市人口分布之间的关系,提高了算法的效率,还能够实现大范围精细的栅格人口空间化。本发明的空间化结果在人口差异部分过渡的更自然,更加接近人口的真实分布,能够满足城市化精细管理的需求。

    本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

    附图说明

    为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

    图1为本发明人口空间化流程图。

    具体实施方式

    以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

    请参阅图1,本发明设计了一种基于随机森林-点到面克里金回归的多源数据人口空间化方法,如图1所示,具体包括以下步骤:

    s1:驱动因子筛选与数据处理:对采集到的地理空间数据和社会感知数据进行预处理,生成辅助数据(包括投影变换、剪裁矢量数据和栅格数据,以匹配人口普查数据的空间范围,以及其他操作),以匹配人口普查数据的空间范围,以及其他操作;将辅助数据生成网格化的协变量数据。

    其中,本实施例选择重庆市作为研究对象,采集的数据有夜晚灯光数据,土地覆盖数据、poi数据、居民点数据、道路、河流、人口统计数据及行政边界数据等。poi数据通过高德地图api爬取,最后爬取时间(2020年3月),各类poi数量详情(见表1)。

    表1各类poi数量

    s2:栅格数据升尺度聚合:将网格化的协变量数据聚集到县级行政单元,生成人口普查单位尺度上的协变量(自变量数据聚合);将人口普查数据和县级行政单元数据结合得到县级行政单元的人口密度数据,作为模型的因变量(因变量数据聚合)。

    s3:对人口密度数据(因变量)和协变量(自变量)执行随机森林,然后对随机森林的残差分量执行面到点克里金回归;

    s4:将精细网格尺度下的面到点克里金回归结果与保留的随机森林结果相结合,得到基于随机森林-点到面克里金回归的网格化人口分布图。

    s5:模型精度检验与优化:通过一套精度评价指标,评估人口空间化数据的准确性。

    由于没有格网尺度的统计数据进行精度检验,通过把空间化的格网尺度人口数据聚集到乡镇街道单元内,在乡镇街道尺度下采用均方根误差(rmse)、绝对值误差(mae)、相对误差(re)进行精度检验,公式如下:

    其中,n为乡镇街道的数量,为第i个乡镇/街道行政单元的估计人口数量,yi为第i个乡镇/街道行政单元的实际人口数量。

    最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。


    技术特征:

    1.一种基于随机森林-点到面克里金回归的多源数据人口空间化方法,其特征在于,该方法具体包括以下步骤:

    s1:驱动因子筛选与数据处理:对采集到的地理空间数据和社会感知数据进行预处理,生成辅助数据;将辅助数据生成网格化的协变量数据;

    s2:栅格数据升尺度聚合:将网格化的协变量数据聚集到县级行政单元,生成人口普查单位尺度上的协变量;将人口普查数据和县级行政单元数据结合得到县级行政单元的人口密度数据,作为模型的因变量;

    s3:对人口密度数据和协变量执行随机森林,然后对随机森林的残差分量执行面到点克里金回归;

    s4:将精细网格尺度下的面到点克里金回归结果与保留的随机森林结果相结合,得到基于随机森林-点到面克里金回归的网格化人口分布图。

    2.根据权利要求1所述的多源数据人口空间化方法,其特征在于,步骤s1中,生成的辅助数据包括:投影变换、剪裁矢量数据和栅格数据。

    3.根据权利要求1所述的多源数据人口空间化方法,其特征在于,步骤s3中,构建随机森林-点到面克里金回归具体包括:模型公式表达为:

    p(vj)=m(vj) e(vj)

    其中,m(vj)为网格vj的空间趋势量,e(vj)为网格vj的剩余分量,p(vj)为预测值。

    技术总结
    本发明涉及一种基于随机森林‑点到面克里金回归的多源数据人口空间化方法,属于互联网与计算机技术领域。该方法具体包括:驱动因子筛选与数据处理:预处理采集的地理空间数据和社会感知数据,生成辅助数据并将其生成网格化的协变量数据;栅格数据升尺度聚合:将网格化的协变量数据聚集到县级行政单元,生成人口普查单位尺度上的协变量;将人口普查数据和县级行政单元数据结合得到县级行政单元的人口密度数据;对人口普查数据和协变量执行随机森林,然后对随机森林的残差分量执行面到点克里金回归;将精细网格尺度下的面到点克里金回归结果与保留的随机森林结果相结合,得到基于随机森林‑点到面克里金回归的网格化人口分布图。

    技术研发人员:刘明皓;李银兴;文汝杰
    受保护的技术使用者:重庆邮电大学
    技术研发日:2020.12.11
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-21791.html

    最新回复(0)