一种多源数据网格化清洗方法及系统与流程

    专利2022-07-08  107


    本发明涉及数据处理技术领域,特别是涉及一种多源数据网格化清洗方法及系统。



    背景技术:

    目前,根据统计年鉴、人口普查数据等,只能得知行政区划中省、市、县等行政单元的人口数据,却无法得知空间区域对应的人口分布数据,也无法得知空间区域上与人口分布相关的多源空间数据,并且可获取的人口数据及多源空间数据存在缺失、数据标准不统一等问题,从而不能为地震保险损失评估、国家经济发展规划等提供可靠的数据基础。



    技术实现要素:

    本发明的目的是提供一种多源数据网格化清洗方法及系统,以实现人口和空间多源数据的网格化封装。

    为实现上述目的,本发明提供了如下方案:

    一种多源数据网格化清洗方法,所述方法包括:

    从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;所述乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量;

    根据所述乡镇级统计常住人口信息的乡镇代码,将所述乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取所述乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;所述乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界;

    根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息;

    所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息;

    根据所述乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与所述乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息;

    获取所述空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;所述多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据;

    对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据;

    在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据;

    根据所述投影后的多源空间数据,确定所述百米网格数据中每个网格包含的投影后的多源空间数据;

    将所述百米网格数据与所述空间关联后的乡镇级常住人口信息进行空间相交运算,确定所述百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    可选的,所述根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息,具体包括:

    判断所述待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    若所述判断结果表示是,则根据乡镇级人口普查数据,获得所述待分配乡镇占据所在县市的人口比例;

    从所述乡镇级统计常住人口信息中获取所述待分配乡镇所在县市的人口数量;

    根据所述待分配乡镇所在县市的人口数量和所述待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的所述待分配乡镇的人口数量;

    若所述判断结果表示否,则以所述待分配乡镇边界范围为统计范围,采用空间统计分析方法,从所述人口公里网格数据中获得所述统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    根据所述统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的待分配乡镇的人口数量;

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内的待分配乡镇所在省的人口数量总和。

    可选的,所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息,之后还包括:

    根据所述乡镇级常住人口信息,获取每个省的人口总数;

    获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;

    根据统计年鉴,获得所述误差省份的每个县市常住人口数量;

    根据所述误差省份的第i个县市常住人口数量,利用公式确定所述误差省份的第i个县市的误差指数;

    根据所述误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定所述误差省份的第i个县市的第j个乡镇的校正人口数量;

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    可选的,所述导航数据包括:每条道路的面积和长度;

    所述土地覆盖数据包括:土地类型和每种土地类型的面积;所述土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪;

    所述夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    可选的,所述对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据,之后还包括:

    利用空间连续性分析方法,剔除所述投影后的多源空间数据的导航数据中不连续的道路;

    利用高斯低通滤波,对所述投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    利用acgis软件的重分类功能,提取所述投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    利用acgis软件的面积计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    一种多源数据网格化清洗系统,所述系统包括:

    乡镇级统计常住人口信息获取单元,用于从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;所述乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量;

    待分配乡镇确定单元,用于根据所述乡镇级统计常住人口信息的乡镇代码,将所述乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取所述乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;所述乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界;

    乡镇级分配常住人口信息获得单元,用于根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息;

    乡镇级常住人口信息构成单元,用于所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息;

    空间关联乡镇级常住人口信息获得单元,用于根据所述乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与所述乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息;

    多源空间数据获取单元,用于获取所述空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;所述多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据;

    投影后的多源空间数据获得单元,用于对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据;

    百米网格数据获得单元,用于在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据;

    网格投影后的多源空间数据确定单元,用于根据所述投影后的多源空间数据,确定所述百米网格数据中每个网格包含的投影后的多源空间数据;

    网格人口数量确定单元,用于将所述百米网格数据与所述空间关联后的乡镇级常住人口信息进行空间相交运算,确定所述百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    可选的,所述乡镇级分配常住人口信息获得单元,具体包括:

    判断结果获得子单元,用于判断所述待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    人口比例获得子单元,用于若所述判断结果表示是,则根据乡镇级人口普查数据,获得所述待分配乡镇占据所在县市的人口比例;

    县市人口数量获取子单元,用于从所述乡镇级统计常住人口信息中获取所述待分配乡镇所在县市的人口数量;

    第一乡镇人口数量确定子单元,用于根据所述待分配乡镇所在县市的人口数量和所述待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的所述待分配乡镇的人口数量;

    乡镇人口数量总和获得子单元,用于若所述判断结果表示否,则以所述待分配乡镇边界范围为统计范围,采用空间统计分析方法,从所述人口公里网格数据中获得所述统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    第二乡镇人口数量确定子单元,用于根据所述统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的所述待分配乡镇的人口数量;

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内待分配乡镇所在省的人口数量总和。

    可选的,所述系统还包括:

    省人口总数获取单元,用于根据所述乡镇级常住人口信息,获取每个省的人口总数;

    误差省份确定获取单元,用于获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;

    县市常住人口数量获取单元,用于根据统计年鉴,获得所述误差省份的每个县市常住人口数量;

    误差指数获取单元,用于根据所述误差省份的第i个县市常住人口数量,利用公式确定所述误差省份的第i个县市的误差指数;

    校正人口数量获取单元,用于根据所述误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定所述误差省份的第i个县市的第j个乡镇的校正人口数量;

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    可选的,所述导航数据包括:每条道路的面积和长度;

    所述土地覆盖数据包括:土地类型和每种土地类型的面积;所述土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪;

    所述夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    可选的,所述系统还包括:

    不连续道路剔除单元,用于利用空间连续性分析方法,剔除所述投影后的多源空间数据的导航数据中不连续的道路;

    噪声数据消除单元,用于利用高斯低通滤波,对所述投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    土地覆盖数据提取单元,用于利用acgis软件的重分类功能,提取所述投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    面积提取单元,用于利用acgis软件的面积计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    根据本发明提供的具体实施例,本发明公开了以下技术效果:

    本发明提供了一种多源数据网格化清洗方法及系统,从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息,与乡镇行政区划信息进行匹配关联,根据乡镇级人口普查数据和人口公里网格数据,对乡镇行政区划信息中待分配乡镇分配人口数量,获得完整的乡镇级常住人口信息,并对完整的乡镇级常住人口信息进行空间关联;然后获取空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据,对多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,在投影坐标系中以乡镇行政边界为空间区域进行网格化,进而确定每个网格的多源空间数据、乡镇以及乡镇的人口数量,使人口数据、导航数据、土地覆盖数据和夜间灯光数据在空间上无缝拼接,实现人口和空间多源数据的网格化封装。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

    图1为本发明提供的一种多源数据网格化清洗方法的流程图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

    本发明的目的是提供一种多源数据网格化清洗方法及系统,以实现人口和空间多源数据的网格化封装。

    为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

    本发明提供了一种多源数据网格化清洗方法,如图1所示,方法包括:

    s101,从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量。

    s102,根据乡镇级统计常住人口信息的乡镇代码,将乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界。

    s103,根据乡镇级人口普查数据和人口公里网格数据,对待分配乡镇分配人口数量,获得乡镇级分配常住人口信息。

    s104,乡镇级统计常住人口信息和乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息。

    s105,根据乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息。

    s106,获取空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据。

    s107,对多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据。

    s108,在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据。

    s109,根据投影后的多源空间数据,确定百米网格数据中每个网格包含的投影后的多源空间数据。

    s110,将百米网格数据与空间关联后的乡镇级常住人口信息进行空间相交运算,确定百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    方法的具体过程如下:

    步骤s103,根据乡镇级人口普查数据,对待分配乡镇分配人口数量,获得乡镇级分配常住人口信息,具体包括:

    判断待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    若判断结果表示是,则根据乡镇级人口普查数据,获得待分配乡镇占据所在县市的人口比例;

    从乡镇级统计常住人口信息中获取待分配乡镇所在县市的人口数量;

    根据待分配乡镇所在县市的人口数量和待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的待分配乡镇的人口数量;

    若判断结果表示否,则以待分配乡镇边界范围为统计范围,采用空间统计分析方法,从人口公里网格数据中获得统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    根据统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的待分配乡镇的人口数量。

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内待分配乡镇所在省的人口数量总和。

    步骤s104,乡镇级统计常住人口信息和乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息,之后还包括:

    根据乡镇级常住人口信息,获取每个省的人口总数;

    获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;比值预设范围为0.9-1.1。

    根据统计年鉴,获得误差省份的每个县市常住人口数量;

    根据误差省份的第i个县市常住人口数量,利用公式确定误差省份的第i个县市的误差指数;

    根据误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定误差省份的第i个县市的第j个乡镇的校正人口数量。

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    步骤s106,导航数据包括:每条道路的面积和长度。土地覆盖数据包括:土地类型和每种土地类型的面积;土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪。夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    步骤s107,对多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据,之后还包括:

    利用空间连续性分析方法,剔除投影后的多源空间数据的导航数据中不连续的道路;

    利用高斯低通滤波,对投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    利用acgis软件的重分类功能,提取投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    利用acgis软件的面积计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    步骤s109,根据投影后的多源空间数据,利用acgis软件,计算每个网格内对应的不透水面、耕地、林地、草地、水体土地类型面积,导航道路面积、长度,夜间灯光数据值。计算过程主要分为三步:第一步:空间相交运算,第二步:面积计算,第三步:空间关联。

    本发明对数据进行更正、修复和归并整理,解决格式、测量单位统一、错误数据修复以及噪声、冗余数据剔除,实现多源数据无缝拼接,从输入数据的源头保证暴露性参数精细反演产品和网格空间化产品的精度,可以为最终地震保险损失评估提供可靠的数据基础。

    本发明提供了将多源数据网格化清洗方法确定中国2016年乡镇级常住人口信息在百米网格人口暴露度的具体实施例。

    多源数据包括人口统计数据和多源空间数据。

    步骤1:人口统计数据的清洗

    (1)2016年常住人口匹配

    从统计年鉴中获取2016年乡镇级常住人口数据,包括乡镇名称、乡镇代码和人口信息,将该人口数据与2016年全国乡镇行政区划数据(包括乡镇边界与乡镇代码)按照乡镇代码进行一一匹配关联。因收集到的统计年鉴数据有缺失,只能得到2016年全国部分乡镇人口。

    (2)2016年户籍人口比例分配

    为补全(1)中缺失的数据,根据2010年乡镇级人口普查数据计算每个乡镇占据所在县市的人口比例,在(1)的基础上筛选出没有人口数据的乡镇作为待分配乡镇,按照2016年县级户籍人口数量和2010年的人口比例,计算2016年每个待分配乡镇人口数量。计算方法:待分配乡镇人口=该乡镇人口比例*该乡镇所在县的2016年县级户籍人口数量。

    (3)2010年人口公里网格补充

    由于会有部分乡镇代码发生变化,导致2016年与2010年的乡镇代码不一致,所以,在(2)分配的时候,乡镇代码变化的乡镇没法分配,(2)就不能补全所有缺失数据。在(2)的基础上筛选出仍然没有人口数据的乡镇作为待分配乡镇,以待分配乡镇的空间边界为统计范围,采用空间统计分析方法统计该范围内2010年人口公里网格中的人口数量总和,并对统计的人口数量总和进行拉申作为待分配乡镇的人口数量,最终补全所有乡镇级人口。具体拉伸方法:首先用待分配乡镇所在省的空间边界统计2010年人口公里网格的总人口数,得到a,待分配乡镇人口=该乡镇统计的人口数量总和*2016年统计年鉴公布的该乡镇所在省的总人口/该乡镇所在省的2010年人口公里网格的总人口(a)数。

    (4)筛选差异大省

    通过步骤(1)、(2)、(3)完成了一套完整的乡镇级人口数,接下来要对有误差的乡镇人口数量进行误差修正。修正的第一步就是筛选差异大省,具体方法:根据补全后的乡镇级人口,加和计算每个省的人口总数,与统计年鉴中公布的2016年各省人口总数进行对比,计算两者的比值,筛选出差异较大的省份,并对差异大的省份执行步骤(5),筛选规则:比值>1.1或者比值<0.9。

    (5)计算差异大省份的各县/市误差指数

    为消除按照公里网格与户籍数据分配的误差而构建误差指数,首先获取差异大省份的2016县级/市级常住人口(来自统计年鉴),误差指数=2016县级/市级常住人口(来自统计年鉴)-2016年常住人口的乡镇人口数(来自步骤(1)的匹配结果))/(按照2016县级人口分配乡镇(来自步骤(2)的分配结果) 按照2010空间分布人口分配的乡镇(来自步骤(3)的分配结果))。

    (6)校正差异大省份的分配结果

    校正方法:待校正乡镇人口=该乡镇所在县/市的误差指数×该乡镇已分配人口(来自2和3),通过校正获得2016年乡镇级人口。

    (7)校验

    统计国家级、省级人口数据,与2016年常住人口数据进行对比,计算相对误差,通过统计计算,全国人口相对误差0.028%,各省人口误差也均在5%以内,符合要求。

    (8)信息关联

    采用acgis专业软件的空间关联功能,将2016年行政区划边界数据按照乡镇代码字段与清洗完成的2016年乡镇级人口数据(步骤(6)的结果)进行关联。

    步骤2:多源空间数据的清洗

    选取与人口分布有关的多源空间数据,多源空间数据主要包括:导航数据、土地覆盖数据、夜间灯光数据。

    导航数据:主要指各种级别的道路数据,每条道路有面积和长度信息。

    土地覆盖数据:包括耕地、森林、草地、湿地、裸地、水体、不透水表面、苔原、灌木、冰雪10种类型。

    夜间灯光数据:采集的是夜间灯光、火光等产生的辐射信号。dmsp/ols传感器在夜间工作,能探测到城市灯光甚至小规模居民地、车流等发出的低强度灯光。

    (1)数据预处理

    针对上述三种数据,进行数据预处理。包括数据拼接与投影转换。数据拼接是数据完整性的基础。将分幅多源空间数据按照全国范围边界进行拼接,形成一幅全国范围的多源空间数据。将完整的数据基于arcgis专业工具采用投影转换功能转换到统一的投影坐标系中(wgs84-albers)。

    (2)异常值剔除

    针对预处理后的导航数据,通过现有技术中的常用的空间连续性分析,剔除导航数据中不能连续的道路;

    针对预处理后的夜间灯光数据,通过高斯低通滤波进行平滑处理,消除零星微弱灯光产生的图像噪声。

    (3)可用类型提取

    针对预处理后的土地覆盖数据,基于arcgis软件重分类功能,提取不透水层面,耕地、林地、草地、水体土地类型,其他类型舍弃。

    步骤3:空间计算

    (1)百米标准网格制定

    根据全国行政边界空间范围,构建100*100米网格数据,坐标系要求统一为wgs84-albers。

    (2)空间分析与赋值

    根据之前设定的统一基准的网格数据(步骤1)结果),利用arcgis软件计算其百米范围内对应的不透水面,耕地、林地、草地、水体土地类型面积,导航道路面积、长度,夜间灯光数据值,通过网格数据与人口数据的空间相交运算,确定每个网格所在的乡镇及每个乡镇的人口数,最终将各种空间信息及人口统计信息统一到百米网格框架中。

    本发明提供的一种多源数据网格化清洗方法具有以下优点:

    1、完整的精细化人口数据

    通过本专利的清洗过程,获得了2016年度全国范围乡镇级数据,相比其他可获取的全国省级数据、部分省份县级数据,本数据既精细又完整。

    2、统一标准、无缝拼接

    原始基础地理数据、导航地图数据、灯光指数数据、社会经济数据或人口数据在数据空间单元、坐标系、数据来源、时间等各不相同,通过清洗后,有同样的空间坐标系(wgs84-albers)、同样的时间属性(2016年)、呈现同样的数据形态(百米网格),是一套经过清洗之后完整的数据集。而且百米尺度的网格单元在全国范围内构建,空间上呈连续状态,不因行政归属而分割。

    3、支持灵活应用

    大范围多源数据信息封装在百米精细化单元内,可支持模型根据实际数据需求进行灵活调度和使用。

    本发明还提供了一种多源数据网格化清洗系统,系统包括:

    乡镇级统计常住人口信息获取单元,用于从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量;

    待分配乡镇确定单元,用于根据乡镇级统计常住人口信息的乡镇代码,将乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界;

    乡镇级分配常住人口信息获得单元,用于根据乡镇级人口普查数据和人口公里网格数据,对待分配乡镇分配人口数量,获得乡镇级分配常住人口信息;

    乡镇级常住人口信息构成单元,用于乡镇级统计常住人口信息和乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息;

    空间关联乡镇级常住人口信息获得单元,用于根据乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息;

    多源空间数据获取单元,用于获取空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据;

    投影后的多源空间数据获得单元,用于对多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据;

    百米网格数据获得单元,用于在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据;

    网格投影后的多源空间数据确定单元,用于根据投影后的多源空间数据,确定百米网格数据中每个网格包含的投影后的多源空间数据;

    网格人口数量确定单元,用于将百米网格数据与空间关联后的乡镇级常住人口信息进行空间相交运算,确定百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    乡镇级分配常住人口信息获得单元,具体包括:

    判断结果获得子单元,用于判断待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    人口比例获得子单元,用于若判断结果表示是,则根据乡镇级人口普查数据,获得待分配乡镇占据所在县市的人口比例;

    县市人口数量获取子单元,用于从乡镇级统计常住人口信息中获取待分配乡镇所在县市的人口数量;

    第一乡镇人口数量确定子单元,用于根据待分配乡镇所在县市的人口数量和待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的待分配乡镇的人口数量;

    乡镇人口数量总和获得子单元,用于若判断结果表示否,则以待分配乡镇边界范围为统计范围,采用空间统计分析方法,从人口公里网格数据中获得统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    第二乡镇人口数量确定子单元,用于根据统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的待分配乡镇的人口数量;

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内待分配乡镇所在省的人口数量总和。

    系统还包括:

    省人口总数获取单元,用于根据乡镇级常住人口信息,获取每个省的人口总数;

    误差省份确定获取单元,用于获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;

    县市常住人口数量获取单元,用于根据统计年鉴,获得误差省份的每个县市常住人口数量;

    误差指数获取单元,用于根据误差省份的第i个县市常住人口数量,利用公式确定误差省份的第i个县市的误差指数;

    校正人口数量获取单元,用于根据误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定误差省份的第i个县市的第j个乡镇的校正人口数量;

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    导航数据包括:每条道路的面积和长度;

    土地覆盖数据包括:土地类型和每种土地类型的面积;土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪;

    夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    系统还包括:

    不连续道路剔除单元,用于利用空间连续性分析方法,剔除投影后的多源空间数据的导航数据中不连续的道路;

    噪声数据消除单元,用于利用高斯低通滤波,对投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    土地覆盖数据提取单元,用于利用acgis软件的重分类功能,提取投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    面积提取单元,用于利用acgis软件面积的计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

    本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。


    技术特征:

    1.一种多源数据网格化清洗方法,其特征在于,所述方法包括:

    从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;所述乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量;

    根据所述乡镇级统计常住人口信息的乡镇代码,将所述乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取所述乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;所述乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界;

    根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息;

    所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息;

    根据所述乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与所述乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息;

    获取所述空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;所述多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据;

    对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据;

    在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据;

    根据所述投影后的多源空间数据,确定所述百米网格数据中每个网格包含的投影后的多源空间数据;

    将所述百米网格数据与所述空间关联后的乡镇级常住人口信息进行空间相交运算,确定所述百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    2.根据权利要求1所述的多源数据网格化清洗方法,其特征在于,所述根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息,具体包括:

    判断所述待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    若所述判断结果表示是,则根据乡镇级人口普查数据,获得所述待分配乡镇占据所在县市的人口比例;

    从所述乡镇级统计常住人口信息中获取所述待分配乡镇所在县市的人口数量;

    根据所述待分配乡镇所在县市的人口数量和所述待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的所述待分配乡镇的人口数量;

    若所述判断结果表示否,则以所述待分配乡镇边界范围为统计范围,采用空间统计分析方法,从所述人口公里网格数据中获得所述统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    根据所述统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的待分配乡镇的人口数量;

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内的待分配乡镇所在省的人口数量总和。

    3.根据权利要求1所述的多源数据网格化清洗方法,其特征在于,所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息,之后还包括:

    根据所述乡镇级常住人口信息,获取每个省的人口总数;

    获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;

    根据统计年鉴,获得所述误差省份的每个县市常住人口数量;

    根据所述误差省份的第i个县市常住人口数量,利用公式确定所述误差省份的第i个县市的误差指数;

    根据所述误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定所述误差省份的第i个县市的第j个乡镇的校正人口数量;

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    4.根据权利要求1所述的多源数据网格化清洗方法,其特征在于,

    所述导航数据包括:每条道路的面积和长度;

    所述土地覆盖数据包括:土地类型和每种土地类型的面积;所述土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪;

    所述夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    5.根据权利要求4所述的多源数据网格化清洗方法,其特征在于,所述对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据,之后还包括:

    利用空间连续性分析方法,剔除所述投影后的多源空间数据的导航数据中不连续的道路;

    利用高斯低通滤波,对所述投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    利用acgis软件的重分类功能,提取所述投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    利用acgis软件的面积计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    6.一种多源数据网格化清洗系统,其特征在于,所述系统包括:

    乡镇级统计常住人口信息获取单元,用于从统计年鉴中获取待清洗年份的乡镇级统计常住人口信息;所述乡镇级统计常住人口信息包括乡镇代码、乡镇名称和人口数量;

    待分配乡镇确定单元,用于根据所述乡镇级统计常住人口信息的乡镇代码,将所述乡镇级统计常住人口信息与待清洗年份的乡镇行政区划信息进行匹配关联,并获取所述乡镇行政区划信息中没有匹配乡镇级统计常住人口信息的乡镇代码以及对应的乡镇名称,确定为待分配乡镇;所述乡镇行政区划信息包括乡镇代码、乡镇名称和乡镇边界;

    乡镇级分配常住人口信息获得单元,用于根据乡镇级人口普查数据和人口公里网格数据,对所述待分配乡镇分配人口数量,获得乡镇级分配常住人口信息;

    乡镇级常住人口信息构成单元,用于所述乡镇级统计常住人口信息和所述乡镇级分配常住人口信息构成待清洗年份的乡镇级常住人口信息;

    空间关联乡镇级常住人口信息获得单元,用于根据所述乡镇级常住人口信息的乡镇代码,采用acgis软件的空间关联功能,将待清洗年份的乡镇行政区划信息与所述乡镇级常住人口信息进行空间关联,获得空间关联后的乡镇级常住人口信息;

    多源空间数据获取单元,用于获取所述空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据;所述多源空间数据包括导航数据、土地覆盖数据和夜间灯光数据;

    投影后的多源空间数据获得单元,用于对所述多源空间数据按照乡镇边界进行拼接,并将拼接后的多源空间数据利用acgis软件的投影转换功能转换到同一个投影坐标系中,获得投影后的多源空间数据;

    百米网格数据获得单元,用于在投影坐标系中以乡镇行政边界为空间区域进行网格化,获得百米网格数据;

    网格投影后的多源空间数据确定单元,用于根据所述投影后的多源空间数据,确定所述百米网格数据中每个网格包含的投影后的多源空间数据;

    网格人口数量确定单元,用于将所述百米网格数据与所述空间关联后的乡镇级常住人口信息进行空间相交运算,确定所述百米网格数据中每个网格所在的乡镇名称和所在的乡镇名称对应的人口数量。

    7.根据权利要求6所述的多源数据网格化清洗系统,其特征在于,所述乡镇级分配常住人口信息获得单元,具体包括:

    判断结果获得子单元,用于判断所述待分配乡镇是否与乡镇级人口普查数据中的乡镇代码匹配成功,获得判断结果;

    人口比例获得子单元,用于若所述判断结果表示是,则根据乡镇级人口普查数据,获得所述待分配乡镇占据所在县市的人口比例;

    县市人口数量获取子单元,用于从所述乡镇级统计常住人口信息中获取所述待分配乡镇所在县市的人口数量;

    第一乡镇人口数量确定子单元,用于根据所述待分配乡镇所在县市的人口数量和所述待分配乡镇占据所在县市的人口比例,利用公式y=k×p,确定待清洗年份的所述待分配乡镇的人口数量;

    乡镇人口数量总和获得子单元,用于若所述判断结果表示否,则以所述待分配乡镇边界范围为统计范围,采用空间统计分析方法,从所述人口公里网格数据中获得所述统计范围内的乡镇人口数量总和以及待分配乡镇所在省的人口数量总和;

    第二乡镇人口数量确定子单元,用于根据所述统计范围内的人口数量总和以及待分配乡镇所在省的人口数量总和,利用公式确定待清洗年份的所述待分配乡镇的人口数量;

    其中,y为待清洗年份的待分配乡镇的人口数量,k为待分配乡镇占据所在县市的人口比例,p为待分配乡镇所在县市的人口数量,s为待清洗年份的统计年鉴公布的待分配乡镇所在省的人口数量总和,a为统计范围内的乡镇人口数量总和,a为统计范围内待分配乡镇所在省的人口数量总和。

    8.根据权利要求6所述的多源数据网格化清洗系统,其特征在于,所述系统还包括:

    省人口总数获取单元,用于根据所述乡镇级常住人口信息,获取每个省的人口总数;

    误差省份确定获取单元,用于获得每个省的人口总数分别与统计年鉴中每个省的人口总数的比值,并将比值不在比值预设范围的省确定为误差省份;

    县市常住人口数量获取单元,用于根据统计年鉴,获得所述误差省份的每个县市常住人口数量;

    误差指数获取单元,用于根据所述误差省份的第i个县市常住人口数量,利用公式确定所述误差省份的第i个县市的误差指数;

    校正人口数量获取单元,用于根据所述误差省份的第i个县市的误差指数,利用公式yj=ki×yj,确定所述误差省份的第i个县市的第j个乡镇的校正人口数量;

    其中,ki为误差省份的第i个县市的误差指数,mi为乡镇级统计常住人口信息中误差省份的第i个县市的人口数量,nj为乡镇级统计常住人口信息中误差省份的第i个县市的第j个乡镇的人口数量,yj为误差省份的第i个县市的第j个乡镇的分配人口数量,yj为误差省份的第i个县市的第j个乡镇的校正人口数量。

    9.根据权利要求6所述的多源数据网格化清洗系统,其特征在于,

    所述导航数据包括:每条道路的面积和长度;

    所述土地覆盖数据包括:土地类型和每种土地类型的面积;所述土地类型包括不透水表面、耕地、林地、草地、水体、湿地、裸地、苔原、灌木和冰雪;

    所述夜间灯光数据包括:夜间灯光和火光产生的辐射信号。

    10.根据权利要求9所述的多源数据网格化清洗系统,其特征在于,所述系统还包括:

    不连续道路剔除单元,用于利用空间连续性分析方法,剔除所述投影后的多源空间数据的导航数据中不连续的道路;

    噪声数据消除单元,用于利用高斯低通滤波,对所述投影后的多源空间数据的夜间灯光数据进行平滑处理,消除噪声数据;

    土地覆盖数据提取单元,用于利用acgis软件的重分类功能,提取所述投影后的多源空间数据的土地覆盖数据中不透水表面、耕地、林地、草地、水体土地类型;

    面积提取单元,用于利用acgis软件的面积计算功能,获得不透水表面的面积、耕地的面积、林地的面积、草地的面积和水体的面积。

    技术总结
    本发明涉及一种多源数据网格化清洗方法及系统,从统计年鉴中获取乡镇级统计常住人口信息,与乡镇行政区划信息匹配,根据乡镇级人口普查数据和人口公里网格数据,对待分配乡镇分配人口数量,获得完整的乡镇级常住人口信息,并对乡镇级常住人口信息进行空间关联;获取空间关联后的乡镇级常住人口信息中每个乡镇边界范围内的多源空间数据,对多源空间数据按照乡镇边界进行拼接,并转换到同一个投影坐标系中,将乡镇行政边界空间区域进行网格化,通过空间分析与计算确定每个网格的多源空间数据、乡镇以及乡镇的人口数量,使人口数据、导航数据、土地覆盖数据和夜间灯光数据在空间上无缝拼接,实现人口和空间多源数据的网格化封装。

    技术研发人员:代佳佳;潘耀忠;王金云;郑学昌
    受保护的技术使用者:北京师范大学
    技术研发日:2020.11.26
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-22208.html

    最新回复(0)