本发明涉及数据处理技术领域,具体涉及一种地址归一化处理方法及装置。
背景技术:
在实际使用中,一些约定俗成的称谓能够准确地标识一个地址,而一个地址也会同时具有多种称谓,如简称、俗称、新旧称谓、前后顺序不一致、以地标物作为地址等。这些情况会使一个地址信息存在多种称谓,甚至在不同的应用中呈现出不同形态,而这些情况会在分析一个地址信息时带来较大干扰,因此通过地址归一化分析来统一地址信息,能够提升地址分析时的应用能力。
目前,应用较为广泛的分析算法主要有基于规则的匹配方法或基于统计的方法等。其中,基于规则匹配的方法是从地址信息中提取各种地址元素,如省、市、街道等信息,然后与相应规则的地理信息匹配,从而获得准确的且机器可以识别的地址。然而,当规则知识的获取越来越多时,将会给带来处理瓶颈,处理效率低。而基于统计的方法,不需要广博的语言学知识,通过相应的模型计算出与目标地址概率最大且符合度最高的地址,从而实现地址归一化分析,这种分析方法对具体的语言特性依赖相对较少,可移植性比较好,主要有hmm、me、决策树、基于转换学习以及马尔可夫模型等模型。然而,当新的地址、地名或者地名变更等出现时,该方法的准确性将大打折扣。
需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
技术实现要素:
本发明实施例提供一种地址归一化处理方法及装置,以至少解决现有技术中对地址进行归一化分析的方法存在的处理效率低,且准确性不高的问题。
第一方面,本发明实施例提供一种地址归一化处理方法,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
作为本发明第一方面的优选方式,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
作为本发明第一方面的优选方式,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
作为本发明第一方面的优选方式,若所述地址数据源为网络地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述网络地址数据源中每个网络原始地址进行字段抽取,得到与所述网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从所述网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
作为本发明第一方面的优选方式,若所述地址数据源为社会资源地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与所述社会资源原始地址对应的社会资源中文地址字段;
依次对从所述社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
作为本发明第一方面的优选方式,所述根据所述网爬经纬度,对所述初步治理后的原始地址进行深度治理,得到归一化后的标准地址库,包括:
对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;
基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
第二方面,本发明实施例提供一种地址归一化处理装置,包括:
原始地址获取单元,用于获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
地址初步治理单元,用于对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
经纬度网爬单元,用于对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
地址深度治理单元,用于根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
作为本发明第二方面的优选方式,所述地址深度治理单元具体用于:
对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;
基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
第三方面,本发明实施例提供一种计算设备,包括处理器和存储器,其中所述存储器内存储有执行指令,所述处理器读取所述存储器内的执行指令用于执行如上述地址归一化处理方法中所述的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行如上述地址归一化处理方法中所述的步骤。
本发明实施例提供的地址归一化处理方法及装置,基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。
本发明解决了同一地址有多种称谓甚至存在不同形态的问题,保证了中文地址更好的使用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种地址归一化处理方法的实现流程图;
图2为本发明实施例提供的一种地址归一化处理装置的结构示意图;
图3为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
参照图1所示,本发明实施例公开了一种地址归一化处理方法,该方法主要包括:
101、获取多种地址数据源,地址数据源包括多个与目标地址对应的原始地址;
102、对各地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
103、对各初步治理后的原始地址进行网络爬取,得到与初步治理后的原始地址对应的网爬经纬度;
104、根据网爬经纬度,对各初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
步骤101中,针对待归一化处理的目标地址,获取多种不同的地址数据源,在各个地址数据源中包括多个与目标地址相对应的原始地址。
本实施例中,对地址数据源的获取过程不做限定,本领域技术人员可根据实际情况进行多种不同地址数据源的获取。各个地址数据源中包括的原始地址应尽可能地多,这样归一化处理的结果会更加精确。
在本申请提供的一种可选实施例中,地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;运单地址数据源包括多个与目标地址对应的运单原始地址,网络地址数据源包括多个与目标地址对应的网络原始地址,社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
本实施例优选了三种地址数据源,分别为运单地址数据源、网络地址数据源以及社会资源地址数据源,这三种数据源的地址形式各不相同,可以尽可能地覆盖目标地址的多种表示形式。
其中,运单地址数据源中包括多个与目标地址对应的运单原始地址,而运单原始地址中通常包括省、市和详细地址三个字段。网络地址数据源包括多个与目标地址对应的网络原始地址,而网络原始地址中通常包括中文地址、经度、维度三个字段,所述的网络原始地址指网络lbs地址和网络购物地址。社会资源地址数据源包括多个与目标地址对应的社会资源原始地址,社会资源原始地址通常只包括中文地址一个字段。
步骤102中,针对上述步骤101中获取到的多种不同的地址数据源,先对各地址数据源中包括的每个原始地址进行初步治理,以得到初步治理后的原始地址。
优选地,若所述地址数据源为运单地址数据源时,步骤102具体包括如下步骤:
对运单地址数据源中每个运单原始地址进行字段抽取,得到与运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对运单省字段和运单市字段的合法性和正确性进行验证,并在通过验证后对运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
上述方法中,运单地址数据源中每个运单原始地址,具体包括运单省字段、运单市字段和运单详细地址字段,然后从各运单原始地址中分别抽取出这三个字段。
首先,将运单省字段通过国内所有省的数据字典进行合法性和正确性验证,验证不通过则从运单详细地址字段中抽取出省信息,再对其进行合法性和正确性验证,通过则保留该条运单原始地址数据,不通过则丢弃该条运单原始地址数据。
接着,将运单市字段通过所属省的数据字典进行合法性和正确性验证,验证不通过则从运单详细地址中抽取出市信息,再对其进行合法性和正确性验证,通过则保留该条运单原始地址数据,不通过则丢弃该条运单原始地址数据。
然后,在通过上述验证后对运单详细地址字段中包含的特殊字符进行处理,其具体处理过程如下:
运单详细地址包含的自相矛盾内容的处理,如同一条地址数据中有多个省、市、县信息;
运单详细地址中的省、市、县是否有从属关系,从而确定该条地址数据是否保留;
运单详细地址中连续超过5位的数字去除,因邮编为6位数字,手机号码为11位数字,座机号码为8位数字;
运单详细地址中特殊符号的处理,如()、[]、()、【】、{}等,将这些符号及其包含的内容删除;
运单详细地址包含“请”、“货到”、“电话”等内容,将这些内容以及其后的内容删除。
最后,将通过验证的运单省字段、运单市字段与处理后的运单详细地址字段结合,得到初步治理后的运单原始地址。当然,该初步治理后的运单原始地址还需要进行合法性和正确性验证,以确保省、市、区\县的归属正确。
经过上述初步治理后,运单地址数据源中原有的运单原始地址会有一部分被丢弃或处理,最终在运单地址数据源中保留的均是经过初步治理后的运单原始地址。
优选地,若所述地址数据源为网络地址数据源时,步骤102具体包括如下步骤:
对网络地址数据源中每个网络原始地址进行字段抽取,得到与网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
上述方法中,网络地址数据源中每个网络原始地址,具体包括网络经度字段、网络纬度字段和网络中文地址字段,然后从各网络原始地址中分别抽取出这三个字段。
首先,从网络中文地址字段中抽取出省信息,对其通过国内所有省的数据字典进行合法性和正确性验证,通过则保留该条网络原始地址数据,不通过则丢弃该条网络原始地址数据。
接着,从网络中文地址字段中抽取出市信息,对其通过国内所属省的数据字典进行合法性和正确性验证,通过则保留该条网络原始地址数据,不通过则丢弃该条网络原始地址数据。
然后,在通过上述验证后对网络中文地址字段中包含的特殊字符进行处理,其具体处理过程如下:
网络中文地址包含的自相矛盾内容的处理,如同一条地址数据中有多个省、市、县信息;
网络中文地址中的省、市、县是否有从属关系,从而确定该条地址数据是否保留;
网络中文地址中连续超过5位的数字去除,因邮编为6位数字,手机号码为11位数字,座机号码为8位数字;
网络中文地址中特殊符号的处理,如()、[]、()、【】、{}等,将这些符号及其包含的内容删除;
网络中文地址包含“请”、“货到”、“电话”等内容,将这些内容以及其后的内容删除。
最后,将通过验证且经过处理后的网络中文地址作为初步治理后的网络原始地址。当然,该初步治理后的网络原始地址还需要进行合法性和正确性验证,以确保省、市、区\县的归属正确。
经过上述初步治理后,网络地址数据源中原有的网络原始地址会有一部分被丢弃或处理,最终在网络地址数据源中保留的均是经过初步治理后的网络原始地址。
优选地,若所述地址数据源为社会资源地址数据源时,步骤102具体包括如下步骤:
对社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与社会资源原始地址对应的社会资源中文地址字段;
依次对从社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
上述方法中,社会资源地址数据源中每个社会资源原始地址,具体包括社会资源中文地址字段,然后从各社会资源原始地址中抽取出这个字段。
社会资源原始地址的验证和处理过程与上述对网络原始地址的验证和处理过程相似,提具体实施过程可参照前述过程中的相关描述,在此不再赘述。
最后,将通过验证且经过处理后的社会资源原始地址作为初步治理后的社会资源原始地址。当然,该初步治理后的社会资源原始地址还需要进行合法性和正确性验证,以确保省、市、区\县的归属正确。
经过上述初步治理后,社会资源地址数据源中原有的社会资源原始地址会有一部分被丢弃或处理,最终在社会资源地址数据源中保留的均是经过初步治理后的社会资源原始地址。
步骤103中,针对上述步骤102中获取到的多种地址数据源包括的初步治理后的原始地址,进行网络爬取,以获取多种地址数据源中各初步治理后的原始地址对应的网爬经纬度。
因为数据源较多,数据量较大,因此本实施例中使用分组的方式进行网爬,并发处理多组初步治理后的原始地址数据。
针对每一组数据,记录网爬指针,指向每一组已网爬过的数据。对网爬指针指向的下一条数据,使用详细地址或中文地址进行网爬,得到与详细地址或中文地址对应的网爬经纬度。如,针对初步治理后的运单原始地址,采用其详细地址字段进行网爬;针对初步治理后的网络原始地址或社会资源原始地址,采用其中文地址字段进行网爬。
需要说明的是,针对初步治理后的网络原始地址,其在进行字段抽取时,还同时抽取出了网络经度字段和网络纬度字段,这两个字段与网爬得到的网爬经纬度同时保留。
在上述网爬过程中,可以采用高德地图、百度地图或者其他定位应用或网页等进行网络爬取。本实施例中,对具体的网络爬取过程不做限定,本领域技术人员可根据实际情况进行网络经纬度的网络爬取。
步骤104中,针对上述步骤103中获取到的多种地址数据源中各初步治理后的原始地址对应的网爬经纬度,再根据该网爬经纬度,对各初步治理后的原始地址进行深度治理,最后得到归一化后的标准地名地址库。
在本申请提供的一种可选实施例中,步骤104可按照如下方式具体实施:
1041、对网爬经纬度进行纠偏处理,生成与网爬经纬度对应的标准坐标系经纬度。
该步骤中,对获取到的多种地址数据源中各初步治理后的原始地址对应的网爬经纬度,由于其并非均是属于同一个坐标系下的经纬度,因此需要先进行纠偏处理,统一生成与网爬经纬度对应的标准坐标系经纬度,该标准坐标系优选为wgs-84坐标系。
需要说明的是,在前述初步治理过程中,从网络地址数据源中的各网络原始地址中还会抽取出网络经度字段和网络纬度字段,即各网络原始地址还自带原始的经纬度信息。该原始的经纬度信息是否也需要纠偏,需要根据实际情况确定。
对于网络地址数据源中的各网络原始地址,需要将其自带的原始的经纬度信息与对应的网爬经纬度进行比对。如果二者差值换算的实际空间位置小于1米,则保留该网络原始地址对应的网爬经纬度,而舍弃其原始的经纬度信息;如果差值换算的实际空间位置大于1米,则舍弃该条地址数据。这样,可以进一步去除一些无用的干扰数据。
1042、基于标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在地址数据源中出现的次数,得到各地址数据源中多个不同的初步治理后的原始地址的数据源置信度。
该步骤中,对于不同种类的地址数据源,统计该地址数据源中相同的初步治理后的原始地址出现的次数,对应计算得到该地址数据源中各个不同的初步治理后的原始地址的数据源置信度。
确定两个初步治理后的原始地址是否相同时,先一次判断其地址信息是否相同,然后再根据其分别对应的标准坐标系经纬度确定的空间位置是否相同,如二者确定的空间位置的差别在一定的误差范围内,则认为这两个初步治理后的原始地址是相同的。
另外,根据不同地址数据源的数据质量的不同,各个地址数据源中相同的初步治理后的原始地址出现一次,其数据源置信度增加的数值不同。如,运单地址数据源中相同的初步治理后的运单原始地址出现一次,该地址的数据源置信度对应加1,而在社会资源地址数据源中相同的初步治理后的社会资源原始地址出现一次,其数据源置信度对应加5。
1043、对各地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度。
该步骤中,将不同种类的地址数据源中包括的多个不同的初步治理后的原始地址整合在一起,然后进行去重合并,并将去重合并后的各不同初步治理后的原始地址的数据源置信度进行处理,即得到各不同的初步治理后的原始地址的整合置信度。
优选地,本领域技术人员在具体实施时,可以先根据数据源置信度设置置信度系数,然后使数据源置信度与对应的置信度系数相乘后再相加,最终得到整合置信度。
例如,某一条初步治理后的运单原始地址的数据源置信度为85,对应的置信度系数为0.2,而于其相同的另一条初步治理后的网络原始地址的数据源置信度为51,对应的置信度系数为0.5,则该条地址数据经去重合并后,将这两个数据源置信度与对应的置信度系数相乘后再相加,得到其整合置信度为85×0.2 51×0.5=42.5。
1044、按照整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
该步骤中,由于整合置信度越高,说明其对应的该条地址数据的精确度越高,因此按照整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,就得到归一化后的标准地名地址库,该标准地名数据库中的每条地址同时还对应有网爬经纬度确定出的空间位置。
需要说明的是,对于上述方法的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
综上所述,本发明实施例提供的地址归一化处理方法,基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。本发明解决了同一地址有多种称谓甚至存在不同形态的问题,保证了中文地址更好的使用性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器或者网络设备等)执行本申请上述实施例所述的方法。
参照图2所示,基于同一发明构思,本发明实施例还提供一种地址归一化处理装置,该装置主要包括:
原始地址获取单元21,用于获取多种地址数据源,地址数据源包括多个与目标地址对应的原始地址;
地址初步治理单元22,用于对各地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
经纬度网爬单元23,用于对各初步治理后的原始地址进行网络爬取,得到与初步治理后的原始地址对应的网爬经纬度;
地址深度治理单元24,用于根据网爬经纬度,对各初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
此处需要说明的是,上述原始地址获取单元21、地址初步治理单元22、经纬度网爬单元23和地址深度治理单元24对应于上述方法实施例中的步骤101至步骤104,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述方法实施例所公开的内容。
本申请提供的一种可选实施例中,地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
运单地址数据源包括多个与目标地址对应的运单原始地址,网络地址数据源包括多个与目标地址对应的网络原始地址,社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
本申请提供的一种可选实施例中,若地址数据源为运单地址数据源时,地址初步治理单元22具体用于:
对运单地址数据源中每个运单原始地址进行字段抽取,得到与运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对运单省字段和运单市字段的合法性和正确性进行验证,并在通过验证后对运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
本申请提供的一种可选实施例中,若地址数据源为网络地址数据源时,地址初步治理单元22具体用于:
对网络地址数据源中每个网络原始地址进行字段抽取,得到与网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
本申请提供的一种可选实施例中,若地址数据源为社会资源地址数据源时,地址初步治理单元22具体用于:
对社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与社会资源原始地址对应的社会资源中文地址字段;
依次对从社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
本申请提供的一种可选实施例中,地址深度治理单元24具体用于:
对网爬经纬度进行纠偏处理,生成与网爬经纬度对应的标准坐标系经纬度;
基于标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在地址数据源中出现的次数,得到各地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
综上所述,本发明实施例提供的地址归一化处理装置,基于多数据源经纬度精确匹配并使用地址权重归一化的方式来统一地址信息,有效解决了现有技术中对地址进行归一化分析的方法存在的处理效率低且准确性不高的问题,提升应用系统对地址信息的使用能力。本发明解决了同一地址有多种称谓甚至存在不同形态的问题,保证了中文地址更好的使用性。
需要说明的是,本发明实施例提供的地址归一化处理装置与前述实施例所述的地址归一化处理方法属于相同的技术构思,其具体实施过程可参照前述实施例中对方法步骤的说明,在此不再赘述。
应当理解,以上一种地址归一化处理装置包括的单元仅为根据该装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种地址归一化处理装置所实现的功能与上述实施例提供的一种地址归一化处理方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。
参照图3所示,基于同一发明构思,本发明实施例提供一种计算设备,该计算设备主要包括处理器31和存储器32,其中存储器32内存储有执行指令。该处理器31读取存储器32内的执行指令用于执行上述地址归一化处理方法任一个实施例中所述的步骤。或者,该处理器31读取存储器32内的执行指令用于实现上述地址归一化处理装置任一个实施例中各单元的功能。
图3为本发明实施例提供的计算设备的一种结构示意图,如图3所示,该计算设备包括处理器31、存储器32和收发器33;其中,处理器31、存储器32和收发器33通过总线34相互连接。
存储器32用于存储程序;具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器32可以包括易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,简称ram);存储器32也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flashmemory),硬盘(harddiskdrive,简称hdd)或固态硬盘(solid-statedrive,简称ssd);存储器32还可以包括上述种类的存储器的组合。
存储器32存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:
操作指令:包括各种操作指令,用于实现各种操作。
操作系统:包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
总线34可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器31可以是中央处理器(centralprocessingunit,简称cpu),网络处理器(networkprocessor,简称np)或者cpu和np的组合。还可以是硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,简称asic),可编程逻辑器件(programmablelogicdevice,简称pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice,简称cpld),现场可编程逻辑门阵列(fieldprogrammablegatearray,简称fpga),通用阵列逻辑(genericarraylogic,简称gal)或其任意组合。
本发明实施例还提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行上述地址归一化处理方法任一个实施例中所述的步骤。或者,所述计算机执行指令被用于执行上述地址归一化处理装置实施例中各单元的功能。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
本领域技术人员可以理解,实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤,而前述的存储介质包括rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
1.一种地址归一化处理方法,其特征在于,包括:
获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
2.根据权利要求1所述的方法,其特征在于,所述地址数据源包括运单地址数据源、网络地址数据源以及社会资源地址数据源;
所述运单地址数据源包括多个与目标地址对应的运单原始地址,所述网络地址数据源包括多个与目标地址对应的网络原始地址,所述社会资源地址数据源包括多个与目标地址对应的社会资源原始地址。
3.根据权利要求2所述的方法,其特征在于,若所述地址数据源为运单地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述运单地址数据源中每个运单原始地址进行字段抽取,得到与所述运单原始地址对应的运单省字段、运单市字段和运单详细地址字段;
依次对所述运单省字段和所述运单市字段的合法性和正确性进行验证,并在通过验证后对所述运单详细地址字段中包含的特殊字符进行处理,得到初步治理后的运单原始地址。
4.根据权利要求2所述的方法,其特征在于,若所述地址数据源为网络地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述网络地址数据源中每个网络原始地址进行字段抽取,得到与所述网络原始地址对应的网络经度字段、网络纬度字段和网络中文地址字段;
依次对从所述网络中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述网络中文地址字段中包含的特殊字符进行处理,得到初步治理后的网络原始地址。
5.根据权利要求2所述的方法,其特征在于,若所述地址数据源为社会资源地址数据源时,所述对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址,包括:
对所述社会资源地址数据源中每个社会资源原始地址进行字段抽取,得到与所述社会资源原始地址对应的社会资源中文地址字段;
依次对从所述社会资源中文地址字段中获取到的网络省信息和网络市信息的合法性和正确性进行验证,并在通过验证后对所述社会资源中文地址字段中包含的特殊字符进行处理,得到初步治理后的社会资源原始地址。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述根据所述网爬经纬度,对所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库,包括:
对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;
基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
7.一种地址归一化处理装置,其特征在于,包括:
原始地址获取单元,用于获取多种地址数据源,所述地址数据源包括多个与目标地址对应的原始地址;
地址初步治理单元,用于对各所述地址数据源中每个原始地址进行初步治理,得到初步治理后的原始地址;
经纬度网爬单元,用于对各所述初步治理后的原始地址进行网络爬取,得到与所述初步治理后的原始地址对应的网爬经纬度;
地址深度治理单元,用于根据所述网爬经纬度,对各所述初步治理后的原始地址进行深度治理,得到归一化后的标准地名地址库。
8.根据权利要求7所述的装置,其特征在于,所述地址深度治理单元具体用于:
对所述网爬经纬度进行纠偏处理,生成与所述网爬经纬度对应的标准坐标系经纬度;
基于所述标准坐标系经纬度确定的空间位置,分别统计相同的初步治理后的原始地址在所述地址数据源中出现的次数,得到各所述地址数据源中多个不同的初步治理后的原始地址的数据源置信度;
对各所述地址数据源中多个不同的初步治理后的原始地址进行整合以及去重合并后,将去重合并后的各初步治理后的原始地址的数据源置信度进行处理,得到去重合并后的各初步治理后的原始地址的整合置信度;
按照所述整合置信度从大到小的顺序对去重合并后的各初步治理后的原始地址进行排序,得到归一化后的标准地名地址库。
9.一种计算设备,其特征在于,包括处理器和存储器,其中所述存储器内存储有执行指令,所述处理器读取所述存储器内的执行指令用于执行如权利要求1~6中任一项所述的地址归一化处理方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包含计算机执行指令,所述计算机执行指令被用于执行如权利要求1~6中任一项所述的地址归一化处理方法中的步骤。
技术总结