数据迁移方法、装置、计算机设备及存储介质与流程

    专利2022-07-08  122


    本发明实施例涉及数据处理领域,尤其涉及一种数据迁移方法、装置、计算机设备及存储介质。



    背景技术:

    在服务器集群扩容需要重均衡数据或者服务器集群迁移时,需要对数据文件进行迁移。

    现有的数据迁移方法中,针对复杂多服务器集群中数据迁移,可以采用copier工具。

    但在使用上述方式时,copier工具适用于复杂的集群迁移,但是需要目标集群未配置有目标表分区,从而不能实现具有相同表分区数据的两个节点之间的数据迁移。



    技术实现要素:

    本发明实施例提供一种数据迁移方法、装置、计算机设备及存储介质,可以提高数据迁移效率和准确率。

    第一方面,本发明实施例提供了一种数据迁移方法,包括:

    从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;

    若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;

    否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    第二方面,本发明实施例还提供了一种数据迁移装置,包括:

    迁移数据读取模块,用于从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;

    迁移数据兼容写入模块,用于若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;

    迁移数据覆盖写入模块,用于否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的数据迁移方法。

    第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据迁移方法。

    第五方面,本发明实施例还提供了一种数据迁移系统,包括:源节点和目的节点,所述源节点实现如本发明任一实施例所述的数据迁移方法;

    所述源节点用于从迁移子表中读取迁移数据,并判断所述目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;若是,将所述迁移数据发送至所述目的节点;否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点;

    所述目的节点用于接收所述迁移数据,并追加存储于所述目标子表中,或者在清空所述目标子表中已存数据后,按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    本发明实施例通过判断迁移子表中迁移数据与目标子表中的已存数据的数据结构是否一致,以指示目的节点是否清除目标子表的已存数据,再写入迁移数据,解决了现有技术中数据迁移工具不能实现两个有相同指标节点之间的数据迁移的问题,实现在具有相同数据结构的子表数据的目的节点中追加存储待迁移数据,提高数据迁移的准确率和效率,同时,直接发送子表中数据,可以在节点之间数据存储逻辑不同时避免选择直接发送子表而导致目的节点无法准确解析并获取数据的情况,从而提高数据迁移的准确率。

    附图说明

    图1是本发明实施例一中的一种数据迁移方法的流程图;

    图2是本发明实施例二中的一种数据迁移装置的结构示意图;

    图3是本发明实施例三中的一种计算机设备的结构示意图;

    图4是本发明实施例五中的一种数据迁移系统的结构示意图。

    具体实施方式

    下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

    实施例一

    图1为本发明实施例一中的一种数据迁移方法的流程图的示意图,本实施例可适用于源节点读取迁移子表中数据,并发送给目的节点,写入目的节点的目标子中的情况,该方法可以由本发明实施例提供的数据迁移装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中,具体是源节点。如图1所示,本实施例的方法具体包括:

    s110,从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配。

    数据迁移是指将数据从源节点发送至目的节点中。节点中存储有数据库,数据库中存储有至少一个表,表中存储有至少一个子表。其中,数据库、表和子表均用于区分数据。在一个表中,如果不存在子表,该表可以视为一个子表。示例性的,子表,又可以称为数据分区,可以是指采集数据的指标,指标可以包括:例如,用户、行为和业务,更具体的,用户可以细分为日新增用户、活跃用户和留存用户;行为可以细分为访问次数(pageview,pv)、访问人数(uniquevisitor,uv)、转发率(转发率为转发某功能的用户数/看到该功能的用户数)、转化率或k因子=(平均每个用户向多少人发出邀请)*(接收到邀请的人转化为新用户的转化率)等;业务可以分为:总量、人均、付费或商品评价等。表可以是指多个指标形成的数据集合;而数据库可以是多个表形成的数据集合。其中,一子表的数据可以是指按照某一指标采集的数据。示例性的,指标为月,数据可以是指不同月采集的用户流量,例如,9月的用户流量和10月的用户流量。

    迁移子表存储有迁移数据,迁移数据可以是指待发送给目的节点的数据。目的节点为接收并存储迁移数据的节点。目标子表为存储迁移子表中迁移数据的子表,也即可以指定迁移子表中的迁移数据存储于目标子表中。已存数据为目标子表中历史存储的数据。数据结构可以是指子表中数据的存储结构。示例性的,字段1,属性值1,字段2,属性值2,字段3,属性值3。

    s120,若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中。

    迁移数据与目标子表中已存数据的数据结构相同,表明迁移数据可以按照该数据结构写入目标子表中。

    s130,否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    迁移数据与目标子表中已存数据的数据结构不同,此时,如果迁移数据按照原有数据结构写入目标子表中,导致目标子表中存储有两种不同数据结构的数据,从而在目标子表的数据读取、查询和添加等过程中,引起操作错误。

    指示目的节点清空目标子表中已存数据,用于在目标子表中删除与迁移数据的数据结构不同的数据,仅保留一种数据结构的数据。可以通过向目的节点发送请求,或向管理节点发送请求等,指示目的节点清空目标子表的已存数据,再发送迁移数据以指示目的节点进行存储,以实现在目标子表中仅存储有一种数据结构的数据。

    在一个具体的例子中,采集的数据分布式的存储在多个节点中,如,两个节点。在存在其中一个节点将数据迁移到另外一个节点中的需求时,如果覆盖存储,即删除已存数据,仅存储迁移数据,则会导致分布式存储的数据丢失。采用本发明实施例中的方法,可以目标子表在已存数据的基础上兼容存储迁移数据,减少数据损失,同时,提高数据迁移准确率。

    可选的,在判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致之前,还包括:获取所述源节点中迁移子表,以及各所述迁移子表中数据的数据结构;根据各所述迁移子表和各所述迁移子表中数据的数据结构,生成各所述迁移子表的配置信息;从所述配置信息获取各所述迁移子表与所述目的节点中目标子表之间的对应关系,并确定所述目的节点中已存的目标子表,所述对应关系用于提供给所述目的节点,以供所述目的节点将各所述迁移子表的数据写入对应的目标子表;根据所述对应关系,获取各所述已存的目标子表中已存数据的数据结构。

    迁移子表的获取可以通过对源节点中数据库、迁移表和迁移子表进行遍历获取。其中,获取的迁移子表包括获取迁移子表所属的数据库和所属的迁移表等。迁移子表的数据结构可以通过对迁移子表进行解析确定,例如,获取首行字段名,确定迁移子表的数据结构。获取源节点中迁移子表,以及各迁移子表中数据的数据结构,可以实现自动采集源节点中迁移数据的信息,并自动生成配置信息。可以将数据迁移操作配置为数据迁移任务,各所述迁移子表的配置信息可以作为数据迁移任务的配置信息,目的节点可以根据该配置信息,确定接收到的迁移数据对应的存储位置(即目标子表),并在该存储位置处存储迁移数据。配置信息中包括迁移子表与目的节点中目标子表之间的对应关系,该对应关系用于确定迁移子表中数据在目的节点中的存储位置和数据结构。

    其中,针对每个迁移子表,可以在目的节点中直接指定任意一个已存数据库,并在该已存数据库中,指定与迁移子表所属迁移表相同的表,以及在该目标表中指定与迁移子表相同的子表,也即在该已存数据库中,指定与迁移子表的存储结构相同的子表,作为迁移子表对应的目标子表,从而建立各迁移子表与目标子表的对应关系。其中,目标表和目标子表可以不存在,目的节点可以根据配置信息,在指定已存的数据库中,新建指定的目标表和/或目标子表。如果目标子表存在,则需要对目标子表中已存数据的数据结构和迁移子表中迁移数据的数据结构进行比较,并根据比较结果确定迁移子表的存储方式。

    可以根据对应关系,确定各迁移子表对应的目标子表,并在目的节点中查询是否存在目标子表,并获取各已存的目标子表中已存数据的数据结构。

    现有的冻结分区再拷贝数据文件的方式、insertinto...selectfromremote(...)的方式和copier工具,都存在大量的人工操作,尤其是在配置信息生成上,通常需要人工输入配置信息,导致数据迁移的人工成本高。

    通过自动生成配置信息,可以减少配置信息的人工成本,提高数据迁移任务的配置信息的生成效率,从而提高数据迁移的效率。

    可选的,所述从源节点的迁移子表中读取出迁移数据,包括:在源节点的至少一个迁移子表的表文件中,逐条读取数据,并将当前读取的数据确定为迁移数据;所述将所述迁移数据发送至所述目的节点,包括:将所述迁移数据发送至所述目的节点,以供所述目的节点对所述迁移数据进行处理并写入至少一个目标子表文件的表文件中。

    实际上,在数据库进行数据存储时,表中数据是以文件形式在磁盘中进行存储。一个表可以对应存在多个表文件。迁移子表中迁移数据,实际是存储在磁盘上与该迁移子表对应的表文件中。例如,表文件可以包括表结构文件、表数据结构文件和表索引结构文件。从表文件中读取数据,可以直接将文件中数据迁移到目的节点,可以避免直接迁移文件,以避免在目的节点不兼容迁移数据所属的文件的情况。其中,迁移数据可以以数据结构直接写入表文件;或者,根据迁移数据,生成对应的索引结构数据,并写入表文件,此外还有其他处理方式,可以根据具体情况进行设定。需要说明的是,迁移数据以数据结构在迁移子表中存储,在数据库机制中,需要迁移数据的所属表结构和索引结构等信息,建立起数据库、表和子表的结构体系以及索引结构。也即一个迁移数据中部分或全部内容可以存入多个表文件,数据库系统可以基于表文件对迁移数据进行修改、查询和删除等操作。实际上,迁移数据在物理磁盘中的落盘形式是以文件形式,在表文件确定的目标子表中,迁移数据仍以原数据结构进行存储,但会按照目的节点中数据库支持的表文件格式,进行落盘存储。也即,数据结构为子表内(或表)的存储结构,而迁移数据的文件存储方式是落盘结构,或者文件目录结构。

    将迁移数据发送至目的节点,以供目的节点将迁移数据写入表文件,表明可以目的节点可以将迁移数据存入兼容的文件中,可以避免源节点中文件和目的节点中文件不兼容的情况,提高数据迁移准确率。

    同时,由于数据库或数据表存在多个版本,而源节点和目的节点中数据库或数据表的版本不同。例如,旧版本中数据,每个数据字段存储于bin数据文件,mrk标记偏移文件,以及主键索引文件idx。新版本中数据,采用优化的偏移标记的mrk2代替了mrk,并增加minmax.idx文件,(用于存储字段的极值)以及partition.dat文件等。由此,旧版本的表文件和新版本对应的表文件的数量和文件可以不同,即迁移子表中迁移数据落盘的目录组织方式不同。而目的节点可以根据接收到的数据,按照兼容版本的文件组织规则,存入目标子表对应的至少一个表文件中,最终形成至少一个表文件。

    现有的冻结分区再拷贝数据文件的方式,虽然简单快捷,但是如果数据表在集群节点之间的版本不相同,且数据文件结构不一致,迁移的数据文件无法被目的节点兼容,从而无法正确被解析,导致迁移的数据无法应用。

    通过从迁移子表对应的表文件中读取数据,并在目的节点中存入目标子表对应的至少一个表文件中,可以解决底层存储逻辑不同导致采用数据文件迁移无法正确迁移数据的问题,可以兼容不同的底层存储逻辑,以及兼容不同的落盘结构,提高数据迁移准确率。

    可选的,数据迁移方法,还包括:在数据迁移过程中,实时监听各所述迁移子表中数据的数据移动状态,并显示所述数据移动状态;根据所述数据移动状态,统计移动异常事件发生的次数;在确定所述次数大于等于设定数量阈值时,停止从源节点中迁移子表中读取迁移数据,并告警。

    数据迁移过程可以是指源节点从各迁移子表中读取迁移数据,发送给目的节点,以及目的节点接收迁移数据,并存入指定目标子表的过程。数据移动状态用于确定迁移数据的处理状态,例如,迁移数据是否成功从迁移子表中读取出的状态,迁移数据是否成功从源节点输出的状态,迁移数据是否成功从目的节点接收的状态,和迁移数据是否成功在写入指定目标子表的状态等,其中,迁移数据在目的节点中的状态,可以通过目的节点针对迁移数据的反馈信息获取。监听数据移动状态,用于检测数据迁移过程是否发生异常。移动异常事件可以是指数据无法正确由源节点读取并传输至目的节点进行存储的事件,例如,源节点未接收到目的节点反馈的迁移数据传输成功的反馈信息的次数累计大于等于设定次数阈值,则表明源节点和目的节点之间的通信质量差,即确定发送移动异常事件。移动异常事件发生的次数大于等于设定数量阈值,表明数据迁移任务无法稳定正确执行,此时可以选择停止数据迁移,例如,源节点停止从迁移子表中读取迁移数据,停止将迁移数据发送至目的节点,以及通知目的节点停止接收迁移数据,和通知目的节点停止存储迁移数据等中的至少一项。其中,告警用于提示用户对移动异常事件进行处理,及时处理异常,恢复数据迁移。

    通过监听迁移子表中的数据移动状态,并根据数据移动状态,统计移动异常事件的次数,并根据次数,判断是否需要中止数据迁移,以及告警,实现数据迁移的过程监测,在数据迁移发生多次异常时,及时进行处理,提高数据迁移系统的稳定性。

    可选的,数据迁移方法,还包括:在数据迁移过程中,接收各所述迁移子表中数据的读取请求,在各所述迁移子表中查询与所述读取请求匹配的数据,所述读取请求还用于发送给所述目的节点,以指示所述目的节点在各所述迁移子表对应的目标子表中查询与所述读取请求匹配的数据。

    读取请求用于读取迁移子表中数据。读取请求可以是指在迁移子表中读取数据的请求。源节点可以在接收到读取请求时,直接将读取请求直接转发给目的节点,以使目的节点根据目标子表与迁移子表之间的对应关系,在对应的目标子表中查询数据。或者源节点根据目标子表与迁移子表之间的对应关系,生成与该读取请求对应的,针对目标子表的读取请求,发送给目的节点,并接收目的节点反馈的数据,结合源节点自身根据读取请求查询的数据,作为该读取请求的响应结果进行反馈。

    由于迁移子表中的数据会迁移到目标子表中,也即待读取的数据可以仅在迁移子表中,也可以仅在目标子表中,或者是部分在迁移子表中,部分在目标子表中,从而,读取请求,需要在源节点和目的节点中均读取数据,以确保读取请求需要读取的数据可以完整获取,从而准确响应读取请求。

    通过在数据迁移过程中,接收到需要进行迁移的数据的读取请求,可以在源节点和目的节点中均根据读取请求进行数据读取,提高数据读取准确率。

    可选的,源节点和目的节点均采用clickhouse列导向数据库存储迁移数据,在源节点中,包括代理模块和改进clickhouse-copier工具。

    其中,现有的clickhouse-copier基于zookeeper同步迁移数据,适用于复杂的集群迁移,但是配置繁琐,而且需要目的节点没有配置目标表分区,否则会清理目的节点中表分区,也即不能实现具有相同表分区数据的两个节点之间的数据迁移。

    本发明实施例采用的改进clickhouse-copier工具是对clickhouse-copier工具进行改进后得到。改进clickhouse-copier工具可实现热读写,同时屏蔽了底层存储的差异,以及非清除式迁移数据,可以在相同子表中兼容存储迁移数据。

    具体的,通过代理模块调用copier工具,从源节点的迁移子表中读取出迁移数据,以及指示所述目的节点清空所述目标子表中已存数据。通过代理模块获取所述源节点中迁移子表,以及各所述迁移子表中数据的数据结构,以及根据各所述迁移子表和各所述迁移子表中数据的数据结构,生成各所述迁移子表的配置信息;从所述配置信息获取各所述迁移子表与所述目的节点中目标子表之间的对应关系,并确定所述目的节点中已存的目标子表,所述对应关系用于提供给所述目的节点,以供所述目的节点将各所述迁移子表的数据写入对应的目标子表;根据所述对应关系,获取各所述已存的目标子表中已存数据的数据结构。并且,通过代理模块在数据迁移过程中,实时监听各所述迁移子表中数据的数据移动状态,并显示所述数据移动状态;根据所述数据移动状态,统计移动异常事件发生的次数;在确定所述次数大于等于设定数量阈值时,停止从源节点中迁移子表中读取迁移数据,并告警。

    本发明实施例通过判断迁移子表中迁移数据与目标子表中的已存数据的数据结构是否一致,以指示目的节点是否清除目标子表的已存数据,再写入迁移数据,解决了现有技术中数据迁移工具不能实现两个有相同指标节点之间的数据迁移的问题,实现在具有相同数据结构的子表数据的目的节点中追加存储待迁移数据,提高数据迁移的准确率和效率,同时,直接发送子表中数据,可以在节点之间数据存储逻辑不同时避免选择直接发送子表而导致目的节点无法准确解析并获取数据的情况,从而提高数据迁移的准确率。

    实施例二

    图2为本发明实施例二中一种数据迁移装置的示意图。实施例二是实现本发明上述实施例提供的数据迁移方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。

    相应的,本实施例的装置可以包括:

    迁移数据读取模块210,用于从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;

    迁移数据兼容写入模块220,用于若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;

    迁移数据覆盖写入模块230,用于否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    本发明实施例通过判断迁移子表中迁移数据与目标子表中的已存数据的数据结构是否一致,以指示目的节点是否清除目标子表的已存数据,再写入迁移数据,解决了现有技术中数据迁移工具不能实现两个有相同指标节点之间的数据迁移的问题,实现在具有相同数据结构的子表数据的目的节点中追加存储待迁移数据,提高数据迁移的准确率和效率,同时,直接发送子表中数据,可以在节点之间数据存储逻辑不同时避免选择直接发送子表而导致目的节点无法准确解析并获取数据的情况,从而提高数据迁移的准确率。

    进一步的,所述数据迁移装置,还包括:迁移配置信息模块,用于在判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致之前,获取所述源节点中迁移子表,以及各所述迁移子表中数据的数据结构;根据各所述迁移子表和各所述迁移子表中数据的数据结构,生成各所述迁移子表的配置信息;从所述配置信息获取各所述迁移子表与所述目的节点中目标子表之间的对应关系,并确定所述目的节点中已存的目标子表,所述对应关系用于提供给所述目的节点,以供所述目的节点将各所述迁移子表的数据写入对应的目标子表;根据所述对应关系,获取各所述已存的目标子表中已存数据的数据结构。

    进一步的,所述迁移数据读取模块210,包括:文件读取单元,用于在源节点的至少一个迁移子表的表文件中,逐条读取数据,并将当前读取的数据确定为迁移数据;所述将所述迁移数据发送至所述目的节点,包括:将所述迁移数据发送至所述目的节点,以供所述目的节点对所述迁移数据进行处理并写入至少一个目标子表文件的表文件中。

    进一步的,所述数据迁移装置,还包括:迁移监控模块,用于在数据迁移过程中,实时监听各所述迁移子表中数据的数据移动状态,并显示所述数据移动状态;根据所述数据移动状态,统计移动异常事件发生的次数;在确定所述次数大于等于设定数量阈值时,停止从源节点中迁移子表中读取迁移数据,并告警。

    进一步的,所述数据迁移装置,还包括:迁移数据读取模块,用于在数据迁移过程中,接收各所述迁移子表中数据的读取请求,在各所述迁移子表中查询与所述读取请求匹配的数据,所述读取请求还用于发送给所述目的节点,以指示所述目的节点在各所述迁移子表对应的目标子表中查询与所述读取请求匹配的数据。

    上述装置可执行本发明实施例所提供的数据迁移方法,具备执行方法相应的功能模块和有益效果。

    实施例三

    图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图3显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

    如图3所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。

    总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrystandardarchitecture,isa)总线,微通道体系结构(microchannelarchitecture,mca)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation,vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect,pci)总线。

    计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

    系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(compactdiscread-onlymemory,cd-rom),数字视盘(digitalvideodisc-readonlymemory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

    具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

    计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(input/output,i/o)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(localareanetwork,lan),广域网(wideareanetwork,wan)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列(redundantarraysofinexpensivedisks,raid)系统、磁带驱动器以及数据备份存储系统等。

    处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的数据迁移方法。

    实施例四

    本发明实施例四提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的方法:

    也即,该程序被处理器执行时实现:从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、ram、只读存储器(readonlymemory,rom)、可擦式可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、闪存、光纤、便携式cd-rom、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

    计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

    计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(radiofrequency,rf)等等,或者上述的任意合适的组合。

    可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括lan或wan——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

    实施例五

    图4为本发明实施例五中的一种数据迁移系统的结构示意图,如图4所示,数据迁移系统400,包括源节点410和目的节点420。源节点410和目的节点420相连,源节点410实现如本发明任一实施例所述的数据迁移方法;源节点410用于从迁移子表中读取迁移数据,并判断目的节点420的目标子表中的已存数据与迁移数据的数据结构是否相一致;若是,将迁移数据发送至目的节点420;否则,指示目的节点420清空目标子表中已存数据后,将迁移数据发送至目的节点420;目的节点420用于接收迁移数据,并追加存储于目标子表中,或者在清空目标子表中已存数据后,按照迁移数据的数据结构,将迁移数据存储于目标子表中。

    其中,源节点410中数据库411和目的节点420中数据库421均采用clickhouse列导向数据库存储数据。在源节点410中,包括代理模块412和迁移模块413,其中,迁移模块413可以为改进clickhouse-copier工具。

    可选的,代理模块412调用迁移模块413,迁移模块413从源节点410的迁移子表中读取出迁移数据;代理模块412或迁移模块413判断目的节点的目标子表中的已存数据与迁移数据的数据结构是否相一致;目标子表与迁移子表相匹配;迁移模块413将迁移数据发送至目的节点,以供目的节点将迁移数据追加存储于目标子表中;迁移模块413指示目的节点420清空目标子表中已存数据后,将迁移数据发送至目的节点420,以供目的节点420按照迁移数据的数据结构,将迁移数据存储于目标子表中。

    可选的,代理模块412在判断目的节点的目标子表中的已存数据与迁移数据的数据结构是否相一致之前,获取源节点中迁移子表,以及各迁移子表中数据的数据结构;根据各迁移子表和各迁移子表中数据的数据结构,生成各迁移子表的配置信息;从配置信息获取各迁移子表与目的节点中目标子表之间的对应关系,并确定目的节点中已存的目标子表,对应关系用于提供给目的节点,以供目的节点将各迁移子表的数据写入对应的目标子表;获取各已存的目标子表中已存数据的数据结构。

    通过迁移模块413对源节点上的迁移子表(如数据表分区信息)进行采集,生成数据迁移的具体配置信息,可以使整个集群节点的数据迁移过程自动化。以此分区配置信息启动迁移模块413(如改进clickhouse-copier工具进程)进行数据迁移。对于有大量小分区的业务数据,增大改进clickhouse-copier的并行进程数量来提高数据迁移的效率。

    可选的,迁移模块413从源节点的迁移子表中读取出迁移数据,包括:在源节点的至少一个迁移子表的表文件中,逐条读取数据,并将当前读取的数据确定为迁移数据;迁移模块413将迁移数据发送至目的节点,包括:将迁移数据发送至目的节点,以供目的节点对迁移数据进行处理并写入至少一个目标子表文件的表文件中。

    可选的,代理模块412在数据迁移过程中,实时监听各迁移子表中数据的数据移动状态,并显示数据移动状态;根据数据移动状态,统计移动异常事件发生的次数;在确定次数大于等于设定数量阈值时,停止从源节点中迁移子表中读取迁移数据,并告警。

    代理模块412提供http接口用于批量管理数据迁移任务的启停,可以实现数据迁移操作的自动化。对于迁移过程中可能出现的异常,代理模块412探测到一段时间内出现了多次异常,会及时停止迁移,并将具体信息通过告警的方式通知到用户。迁移过程中代理模块412实时收集并更新迁移模块413的迁移进度,供后台随时直观的了解到目前集群节点的数据迁移进度。

    可选的,源节点410在数据迁移过程中,接收各迁移子表中数据的读取请求,在各迁移子表中查询与读取请求匹配的数据。并且,目的节点420接收到源节点410发送的读取请求,目的节点420在各迁移子表对应的目标子表中查询与读取请求匹配的数据,并反馈给源节点410。

    可选的,目的节点420在数据迁移过程中,接收到迁移子表的写入请求,响应该写入请求,并查询该写入请求对应的目标子表,并写入数据。

    实际上,在迁移过程中,数据写入由源节点410迁移子表切换至目的节点420中对应的目标子表,同时读取双节点,即迁移子表和对应的目标子表,此时数据的迁移并不影响目的节点中数据的读取,从而实现读写无缝衔接的情况下迁移集群数据。

    此外,数据迁移系统400,包括至少一个源节点410和至少一个目的节点420,其中,多个源节点可以形成集群,此时数据迁移过程为集群数据迁移过程。

    本发明实施例通过数据迁移系统中源节点向目的节点传输数据,并且,源节点判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致,并在一致的情况下,源节点直接向目的节点发送迁移数据并存储,在不一致时,源节点向目的节点发送指示,目的节点清空所述目标子表中已存数据后,再接收源节点发送的迁移数据并存储,可以实现源节点将迁移数据直接追加到目的节点中数据结构相同的已存数据所在的目的子表中,从而实现相同指标的数据不清除迁移,增加数据迁移的应用场景,并实现精准数据迁移,提高数据迁移的准确率。

    注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。


    技术特征:

    1.一种数据迁移方法,其特征在于,包括:

    从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;

    若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;

    否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    2.根据权利要求1所述的方法,其特征在于,在判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致之前,还包括:

    获取所述源节点中迁移子表,以及各所述迁移子表中数据的数据结构;

    根据各所述迁移子表和各所述迁移子表中数据的数据结构,生成各所述迁移子表的配置信息;

    从所述配置信息获取各所述迁移子表与所述目的节点中目标子表之间的对应关系,并确定所述目的节点中已存的目标子表,所述对应关系用于提供给所述目的节点,以供所述目的节点将各所述迁移子表的数据写入对应的目标子表;

    根据所述对应关系,获取各所述已存的目标子表中已存数据的数据结构。

    3.根据权利要求1所述的方法,其特征在于,所述从源节点的迁移子表中读取出迁移数据,包括:

    在源节点的至少一个迁移子表的表文件中,逐条读取数据,并将当前读取的数据确定为迁移数据;

    所述将所述迁移数据发送至所述目的节点,包括:

    将所述迁移数据发送至所述目的节点,以供所述目的节点对所述迁移数据进行处理并写入至少一个目标子表文件的表文件中。

    4.根据权利要求1所述的方法,其特征在于,还包括:

    在数据迁移过程中,实时监听各所述迁移子表中数据的数据移动状态,并显示所述数据移动状态;

    根据所述数据移动状态,统计移动异常事件发生的次数;

    在确定所述次数大于等于设定数量阈值时,停止从源节点中迁移子表中读取迁移数据,并告警。

    5.根据权利要求1所述的方法,其特征在于,还包括:

    在数据迁移过程中,接收各所述迁移子表中数据的读取请求,在各所述迁移子表中查询与所述读取请求匹配的数据,所述读取请求还用于发送给所述目的节点,以指示所述目的节点在各所述迁移子表对应的目标子表中查询与所述读取请求匹配的数据。

    6.一种数据迁移装置,其特征在于,包括:

    迁移数据读取模块,用于从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;

    迁移数据兼容写入模块,用于若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;

    迁移数据覆盖写入模块,用于否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一所述的数据迁移方法。

    8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据迁移方法。

    9.一种数据迁移系统,其特征在于,包括:源节点和目的节点,其中,所述源节点和所述目的节点相连,所述源节点实现如权利要求1-5中任一所述的数据迁移方法;

    所述源节点用于从迁移子表中读取迁移数据,并判断所述目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;若是,将所述迁移数据发送至所述目的节点;否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点;

    所述目的节点用于接收所述迁移数据,并追加存储于所述目标子表中,或者在清空所述目标子表中已存数据后,按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。

    10.根据权利要求9所述的系统,其特征在于,所述目的节点还用于在数据迁移过程中,响应于所述迁移子表的写入请求,并在对应的目标子表中写入数据。

    技术总结
    本发明实施例公开了一种数据迁移方法、装置、计算机设备及存储介质。所述方法包括:从源节点的迁移子表中读取出迁移数据,并判断目的节点的目标子表中的已存数据与所述迁移数据的数据结构是否相一致;所述目标子表与所述迁移子表相匹配;若是,将所述迁移数据发送至所述目的节点,以供所述目的节点将所述迁移数据追加存储于所述目标子表中;否则,指示所述目的节点清空所述目标子表中已存数据后,将所述迁移数据发送至所述目的节点,以供所述目的节点按照所述迁移数据的数据结构,将所述迁移数据存储于所述目标子表中。本发明实施例可以提高数据迁移效率和准确率。

    技术研发人员:何增杰;林东煜;李旦;王华夏;毛茂德
    受保护的技术使用者:广州虎牙科技有限公司
    技术研发日:2020.12.01
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-22234.html

    最新回复(0)