基于Flink的数据处理方法及系统、设备、存储介质与流程

    专利2025-03-30  21


    本技术实施例涉及数据处理技术,涉及但不限于一种基于flink的数据处理方法及系统、设备、存储介质。


    背景技术:

    1、随着大数据和云计算的快速发展,数据量呈几何级别增长。因此在处理数据时,需要更高效地处理和分析这些海量数据以获取有价值的信息。

    2、在现有技术中,通过低代码etl工具来实现数据的处理,低代码etl工具是一种基于可视化界面和拖放式操作的工具,用于快速构建和部署数据处理流程,主要应用于数据集成、数据处理和数据抽取等领域。但是,在现有技术中,集成能力有限,可能需要额外的自定义开发工作来满足特定场景的需求。其次,对于实时数据处理的支持较弱,主要针对批量数据处理。此外,一些工具在处理大数据量时效率不高,无法融合大数据生态,导致延时或无法支撑。

    3、因此,如何保证etl工具在进行数据处理时能够支持实时数据处理,能够适应处理大数据量的需求,以及满足不同场景下的数据处理需求,是一个亟待解决的问题。


    技术实现思路

    1、有鉴于此,本技术实施例提供的一种基于flink的数据处理方法及系统、设备、存储介质,能够支持实时数据处理保证数据的一致性和准确性,具有良好的可扩展性和高性能,能够适应处理大数据量的需求,可以添加自定义的算子或扩展现有的算子,以满足不同场景下的需求。本技术实施例提供的一种基于flink的数据处理方法及系统、设备、存储介质是这样实现的:

    2、本技术实施例提供的一种基于flink的数据处理方法,应用于数据处理系统,所述系统包括用户操作界面,包括:

    3、通过所述用户操作界面获取有向无环图,所述有向无环图包括多个目标数据节点和多条有向边,所述多条有向边用于指示数据处理的流向;

    4、解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子以及所述多个目标flink算子的处理顺序;

    5、按照所述处理顺序调用所述多个目标flink算子,对目标待处理数据进行处理,得到目标数据。

    6、在一些实施例中,所述用户操作界面中包括多个预设数据节点,所述多个预设数据节点包括数据源节点、数据处理节点以及数据输出节点,所述数据源节点用于获取数据,并将所述数据转换成数据流,所述数据处理节点用于对从所述数据源节点传输的数据进行清洗、过滤、转换或聚合处理,所述数据输出节点用于输出处理后的数据,所述通过所述用户操作界面获取有向无环图,包括:

    7、通过针对所述用户操作界面的选择操作,从所述多个预设数据节点中确定所述多个目标数据节点;

    8、通过针对任意两个目标数据节点的连接操作,获取所述多条有向边;

    9、根据所述多个目标数据节点以及所述多条有向边得到所述有向无环图。

    10、在一些实施例中,所述通过针对所述用户操作界面的选择操作,从所述多个预设数据节点中确定所述多个目标数据节点,包括:

    11、响应于所述选择操作,输出对应的目标数据节点的设置界面,其中,在所述目标数据节点为所述数据源节点的情况下,输出用于设置数据源地址的界面:

    12、在所述目标数据节点为所述数据处理节点的情况下,输出用于设置数据处理规则的界面,所述数据处理规则包括清洗、过滤、转换和聚合处理中的至少一种处理方式,处理前的数据的条数,每条处理前的数据的大小,处理后的数据的条数以及每条处理后的数据的大小;

    13、在所述目标数据节点为所述数据输出节点的情况下,输出用于设置输出数据的类型、条数以及每条输出数据的大小的界面;

    14、响应于针对所述设置界面的输入操作,获取所述多个目标数据节点的设置参数,确定所述多个目标数据节点。

    15、在一些实施例中,所述解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子,包括:

    16、解析所述有向无环图,确定所述多个目标数据节点对应的多个初始flink算子;

    17、根据所述多个目标数据节点的设置参数对相应的初始flink算子进行配置,得到所述多个目标flink算子。

    18、在一些实施例中,在所述解析所述有向无环图,确定所述多个目标数据节点对应的多个初始flink算子之前,所述方法还包括:

    19、确定所述有向无环图中是否包括数据源节点以及数据输出节点;

    20、在包括数据源节点以及数据输出节点的情况下,确定所述多个初始flink算子;

    21、在不包括数据源节点或数据输出节点的情况下,输出错误提示信息,以提示用户更新有向无环图。

    22、在一些实施例中,所述按照所述处理顺序调用所述多个目标flink算子,对目标待处理数据进行处理,得到目标数据,包括:

    23、按照所述处理顺序调用所述多个目标flink算子中的第一个目标flink算子,通过所述第一个目标flink算子获取数据源地址对应的所述待处理数据,并获取所述第一个目标flink算子的记录对象;

    24、通过所述第一个目标flink算子的记录对象,将所述第一个目标flink算子获取的所述待处理数据发送给与所述处理顺序对应的第二个目标flink算子,通过所述第二个目标flink算子对所述待处理数据进行处理,得到处理后的待处理数据,并获取所述第二个目标flink算子的记录对象;

    25、通过所述第二个目标flink算子的记录对象,将所述第二个目标flink算子处理后的待处理数据发送给与所述处理顺序对应的后续目标flink算子,以此类推,直到通过所述多个目标flink算子中的最后一个目标flink算子得到所述目标数据。

    26、在一些实施例中,所述数据处理系统还包括脏数据收集节点,在所述解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子以及所述多个目标flink算子的处理顺序之后,所述方法还包括:

    27、在每个目标flink算子中进行埋点处理,以使所述数据处理系统按照所述处理顺序调用所述多个目标flink算子,对目标待处理数据进行处理的过程中,向所述脏数据收集节点上报异常数据;

    28、所述脏数据收集节点还用于,根据所述异常数据生成日志。

    29、本技术实施例提供的一种基于flink的数据处理系统,包括:

    30、获取模块,用于通过所述用户操作界面获取有向无环图,所述有向无环图包括多个目标数据节点和多条有向边,所述多条有向边用于指示数据处理的流向;

    31、解析模块,用于解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子以及所述多个目标flink算子的处理顺序;

    32、处理模块,用于按照所述处理顺序调用所述多个目标flink算子,对目标待处理数据进行处理,得到目标数据。

    33、本技术实施例提供的计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本技术实施例所述的方法。

    34、本技术实施例提供的计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本技术实施例提供的所述的方法。

    35、本技术实施例所提供的一种基于flink的数据处理方法、系统、计算机设备和计算机可读存储介质,通过用户操作界面获取有向无环图,有向无环图包括多个目标数据节点和多条有向边,多条有向边用于指示数据处理的流向,解析有向无环图,得到多个目标数据节点对应的多个目标flink算子以及多个目标flink算子的处理顺序,按照处理顺序调用多个目标flink算子,对目标待处理数据进行处理,得到目标数据。这样,能够支持实时数据处理保证数据的一致性和准确性,具有良好的可扩展性和高性能,能够适应处理大数据量的需求,可以添加自定义的算子或扩展现有的算子,以满足不同场景下的需求,解决背景技术中所提出的技术问题。


    技术特征:

    1.一种基于flink的数据处理方法,其特征在于,应用于数据处理系统,所述系统包括用户操作界面,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述用户操作界面中包括多个预设数据节点,所述多个预设数据节点包括数据源节点、数据处理节点以及数据输出节点,所述数据源节点用于获取数据,并将所述数据转换成数据流,所述数据处理节点用于对从所述数据源节点传输的数据进行清洗、过滤、转换或聚合处理,所述数据输出节点用于输出处理后的数据,所述通过所述用户操作界面获取有向无环图,包括:

    3.根据权利要求2所述的方法,其特征在于,所述通过针对所述用户操作界面的选择操作,从所述多个预设数据节点中确定所述多个目标数据节点,包括:

    4.根据权利要求1所述的方法,其特征在于,所述解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子,包括:

    5.根据权利要求4所述的方法,其特征在于,在所述解析所述有向无环图,确定所述多个目标数据节点对应的多个初始flink算子之前,所述方法还包括:

    6.根据权利要求1所述的方法,其特征在于,所述按照所述处理顺序调用所述多个目标flink算子,对目标待处理数据进行处理,得到目标数据,包括:

    7.根据权利要求1所述的方法,其特征在于,所述数据处理系统还包括脏数据收集节点,在所述解析所述有向无环图,得到所述多个目标数据节点对应的多个目标flink算子以及所述多个目标flink算子的处理顺序之后,所述方法还包括:

    8.一种基于flink的数据处理系统,其特征在于,包括:

    9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法的步骤。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。


    技术总结
    本申请实施例公开了一种基于Flink的数据处理方法及系统、设备、存储介质,包括:通过用户操作界面获取有向无环图,有向无环图包括多个目标数据节点和多条有向边,多条有向边用于指示数据处理的流向,解析有向无环图,得到多个目标数据节点对应的多个目标Flink算子以及多个目标Flink算子的处理顺序,按照处理顺序调用多个目标Flink算子,对目标待处理数据进行处理,得到目标数据。能够支持实时数据处理保证数据的一致性和准确性,具有良好的可扩展性和高性能,能够适应处理大数据量的需求,可以添加自定义的算子或扩展现有的算子,以满足不同场景下的需求。

    技术研发人员:龙磊,钟炳汉,吴明奇,魏明东
    受保护的技术使用者:联通(广东)产业互联网有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-84766.html

    最新回复(0)