本发明属于多模态数据处理,涉及一种多模态数据接入装置及方法。
背景技术:
1、随着全社会各行业企业对于信息化的需求,企业需要处理的数据也呈现形式多样、多源、结构不一、且数据交互方式不定的现状。
2、在这种背景下,技术接入往往需要对不同系统的数据进行接入,在接入时需要对每个数据单独开发一个接入系统以便获得这些不同数据,接入过程中面对大量复杂的数据处理,因此数据接入和处理是一项耗时且技术难度比较大的工作。
技术实现思路
1、本发明的目的是提供一种多模态数据接入装置及方法,用于解决现有技术中数据接入和处理耗时且技术难度大的问题。
2、本发明所采用的第一个技术方案是,一种多模态数据接入装置,包括多模态数据接入模块;多模态数据接入模块至少包括用于对所开发的数据源插件进行注册的注册插件接口以及基于注册插件的注册数据源接口;还包括依据注册的数据源从各类数据源加载数据的获取数据的接口,开发的数据源插件与插件sdk规定的设计要素保持一致,符合插件sdk要求的标准。
3、进一步地,插件sdk规定的设计要素包括:解压路径为:mon-plugins/datasource_common_plugin/目录下;
4、文件解压后文件结构至少包括有svg格式的插件图标、datasource-message.properties文件以及resource-flat-def.json文件;
5、解压后的名称与插件包名称一致,解压后的目录的文件夹的名称与插件一级目录下的json文件中的id必须保持一致;
6、其中datasource-message.properties文件以及resource-flat-def.json文件的内容结构与新开发的数据源插件对应文件的内容结构保持一致。
7、进一步地,多模态数据接入模块还包括下载插件sdk接口,插件sdk通过多模态数据接入模块的下载插件sdk接口得到。
8、进一步地,注册插件的注册过程如下:将符合sdk要求的标准的数据源插件上传;并解压到规定目录下进行安装,规定目录与插件sdk解压路径保持一致。
9、进一步地,各类数据源包括关系数据库存取的结构化数据、文件系统抽取的二进制文件数据、非关系型数据库中的半结构或者非结构化数据以及视频数据服务中的视频数据和视频流数据。
10、进一步地,多模态数据接入模块包括应用代理模块、用于提供其他模块复用函数的基础模块、用于参数配置中心的参数对象模块、用于第三方程序调用中心的公共模块、用于处理不同类型数据算法的算子模块、负责所有插件的插件模块以及用于管理三方服务的接入配置文件的配置模块。
11、进一步地,插件模块使用spi机制实现不同类型数据源的动态加载。
12、进一步地,算子模块包括算子化插件方法,算子化插件方法,将多模态数据解析算法置于插件中,每种多模态数据都有各自的解析算法,以算子的方式置于插件,用于屏蔽不同数据接入的业务复杂性。
13、本发明所采用的第二个技术方案是,一种多模态数据接入方法,包括如下步骤:
14、1)下载插件sdk;
15、2)以符合插件sdk要求的标准为基础开发数据源插件;
16、3)将开发完成的数据源插件注册到装置系统中,并基于注册的插件注册数据源;
17、4)通过注册的数据源从各类型数据源中加载数据;
18、该装置为一种多模态数据接入装置。
19、本发明的有益效果是:本发明按照sdk要求的标准开发的数据源插件,并通过多模态数据接入模块的数据源注册,实现对多模态数据的加载,由于基于sdk要求的标准,因此用户只需实现特定的业务数据解析过程,不需要关心接入过程中的大量其他需要复杂设计的和大量工作量的过程,因此屏蔽了不同数据接入的业务复杂性,降低了不同类型数据源接入的技术难度,从而大大的提升了数据源接入的工作效率。
1.一种多模态数据接入装置,其特征在于,包括多模态数据接入模块;所述多模态数据接入模块至少包括用于对所开发的数据源插件进行注册的注册插件接口以及基于注册插件的注册数据源接口;还包括依据注册的数据源从各类数据源加载数据的获取数据的接口,所述开发的数据源插件与插件sdk规定的设计要素保持一致,符合插件sdk要求的标准。
2.根据权利要求1所述的多模态数据接入装置,所述插件sdk规定的设计要素包括:解压路径为:mon-plugins/datasource_common_plugin/目录下;
3.根据权利要求1所述的多模态数据接入装置,其特征在于,所述多模态数据接入模块还包括下载插件sdk接口,所述插件sdk通过多模态数据接入模块的下载插件sdk接口得到。
4.根据权利要求1所述的多模态数据接入装置,其特征在于,所述注册插件的注册过程如下:将符合所述插件sdk要求的标准的数据源插件上传;并解压到规定目录下进行安装,所述规定目录与插件sdk解压路径保持一致。
5.根据权利要求1所述的多模态数据接入装置,其特征在于,所述各类数据源包括关系数据库存取的结构化数据、文件系统抽取的二进制文件数据、非关系型数据库中的半结构或者非结构化数据以及视频数据服务中的视频数据和视频流数据。
6.根据权利要求1所述的多模态数据接入装置,其特征在于,所述多模态数据接入模块包括应用代理模块、用于提供其他模块复用函数的基础模块、用于参数配置中心的参数对象模块、用于第三方程序调用中心的公共模块、用于处理不同类型数据算法的算子模块、负责所有插件的插件模块以及用于管理三方服务的接入配置文件的配置模块。
7.根据权利要求6所述的多模态数据接入装置,其特征在于,所述插件模块使用spi机制实现不同类型数据源的动态加载。
8.根据权利要求6所述的多模态数据接入装置,其特征在于,所述算子模块包括算子化插件方法,所述算子化插件方法,将多模态数据解析算法置于插件中,每种多模态数据都有各自的解析算法,以算子的方式置于插件,用于屏蔽不同数据接入的业务复杂性。
9.一种多模态数据接入方法,其特征在于,包括如下步骤: