本发明实施例涉及数据处理,尤其涉及一种hdfs中的元数据处理方法、装置、设备及介质。
背景技术:
1、hdfs分布式文件系统作为hadoop的三大组件之一,是分布式计算中数据存储管理的基础。但是在hdfs传统架构下,分布式系统基础架构hadoop扩展性受到了一定限制,容易出现性能瓶颈等问题。hdfs作为一个可扩展的文件系统,单个集群可以支持数千个节点。在单个命名空间中datanode(工作节点)可以扩展的很好,但是namenode(管理节点)并不能在单个命名空间进行横向扩展。由于在运行时,hdfs中每个文件、目录和数据块的元数据信息(大约150字节)必须存储在namenode的内存中。namenode内存容量限制了hdfs中可以存储的对象数量,所以对于一个拥有大量文件的超大集群来说,内存将成为限制系统横向扩展的瓶颈。
2、在hdfs中,为了支持数据快速处理,一般将元数据信息存储在内存中。随着时间的推移,hdfs里会积累越来越多的历史元数据,降低了hdfs的存储性能,造成了元数据的存储成本的浪费。
技术实现思路
1、本发明提供一种hdfs中的元数据处理方法、装置、设备及介质,以提高hdfs的存储性能,避免元数据的存储成本的浪费。
2、根据本发明的一方面,提供了一种hdfs中的元数据处理方法,包括:
3、响应于数据存储更新请求,获取hdfs中的业务元数据;
4、确定所述业务元数据的数据热值;
5、根据所述数据热值,确定所述业务元数据的数据状态;其中,所述数据状态包括数据热状态和数据冷状态;
6、根据所述数据状态,确定所述业务元数据的数据存储位置;其中,所述数据存储位置包括hdfs中管理节点对应的内存,以及hdfs中管理节点对应的硬盘。
7、根据本发明的另一方面,提供了一种hdfs中的元数据处理装置,包括:
8、业务元数据获取模块,用于响应于数据存储更新请求,获取hdfs中的业务元数据;
9、数据热值确定模块,用于确定所述业务元数据的数据热值;
10、数据状态确定模块,用于根据所述数据热值,确定所述业务元数据的数据状态;其中,所述数据状态包括数据热状态和数据冷状态;
11、数据存储位置确定模块,用于根据所述数据状态,确定所述业务元数据的数据存储位置;其中,所述数据存储位置包括hdfs中管理节点对应的内存,以及hdfs中管理节点对应的硬盘。
12、根据本发明的另一方面,提供了一种电子设备,包括:
13、一个或多个处理器;
14、存储器,用于存储一个或多个程序;
15、当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器能够执行本发明实施例所提供的任意一种hdfs中的元数据处理方法。
16、根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明实施例所提供的任意一种hdfs中的元数据处理方法。
17、本发明实施例提供了一种hdfs中的元数据处理方案,通过响应于数据存储更新请求,获取hdfs中的业务元数据;确定业务元数据的数据热值;根据数据热值,确定业务元数据的数据状态;其中,数据状态包括数据热状态和数据冷状态;根据数据状态,确定业务元数据的数据存储位置;其中,数据存储位置包括hdfs中管理节点对应的内存,以及hdfs中管理节点对应的硬盘。上述方案,通过根据数据热值,确定业务元数据为数据热状态或数据冷状态,再确定业务元数据的数据存储位置,实现了根据不同的数据状态,将业务元数据分开存储,提高了hdfs的存储性能,避免了元数据的存储成本的浪费。
18、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种hdfs中的元数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述确定所述业务元数据的数据热值,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据各所述历史访问数据,确定所述业务元数据的数据热值,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据各所述历史访问数据对应的目标访问分值,确定所述业务元数据的数据热值,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述数据热值,确定所述业务元数据的数据状态,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.一种hdfs中的元数据处理装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述数据热值确定模块,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的一种hdfs中的元数据处理方法。