本发明涉及资源管理技术领域,尤其涉及一种资源管理平台资源回收方法、装置、设备及可读介质。
背景技术:
ai资源管理平台为ai开发者提供了强大的资源管理能力,这些资源包括物力资源,例如cpu、内存、gpu、fpga、infiniband网络等,也包括对这些物理资源进行业务管理的逻辑资源,例如资源组、用户组、任务队列、数据集缓存等。ai资源管理平台需要为用户提供这些资源,也需要在用户不再使用这些资源时,能够高效的删除回收这些资源,从而能够被其他用户再使用。
目前大部分的ai资源管理平台或者其他平台类产品都会采用微服务架构,即系统会由多个微服务组件聚合而成,每个组件以服务的方式运行并提供rest或者rpc接口,其他组件需要通过同步或者异步调用rest/rpc接口完成功能实现,由于各个组件是以独立的微服务方式运行,每个微服务的运行状态相互独立,在部分组件出现异常时,其他服务在调用该异常组件时出现异常,导致业务流程中断,此时会在数据库或者底层资源池预占了一些资源,但是无法被释放。
通常解决该问题是基于分布式事务,例如两阶段提交、补偿事务、消息队列等,但是分布式事务的实现比较复杂,需要将事务机制更多嵌入到业务的处理流程,通常不具有通用性,并且大部分的业务场景无法支持一个安全完整的事务回滚,同时需要对每个微服务的业务处理流程做较多的改动。
技术实现要素:
有鉴于此,本发明实施例的目的在于提出一种资源管理平台资源回收方法、装置、设备及可读介质,通过动态实时构建平台内多种资源的依赖关系图,来保证用户主动删除的资源、由于微服务组件异常导致的无效资源能够被正确回收,从而保证平台资源的最终一致性。避免微服务架构下由于微服务异常导致的集群资源不能被正常回收的问题,从而提高ai资源管理平台的稳定性,保证平台资源数据准确性。
基于上述目的,本发明实施例的一方面提供了一种资源管理平台资源回收方法,包括以下步骤:获取资源管理平台各个开发环境的资源信息,基于资源信息建立资源依赖关系图,并基于开发环境的若干组件的元数据信息定义依赖关系图中的节点以及基于节点建立依赖关系;响应于接收到回收资源的任务,基于依赖关系图查找待回收资源的附属资源;以及对待回收资源和待回收资源的附属资源进行回收,并更新依赖关系图。
在一些实施方式中,还包括:响应于用户输入开发环境名称查询资源,获取开发环境名称对应的依赖关系图,通过图谱的形式返回开发环境中的全部资源以及逻辑资源之间、逻辑资源与物理资源之间的依赖关系。
在一些实施方式中,还包括:响应于接收到用户对开发环境的操作命令,基于操作命令更新依赖关系图。
在一些实施方式中,依赖关系图包括资源的名称、父资源、状态、删除时间和创建资源的组件。
在一些实施方式中,还包括:响应于回收任务执行出现异常,判断待回收资源的附属资源是否全部完成回收;若是待回收资源的附属资源未全部完成回收,将待回收资源的状态设置为删除中,并对待回收资源的附属资源进行回收;若是待回收资源的附属资源全部完成回收,再次对待回收资源进行回收。
在一些实施方式中,对待回收资源和待回收资源的附属资源进行回收包括:依次调用待回收资源和待回收资源的附属资源所在组件的微服务接口,释放对应的物理资源。
在一些实施方式中,还包括:定时查询依赖关系图,判断是否存在孤立的资源或有删除标识的资源;若是存在孤立的资源或有删除标识的资源,对孤立的资源或有删除标识的资源进行回收。
本发明实施例的另一方面,还提供了一种资源管理平台资源回收装置,包括:初始模块,配置用于获取资源管理平台各个开发环境的资源信息,基于资源信息建立资源依赖关系图,并基于开发环境的若干组件的元数据信息定义依赖关系图中的节点以及基于节点建立依赖关系;查找模块,配置用于响应于接收到回收资源的任务,基于依赖关系图查找待回收资源的附属资源;以及回收模块,配置用于对待回收资源和待回收资源的附属资源进行回收,并更新依赖关系图。
在一些实施方式中,查找模块进一步配置用于:响应于用户输入开发环境名称查询资源,获取开发环境名称对应的依赖关系图,通过图谱的形式返回开发环境中的全部资源以及逻辑资源之间、逻辑资源与物理资源之间的依赖关系。
在一些实施方式中,初始模块进一步配置用于:响应于接收到用户对开发环境的操作命令,基于操作命令更新依赖关系图。
在一些实施方式中,回收模块进一步配置用于:响应于回收任务执行出现异常,判断待回收资源的附属资源是否全部完成回收;若是待回收资源的附属资源未全部完成回收,将待回收资源的状态设置为删除中,并对待回收资源的附属资源进行回收;若是待回收资源的附属资源全部完成回收,再次对待回收资源进行回收。
在一些实施方式中,回收模块进一步配置用于:依次调用待回收资源和待回收资源的附属资源所在组件的微服务接口,释放对应的物理资源。
在一些实施方式中,回收模块进一步配置用于:定时查询依赖关系图,判断是否存在孤立的资源或有删除标识的资源;若是存在孤立的资源或有删除标识的资源,对孤立的资源或有删除标识的资源进行回收。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述方法的步骤。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:通过动态实时构建平台内多种资源的依赖关系图,来保证用户主动删除的资源、由于微服务组件异常导致的无效资源能够被正确回收,从而保证平台资源的最终一致性。避免微服务架构下由于微服务异常导致的集群资源不能被正常回收的问题,从而提高ai资源管理平台的稳定性,保证平台资源数据准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的资源管理平台资源回收方法的实施例的示意图;
图2为本发明提供的资源管理平台资源回收装置的实施例的示意图;
图3为本发明提供的计算机设备的实施例的示意图;
图4为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了资源管理平台资源回收方法的实施例。图1示出的是本发明提供的资源管理平台资源回收方法的实施例的示意图。如图1所示,本发明实施例包括在维护设备端执行如下步骤:
s01、获取资源管理平台各个开发环境的资源信息,基于资源信息建立资源依赖关系图,并基于开发环境的若干组件的元数据信息定义依赖关系图中的节点以及基于节点建立依赖关系;
s02、响应于接收到回收资源的任务,基于依赖关系图查找待回收资源的附属资源;以及
s03、对待回收资源和待回收资源的附属资源进行回收,并更新依赖关系图。
在本实施例中,在ai资源管理平台微服务架构下,增加一个业务弱相关的集群资源状态管理组件,该组件记录平台多种可回收资源的依赖关系图,当用户在ai资源管理平台创建一个资源时,会在本地数据库增加逻辑资源的记录、调用其他微服务组件并在其各自对应的数据库增加元数据记录,同时调用底层物理资源池的接口,进行物理资源的预占和分配,此时集群资源状态管理组件收到增加该资源的事件,在集群资源依赖关系图中增加该资源信息和其依赖的资源信息。当用户在ai资源管理平台删除一个资源时,集群资源状态管理组件收到资源删除的事件,基于平台资源依赖关系图将该资源的附属资源进行删除回收,并保证平台资源的最终一致性。ai资源管理平台为ai训练推理全流程涉及到的资源管理平台,这里指的资源包括gpu资源、cpu、内存、fpga、用户数据、网络资源、存储资源、数据集节点缓存、资源配额等信息。
在本实施例中,基于资源依赖关系图进行资源回收,可以用于其他微服务架构的平台,避免使用分布式事务等复杂的机制用于资源回收。微服务架构是单个系统或者平台,由多个独立的组件聚合而成,不同组件之间基于rest接口或者rpc接口进行交互;分布式事务是分布式系统中,用于保证多组件数据一致性的机制。
在本发明的一些实施例中,还包括:响应于用户输入开发环境名称查询资源,获取开发环境名称对应的依赖关系图,通过图谱的形式返回开发环境中的全部资源以及逻辑资源之间、逻辑资源与物理资源之间的依赖关系。
在本实施例中,在创建开发环境时,完成开发环境在各个微服务组件的元数据信息定义,即可以直接通过开发环境名称查询到其依赖的全部资源,包括逻辑资源之间、逻辑资源与物理资源之间的依赖关系。例如开发环境名称为devenv1,此时对应的逻辑资源配额信息为devenv1-quota,底层的物理资源pod名称为devenv1-pod,对应的数据集缓存为devenv1-dataset。
在本发明的一些实施例中,还包括:响应于接收到用户对开发环境的操作命令,基于操作命令更新依赖关系图。
在本实施例中,当用户在ai资源管理平台进行创建、删除、更新资源的操作时,动态更新依赖关系图,基于该依赖关系图作为集群资源状态的快照。当用户在ai资源管理平台创建一个ai开发环境的时,需要调用多个微服务的rest接口,为开发环境创建需要的逻辑资源和物理资源,并分别在每个微服务的数据库保存相应的元数据,完成的资源的分配,此时需要通过事件实时通知新增的集群资源状态管理组件,在集群资源的依赖关系图中增加该资源以及附属资源信息。
在本发明的一些实施例中,依赖关系图包括资源的名称、父资源、状态、删除时间和创建资源的组件。
在本实施例中,定义依赖关系图中的元数据信息,作为依赖关系图中的节点,用于建立依赖关系,代码如下所示:
其中,name用于表示该资源的名称,例如开发环境名称、k8s的pod名称、k8s的service名称,基于该名称,资源状态管理服务会调用相应微服务组件的restapi进行数据库的删除操作或者物理资源的释放操作;parentname用于表示该资源的父资源,即该资源是由父资源控制,当父资源被删除时,该资源也需要被清理删除,如果该资源未被删除,其父资源会处于删除阻塞状态,只有当该资源被删除后,其父资源才会被删除;deletetime用于表示删除该资源的时间;status用于表示该资源的状态,例如创建中、运行、删除中、已被删除等;component用于表示该资源是由哪个微服务组件创建,该资源状态管理服务会基于该信息,调用对应的微服务组件restapi,进行该资源的数据库删除或者物理资源释放操作。
在本发明的一些实施例中,还包括:响应于回收任务执行出现异常,判断待回收资源的附属资源是否全部完成回收;若是待回收资源的附属资源未全部完成回收,将待回收资源的状态设置为删除中,并对待回收资源的附属资源进行回收;若是待回收资源的附属资源全部完成回收,再次对待回收资源进行回收。
在本实施例中,在进行资源回收时,不再需要同步调用各个微服务组件进行资源删除,由资源状态管理服务集中处理,资源状态管理服务依次调用各个微服务组件的接口,即使出现某个微服务组件异常,也可以通过重试等机制,最终完成资源的删除,保证平台资源的最终一致性,在某个资源无法被正常删除时,其父资源处于删除中状态,只有在全部子资源被删除后,该父资源才会被删除。
在本发明的一些实施例中,对待回收资源和待回收资源的附属资源进行回收包括:依次调用待回收资源和待回收资源的附属资源所在组件的微服务接口,释放对应的物理资源。
在本实施例中,用户触发删除开发环境操作,资源状态管理服务在内存中基于开发环境名称查询集群资源依赖关系图,可以查询到该开发环境的附属资源以及附属资源由哪些微服务组件创建,包括该开发环境的占用的配额资源信息、该开发环境的用户信息、该开发环境对应的k8spod信息,该开发环境对应的k8sservice信息等。
根据开发环境的附属资源信息,以及附属资源的创建组件信息,资源状态管理服务启动多个线程分别用于调用其他微服务组件的restapi,用于在数据库完成逻辑资源的删除,以及在k8s集群完成物理资源的释放,当存在某个附属资源无法正常删除时,进行多次尝试进行删除,此时开发环境处于删除中的状态,只有当该开发环境的附属资源全部删除成功后,在资源状态管理服务内将该开发环境的资源依赖关系删除,此时该开发环境在全部微服务组件对应的数据库元数据被清除,集群资源可以被其他用户使用。
在本发明的一些实施例中,还包括:定时查询依赖关系图,判断是否存在孤立的资源或有删除标识的资源;若是存在孤立的资源或有删除标识的资源,对孤立的资源或有删除标识的资源进行回收。
在本实施例中,当关系图谱中存在孤立的资源或者标有删除标识的资源时,对于业务逻辑数据,进行数据库的删除操作,而对于底层物理资源,调用对应的服务接口进行释放。
需要特别指出的是,上述资源管理平台资源回收方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于资源管理平台资源回收方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种资源管理平台资源回收装置。图2示出的是本发明提供的资源管理平台资源回收装置的实施例的示意图。如图2所示,本发明实施例包括如下模块:初始模块s11,配置用于获取资源管理平台各个开发环境的资源信息,基于资源信息建立资源依赖关系图,并基于开发环境的若干组件的元数据信息定义依赖关系图中的节点以及基于节点建立依赖关系;查找模块s12,配置用于响应于接收到回收资源的任务,基于依赖关系图查找待回收资源的附属资源;以及回收模块s13,配置用于对待回收资源和待回收资源的附属资源进行回收,并更新依赖关系图。
在本发明的一些实施例中,查找模块s12进一步配置用于:响应于用户输入开发环境名称查询资源,获取开发环境名称对应的依赖关系图,通过图谱的形式返回开发环境中的全部资源以及逻辑资源之间、逻辑资源与物理资源之间的依赖关系。
在本发明的一些实施例中,初始模块s11进一步配置用于:响应于接收到用户对开发环境的操作命令,基于操作命令更新依赖关系图。
在本发明的一些实施例中,回收模块s13进一步配置用于:响应于回收任务执行出现异常,判断待回收资源的附属资源是否全部完成回收;若是待回收资源的附属资源未全部完成回收,将待回收资源的状态设置为删除中,并对待回收资源的附属资源进行回收;若是待回收资源的附属资源全部完成回收,再次对待回收资源进行回收。
在本发明的一些实施例中,回收模块s13进一步配置用于:依次调用待回收资源和待回收资源的附属资源所在组件的微服务接口,释放对应的物理资源。
在本发明的一些实施例中,回收模块s13进一步配置用于:定时查询依赖关系图,判断是否存在孤立的资源或有删除标识的资源;若是存在孤立的资源或有删除标识的资源,对孤立的资源或有删除标识的资源进行回收。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器s21;以及存储器s22,存储器s22存储有可在处理器上运行的计算机指令s23,指令由处理器执行时实现以上方法的步骤。
本发明还提供了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质存储s31有被处理器执行时执行如上方法的计算机程序s32。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,资源管理平台资源回收方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(rom)或随机存储记忆体(ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
1.一种资源管理平台资源回收方法,其特征在于,包括以下步骤:
获取资源管理平台各个开发环境的资源信息,基于所述资源信息建立资源依赖关系图,并基于所述开发环境的若干组件的元数据信息定义所述依赖关系图中的节点以及基于节点建立依赖关系;
响应于接收到回收资源的任务,基于所述依赖关系图查找待回收资源的附属资源;以及
对所述待回收资源和所述待回收资源的附属资源进行回收,并更新所述依赖关系图。
2.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,还包括:
响应于用户输入开发环境名称查询资源,获取所述开发环境名称对应的所述依赖关系图,通过图谱的形式返回所述开发环境中的全部资源以及逻辑资源之间、逻辑资源与物理资源之间的依赖关系。
3.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,还包括:
响应于接收到用户对所述开发环境的操作命令,基于所述操作命令更新所述依赖关系图。
4.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,所述依赖关系图包括资源的名称、父资源、状态、删除时间和创建所述资源的组件。
5.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,还包括:
响应于所述回收任务执行出现异常,判断所述待回收资源的附属资源是否全部完成回收;
若是所述待回收资源的附属资源未全部完成回收,将所述待回收资源的状态设置为删除中,并对所述待回收资源的附属资源进行回收;
若是所述待回收资源的附属资源全部完成回收,再次对所述待回收资源进行回收。
6.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,对所述待回收资源和所述待回收资源的附属资源进行回收包括:
依次调用所述待回收资源和所述待回收资源的附属资源所在组件的微服务接口,释放对应的物理资源。
7.根据权利要求1所述的资源管理平台资源回收方法,其特征在于,还包括:
定时查询所述依赖关系图,判断是否存在孤立的资源或有删除标识的资源;
若是存在孤立的资源或有删除标识的资源,对所述孤立的资源或所述有删除标识的资源进行回收。
8.一种资源管理平台资源回收装置,其特征在于,包括:
初始模块,配置用于获取资源管理平台各个开发环境的资源信息,基于所述资源信息建立资源依赖关系图,并基于所述开发环境的若干组件的元数据信息定义所述依赖关系图中的节点以及基于节点建立依赖关系;
查找模块,配置用于响应于接收到回收资源的任务,基于所述依赖关系图查找待回收资源的附属资源;以及
回收模块,配置用于对所述待回收资源和所述待回收资源的附属资源进行回收,并更新所述依赖关系图。
9.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
技术总结