本发明涉及机器学习技术领域,具体是一种基于强化学习的自动化机器学习系统。
背景技术:
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习领域中可以选择的算法众多,每种算法均有各自的适用场景。对普通数据分析师而言,如何根据具体应用场景选择最优的算法模型是一项技术门槛较高的任务。
大部分机器学习应用可以表示为端到端的机器学习流水线,其不仅包含算法选择阶段,还包含数据预处理和特征选择阶段。每个阶段又包含很多种可选的处理方法。因此,如何设计高效的机器学习流水线具有更高的技术挑战。
因此,针对以上现状,迫切需要开发一种基于强化学习的自动化机器学习系统,以克服当前实际应用中的不足。
技术实现要素:
本发明的目的在于提供一种基于强化学习的自动化机器学习系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于强化学习的自动化机器学习系统,包括学习库以及与学习库进行智能交互的自动化机器,其中:
自动化机器:用于获取用户发出的学习指令,并发送至学习库;
学习库:用于接收自动化机器发送的学习指令,执行学习动作,并向自动化机器发送学习结果,其中:
所述学习库包括有指令接收模块、学习模块、结果输出模块和期望计算模块,所述指令接收模块、学习模块、结果输出模块和期望计算模块通信连接,其中:
指令接收模块,用于获取用户发出的学习指令,屏蔽不同机器学习算法之间的异构性,并将该学习指令发送至学习模块;
学习模块,用于接收指令接收模块发送的学习指令,依据预存的学习行为执行学习动作,并向结果输出模块发送学习结果;
期望计算模块,用于接收结果输出模块发送的学习结果,依据预存的期望模型计算期望值。
作为本发明进一步的方案:所述指令接收模块包括有指令接收单元、异构性屏蔽单元和指令发送单元,指令接收单元、异构性屏蔽单元和指令发送单元通信连接,其中:
异构性屏蔽单元使用统一的api接口,屏蔽不同的机器学习算法库之间的异构性。
作为本发明进一步的方案:所述学习模块包括有学习行为预存单元、学习单元和知识库,所述学习单元分别与学习行为预存单元和知识库相互连接,其中:
学习行为预存单元,用于获取用户预存的学习行为模型;
知识库,用于获取用户预存的学习资料;
学习单元,根据学习指令获取学习行为预存单元中适用于该学习指令的学习方式,根据学习指令获取知识库中适用于该学习指令的学习资料,结合学习方式和学习资料进行机器学习,得到学习结果。
作为本发明进一步的方案:所述期望计算模块包括学习结果获取单元、期望模型预存单元和平均值计算单元,所述学习结果获取单元、期望模型预存单元和平均值计算单元通信连接,其中:
学习结果获取单元,用于从学习单元中获取学习结果,并发送至期望模型预存单元;
期望模型预存单元,用于预存用户输入的期望模型,并从学习结果获取单元中接收学习结果,依据该期望模型进行学习结果分析,得到期望值并发送给平均值计算单元;
平均值计算单元,用于接收期望模型预存单元发送的期望值,依据学习行为类型计算期望平均值:
其中:n为第i类学习行为的学习次数;
为第类学习行为的学习结果期望值。
作为本发明进一步的方案:所述自动化机器包括有学习指令输入单元、学习指令输出单元和学习结果显示单元,所述学习指令输入单元和学习指令输出单元相连接,学习结果显示单元分别与学习单元和期望模型预存单元相连接,其中:
学习结果显示单元,用于分别从学习单元和期望模型预存单元中获取学习结果和学习结果期望值,并向用户进行显示。
作为本发明进一步的方案:所述学习结果显示单元还与平均值计算单元相连接,用于获取多类学习行为的期望平均值,并向用户进行显示。
作为本发明进一步的方案:所述学习行为包括印痕学习、联想学习和推理学习。
一种基于强化学习的自动化机器学习系统的学习方法,包括以下步骤:
s1001、首先,用户向学习库中预存多种学习行为模型和期望模型,然后向自动化机器输入学习指令,自动化机器将该指令发送至学习库;
s1002、学习库接收自动化机器发送的学习指令,通过指令接收模块屏蔽不同机器学习算法之间的异构性,并将该学习指令发送至学习模块,通过学习模块根据预存的学习行为执行学习动作,并向结果输出模块发送学习结果;
s1003、期望计算模块接收结果输出模块发送的学习结果,依据预存的期望模型计算期望值;
s1004、多类学习行为的学习指令完成后,通过平均值计算单元计算多类学习行为的期望平均值:
其中:n为第i类学习行为的学习次数;
为第类学习行为的学习结果期望值;
s1005、自动化机器分别从学习单元、期望模型预存单元和平均值计算单元中获取学习结果、学习结果期望值和期望平均值,并向用户进行显示。
与现有技术相比,本发明的有益效果是:本发明将自动化机器与学习库进行智能交互,根据用户发送的学习指令,基于学习库中预存的知识库,从复杂动态系统的大量学习资料数据中进行学习并不断训练,提升自动化机器智能学习的能力。
附图说明
图1为基于强化学习的自动化机器学习系统的结构框图。
图2为基于强化学习的自动化机器学习系统中学习库的结构框图。
图3为基于强化学习的自动化机器学习系统中指令接收模块的结构框图。
图4为基于强化学习的自动化机器学习系统中学习模块的结构框图。
图5为基于强化学习的自动化机器学习系统中期望计算模块结构框图。
图6为基于强化学习的自动化机器学习系统中自动化机器的结构框图。
图7为基于强化学习的自动化机器学习方法的流程图。
图8为基于强化学习的自动化机器学习系统中马尔可夫决策过程的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例为进一步提高现有的自动化机器学习系统实现高效的机器学习流水线,将自动化机器与学习库进行智能交互,根据用户发送的学习指令,基于学习库中预存的知识库,从复杂动态系统的大量学习资料数据中进行学习并不断训练,提升自动化机器智能学习的能力。
请参阅图1-6和8,本发明实施例中,一种基于强化学习的自动化机器学习系统,包括,学习库以及与学习库进行智能交互的自动化机器,其中:
自动化机器:用于获取用户发出的学习指令,并发送至学习库;
学习库:用于接收自动化机器发送的学习指令,执行学习动作,并向自动化机器发送学习结果,其中:
所述学习库包括有指令接收模块、学习模块、结果输出模块和期望计算模块,所述指令接收模块、学习模块、结果输出模块和期望计算模块通信连接,其中:
指令接收模块,用于获取用户发出的学习指令,屏蔽不同机器学习算法之间的异构性,并将该学习指令发送至学习模块;
学习模块,用于接收指令接收模块发送的学习指令,依据预存的学习行为执行学习动作,并向结果输出模块发送学习结果;
期望计算模块,用于接收结果输出模块发送的学习结果,依据预存的期望模型计算期望值。
在本发明实施例中,需要说明的是,所述学习库为数据库,其按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集;
在本发明实施例中,进一步需要说明的是,预存的期望模型为用户向期望计算模块输入的期望模型。
在本发明的一种实施例中,所述指令接收模块包括有指令接收单元、异构性屏蔽单元和指令发送单元,指令接收单元、异构性屏蔽单元和指令发送单元通信连接,其中:
异构性屏蔽单元使用统一的api接口,屏蔽不同的机器学习算法库之间的异构性。
在本发明的一种实施例中,所述学习模块包括有学习行为预存单元、学习单元和知识库,所述学习单元分别与学习行为预存单元和知识库相互连接,其中:
学习行为预存单元,用于获取用户预存的学习行为模型;
知识库,用于获取用户预存的学习资料;
学习单元,根据学习指令获取学习行为预存单元中适用于该学习指令的学习方式,根据学习指令获取知识库中适用于该学习指令的学习资料,结合学习方式和学习资料进行机器学习,得到学习结果;
需要说明的是,在本发明实施例中,所述学习行为包括印痕学习、联想学习和推理学习;
进一步需要说明的是,在本发明实施例中,所述预存于知识库中的学习资料也可以由自动化机器连接互联网,自动获取并进行定时更新,实时扩展自动化机器的知识库,提高自动化机器的智能化;
再进一步需要说明的是,在本发明实施例中,学习行为模型由用户预先输入学习行为预存单元中,每个学习行为模型与一种学习行为对应,可以理解的是,学习行为模型根据学习行为建立,
在本发明的一种实施例中,所述期望计算模块包括学习结果获取单元、期望模型预存单元和平均值计算单元,所述学习结果获取单元、期望模型预存单元和平均值计算单元通信连接,其中:
学习结果获取单元,用于从学习单元中获取学习结果,并发送至期望模型预存单元;
期望模型预存单元,用于预存用户输入的期望模型,并从学习结果获取单元中接收学习结果,依据该期望模型进行学习结果分析,得到期望值并发送给平均值计算单元;
平均值计算单元,用于接收期望模型预存单元发送的期望值,依据学习行为类型计算期望平均值:
其中:n为第i类学习行为的学习次数;
为第类学习行为的学习结果期望值;
需要说明的是,本发明实施例中,所述期望模型预存单元预存的期望模型为马尔可夫模型,在概率论中,马尔可夫模型是用来对随机变化系统建模的随机模型。其假设未来状态只取决于当前状态,而不取决于之前发生的事件(也就是说,其假设了马尔可夫性)。一般来说,这一假设使得采用模型进行推理和计算成为可能,否则这将是难以处理的。因此,在预测建模和概率预测领域,人们期望给定的模型是满足马尔可夫性的;
其中,马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程,适用于机器学习过程,《基于深度强化学习的电网紧急控制策略研究》叙述了将强化学习描述成马尔可夫决策过程、值函数的定义以及几种最优策略的分析算法,本发明实施例中在此不做赘述;
请参阅图8,图8为基于强化学习的自动化机器学习系统中马尔可夫决策过程的结构图,其中,表示为一组有限的状态,表示为一组有限的行为,其具体原理可参见现有技术资料。
进一步需要说明的是,本发明实施例中,用于预存于学习行为预存单元中学习行为模型分有多类,每类学习行为应多次执行,多次执行该类学习行为的学习结果由期望模型预存单元计算期望值,多类学习行为模型的学习结果由平均值计算单元计算平均值,以获取自动化机器的学习性能。
在本发明的一种实施例中,所述自动化机器包括有学习指令输入单元、学习指令输出单元和学习结果显示单元,所述学习指令输入单元和学习指令输出单元相连接,学习结果显示单元分别与学习单元和期望模型预存单元相连接,其中:
学习结果显示单元,用于分别从学习单元和期望模型预存单元中获取学习结果和学习结果期望值,并向用户进行显示。
在本发明的一种实施例中,所述学习结果显示单元还与平均值计算单元相连接,用于获取多类学习行为的期望平均值,并向用户进行显示。
请参阅图7,一种基于强化学习的自动化机器学习系统的学习方法,包括以下步骤:
s1001、首先,用户向学习库中预存多种学习行为模型和期望模型,然后向自动化机器输入学习指令,自动化机器将该指令发送至学习库;
s1002、学习库接收自动化机器发送的学习指令,通过指令接收模块屏蔽不同机器学习算法之间的异构性,并将该学习指令发送至学习模块,通过学习模块根据预存的学习行为执行学习动作,并向结果输出模块发送学习结果;
s1003、期望计算模块接收结果输出模块发送的学习结果,依据预存的期望模型计算期望值;
s1004、多类学习行为的学习指令完成后,通过平均值计算单元计算多类学习行为的期望平均值:
其中:n为第i类学习行为的学习次数;
为第类学习行为的学习结果期望值;
s1005、自动化机器分别从学习单元、期望模型预存单元和平均值计算单元中获取学习结果、学习结果期望值和期望平均值,并向用户进行显示。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。
1.一种基于强化学习的自动化机器学习系统,包括学习库以及与学习库进行智能交互的自动化机器,其特征在于:
自动化机器:用于获取用户发出的学习指令,并发送至学习库;
学习库:用于接收自动化机器发送的学习指令,执行学习动作,并向自动化机器发送学习结果,其中:
所述学习库包括有指令接收模块、学习模块、结果输出模块和期望计算模块,所述指令接收模块、学习模块、结果输出模块和期望计算模块通信连接,其中:
指令接收模块,用于获取用户发出的学习指令,屏蔽不同机器学习算法之间的异构性,并将该学习指令发送至学习模块;
学习模块,用于接收指令接收模块发送的学习指令,依据预存的学习行为执行学习动作,并向结果输出模块发送学习结果;
期望计算模块,用于接收结果输出模块发送的学习结果,依据预存的期望模型计算期望值。
2.根据权利要求1所述的基于强化学习的自动化机器学习系统,其特征在于,所述指令接收模块包括有指令接收单元、异构性屏蔽单元和指令发送单元,指令接收单元、异构性屏蔽单元和指令发送单元通信连接,其中:
异构性屏蔽单元使用统一的api接口,屏蔽不同的机器学习算法库之间的异构性。
3.根据权利要求2所述的基于强化学习的自动化机器学习系统,其特征在于,所述学习模块包括有学习行为预存单元、学习单元和知识库,所述学习单元分别与学习行为预存单元和知识库相互连接,其中:
学习行为预存单元,用于获取用户预存的学习行为模型;
知识库,用于获取用户预存的学习资料;
学习单元,根据学习指令获取学习行为预存单元中适用于该学习指令的学习方式,根据学习指令获取知识库中适用于该学习指令的学习资料,结合学习方式和学习资料进行机器学习,得到学习结果。
4.根据权利要求3所述的基于强化学习的自动化机器学习系统,其特征在于,所述期望计算模块包括学习结果获取单元、期望模型预存单元和平均值计算单元,所述学习结果获取单元、期望模型预存单元和平均值计算单元通信连接,其中:
学习结果获取单元,用于从学习单元中获取学习结果,并发送至期望模型预存单元;
期望模型预存单元,用于预存用户输入的期望模型,并从学习结果获取单元中接收学习结果,依据该期望模型进行学习结果分析,得到期望值并发送给平均值计算单元;
平均值计算单元,用于接收期望模型预存单元发送的期望值,依据学习行为类型计算期望平均值:
其中:n为第i类学习行为的学习次数;
为第类学习行为的学习结果期望值。
5.根据权利要求1-4任一所述的基于强化学习的自动化机器学习系统,其特征在于,所述自动化机器包括有学习指令输入单元、学习指令输出单元和学习结果显示单元,所述学习指令输入单元和学习指令输出单元相连接,学习结果显示单元分别与学习单元和期望模型预存单元相连接,其中:
学习结果显示单元,用于分别从学习单元和期望模型预存单元中获取学习结果和学习结果期望值,并向用户进行显示。
6.根据权利要求5所述的基于强化学习的自动化机器学习系统,其特征在于,所述学习结果显示单元还与平均值计算单元相连接,用于获取多类学习行为的期望平均值,并向用户进行显示。
7.根据权利要求3所述的基于强化学习的自动化机器学习系统,其特征在于,所述学习行为包括印痕学习、联想学习和推理学习。
技术总结