基于深度强化学习对银行风险定价的优化方法和装置与流程

专利2022-07-08 161

本公开涉及人工智能技术领域，具体而言，涉及基于深度强化学习对银行风险定价的优化方法和装置。

背景技术：

当前我国商业银行在金融科技上的运用还主要集中在自然语言处理、客户画像、机器人流程自动化、云计算、区块链等领域。而在银行的经营管理策略制定和前瞻性场景分析中有较大的缺失。不同于美国和欧洲，由于我国商业银行没有“压力测试”的相关硬性规定，因此在以大数据模型为基础的经营模拟体系建设中普遍落后于国外银行。而由于缺少自主的经营模拟仿真体系，国内商业银行也无法有效的将更为前沿的深度强化学习技术运用到管理策略优化之中。

技术实现要素：

为了解决现有技术中的技术问题，本公开实施例提供了基于深度强化学习对银行风险定价的优化方法和装置，能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价。

第一方面，本公开实施例提供了基于深度强化学习对银行风险定价的优化方法，所述方法包括：对动作值函数网络参数和策略网络参数进行初始化；通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；通过均匀分布在经验回放池中采样，获取训练样本；通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

在其中一个实施例中，还包括：当模型输出的银行净资产收益率数值落入预设范围内时，停止模型训练。

在其中一个实施例中，所述对动作值函数网络参数和策略网络参数进行初始化包括：对智能体的单轮策略，银行模拟环境状态以及单轮回报进行随机初始化。

在其中一个实施例中，所述通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放包括：初始化银行模拟环境，得到初始状态；根据预设公式进行决策输出操作；与银行模拟环境进行交互获取当轮回报和下一轮的银行模拟环境状态信息；将四元组数据缓存到经验回放池中。

在其中一个实施例中，还包括：当经验回放池被存满，则利用先进先出的原则进行清理。

在其中一个实施例中，所述预设公式为：a_t＝μ(a_t│s_t,θ^μ) n，其中，n为正态分布的随机噪声，其中，a_t代表动作；s_t代表环境；μ代表神经网络的参数；θ代表μ的参数。

在其中一个实施例中，还包括：通过一个神经网络来表征所述动作值函数，所述动作值函数表征在本轮状态下，采取预设对策后，在之后所有轮决策中获取累积回报的期望。

第二方面，本公开实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的方法的步骤。

第三方面，本公开实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

第四方面，本公开实施例提供了基于深度强化学习对银行风险定价的优化装置，初始化模块，用于对动作值函数网络参数和策略网络参数进行初始化；交互模块，用于通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；获取模块，用于通过均匀分布在经验回放池中采样，获取训练样本；更新模块，用于通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；优化模块，用于经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

本发明提供的基于深度强化学习对银行风险定价的优化方法和装置，对动作值函数网络参数和策略网络参数进行初始化；通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；通过均匀分布在经验回放池中采样，获取训练样本；通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。该方法能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍：

图1为本发明一个实施例中的基于深度强化学习对银行风险定价的优化方法的步骤流程示意图；

图2为本发明另一个实施例中的基于深度强化学习对银行风险定价的优化方法的步骤流程示意图；

图3为本发明一个实施例中的基于深度强化学习对银行风险定价的优化装置的结构示意图；

图4为本发明一个实施例中的基于深度强化学习对银行风险定价的优化装置的硬件框图；

图5为本发明一个实施例中的计算机可读存储介质的示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的详细介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征a、b、c，另一个实施例包含特征b、d，那么本申请也应视为包括含有a、b、c、d的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

为了使本发明的目的、技术方案及优点更加清楚明白，以下通过实施例，并结合附图，对本发明基于深度强化学习对银行风险定价的优化方法和装置的具体实施方式进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，为一个实施例中的基于深度强化学习对银行风险定价的优化方法的流程示意图，具体包括以下步骤：

步骤11，对动作值函数网络参数和策略网络参数进行初始化。

具体的，所述对动作值函数网络参数和策略网络参数进行初始化包括：对智能体的单轮策略，银行模拟环境状态以及单轮回报进行随机初始化。

此外，还需要说明的是，本公开还包括：通过一个神经网络来表征所述动作值函数，所述动作值函数表征在本轮状态下，采取预设对策后，在之后所有轮决策中获取累积回报的期望。

在计算更新这样的动作值函数神经网络时，需要在完成每一局模拟后计算每一轮及其之后所有轮决策的积累回报，作为网络更新的目标标准。为此，使用时差损失(temporal-differenceloss，tdloss)函数来对该网络的参数进行更新，动作值函数网络的损失函数如下：

其中，rt为t决策轮得到的单轮即时回报，下标t 1的变量代指下一轮决策的状态和采取的动作。时序差分方法是一种无模型(model-free)的强化学习算法，它结合了强化学习传统的动态规划算法(dynamicprogramming)和蒙特卡洛模拟(monte-carlomethods)的算法特点，既有动态规划方法中值函数迭代计算的想法，又结合了蒙特卡洛法的基于实际试验采样的原理。在无模型强化学习算法中，时序查分方法可以达到比蒙特卡洛法更快的收敛速度。

针对本问题框架中状态空间和决策空间都为连续的情况，很难使用q学习(q-learning)的方式来对仿真模拟系统内的智能体决策方式进行更新，所以本公开仿照了行动者-评论家(actor-critic，ac)模式的深度确定性策略梯度法(ddpg)。首先，使用上述动作值函数网络作为评论家网络，并对上述时序差分损失函数进行求导来更新参数；同时使用另一个神经网络来代表银行模拟环境状态到决策动作的函数映射at＝μ(st|θ^μ)，基于链式求导法则，通过动作值函数来对策略网络μ的参数进行更新，损失函数如下：

通过链式求导法则可以得到策略网络的参数更新公式：

通过这样的策略网络和评论家网络的更新公式，让算法不断与银行模拟环境进行交互得到训练样本，逐步更新两个网络的参数。其中，两个网络包括目标网络和当前网络。具体的，在深度确定性策略梯度法中，动作值函数网络和策略网络分别由两个神经网络来近似，分别是目标和当前动作值函数网络函数还有目标和当前策略网络函数。如上述提到，在不使用目标网络时，动作值函数的损失函数如下：

使用这样的损失函数形式，在实际的算法计算中会产生过估计(overestimation)的现象，使得计算得到的动作值函数网络实际输出总是较大与实际的期望回报，造成偏差。所以引入目标网络，计算损失函数中的目标q函数值，来消减此现象。加入目标网络后动作值函数的损失函数如下：

在本算法中，对当前动作值函数网络和策略网络的神经网络参数进行更新，每经过几轮训练，就通过软更新(softupdate)的方式逐步将当前网络参数复制到目标网络中。软更新的目标网络参数更新方式如下：

其中，η是更新参数比例系数，通常选择为0.01或0.1。

步骤12，通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放。

具体的，所述通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放包括：初始化银行模拟环境，得到初始状态；根据预设公式进行决策输出操作；与银行模拟环境进行交互获取当轮回报和下一轮的银行模拟环境状态信息；将四元组数据缓存到经验回放池中。

其中，需要说明的是，所述预设公式为：a_t＝μ(a_t│s_t,θ^μ) n，其中，n为正态分布的随机噪声，其中，a_t代表动作；s_t代表环境；μ代表神经网络的参数；θ代表μ的参数。此外，本公开还包括：当经验回放池被存满，则利用先进先出的原则进行清理。

步骤13，通过均匀分布在经验回放池中采样，获取训练样本。

步骤14，通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新。

步骤15，经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

如图2所示，为另一实施例中的基于深度强化学习对银行风险定价的优化方法的流程示意图，具体包括以下步骤：

步骤21，对动作值函数网络参数和策略网络参数进行初始化。

具体的，所述对动作值函数网络参数和策略网络参数进行初始化包括：对智能体的单轮策略，银行模拟环境状态以及单轮回报进行随机初始化。

步骤22，通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放。

具体的，所述通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放包括：初始化银行模拟环境，得到初始状态；根据预设公式进行决策输出操作；与银行模拟环境进行交互获取当轮回报和下一轮的银行模拟环境状态信息；将四元组数据缓存到经验回放池中。其中，需要说明的是，所述预设公式为：a_t＝μ(a_t│s_t,θ^μ) n，其中，n为正态分布的随机噪声。

步骤23，通过均匀分布在经验回放池中采样，获取训练样本。

步骤24，通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新。

步骤25，经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

步骤26，当模型输出的银行净资产收益率数值落入预设范围内时，停止模型训练。

可以理解的是，深度强化学习算法被用于训练沙盘模拟中的智能体，以求该智能体运营的模拟银行在面对不同的金融风险事件和人类专家运营的银行时，能够做出合理的决策使得智能体运营的银行能够获得更高的净资产收益率。

在沙盘模拟银行模拟环境中，每一轮经营者所要面对的银行模拟环境基本信息有：本方银行的详细资产负债信息、竞争对手(人类专家)的公开资产负债信息和他们共同所处金融风险事件的宏中观经济状态和趋势。这些银行模拟环境信息是智能体做出决策所参考的全部信息。本公开将这些参数化的银行模拟环境状态记为s_t，其中，下标t是模拟进行到第t轮时所得到的银行模拟环境状态。智能体运营的虚拟银行所需要做出的决策是针对当前市场状态，对不同信贷产品定价做出相应调整，本公开将这些调整定义为智能体银行所做出的决策，用符号a_t来表示，下标t是该模拟进行到第t轮时所做决策。需要指出的是，“一局模拟”中含有至少3轮决策，也就是对至少3种不同金融风险事件，按照随机顺序进行决策。

一个强化学习问题可以被抽象化为算法智能体在离散的多轮模拟决策中与银行模拟环境进行交互来学习得到该银行模拟环境框架下的最优决策方式。在每一轮风险事件t时，智能体从银行模拟环境中取得当前的银行模拟环境状态信息st，根据银行模拟环境信息做出决策at，并且得到相应的本轮风险事件回报rt。在本公开的模拟框架中，决策回报即为在银行正常的运营状态下银行负债信息中的“净资产收益率”(roe)的高低，它的值越高，认为决策回报越好。强化学习最终需要得到的最优决策方式是到一局模拟终止时，多轮决策之后的总回报最高，所以对任意一轮智能体决策的优劣评价可以通过一个动作值函数(value-based)q来近似表示：

其中，π为智能体面对不同银行模拟环境做出决策的方式，在随机性的算法框架下，可以看作是给定银行模拟环境状态st下决策at的概率分布，在本确定性算法框架下，可以看作是一个从银行模拟环境状态st到决策at的函数映射；env为决策银行模拟环境概率分布，可以看作在智能体运营银行在当前市场银行模拟环境状态下做出某一决策后将会得到的下一个状态的概率分布；gt为在第t轮决策及其之后的决策轮中得到的回报总和，即γ为衰减系数。

在本实施例中，对动作值函数网络参数和策略网络参数进行初始化；通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；通过均匀分布在经验回放池中采样，获取训练样本；通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。该方法能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价。

基于同一发明构思，还提供了基于深度强化学习对银行风险定价的优化装置。由于此装置解决问题的原理与前述基于深度强化学习对银行风险定价的优化方法相似，因此，该装置的实施可以按照前述方法的具体步骤实现，重复之处不再赘述。

如图3所示，为一个实施例中的基于深度强化学习对银行风险定价的优化装置的结构示意图。该基于深度强化学习对银行风险定价的优化装置10包括：初始化模块100、交互模块200、获取模块300、更新模块400和优化模块500。

其中，初始化模块100用于对动作值函数网络参数和策略网络参数进行初始化；交互模块200用于通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；获取模块300用于通过均匀分布在经验回放池中采样，获取训练样本；更新模块400用于通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；优化模块500用于经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

在本实施例中，通过初始化模块对动作值函数网络参数和策略网络参数进行初始化；再通过交互模块通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；再通过获取模块通过均匀分布在经验回放池中采样，获取训练样本；再通过更新模块通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；最终通过优化模块经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。该装置能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价。

图4是图示根据本公开的实施例的基于深度强化学习对银行风险定价的优化装置的硬件框图。如图4所示，根据本公开实施例的基于深度强化学习对银行风险定价的优化装置40包括存储器401和处理器402。基于深度强化学习对银行风险定价的优化装置40中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。

存储器401用于存储非暂时性计算机可读指令。具体地，存储器401可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。

处理器402可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制基于深度强化学习对银行风险定价的优化装置40中的其它组件以执行期望的功能。在本公开的一个实施例中，所述处理器402用于运行存储器401中存储的计算机可读指令，使得基于深度强化学习对银行风险定价的优化装置40执行上述基于深度强化学习对银行风险定价的优化方法。基于深度强化学习对银行风险定价的优化装置与上述基于深度强化学习对银行风险定价的优化方法描述的实施例相同，在此将省略其重复描述。

图5是图示根据本公开的实施例的计算机可读存储介质的示意图。如图5所示，根据本公开实施例的计算机可读存储介质500其上存储有非暂时性计算机可读指令501。当所述非暂时性计算机可读指令501由处理器运行时，执行参照上述描述的根据本公开实施例的基于深度强化学习对银行风险定价的优化方法。

以上，根据本公开实施例的基于深度强化学习对银行风险定价的优化方法和装置，以及计算机可读存储介质能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价的有益效果。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“a、b或c的至少一个”的列举意味着a或b或c，或ab或ac或bc，或abc(即a和b和c)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术特征：

1.基于深度强化学习对银行风险定价的优化方法，其特征在于，所述方法包括：

对动作值函数网络参数和策略网络参数进行初始化；

通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；

通过均匀分布在经验回放池中采样，获取训练样本；

通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；

经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

2.根据权利要求1所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，还包括：当模型输出的银行净资产收益率数值落入预设范围内时，停止模型训练。

3.根据权利要求1所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，所述对动作值函数网络参数和策略网络参数进行初始化包括：对智能体的单轮策略，银行模拟环境状态以及单轮回报进行随机初始化。

4.根据权利要求1所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，所述通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放包括：

初始化银行模拟环境，得到初始状态；

根据预设公式进行决策输出操作；

与银行模拟环境进行交互获取当轮回报和下一轮的银行模拟环境状态信息；

将四元组数据缓存到经验回放池中。

5.根据权利要求4所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，还包括：当经验回放池被存满，则利用先进先出的原则进行清理。

6.根据权利要求4所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，所述预设公式为：a_t＝μ(a_t│s_t,θ^μ) n，其中，n为正态分布的随机噪声，其中，a_t代表动作；s_t代表环境；μ代表神经网络的参数；θ代表μ的参数。

7.根据权利要求1所述的基于深度强化学习对银行风险定价的优化方法，其特征在于，还包括：通过一个神经网络来表征所述动作值函数，所述动作值函数表征在本轮状态下，采取预设对策后，在之后所有轮决策中获取累积回报的期望。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-7中任一项所述方法的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-7中任一项所述方法的步骤。

10.基于深度强化学习对银行风险定价的优化装置，其特征在于，所述装置包括：

初始化模块，用于对动作值函数网络参数和策略网络参数进行初始化；

交互模块，用于通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；

获取模块，用于通过均匀分布在经验回放池中采样，获取训练样本；

更新模块，用于通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；

优化模块，用于经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。

技术总结
本公开提供了基于深度强化学习对银行风险定价的优化方法，对动作值函数网络参数和策略网络参数进行初始化；通过现有初始化的网络与银行模拟环境进行交互，完成初始化经验回放；通过均匀分布在经验回放池中采样，获取训练样本；通过动作值函数网络和策略网络的损失函数对当前网络的参数进行更新；经过多轮训练，通过预设的更新方式，将当前网络的参数复制到目标网络中以完成对银行风险定价的优化操作。该方法能够用沙盘模拟平台的仿真银行模拟环境，基于深度强化学习算法进行模型训练，得到可应用于真实银行经营和场景的模型，并推测出系统性风险约束下银行最优的风险定价。本公开还涉及基于深度强化学习对银行风险定价的优化装置。

技术研发人员：段行健;田春明;曹然
受保护的技术使用者：北京逸风金科软件有限公司
技术研发日：2020.12.16
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-17069.html

专利

最新回复(0)