使用占有测度对强化学习动作进行自动解释的制作方法

专利2022-07-08 156

本发明涉及机器学习领域。

背景技术：

机器学习是一个广阔的领域，包括诸如监督学习、非监督学习、异常检测、相关联规则学习和强化学习的范例。后者，强化学习(rl)，在机器人技术、工业自动化、自动驾驶车辆、自动化医疗诊断和治疗、计算机游戏、算法交易等领域获得成功。

强化学习与学习策略的问题有关，该策略可以使累积奖励的某些见解(notion)最大化的顺序(例如，在避免碰撞的同时快速到达目的地)将代理相对于环境的状态(例如，自动驾驶车辆的位置，速度，测距仪读数，摄像机图像)映射到代理动作(例如，加速、制动或转向车辆)。

被称为深度强化学习(drl)的强化学习的扩展利用深度神经网络从训练集中学习模型。drl被更好地配备以从原始、未经处理的信号(例如图像，传感器读数，文本)中学习，并且可享受诸如端到端增强学习的简化技术的好处。

一般而言，机器学习尤其是增强学习的挑战之一是需要向人类用户解释算法的决策。许多机器学习算法都会做出黑匣子预测和决策，从而阻止用户从这些算法秘密收集的洞察中学习。例如，当将机器学习算法应用于新领域时，用户可能会想在该算法完全部署到领域之前，知道是什么驱动了该算法的各种决策。更大的问题出现在诸如医疗保健、运输和安全的受监管的或关键任务领域中，机器学习系统的用户通常必须能够在事后解释做出某个(通常是错误的)决定的原因。尽管确实存在一些技术可以暴露机器学习算法的黑匣子操作，但加州大学伯克利分校在2017年的一篇论文仍然宣称这是下一代人工智能系统将要面临的主要挑战之一。参见stoica，i.等人在加州大学伯克利分校eecs系的技术报告编号为ucb/eecs-2017-159(2017年10月16日)的“aberkeleyviewofsystemschallengesforai(伯克利对ai的系统挑战的看法)”。

相关技术的前述示例以及与之相关的限制旨在是说明性的而不是排他性的。通过阅读说明书和对附图的研究，相关领域的其他限制对于本领域技术人员将变得显而易见。

技术实现要素：

结合系统、工具和方法来描述和说明以下实施例及其方面，这些系统、工具和方法是示例性和说明性的，而并不限制范围。

一个实施例涉及一种方法，该方法包括：操作至少一个硬件处理器，以自动识别驱动强化学习模型以推荐感兴趣动作的特征，其中，所述识别是基于与强化学习模型相关联的状态-动作对的占有测度(occupationmeasure)。

另一实施例涉及一种系统，该系统包括：(a)至少一个硬件处理器；(b)非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质中体现有程序代码，该程序代码能够由所述至少一个硬件处理器执行以：自动识别驱动强化学习模型以推荐感兴趣动作的特征，其中识别是基于与强化学习模型相关联的状态-动作对的占有测度。

另一实施例涉及一种计算机程序产品，该计算机程序产品包括非暂时性计算机可读存储介质，该非暂时性计算机可读存储介质中体现有程序代码，该程序代码能够由至少一个硬件处理器执行以：自动识别驱动强化学习模型以推荐感兴趣动作的特征，其中，该识别是基于与强化学习模型相关联的状态-动作对的占有测度。

在一些实施例中，该至少一个硬件处理器还被操作为执行以下指令：拟合强化学习模型，以生成策略；基于该策略，计算状态-动作对的概率；基于该概率，计算状态-动作对的占有测度；接收对感兴趣动作的选择；并选择状态-动作对中包括感兴趣动作并具有符合预定阈值的占有测度的状态-动作对；其中，所述识别包括根据所选择的状态-动作对的状态识别特征。

在一些实施例中，预定阈值是具有最高占有测度的预定数量的状态-动作对。

在一些实施例中：状态-动作对的每个状态包括特征向量；所识别的特征来自所选择的状态-动作对的状态的特征向量；该至少一个硬件处理器还用于执行以下指令：根据期望的维度水平，降低所选择的状态-动作对的状态的特征向量的维度，以使得所识别的特征是所选择的状态-动作对的状态的特征向量的最实质的特征。

在一些实施例中，所述维度的降低包括执行主成分分析(pca)以识别与期望的维度水平相对应的多个主成分。

在一些实施例中，强化学习模型是深度强化学习模型。

在一些实施例中，该至少一个硬件处理器进一步被操作为执行以下指令：发出所识别的特征的指示；以及基于指示，执行以下至少一项：(a)影响增强学习模型在其中运行的物理系统的动作，以及(b)增强学习模型的调整。

除了上述示例性方面和实施例之外，通过参考附图并通过研究以下详细描述，其他方面和实施例将变得显而易见。

附图说明

在附图中示出了示例性实施例。附图中所示的组件和特征的尺寸通常被选择以用于方便和清楚地表示，并且不一定按比例显示。这些附图在下面列出。

图1是根据一个实施例的用于自动解释强化学习动作的示例性系统的框图。

图2是根据一个实施例的用于自动解释强化学习动作的方法的流程图。

具体实施方式

本文公开了强化学习动作的自动解释器。解释器是软件程序，其能够分析强化学习模型并识别哪个(哪些)特征驱动模型以推荐特定动作。

有利地，解释器通过采用通常在完全不同的领域中使用的占有测度(例如马尔可夫决策过程(mdp))来识别此类特征。令人惊讶地，通过使占有测度适于强化学习领域，可以有效且准确地提供对由强化学习模型推荐的动作的解释。

根据本发明的实施例，占有测度可基于所计算的该状态-动作对的概率，针对拟合的强化学习模型的每个状态-动作对来计算。因此，占有测度描述了模型在其各种状态-动作对上花费的时间。为了识别驱动感兴趣动作的那些特征，包括该动作的状态-动作对的占有测度被查询(consult)。特定状态-动作对的足够高的占有测度表明，这些对的状态可能包括所寻求的(sought-after)特征。因为在复杂的系统中，一些状态可能是高维度特征向量，所以也可采取智能降低此维度的步骤。最终，解释者也许能够输出感兴趣动作可以被大部分归因于的特征列表。

作为示例，考虑在医疗保健领域中的强化学习模型，该模型基于医学测试、治疗和各种好感度的结果的历史，推荐接下来要针对特定患者进行的测试或治疗。假设该模型推荐患者使用检查点抑制剂进行免疫治疗。患者的肿瘤科医生可操作解释器，以了解患者病史中哪些特定特征提示了治疗建议。肿瘤科医生选择免疫疗法推荐作为感兴趣动作，并且可选地还设置期望的维度级别，以控制解释器将输出的特征数量。然后，解释器计算占有测度，发现占有测度最高的那些状态-动作对，将状态的维度降低到用户设置的水平，并输出解释，例如，建议主要是由于检测到pd-l1生物标志物的存在的先前的血液测试。然后，肿瘤科医生可阅读医学文献，以确认检查点抑制剂已被证明能够成功阻断癌细胞的pd-l1蛋白或免疫细胞的pd-1蛋白，从而暴露癌细胞以受到人体免疫系统的攻击。

作为另一个示例，自动驾驶车辆制造商或交通碰撞调查员可能希望了解紧接在致命碰撞之前自动驾驶车辆收集的哪些感觉数据可能已被车辆的强化学习模型误解并导致了事故。车辆的强化学习模型以及在碰撞发生前选择的一项或多项动作将被提供给解释器。然后，解释器执行其计算，并输出解释，例如，不制动或使车辆转向远离行人的决定是由根本不包括行人的检测的特征驱动的；即——该模型根本没有检测到行人。这种解释可促使制造商或研究人员检查车辆的日志(例如，摄像机镜头、传感器读数、对象识别算法的输出)，在该日志中，他们可能会发现，尽管行人确实出现在摄像机镜头中，但其仅能被识别为镜头光晕伪影。用户还可使用不同的维度设置多次运行解释器，以探索可能与事故相关联的更多或更少数量的特征。

在下面关于附图的讨论中进一步描述了本发明的实施例。

现在参考图1，其示出了根据一个实施例的用于自动解释强化学习动作的示例性系统100的框图。系统100可包括一个或多个硬件处理器102、随机存取存储器(ram)104以及一个或多个非暂时性计算机可读存储设备106。

存储设备106上可存储有程序指令和/或被配置为操作硬件处理器102的组件。程序指令可包括一个或多个软件模块，例如解释器模块108。软件组件可包括具有各种软件组件和/或用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、电源管理等)并促进各种硬件和软件组件之间的通信的驱动程序的操作系统。

系统100可通过在处理器102正在执行解释器模块108的指令时将该指令加载到ram104中来进行操作。解释器模块108的指令可使系统100：接收强化学习模型110；接收用户对感兴趣动作112的选择，以及可选地还接收对占有测度阈值114和期望维度水平116中的至少一个的选择；处理此输入；并输出解释118，其包括对驱动强化学习模型以推荐感兴趣动作的特征的识别。

如本文中所描述的系统100仅是本发明的示例性实施例，并且在实践中可以仅以硬件，仅软件，或硬件和软件两者的组合来实现。系统100可具有比所示更多或更少的组件和模块，可组合两个或更多个组件，或者可具有组件的不同配置或布置。系统100可包括使它能够用作可操作的计算机系统的任何附加组件，例如主板、数据总线、电源、用于发送和接收数据的网络接口卡等(未示出)。系统100的组件可位于同一地点或被分布(例如，在分布式计算体系结构中)。系统100可以驻留在用户的驻地(premise)，云计算环境或在驻地/云混合环境中。

现在参考图2的流程图来讨论解释器模块108的指令，该图示出了根据实施例的用于使用占有测度来自动解释强化学习动作的方法200。

方法200的步骤可按照它们出现的顺序执行，也可以以不同的顺序执行(甚至并行执行)，只要该顺序允许从较早步骤的输出中获得对特定步骤的必要输入。另外，方法200的步骤是自动执行的(例如，由图1的系统100执行)，除非明确指出了手动选项。

下表中列出了以下讨论中使用的主要符号：

在步骤202中，可拟合强化学习模型。强化学习模型是可选的深度强化学习(drl)模型。为简单起见，下面使用缩写词“模型”。

拟合过程可包括本领域已知的标准动作，例如参数调整和优化，以最终生成策略π:s×u→[0,1]。该策略是提供概率p(通常在0到1之间)的映射，当模型在其中运行的环境指示状态s：时，将采取动作u。如本领域中已知的，该策略可以是固定的(即，与时间无关)或非固定的(即，与时间有关)。

在步骤204中，基于该策略，可计算状态和动作的联合概率即，每个状态-动作对的概率为：

可基于历史数据或模拟结果来计算

每个状态s可被定义为时间t处的n维特征(或“变量”)向量：例如，在自动驾驶车辆中，每个状态可以是在某个离散时间处可用的n个感觉数据和ecu(电子控制单元)数据的集合。

类似地，每个动作u可在时间t处被定义为k维特征(或“变量”)向量：在自动驾驶车辆示例中，每个动作可以是响应于特定状态而执行的k个转向、加速、制动和/或信号通知动作的集合。

在步骤206中，状态-动作对的占有测度可被计算为，例如：即，该计算可以是基于在步骤204中计算的状态-动作对概率。因此，针对每个状态-动作对的占有测度表示访问该状态-动作对的频率(在0和1之间)。可以可选地在步骤202的拟合过程中估计它。

可用折扣因子β(以对未来奖励打折)和无限时域来替代地表示占有测度，因为这两个元素在本领域中是已知的：

在步骤208中，可接收对感兴趣动作uⁱ的选择。这可以是方法200的用户的手动选择，以定义要解释的动作。通过向用户呈现特定模型的动作列表，可有助于选择感兴趣动作，用户可从该列表中方便地选择。或者，用户可手动键入感兴趣动作的计算机可读标识。

例如，可通过检查运行该模型的系统的日志(例如，记录其感觉数据、ecu消息、对象识别算法输出等的自动驾驶车辆)，确定发生了感兴趣的事件(例如，碰撞)的时间点，并将系统在该特定时间执行的动作与模型的动作相关，来激发用户的选择。

替代地，可响应于已经被预编程以发起方法200的执行的触发事件的自动生成的指示而自动地进行选择。例如，该触发事件可以是自动驾驶车辆检测到的碰撞，或记录在患者的电子医疗文件中的对治疗的不良反应。此类事件可能稍后需要进行人工分析或调查，因此具有立即自动分析它们并为用户提供现成解释的优势。在这种情况下，操作模型的系统(例如，自动驾驶车辆，机器人，工业自动化控制器等)也可以是执行方法200的系统，然后将解释通过计算机网络(例如局域网(lan)或广域网(wan))发送给用户。替代地，操作模型的系统可(例如，通过lan或wan)将执行方法200所需的所有数据发送到诸如图1的系统100(执行在其中发生)的单独的计算机系统。

在步骤210中，可选择状态-动作对中的特定状态-动作对，这些状态-动作对包括感兴趣动作并且具有符合预定阈值d的占有测度，例如具有最高占有测度的d对(d≥1)。这d对可能包含具有以最重要方式驱动动作uⁱ的特征的状态。该阈值可由用户手动提供，也可基于实验结果进行硬编码，该实验结果确认哪个阈值可能对典型用户有利。

可替代地，该阈值可被定义为不是最高占有测度的绝对数量，而是占有测度的百分数或占有测度值的下限，在该下限之上所有占有测度被选择。

在步骤212中，可从所选择的状态-动作对(例如，d对)的状态中识别驱动强化学习模型以推荐动作uⁱ的特征。回顾每个状态是特征向量所选择的状态-动作对的状态的特征有效地形成了d×n矩阵(或d×n 1，如果占有测度也包含在矩阵中)。

在非常简单的场景下，在步骤212中识别的特征仅仅是d×n矩阵中的所有n个特征。这可能适用于所识别特征的数量很少(例如1-10个特征)或者用户明确要求查看特征的完整列表的情况。但是，许多场景都涉及在复杂环境中运行的模型，因此特征向量可能具有很高的维度。仅仅向用户提供长特征列表(例如数十个或数百个特征)可能不会被认为是模型为什么推荐使用动作uⁱ的正确解释。因此，步骤212可额外包括通过减少特征向量的维度来将所识别的特征的数量智能地减少到最实质的特征的动作。

期望的维度水平l可由用户手动接收，也可以基于实验结果进行硬编码，该实验结果确认什么水平可能对典型用户有利。然后，可通过应用本领域中已知的任何维度降低技术(例如，仅举几个例子，主成分分析(pca)、线性判别分析(lda)、或广义判别分析(gda))将的维度从n降为l。输出l个最重要的特征。例如，如果将pca应用于特征向量，则仅前l个主成分可用作输出。

在步骤214中，可发布所识别的特征的指示(来自d×n矩阵的所有n个特征，或者更少的l个特征)。例如，这可包括在计算机显示器上显示所识别的特征-仅是特征名称，或者还包括其基础数据(例如，图像、数据矩阵、源代码等)。作为另一个示例，可通过在计算机网络上将指示以电子消息的形式发送给用户来发布指示；如果步骤208包括基于触发事件自动选择感兴趣动作，并且用户不是启动方法200的一方，则这特别有用。另一个示例是通过计算机网络将指示发送给另一个计算机系统，作为结构化的消息；例如，这可通过与其他计算机系统的应用程序编程接口(api)进行接口连接并按照api的定义发送消息来执行。

可选步骤216包括基于发布的指示执行一个或多个动作以影响模型在其中运行的物理系统。可基于预定义的规则集来自动选择和指示一个或多个动作，该预定义的规则集将可能的识别特征与动作进行映射。可通过在计算机网络上例如经由其api向其发送结构化消息来将该动作指示给相关系统。例如，当模型在其中运行的系统是自动驾驶车辆时，规则集可定义：如果所识别的特征之一是某个摄像机捕获的基于图像的特征，则应指示车辆禁用该摄像机并切换到备用摄像机，或者停止向模型提供该类型的特征(如果模型的策略被训练为对缺少该类型特征的状态做出反应，则该模型将继续按照它被设计的方式运行)。类似的规则可适用于其他系统，例如机器人系统、工业自动化控制器等。这些规则背后的基本原理是，如果执行了对某个感兴趣动作的分析(并且还可能由触发事件自动启动，例如以上讨论的)，这表明感兴趣动作是不利的，并且用于推荐该动作的模型所依赖的特征可能已由有故障的传感器获得，或者特定的特征提取算法(例如，对象识别算法)提供了错误的输出。

附加地或替代地，可选步骤216可包括基于所发布的指示来调整模型的策略，以改善模型将来对相似特征做出反应的方式。例如，如果模型是自动化医疗诊断和治疗系统的一部分，并且感兴趣动作是引起严重不利影响的某种治疗，则可使用对包括该动作的状态-动作对的实质性负面奖励来更新策略，和/或针对该状态-动作对的折扣因子可能会实质性地被降低，以便立即对其进行处罚。这可被视为基于显式新信息的一类附加训练。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。而是，计算机可读存储介质是非瞬时(即，非易失性)介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如java、smalltalk、c 等，以及过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

数值范围的描述应该被认为已经具体公开了所有可能的子范围以及该范围内的个别数值。例如，从1到6的范围的描述应被认为具有具体公开的子范围，例如从1到3，从1到4，从1到5，从2到4，从2到6，从3到6等等，以及该范围内的个别数字，例如1、2、3、4、5和6。无论范围的广度如何，都适用。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征：

1.一种方法，包括：

操作至少一个硬件处理器，以自动识别驱动强化学习模型以推荐感兴趣动作的特征，

其中，所述识别是基于与所述强化学习模型相关联的状态-动作对的占有测度。

2.根据权利要求1所述的方法，还包括操作所述至少一个硬件处理器以：

拟合所述强化学习模型，以生成策略；

基于所述策略，计算所述状态-动作对的概率；

基于所述概率，计算所述状态-动作对的所述占有测度；

接收对所述感兴趣动作的选择；以及

选择所述状态-动作对中包括所述感兴趣动作并具有符合预定阈值的占有测度的状态-动作对；

其中，所述识别包括：根据所选择的状态-动作对的状态来识别所述特征。

3.根据权利要求2所述的方法，其中，所述预定阈值是具有最高占有测度的预定数量的状态-动作对。

4.根据权利要求2所述的方法，其中：

所述状态-动作对的每个状态包括特征向量。

所识别的特征来自所选择的状态-动作对的所述状态的所述特征向量；以及

所述方法进一步包括：操作所述至少一个硬件处理器以根据期望的维度水平来降低所选择的状态-动作对的所述状态的所述特征向量的维度，以使得所识别的特征是所选择的状态-动作对的所述状态的所述特征向量中最实质的特征。

5.根据权利要求4所述的方法，其中，所述维度的降低包括：执行主成分分析(pca)以识别与所述期望的维度水平相对应的多个主成分。

6.根据权利要求1所述的方法，其中，所述强化学习模型是深度强化学习模型。

7.根据权利要求1所述的方法，进一步包括操作所述至少一个硬件处理器以：

发出所识别特征的指示；以及

基于所述指示，执行以下至少一项：(a)影响所述强化学习模型在其中运行的物理系统的动作，以及(b)所述强化学习模型的调整。

8.一种系统，包括：

(a)至少一个硬件处理器；以及

(b)非暂时性计算机可读存储介质，所述计算机可读存储介质中体现有程序代码，所述程序代码能够由所述至少一个硬件处理器执行以：

自动识别驱动强化学习模型以推荐感兴趣动作的特征，

其中，所述识别是基于与所述强化学习模型相关联的状态-动作对的占有测度。

9.根据权利要求8所述的系统，其中，所述程序代码还能够由所述至少一个硬件处理器执行以：

拟合所述强化学习模型，以生成策略；

基于所述策略，计算所述状态-动作对的概率；

基于所述概率，计算所述状态-动作对的所述占有测度；

接收对所述感兴趣动作的选择；以及

选择所述状态-动作对中包括所述感兴趣动作并具有符合预定阈值的占有测度的状态-动作对；

其中，所述识别包括：根据所选择的状态-动作对的状态来识别所述特征。

10.根据权利要求9所述的系统，其中，所述预定阈值是具有最高占有测度的预定数量的状态-动作对。

11.根据权利要求9所述的系统，其中：

所述状态-动作对的每个状态包括特征向量。

所识别的特征来自所选择的状态-动作对的所述状态的所述特征向量；以及

所述程序代码还能够由所述至少一个硬件处理器执行以根据期望的维度水平来降低所选择的状态-动作对的所述状态的所述特征向量的维度，以使得所识别的特征是所选择的状态-动作对的所述状态的所述特征向量中最实质的特征。

12.根据权利要求11所述的系统，其中，所述维度的降低包括：执行主成分分析(pca)以识别与所述期望的维度水平相对应的多个主成分。

13.根据权利要求8所述的系统，其中，所述强化学习模型是深度强化学习模型。

14.根据权利要求8所述的系统，其中，所述程序代码还能够由所述至少一个硬件处理器执行以：

发出所识别特征的指示；以及

基于所述指示，执行以下至少一项：(a)影响所述强化学习模型在其中运行的物理系统的动作，以及(b)所述强化学习模型的调整。

15.一种计算机程序产品，包括非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质中体现有程序代码，所述程序代码能够由至少一个硬件处理器执行以执行根据权利要求1-7中任一项所述的方法中的步骤。

16.一种装置，包括被配置为执行所述权利要求1-7中任一项所述的方法中的步骤的模块。

技术总结
本公开涉及使用占有测度对强化学习动作进行自动解释。在本公开中，自动识别驱动强化学习模型以推荐感兴趣动作的特征。该识别是基于与强化学习模型相关联的状态‑动作对的占有测度的计算。某些状态‑动作对的高占有测度指示这些对的状态可能包括所寻求的特征。

技术研发人员：A·扎多罗伊尼;M·马辛
受保护的技术使用者：国际商业机器公司
技术研发日：2020.08.19
技术公布日：2021.03.12

转载请注明原文地址:https://wp.8miu.com/read-18631.html

专利

最新回复(0)