本申请涉及审计技术领域,尤其涉及一种审计对象推荐方法、装置、设备和介质。
背景技术:
目前,审计项目开展过程中,往往采用事前审计、事中审计、事后审计三种审计方式,然后根据审计项目要求对业务数据进行检索、统计和分析,形成审计疑点线索依据,为审计作业开展提供审计事实依据。
现有技术通常通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
技术实现要素:
本申请提供了一种审计对象推荐方法、装置、设备和介质,用于解决现有技术通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
有鉴于此,本申请第一方面提供了一种审计对象推荐方法,包括:
获取若干第一审计对象的第一审计数据;
将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别;
选择风险级别最高的所述第一审计对象进行推荐,得到推荐审计对象。
可选的,所述风险预测模型的配置方法为:
获取第二审计对象的第二审计数据;
基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值;
基于所述第二审计对象对应的风险值对所述第二审计对象进行风险级别标注,得到审计标签;
通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型。
可选的,所述获取第二审计对象的第二审计数据,之前还包括:
对第二审计对象中的业务进行级别划分,得到一级业务、二级业务和三级业务;
相应的,所述获取第二审计对象的第二审计数据,包括:
获取所述三级业务对应的第二审计数据。
可选的,所述基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值,包括:
基于所述三级业务对应的第二审计数据对所述三级业务进行风险评分,得到所述三级业务对应的风险值;
基于所述三级业务对应的风险值依次计算所述二级业务的风险值和所述一级业务的风险值;
基于所述一级业务的风险值计算得到所述第二审计对象的风险值。
可选的,所述通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型,包括:
将所述第二审计对象对应的所述第二审计数据和所述审计标签输入机器学习模型,输出所述第二审计对象对应的风险级别预测值;
通过所述第二审计对象的所述审计标签和所述风险级别预测值计算预置指标值,所述预置指标值包括模型准确率、模型命中率或模型查全率;
基于所述预置指标值对所述机器学习模型进行验证,将验证通过的所述机器学习模型作为所述风险预测模型。
可选的,所述将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别,之前还包括:
对所述第一审计数据进行预处理。
本申请第二方面提供了一种审计对象推荐装置,包括:
获取单元,用于获取若干第一审计对象的第一审计数据;
预测单元,用于将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别;
选择单元,用于选择风险级别最高的所述第一审计对象进行推荐,得到推荐审计对象。
可选的,还包括:配置单元,用于配置所述风险预测模型;
所述配置单元具体包括:
获取子单元,用于获取第二审计对象的第二审计数据;
评分子单元,用于基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值;
标注子单元,用于基于所述风险值对所述第二审计对象进行风险级别标注,得到审计标签;
训练子单元,用于通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型。
本申请第三方面提供了一种审计对象推荐设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的审计对象推荐方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面任一项所述的审计对象推荐方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种审计对象推荐方法,包括:获取若干第一审计对象的第一审计数据;将第一审计数据输入到风险预测模型进行风险级别预测,得到各第一审计对象的风险级别;选择风险级别最高的第一审计对象进行输出,得到推荐审计对象。
本申请实施例中,通过将获取的第一审计对象的第一审计数据输入到风险预测模型进行风险级别预测,然后选择风险级别最高的第一审计对象作为推荐审计对象,通过风险预测模型对审计数据自动进行处理和分析,不需要过多的人工干涉,提高了效率,解决了现有技术通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种审计对象推荐方法的一个流程示意图;
图2为本申请实施例提供的一种审计单位的一个拓扑图;
图3为本申请实施例提供的一种审计对象推荐装置的一个结构示意图。
具体实施方式
本申请提供了一种审计对象推荐方法、装置、设备和介质,用于解决现有技术通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种审计对象推荐方法的一个实施例,包括:
步骤101、获取若干第一审计对象的第一审计数据。
在本申请实施例中,可以将某地市局、某区县局、财务部、通信中心、变电局等多个单位或部门作为第一审计对象,第一审计数据可以为第一审计对象中各部位或单位的业务数据。业务数据可以是从源数据系统抽取的部分或全部数据,数据抽取分为全量抽取和增量抽取两种方式,实现方式不同,数据抽取效率不同,增量数据抽取方式具体如下:
1、时间戳方式,时间戳是一种基于快照变化的数据捕获方式,需要在源表上增加时间戳列,更新数据表数据时,同时修改时间戳列值。数据抽取时,通过比较系统时间与时间戳列值来决定抽取变化数据,实现增量抽取。时间戳方式性能较好,抽取相对简单,缺点是无法捕获时间戳以前数据delete和update操作,在数据准确性上受到一定限制。
2、日志表方式,该方式通过分析数据库自身在线日志判断变化数据。在对源数据表进行insert、update或delete操作同时就可提取数据,变化数据保存在日志表中,通过这种方式捕获变化数据,然后利用视图方式提供给目标系统。如oracle提供的物化视图、dsg和goldengatetdm等第三方数据复制工具都采用了该方式,其优点是数据抽取性能高,缺点是数据操作时要同时修改数据表和日志表数据,对业务系统性能有一定影响。
3、全表比对方式,全表比对方式要事先为抽取的表建立结构类似的临时表,临时表记录源表主键以及根据列数据计算出来的校验码。每次进行数据抽取时,对源表和临时表进行校验,决定源表数据是insert、update还是delete操作。该方式优点是对源系统影响较小,缺点是性能较差,表中没有主键或唯一列且含有重复记录时准确性更差。
4、触发器方式,需要在源数据表上建立insert、update和delete等触发器,当源数据变化时,相应触发器将变化数据写入临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。如inforeai就是采用该方式实现增量抽取,现正在我省国税系统出口退税审核系统数据集中使用。其优点是数据抽取效率高,缺点是要在业务表建触发器,对业务系统性能和安全性有一定影响。
进一步,通过数据抽取获取到第一审计数据后,可以对第一审计数据进行预处理,包括数据清洗、数据相关性分析或数据转换等,提高数据质量,进而提高预测结果的准确性。
数据清洗是发现并纠正数据文件中可识别的错误,包括检查数据一致性、处理无效值和缺失值等,具体如下:
(1)一致性检查
一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。例如,用1-7级量表测量的变量出现了0值,体重出现了负数,都应视为超出正常值域范围。spss、sas、和excel等计算机软件都能够根据定义的取值范围,自动识别每个超出范围的变量值。具有逻辑上不一致性的答案可能以多种形式出现。
(2)无效值和缺失值的处理
由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
a、估算。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单,但没有充分考虑数据中已有的信息,误差可能较大。另一种办法就是根据调查对象对其他问题的答案,通过变量之间的相关分析或逻辑推论进行估计。例如,某一产品的拥有情况可能与家庭收入有关,可以根据调查对象的家庭收入推算拥有这一产品的可能性。
b、整列删除是剔除含有缺失值的样本。由于很多数据可能存在缺失值,这样导致有效样本量大大减少,无法充分利用已经收集到的数据。因此,只适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。
c、变量删除。如果某一变量的无效值和缺失值很多,而且该变量对于所研究的问题不是特别重要,则可以考虑将该变量删除。这种做法减少了供分析用的变量数目,但没有改变样本量。
d、成对删除是用一个特殊码(通常是9、99、999等)代表无效值和缺失值,同时保留数据集中的全部变量和样本。但是,在具体计算时只采用有完整答案的样本,因而不同的分析因涉及的变量不同,其有效样本量也会有所不同。这是一种保守的处理方法,最大限度地保留了数据集中的可用信息。
采用不同的处理方法可能对分析结果产生影响,尤其是当缺失值的出现并非随机且变量之间明显相关时。可以实际情况可以选择不同的处理方式。
因为数据库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来,而且包含历史数据,这样避免不了有错误数据的存在、有的数据相互之间冲突,这些错误的或冲突的数据为“脏数据”,根据一定的规则把“脏数据”清洗掉,这就是数据清洗。数据清洗主要去掉不完整的数据、重复的数据和错误的数据。
数据清洗的一般过程为:
(1)数据分析:为了清洗出干净的数据,必须对数据进行详尽的分析,包括数据的格式类别等。比如采集来的财务数据的字段类型、宽度、含义等。
(2)模式转换:模式转换主要是指将源数据映射成目标数据模型,如属性的转换,字段的约束条件和数据库中各个数据集之间的映射和转换等。有时需要将多个数据表合并成一个二维表格,有时却要将一个数据表拆分成多个二维表格以便于问题的解决。
(3)数据校验:上一步的模式转换可行否,需要进行评估测试,经过反复分析、设计、计算、分析才能更好地清洗数据。否则不经过数据校验可能有些错误数据不是很明显,不能被很好地筛选出来。比如模式转换时将一个数据集分解成多个数据表的时候,造成父表的主关键字的值和子表外部关键字的值不一致,从而形成孤立记录,影响审计人员审计证据的正确性,进而影响审计结论的正确性。
(4)数据回流:用“干净”的数据替代原始数据源中的“脏”数据,避免下次数据采集时重做数据的清洗。
步骤102、将第一审计数据输入到风险预测模型进行风险级别预测,得到各第一审计对象的风险级别。
将第一审计数据输入到风险预测模型进行风险级别预测,得到各第一审计对象的风险级别,风险预测模型为训练好的模型,用于风险级别预测。
进一步,风险预测模型的配置方法为:
1、获取第二审计对象的第二审计数据。
第二审计对象和第一审计对象可以相同,第二审计数据为历史业务数据。第二审计对象包括多业务审计对象和单一业务审计对象,多业务审计对象包括市局、区县局、输电所等同类的地市局单位和区县局单位,其他的单一业务的本级部门,包括新闻中心、培评中心、综合服务中心、信息中心、财务共享中心、项目中心、规划中心、物流中心、财务部、营销部、人事部等50多个单位部门,把这些部门和单位开展的营销管理、物资管理、财务管理、投资计划、项目管理、基建项目、安全生产等七大业务,可以作为单一业务审计对象。
还可以对第二审计对象中的业务进行级别划分,得到一级业务、二级业务和三级业务,进而获三级业务对应的第二审计数据。其中,一级业务、二级业务、三级业务可以根据实际情况进行划分。例如,一级业务可以包括营销管理、物资管理、财务管理、资产管理、合同管理、工程及项目管理;二级业务可以包括电价执行、业扩管理、电费核算、折旧管理、成本费用、资金管理、预算管理、设计勘察、设计变更、验收管理、投资计划、结算管理、实施管理、造价管理、合同审查、合同签订等。
2、基于第二审计数据对第二审计对象进行风险评分,得到第二审计对象对应的风险值;
基于三级业务对应的第二审计数据对三级业务进行风险评分,得到三级业务对应的风险值,可以根据领域内常用标准来进行风险评分,得到各个三级业务对应的风险值;基于三级业务对应的风险值依次计算二级业务的风险值和一级业务的风险值;基于一级业务的风险值计算得到第二审计对象的风险值。
一级业务、二级业务、三级业务根据审计对象相应评分规则,必须自上而下进行级联,即一级业务分类各个分值来自二级业务分类评分经过权重计算后而得相应分值,而二级业务分类分值来自三级业务分类中各个模型经过权重计算后而得到。
以某一个审计单位为例,请参考图2,图2仅给出了一级业务和二级业务作为示例说明。通过三级业务的风险值计算得到二级业务的风险值,对二级业务中的抄表管理、电费核算、电价执行和业扩管理的风险值进行加权求和得到一级业务中营销管理的风险值,相应的,对各一级业务的风险值进行加权求和得到审计单位的风险值。图2中给出了一级业务和二级业务的权重参数的一个示例,还可以是其他权重参数设置,可以根据实际情况进行设置,在此不对其进行具体限定。
3、基于第二审计对象对应的风险值对第二审计对象进行风险级别标注,得到审计标签。
根据第二审计对象的风险值的大小对其进行风险级别标注,风险级别可以划分为4个级别(极高风险、高风险、中风险、低风险),与可以划分为5个级别等,可以根据实际需要进行灵活设置,在此不对其进行具体限定。每个风险级别对应的风险值区间也可以根据实际情况进行设置,在此不再对其进行赘述。
4、通过第二审计对象对应的第二审计数据和审计标签对机器学习模型进行训练,得到风险预测模型。
将第二审计对象对应的第二审计数据和审计标签输入机器学习模型,输出第二审计对象对应的风险级别预测值;通过第二审计对象的审计标签和风险级别预测值计算预置指标值,预置指标值包括模型准确率、模型命中率或模型查全率;基于预置指标值对机器学习模型进行验证,将验证通过的机器学习模型作为风险预测模型。
其中,机器学习模型可以为k-means聚类算法得到的聚类模型。k-means是比较常用的聚类算法,属于无监督学习算法,只需初始指定目标簇的数量,该算法即可自动将数据聚合到指定数量的簇中,相同簇中的数据相似度较高,不同簇中数据相似度较低。k-means算法分析效率高,对于50是个维度的10000个样本,可以在10秒内完成聚类分析。本本申请实施例以当前较为流行的python语言描述k-means算法。
算法针对给定的样本集d,开展聚类算法挖掘分析,以2个维度的特征因素为例,
1.从样本集d中依据人工判断选择4个高风险样本点,作为审计对象风险参考集;导入数据集d。
importpandasaspdfromsklearn.clusterimportkmeans#导入k均值聚类算法
importmatplotlib.pyplotasplt
reference=[[a1,b1],[a2,b2],[a3,b3],[a4,b4]]
inputfile='./data.xlsx'#待聚类的数据文件
iteration=250#聚类分析最大循环数
data=pd.read_excel(inputfile)#读取数据集d
2.设定初始目标簇数为k=8。
k=8#目标簇数
3.进行聚类分析,得到稳定的结果簇。
kmodel=kmeans(n_clusters=k,n_jobs=4)#调用k-means算法,进行聚类分析
r1=pd.series(kmodel.labels_).value_counts()#统计各个类别的数目
r2=pd.dataframe(kmodel.cluster_centers_)#找出聚类中心
#横向连接(0是纵向),得到聚类中心对应的类别下的数目
r=pd.concat([r2,r1],axis=1)
4.找出结果簇中,中心距离参考集最短的簇,标记为“极高(4)”风险。
#计算两个模式样本之间的欧式距离
#寻找距离最短的分组集合
#详细输出每个样本对应的类别
r=data[index]
r.to_excel(outputfile)#保存分类结果,并标记对应风险等级
5.分别使用k=4,k=2,执行第2-3步,风险分别标记为“高(3)”,“中(2)”。
6.将剩余未标记风险的样本集标记为“低(1)”。
通常训练好的模型不会直接应用,在应用之前会对该训练好的模型进行验证,常用来评价模型优劣的指标有模型准确率、模型命中率或模型查全率。本申请以二分类为例,来对这些指标进行说明。请参考表1,假设训练好机器学习模型预测的结果只有2种,即1和0,实际值(标签)和预测值的关系表如表1所示。
表1预测值和实际值的关系表
(1)模型准确率
模型准确率用于描述一个模型总体预测准确情况,计算公式如下:
(2)模型命中率
对很多标志变量的预测问题,其往往关注的并不是模型的准确率。因此,引入了一个模型命中率的新指标,其用于反映预测结果提供的名单的准确性,计算公式为:
在ibmspssmodeler中,如果在分析节点中选择了重合矩阵(用于字符型目标变量),则可以得到预测值和实际值的交叉表,但是却无法从中看出模型的命中率,故通常选择矩阵节点来查看该结果。
(3)模型查全率
如果只看命中率也无法保证该模型的性能,又引入了模型查全率,该指标也称为模型覆盖率,主要反映模型的覆盖程度,计算公式为:
在ibmspssmodeler中,如果在分析节点中选择了重合矩阵(用于字符型目标变量),则可以得到预测值和实际值的交叉表,但是却无法看出模型查全率,故通常选择矩阵节点来查看该结果。
通过计算上述的指标值,当该机器学习模型的模型准确率或模型查全率或模型命中率达到预置阈值时,则判定该机器学习模型验证通过,得到风险预测模型,反之,则判定验证不通过,继续训练。
步骤103、选择风险级别最高的第一审计对象进行推荐,得到推荐审计对象。
通过风险预测模型对第一审计数据进行处理,得到各个第一审计对象的风险级别,选择风险级别最高的第一审计对象进行推荐,得到推荐审计对象,进而可以对推荐审计对象进行审计。
本申请实施例中,通过将获取的第一审计对象的第一审计数据输入到风险预测模型进行风险级别预测,然后选择风险级别最高的第一审计对象作为推荐审计对象,通过风险预测模型对审计数据自动进行处理和分析,不需要过多的人工干涉,提高了效率,解决了现有技术通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
以上为本申请提供的一种审计对象推荐方法的一个实施例,以下为本申请提供的一种审计对象推荐装置的一个实施例。
请参考图3,本申请实施例提供的一种审计对象推荐装置,包括:
获取单元301,用于获取若干第一审计对象的第一审计数据;
预测单元302,用于将第一审计数据输入到风险预测模型进行风险级别预测,得到各第一审计对象的风险级别;
选择单元303,用于选择风险级别最高的第一审计对象进行推荐,得到推荐审计对象。
作为进一步地改进,还包括:配置单元304,用于配置风险预测模型;
配置单元304具体包括:
获取子单元,用于获取第二审计对象的第二审计数据;
评分子单元,用于基于第二审计数据对第二审计对象进行风险评分,得到第二审计对象对应的风险值;
标注子单元,用于基于风险值对第二审计对象进行风险级别标注,得到审计标签;
训练子单元,用于通过第二审计对象对应的第二审计数据和审计标签对机器学习模型进行训练,得到风险预测模型。
作为进一步地改进,配置单元304还包括:
划分子单元,用于对第二审计对象中的业务进行级别划分,得到一级业务、二级业务和三级业务。
相应的,获取子单元,具体用于获取三级业务对应的第二审计数据。
作为进一步地改进,评分子单元,具体用于:
基于三级业务对应的第二审计数据对三级业务进行风险评分,得到三级业务对应的风险值;
基于三级业务对应的风险值依次计算二级业务的风险值和一级业务的风险值;
基于一级业务的风险值计算得到第二审计对象的风险值。
作为进一步地改进,还包括:
预处理单元305,用于对第一审计数据进行预处理。
本申请实施例中,审计对象推荐装置通过将获取的第一审计对象的第一审计数据输入到风险预测模型进行风险级别预测,然后选择风险级别最高的第一审计对象作为推荐审计对象,通过风险预测模型对审计数据自动进行处理和分析,不需要过多的人工干涉,提高了效率,解决了现有技术通过人工对审计数据进行检索、统计和分析来确定推荐审计对象,存在效率低的技术问题。
本申请实施例还提供了一种审计对象推荐设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的审计对象推荐方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述方法实施例中的审计对象推荐方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-onlymemory,英文缩写:rom)、随机存取存储器(英文全称:randomaccessmemory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
1.一种审计对象推荐方法,其特征在于,包括:
获取若干第一审计对象的第一审计数据;
将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别;
选择风险级别最高的所述第一审计对象进行推荐,得到推荐审计对象。
2.根据权利要求1所述的审计对象推荐方法,其特征在于,所述风险预测模型的配置方法为:
获取第二审计对象的第二审计数据;
基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值;
基于所述第二审计对象对应的风险值对所述第二审计对象进行风险级别标注,得到审计标签;
通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型。
3.根据权利要求2所述的审计对象推荐方法,其特征在于,所述获取第二审计对象的第二审计数据,之前还包括:
对第二审计对象中的业务进行级别划分,得到一级业务、二级业务和三级业务;
相应的,所述获取第二审计对象的第二审计数据,包括:
获取所述三级业务对应的第二审计数据。
4.根据权利要求3所述的审计对象推荐方法,其特征在于,所述基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值,包括:
基于所述三级业务对应的第二审计数据对所述三级业务进行风险评分,得到所述三级业务对应的风险值;
基于所述三级业务对应的风险值依次计算所述二级业务的风险值和所述一级业务的风险值;
基于所述一级业务的风险值计算得到所述第二审计对象的风险值。
5.根据权利要求2所述的审计对象推荐方法,其特征在于,所述通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型,包括:
将所述第二审计对象对应的所述第二审计数据和所述审计标签输入机器学习模型,输出所述第二审计对象对应的风险级别预测值;
通过所述第二审计对象的所述审计标签和所述风险级别预测值计算预置指标值,所述预置指标值包括模型准确率、模型命中率或模型查全率;
基于所述预置指标值对所述机器学习模型进行验证,将验证通过的所述机器学习模型作为所述风险预测模型。
6.根据权利要求1所述的审计对象推荐方法,其特征在于,所述将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别,之前还包括:
对所述第一审计数据进行预处理。
7.一种审计对象推荐装置,其特征在于,包括:
获取单元,用于获取若干第一审计对象的第一审计数据;
预测单元,用于将所述第一审计数据输入到风险预测模型进行风险级别预测,得到各所述第一审计对象的风险级别;
选择单元,用于选择风险级别最高的所述第一审计对象进行推荐,得到推荐审计对象。
8.根据权利要求7所述的审计对象推荐装置,其特征在于,还包括:配置单元,用于配置所述风险预测模型;
所述配置单元具体包括:
获取子单元,用于获取第二审计对象的第二审计数据;
评分子单元,用于基于所述第二审计数据对所述第二审计对象进行风险评分,得到所述第二审计对象对应的风险值;
标注子单元,用于基于所述风险值对所述第二审计对象进行风险级别标注,得到审计标签;
训练子单元,用于通过所述第二审计对象对应的所述第二审计数据和所述审计标签对机器学习模型进行训练,得到所述风险预测模型。
9.一种审计对象推荐设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-6任一项所述的审计对象推荐方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-6任一项所述的审计对象推荐方法。
技术总结