一种众包数据标注方法、系统、服务器及存储介质与流程

    专利2022-07-08  142


    本发明涉及互联网技术领域,特别涉及一种众包数据标注方法、系统、服务器及存储介质。



    背景技术:

    数据标注是通过数据加工人员借助标注工具对人工智能学习数据进行加工的一种行为,通常数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等种类。标记的基本形式有标注画框、3d画框、文本转录、图像打点、目标物体轮廓线等。

    图像标注和视频标注按照数据标注的工作内容来分类的话其实可以统一称为图像标注,因为视频也是有图像连续播放组成的。现实应用场景中,常常应用到图像数据标注的有人脸识别以及自动驾驶车辆识别等。就拿自动驾驶来说,汽车在自动行驶的时候如何识别车辆、行人、障碍物、绿化带、甚至是天空呢?图像标注不同于语音标注,因为图像包括形态、目标点、结构划分,仅凭文字进行标记是无法满足数据需求的。所以,图形的数据标注需要相对复杂的过程,数据标注者需要对不同的目标标记物用不同的颜色进行轮廓标记,然后对相应的轮廓打标签,用标签来概述轮廓内的内容。以便让模型能够识别图像的不同标记物。

    传统手工标注是由管理人员整理出标注规范,让标注者进行数据标注,然后再对标注数据的规范性进行检查并修改,常用的众包标注是指将大批量数据分为若干简单子任务,然后通过网络平台分配给大量志愿者进行标注。然而数据标注实际上是一个比较复杂的过程,数据整理、发布、标注、质检和提交都需要耗费大量的时间;此外,由于每个标注者专业知识背景和感兴趣的领域不同,对标注规范的理解和认知也会有参差不齐,因此所标注的数据结果和数据标注时间也会因人而异。



    技术实现要素:

    本发明提供一种众包数据标注方法、系统、服务器及存储介质,以解决现有技术中存在的由于每个标注者专业知识背景和感兴趣的领域不同,对标注规范的理解和认知也会有参差不齐,导致部分标注的数据结果偏差较大和部分数据标注耗时较长的技术问题。

    本发明解决上述技术问题,本发明提出一种众包数据标注方法,所述众包数据标注方法包括以下步骤:

    对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    优选地,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用目标检测算法对待处理图像上的目标图像进行识别,并生成所述目标图像的定位信息;

    根据所述定位信息对所述目标图像进行裁剪后进行预处理,并保存至目标数据库;

    使用残差网络提取所述目标数据库中的所述目标图像得到图像特征。

    优选地,记录标注者标注图像时的处理特征,并将所述处理特征于图像特征进行匹配,得到所述处理特征于图像特征的匹配度的步骤之前还包括:

    根据所述图像特征对所述目标图像进行初步分类;

    在所述目标数据库中选取不同类别的目标图像推送至标注者,并提示所述标注者选取熟悉的类别图像;

    响应于所述标注者选取的类别图像,向所述标注者推送选中类别的目标图像对应的待处理图像。

    优选地,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用卷积神经网络模型的全连接层对所述待处理图像上的目标图像进行识别,并提取所述目标图像的图像特征,裁剪所述待处理图像上的目标图像。

    优选地,所述记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度的步骤具体包括:

    记录标注者标注图像时的处理特征,使用卷积神经网络模型的众包层根据所有标注者的处理特征,计算标注者对不同类别的图像的处理能力;

    使用卷积神经网络模型的输出层根据所述目标图像的图像特征计算所述目标图像与不同类别图像的相似程度;

    将所述目标图像任一类别的所述相似程度及所述标注者该类别的所述处理能力相乘得到所述目标图像该类别的匹配度,将所述目标图像与所述标注者所有类别的匹配度相加得到所述处理特征与所述图像特征的匹配度。

    优选地,还包括:

    使用残差网络提取样本数据库中的图像得到样本特征,将所述样本特征依次经过全连接层、输出层及众包层得到训练结果;

    将所述训练结果与所述于样本数据库中对应的图像类别数据进行对比并计算准确率,并反复向前传播和反向传播得到准确率最高的卷积神经网络模型。

    优选地,还包括:

    将所述匹配度最高的标注者完成的所述待处理图像的标注及所述待处理图像保存至所述样本数据库。

    本发明还提出一种众包数据标注系统,所述众包数据标注系统包括:

    特征提取单元,用于对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    特征匹配单元,用于记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    众包标注单元,用于计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    本发明还提出一种众包数据标注服务器,所述众包数据标注服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的众包数据标注程序,所述众包数据标注程序被所述处理器执行时实现如上所述的众包数据标注方法的步骤。

    本发明还提出一种可读存储介质,所述可读存储介质上存储有众包数据标注程序,所述众包数据标注程序被处理器执行时实现如上所述的众包数据标注方法的步骤。

    本发明通过为不同账户设置不同的免流规则,统计终端设备在使用中的流量类型,实现对部分流量进行免费奖励,以解决现有技术中黑名单的模式对网络使用的限制造成的不便,提高了精细化管理的程度,达到了引导学生使用互联网提高学习效率的效果,提升了用户体验。

    附图说明

    图1是本发明众包数据标注方法实施例方案涉及的硬件运行环境的服务器结构示意图;

    图2为本发明众包数据标注方法另一实施例的流程示意图;

    图3为本发明众包数据标注方法另一实施例的流程示意图;

    图4为本发明众包数据标注方法另一实施例的流程示意图;

    图5为本发明众包数据标注系统的功能模块图。

    具体实施方式

    以下结合具体实施方式对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

    参照图1,图1是本发明实施例方案涉及的硬件运行环境的服务器结构示意图。

    如图1所示,所述服务器可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储服务器。

    本领域技术人员可以理解,图1中示出的结构并不构成对所述服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

    如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及众包数据标注程序。

    在图1所示的网络设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接外设;所述网络设备通过处理器1001调用存储器1005中存储的众包数据标注程序,并执行以下操作:

    对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    进一步地,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用目标检测算法对待处理图像上的目标图像进行识别,并生成所述目标图像的定位信息;

    根据所述定位信息对所述目标图像进行裁剪后进行预处理,并保存至目标数据库;

    使用残差网络提取所述目标数据库中的所述目标图像得到图像特征。

    进一步地,记录标注者标注图像时的处理特征,并将所述处理特征于图像特征进行匹配,得到所述处理特征于图像特征的匹配度的步骤之前还包括:

    根据所述图像特征对所述目标图像进行初步分类;

    在所述目标数据库中选取不同类别的目标图像推送至标注者,并提示所述标注者选取熟悉的类别图像;

    响应于所述标注者选取的类别图像,向所述标注者推送选中类别的目标图像对应的待处理图像。

    进一步地,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用卷积神经网络模型的全连接层对所述待处理图像上的目标图像进行识别,并提取所述目标图像的图像特征,裁剪所述待处理图像上的目标图像。

    进一步地,所述记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度的步骤具体包括:

    记录标注者标注图像时的处理特征,使用卷积神经网络模型的众包层根据所有标注者的处理特征,计算标注者对不同类别的图像的处理能力;

    使用卷积神经网络模型的输出层根据所述目标图像的图像特征计算所述目标图像与不同类别图像的相似程度;

    将所述目标图像任一类别的所述相似程度及所述标注者该类别的所述处理能力相乘得到所述目标图像该类别的匹配度,将所述目标图像与所述标注者所有类别的匹配度相加得到所述处理特征与所述图像特征的匹配度。

    进一步地,所述众包数据标注方法还包括:

    使用残差网络提取样本数据库中的图像得到样本特征,将所述样本特征依次经过全连接层、输出层及众包层得到训练结果;

    将所述训练结果与所述于样本数据库中对应的图像类别数据进行对比并计算准确率,并反复向前传播和反向传播得到准确率最高的卷积神经网络模型。

    进一步地,所述众包数据标注方法还包括:

    将所述匹配度最高的标注者完成的所述待处理图像的标注及所述待处理图像保存至所述样本数据库。

    本实施例通过采集标注者的处理特征及被标注图像的图像特征,而后根据图像特征匹配最合适的标注者对其进行标注,大大降低了由于每个标注者专业知识背景和感兴趣的领域不同,对标注规范的理解和认知也会有参差不齐,导致部分标注的数据结果偏差较大和部分数据标注耗时较长的技术问题达到了提高标注质量与标注速度的效果,降低了标注时间,提升了标注效率。

    基于上述硬件结构,提出本发明众包数据标注方法的实施例。

    参照图2所述众包数据标注方法包括以下步骤:

    s10、对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    易于理解的是,现有的图像识别算法已经十分完善,针对于需要标注的图像类型,只需要提前训练好对应的模型,即可快速完成图像识别的过程,且由于待处理图像中可能存在多个需要标注的部分,因此本实施例将识别出的目标图像进行裁剪,再单独提取特征,保障了图像特征与单一图像类别之间的对应关系的准确性。

    s20、记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    需要说明的是,本实施例所述的标注者标注图像时的图像特征至少包括标注耗时与标注可用性,其中标注耗时统计较为容易,标注可用性的统计则可以为:将待处理图像发送至多位标注者,将其中相同标注大于或等于2的标注作为可用标注,并将剩余标注发送至匹配度较高的其它标注者选出其中可用的标注。

    s30、计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    值得强调的是,通常情况下会优先考虑标注者是否能够完成可用标注,匹配度与能够完成可用标注之间存在较强的相关性,当判断标注者100%能够完成可用标注时,该标注者的匹配度会达到最大值,当有标注经验的标注者人数较多时会存在匹配度最高的标注者存在多个的情况,此时则按照剩余工作量及标注活跃度等参数进行匹配,选取其中能够尽快完成标注的标注者下发标注任务。

    本实施例通过将待标注图像识别到的目标图像中的图像特征与标注者的处理特征进行匹配,选择匹配度最高的标注者下发标注任务,使得标注者的专业知识背景和感兴趣的领域与待标注图像的内容较为接近,降低了标注的数据偏差,提高了标注的可用性,降低了标注用时,减少了质检人员的工作量,提升了标注者的标注体验。

    参照图3,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    s11、使用目标检测算法对待处理图像上的目标图像进行识别,并生成所述目标图像的定位信息;

    易于理解的是,本实施例利用目标检测算法yolov3(youonlylookonce,一种对象检测算法的名字)对待处理图像上的目标图像进行识别,该算法是一种端到端的检测算法,具有较高的实时性和准确性,本实施例还生成目标图像的定位信息,有利于后续对其进行标注时,框选待标注对象。

    s12、根据所述定位信息对所述目标图像进行裁剪后进行预处理,并保存至目标数据库;

    需要说明的是,由于裁剪后的目标图像像素大小不一不利于后续的处理,因此需要对其进行预处理统一像素大小及文件格式,而后存储至特定的数据可,便于后续的使用及存储。

    s13、使用残差网络提取所述目标数据库中的所述目标图像得到图像特征。

    值得强调的是,在本实施例中,使用resnet34(一种残差网络算法)利用残差连接的方式进行特征提取,该网络在一定程度上面能够解决梯度消失或者梯度爆炸的问题,本发明使用的resnet34是去掉最后一个全连接层,只利用前面的33层卷积来对预处理好的目标图像进行特征提取。

    参照图4,记录标注者标注图像时的处理特征,并将所述处理特征于图像特征进行匹配,得到所述处理特征于图像特征的匹配度的步骤之前还包括:

    s21、根据所述图像特征对所述目标图像进行初步分类;

    易于理解的是,初步分类为将图像中识别的物体按大类进行分类,例如将禁止停车、限速30及限速60等均分入交通标志牌的大类,具体的标志牌信息则由标注者对其进行分类。

    s22、在所述目标数据库中选取不同类别的目标图像推送至标注者,并提示所述标注者选取熟悉的类别图像;

    需要说明的是,由于部分分类信息需要有一定的相关知识,因此随意的分类会造成标注者无法标注或标注错误的情况,即浪费了标注者的时间,又降低了标注的可用率,本实施例按照大类进行分类后让标注者自由选择,例如对交通规则较为熟悉,能够读懂交通标志牌信息的标注者则可选择交通标志牌的大类。

    s23、响应于所述标注者选取的类别图像,向所述标注者推送选中类别的目标图像对应的待处理图像。

    值得强调的是,由于目标检测算法的缺陷,可能会将待处理图像中的部分对象识别错误或识别失败,且部分场景下还会出现定位不准确的情况,因此本实施例将完整的待处理图像推送至标注者,由标注者对其进行修正,进一步保障了标注可用性。

    具体地,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用卷积神经网络模型的全连接层对所述待处理图像上的目标图像进行识别,并提取所述目标图像的图像特征,裁剪所述待处理图像上的目标图像。

    需要说明的是,本实施例通过使用提前训练好的卷积神经网络模型对待处理图像进行识别及特征提取,随着样本数量的不断增加,能够有效提升图像识别的识别准确率。

    具体地,所述记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度的步骤具体包括:

    记录标注者标注图像时的处理特征,使用卷积神经网络模型的众包层根据所有标注者的处理特征,计算标注者对不同类别的图像的处理能力;

    易于理解的是,通常情况下,默认同一标注者对某一类别的处理能力最大值为1,即完成的标注均为可用标注,最小值为0,即完成的标注均为不可用标注。

    使用卷积神经网络模型的输出层根据所述目标图像的图像特征计算所述目标图像与不同类别图像的相似程度;

    需要说明的是,输出层是利用softmax函数计算该目标属于哪一类标签的概率;众包层是把输出层与图像类型进行神经网络的训练得到一种关系映射,把图像属于某类的概率值转化为标注者对每一类目标的标注可用率。

    将所述目标图像任一类别的所述相似程度及所述标注者该类别的所述处理能力相乘得到所述目标图像该类别的匹配度,将所述目标图像与所述标注者所有类别的匹配度相加得到所述处理特征与所述图像特征的匹配度

    值得强调的是,在本实施例中,匹配度与标注可用率强相关,本实施例将图像与某一类别的相似程度与标注者对该类图片的处理能力的乘积作为标注者在图像该类上的标注可用率的系数,则将该图片所有类别的系数相加则可得到该图片的整体匹配度。

    具体地,还包括:

    使用残差网络提取样本数据库中的图像得到样本特征,将所述样本特征依次经过全连接层、输出层及众包层得到训练结果;

    需要说明的是,在本实施例中,将残差网络引入卷积神经网络模型,并通过其进行样本特征的提取,能够在一定程度上接近梯度消失或者梯度爆炸的问题,提高了卷积神经网络模型的识别准确率,残差网络在卷积神经网络模型中的利用存在多种现有方式,本实施例可以按照实际的数据使用任一合适的方式,在此不再一一限定。

    将所述训练结果与所述于样本数据库中对应的图像类别数据进行对比并计算准确率,并反复向前传播和反向传播得到准确率最高的卷积神经网络模型。

    可以理解的是,由于使用样本数据库中的数据,因此图像特征已经有对应的标注,可以用来训练卷积神经网络模型,因此本实施例通过公开样本数据库的建立及卷积神经网络模型的训练方法完善了技术方案,提高了识别准确率。

    具体地,还包括:

    将所述匹配度最高的标注者完成的所述待处理图像的标注及所述待处理图像保存至所述样本数据库。

    需要强调的是,本实施例通过将标注完成的图像及标注数据加入样本数据库,扩大了卷积神经网络模型的样本数量,提高了卷积神经网络模型识别准确率;

    需要补充的是,本实施例还可通过使用样本数据库中的数据识别新标注者的处理特征以及提高部分标注者的处理能力,例如新标注者前几次标注时,可以使用样本数据库中的数据,并将标注结果与样本数据库中的结果进行比对,快速获取新标注者的处理特征及处理能力,同时在发现标注结果不可用时,向其推送样本数据库中的标注结果,帮助提高该标注者的处理能力。

    本实施例通过公开图像识别、特征提取及匹配度计算的具体方法,完善了技术方案,提升了对目标图像的识别能力及特征获取能力,同时,提高了对标注者的匹配准确度,达到了对标注者专业知识背景和感兴趣的领域的识别,对标注规范的理解和认知的获取,有效的解决了由于未参考上述特征想标注者推送待处理图像造成的部分标注的数据结果偏差较大和部分数据标注耗时较长的技术问题,达到了提高标注者标注质量,提升标注者标注速度的技术效果,提高了标注者的标注体验。

    本发明还提出一种众包数据标注系统,所述众包数据标注系统包括:

    特征提取单元10,用于对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    特征匹配单元20,用于记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    众包标注单元30,用于计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    由于本系统采用了上述所有实施例的全部技术方案,因此之上具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。

    本发明还提出一种众包数据标注服务器,所述众包数据标注服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的众包数据标注程序,所述众包数据标注程序被所述处理器执行时实现如上所述的众包数据标注方法的步骤,由于本服务器采用了上述所有实施例的全部技术方案,因此之上具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。

    本发明还提出一种可读存储介质,所述可读存储介质上存储有众包数据标注程序,所述众包数据标注程序被处理器执行时实现如上所述的众包数据标注方法的步骤,由于本存储介质采用了上述所有实施例的全部技术方案,因此之上具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。

    以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


    技术特征:

    1.一种众包数据标注方法,其特征在于,所述众包数据标注方法包括以下步骤:

    对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    2.根据权利要求1所述的众包数据标注方法,其特征在于,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用目标检测算法对待处理图像上的目标图像进行识别,并生成所述目标图像的定位信息;

    根据所述定位信息对所述目标图像进行裁剪后进行预处理,并保存至目标数据库;

    使用残差网络提取所述目标数据库中的所述目标图像得到图像特征。

    3.根据权利要求1所述的众包数据标注方法,其特征在于,记录标注者标注图像时的处理特征,并将所述处理特征于图像特征进行匹配,得到所述处理特征于图像特征的匹配度的步骤之前还包括:

    根据所述图像特征对所述目标图像进行初步分类;

    在所述目标数据库中选取不同类别的目标图像推送至标注者,并提示所述标注者选取熟悉的类别图像;

    响应于所述标注者选取的类别图像,向所述标注者推送选中类别的目标图像对应的待处理图像。

    4.根据权利要求3所述的众包数据标注方法,其特征在于,所述对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征的步骤具体包括:

    使用卷积神经网络模型的全连接层对所述待处理图像上的目标图像进行识别,并提取所述目标图像的图像特征,裁剪所述待处理图像上的目标图像。

    5.根据权利要求4所述的众包数据标注方法,其特征在于,所述记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度的步骤具体包括:

    记录标注者标注图像时的处理特征,使用卷积神经网络模型的众包层根据所有标注者的处理特征,计算标注者对不同类别的图像的处理能力;

    使用卷积神经网络模型的输出层根据所述目标图像的图像特征计算所述目标图像与不同类别图像的相似程度;

    将所述目标图像任一类别的所述相似程度及所述标注者该类别的所述处理能力相乘得到所述目标图像该类别的匹配度,将所述目标图像与所述标注者所有类别的匹配度相加得到所述处理特征与所述图像特征的匹配度。

    6.根据权利要求5所述的众包数据标注方法,其特征在于,还包括:

    使用残差网络提取样本数据库中的图像得到样本特征,将所述样本特征依次经过全连接层、输出层及众包层得到训练结果;

    将所述训练结果与所述于样本数据库中对应的图像类别数据进行对比并计算准确率,并反复向前传播和反向传播得到准确率最高的卷积神经网络模型。

    7.根据权利要求6所述的众包数据标注方法,其特征在于,还包括:

    将所述匹配度最高的标注者完成的所述待处理图像的标注及所述待处理图像保存至所述样本数据库。

    8.一种众包数据标注系统,其特征在于,所述众包数据标注系统包括:

    特征提取单元,用于对待处理图像上的目标图像进行识别,裁剪所述待处理图像上的目标图像,并提取所述目标图像的图像特征;

    特征匹配单元,用于记录标注者标注图像时的处理特征,并将所述处理特征与所述图像特征进行匹配,得到所述处理特征与所述图像特征的匹配度;

    众包标注单元,用于计算所述待处理图像与所有标注者的匹配度,选择匹配度最高的标注者完成所述待处理图像的标注。

    9.一种服务器,其特征在于,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行众包数据标注程序,所述众包数据标注程序被所述处理器执行时实现如权利要求1至7中任一项所述的众包数据标注方法的步骤。

    10.一种可读存储介质,其特征在于,所述可读存储介质上存储有众包数据标注程序,所述众包数据标注程序被处理器执行时实现根据权利要求1至7中任一项所述的众包数据标注方法的步骤。

    技术总结
    本发明涉及一种众包数据标注方法、系统、服务器及可读存储介质,本发明通过待处理图像上的目标图像进行识别,并提取图像特征,而后根据记录下来的标注者的处理特征将其与图像特征进行匹配,选择擅长处理该图像特征的标注者对待处理图像进行标注,解决了现有技术中由于标注者的背景技术、专业知识以及兴趣爱好都不相同,而现有的标注者的选择方式并未考虑到标注者之间的区别,造成标注效率低下的技术问题。

    技术研发人员:何云;熊迹;何豪杰;罗跃军
    受保护的技术使用者:武汉中海庭数据技术有限公司
    技术研发日:2020.12.05
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-18895.html

    最新回复(0)