一种基于物体关联注意力的室内场景识别实现方法及系统与流程

    专利2022-07-08  107


    本发明涉及一种智能识别方法及软件系统,尤其涉及的是一种针对室内场景识别时的物体关联注意力特征的识别方法及系统改进。



    背景技术:

    现有技术中,对环境信息的感知能力是机器人不可缺少的一种能力,周围场景的准确感知有助于机器人做出正确的判断和行为。

    随着技术和算力的进步,大量基于深度学习的场景识别算法被提出。herranze等人发现特征提取需要适应图像的不同尺度,并通过把不同数据集训练的模型得到的特征进行多尺度融合以识别场景,参见cvpr2016年第571-579页,scenerecognitionwithcnns:objects,scalesanddatasetbias(cvpr是ieeeconferenceoncomputervisionandpatternrecognition的缩写,即ieee国际计算机视觉与模式识别会议)。

    然而,仅仅基于图片全局信息对场景识别效果提升是有限的,因为这些方法不但在语义上难以解释,并且容易被跨场景存在的公共物体所干扰。

    因此,一些学者尝试结合上下文信息和局部物体关联来实现场景识别。lópez-cifuentes等人通过语义分割获取上下文信息以帮助消除不同场景中的公共物体带来的分歧,请参见patternrecognition,vol.102,第107-256页,semantic-awarescenerecognition。

    wang等人基于弱监督训练方式训练patchnet,并基于此来指导局部特征提取,最后基于语义概率聚合局部特征实现场景识别,请参见patternrecognition,vol.26,第2028-2041页,weaklysupervisedpatchnets:describingandaggregatinglocalpatchesforscenerecognition。

    同时,也有许多研究通过组合多模态特征来提升模型的场景理解能力。然而现有技术的对室内场景识别方法大多都是基于手动设定特征结合全局特征进行识别实现的,其不仅计算量大,而且无法有效学习物体间的关系从而准确识别场景。

    因此,现有技术还有待于改进和发展。



    技术实现要素:

    本发明的目的在于提供一种基于物体关联注意力的室内场景识别实现方法及系统,针对现有技术整体识别不准确和网络结构过于冗余的问题,提供一种快速而精准的物体关联识别实现方法及系统。

    本发明的技术方案如下:

    一种基于物体关联注意力的室内场景识别实现方法,其包括以下步骤:

    a、对输入图像通过骨干网络提取该输入图像中每个空间位置的语义特征向量;

    b、将所有空间位置的语义特征向量根据其空间位置组成特征图并传送给分割模块以计算该输入图像中每个空间位置属于不同物体的概率;

    c、通过物体特征聚合模块计算每个物体的特征向量,把每个物体所有空间位置的特征向量乘以该空间位置属于该物体的概率并做加权平均,从而得到每个物体的特征向量表达;

    d、将所有物体的特征向量拼接构成该输入图像的物体特征表达。

    所述的基于物体关联注意力的室内场景识别实现方法,其中,所述骨干网络和所述物体特征聚合模块可基于不同空间位置特征隐向量计算不同物体的特征表达。

    所述的基于物体关联注意力的室内场景识别实现方法,其中,在所述步骤d之后还包括:

    e、将所述物体特征表达输入到一轻量物体关联注意力模块,所述轻量物体关联注意力模块采用神经网络实现,用以计算物体之间的关系。

    所述的基于物体关联注意力的室内场景识别实现方法,其中,所述步骤e具体还包括:

    e1、所述轻量物体关联注意力模块基于神经网络和余弦相似度计算每个物体与其他所有物体的关系特征向量表达,并将所述关系特征向量表达拼接到该物体自身的特征向量表达中。

    所述的基于物体关联注意力的室内场景识别实现方法,其中,所述步骤e之后还包括:

    f、将所述物体的特征向量表达与所述关系特征向量表达输入到一全局关联聚合模块,以聚合所有物体之间的关系并形成所有物体的共同特征表达向量。

    所述的基于物体关联注意力的室内场景识别实现方法,其中,所述步骤f之后还包括:

    g、将所述共同特征表达向量输入到神经网络全连接层的分类识别模块,用以识别该输入图像所属于的场景。

    一种基于物体关联注意力的室内场景识别实现系统,其包括:

    一骨干网络,用于对输入的图像提取每个空间位置的语义特征向量;

    一分割模块,用于将所有空间位置的语义特征向量根据其空间位置组成特征图给该分割模块,并计算该输入图像中每个空间位置属于不同物体的概率;

    一物体特征聚合模块,用于计算每个物体的特征向量,并把每个物体所有空间位置的特征向量乘以该空间位置属于该物体的概率并做加权平均,从而得到每个物体的特征向量表达;

    所述物体特征聚合模块还用于将所有物体的特征向量拼接构成该输入图像的物体特征表达。

    所述的基于物体关联注意力的室内场景识别实现系统,其中,还包括:一轻量物体关联注意力模块,基于神经网络和余弦相似度计算每个物体与其他所有物体的关系特征向量表达,并将所述关系特征向量表达拼接到该物体自身的特征向量表达中。

    所述的基于物体关联注意力的室内场景识别实现系统,其中,还包括:一全局关联聚合模块,用于将所述物体的特征向量表达与所述关系特征向量表达作为输入,并聚合所有物体之间的关系,形成所有物体的共同特征表达向量。

    所述的基于物体关联注意力的室内场景识别实现系统,其中,还包括:一分类识别模块,用于将所述共同特征表达向量输入,并识别该输入图像所属于的场景。

    本发明所提供的一种基于物体关联注意力的室内场景识别实现方法及系统,针对不同场景中存在物体不同,使用物体特征聚合模块检测输入图像上的所有物体特征从而更好地表达图像中包含的信息。同时,针对不同场景中共存物体分布不同,使用轻量物体关联注意力模块和全局关联聚合模块去学习和聚合物体的关系,最终生成共同特征表达向量方便后续分类模块识别不同的场景。该方法不仅效率高,且识别更为准确,适用于对不同室内场景的识别和判断。

    附图说明

    图1为本发明所述基于物体关联注意力的室内场景识别实现方法及系统较佳实施例的模块及流程示意图。

    图2为本发明所述基于物体关联注意力的室内场景识别实现方法及系统较佳实施例的物体特征聚合模块处理示例示意图。

    图3为本发明所述基于物体关联注意力的室内场景识别实现方法及系统较佳实施例的轻量物体关联注意力模块示例示意图。

    图4为本发明所述基于物体关联注意力的室内场景识别实现方法及系统较佳实施例的全局关联聚合模块示例示意图。

    具体实施方式

    以下对本发明的较佳实施例加以详细说明。

    本发明所述基于物体关联注意力的室内场景识别实现方法及系统,在神经网络的识别处理中,通过分析发现不同场景中共存物体的分布不同,因此通过学习物体关系就可以提升室内场景识别表现。因此,本发明提出了物体特征聚合模块检测并提取图片上所有物体的特征,并通过提出的轻量物体关联注意力模块学习物体之间的关系,最后通过全局关联聚合模块聚合物体特征和物体关系,并通过全连接实现室内场景的识别。本发明设计以一个全新的角度实现场景识别,比现有技术中的方法更加有效。

    如图1所示,本发明所述基于物体关联注意力的室内场景识别实现方法及系统的较佳实施例中,首先根据输入图像,可以是摄像头获取的静态图像或者是从视频中截取的其中一帧图像。通过可以提取不同空间位置特征隐向量的骨干网络,来提取该输入图像每个位置的高级语义特征向量,然后将所有空间位置的语义特征向量,根据其空间位置组成特征图并传送给分割模块以计算该上输入图像每个空间位置属于不同物体的概率。

    基于骨干网络计算出的特征图和分割模块计算出的物体归属概率图,一个新提出的物体特征聚合模块接着被用于计算每个物体的特征向量,该模块的实现过程为把每个物体所有空间位置的特征向量乘以该空间位置属于该物体的概率再做加权平均,从而得到每个物体的特征向量表达。最终所有物体的特征向量拼接起来构成图片的物体特征表达。

    然后把物体特征表达输入到本发明新提出的一轻量物体关联注意力模块中,用来计算物体之间的关系,该轻量物体关联注意力模块基于神经网络和余弦相似度计算每个物体和其他所有物体的关系特征向量表达,并将关系特征向量表达拼接到该物体自身的特征向量表达中,从而丰富物体特征。

    本发明还进一步地,将物体自身特征向量表达和物体关系特征向量表达输入到新提出的一全局关联聚合模块中,用来聚合所有物体之间的关系,从而形成在所述输入图像上所有物体的共同特征表达向量。最终将该特征表达向量输入到神经网络全连接层构成的分类识别模块中,用来识别该图片属于哪个场景。

    具体来说,就是在摄像头获取到一个室内场景的输入图像后,会对该输入图像的所有空间位置做物体特征分析,从而通过图像包含的所有物体特征进行场景判断。具体的判断过程不单纯依赖于局部的物体特征本身,还同时对输入图像中的所有物体关系进行判断,从而可以更准确有效的对室内场景进行判断,例如厨房、卧室或客厅、餐厅,通过对物体之间的关系特征进行识别,防止了不同场景之间共同出现的物体特征的干扰,从而对场景的识别更精准。

    如图2所示为本发明所述基于物体关联注意力的室内场景识别实现方法及系统中,针对物体特征聚合模块的较佳实施示例。为了有效提取输入图像中的物体特征,本发明提出了图2中的所述物体特征聚合模块实现方案。首先针对输入图像,基于场景分割的骨干网络计算出空间位置特征图f和物体归属概率图s,然后把每个物体所有的空间位置特征向量与对应位置物体归属概率加权求和得到该物体的特征向量表达o。

    最后把所有物体的特征向量表达拼接起来得到输入图像的物体特征表达,其中不存在的物体就是全零向量,对于存在的物体会有不同的特征向量,具体如图2中的示例示意的,最终特征维度为1024x150x1。

    在本发明所述物体特征聚合模块中每个物体特征向量的计算方法如下图所示,其中oj表示物体j的特征向量,bij表示第i个像素位置是否最大概率归属物体j,sij表示第i个像素位置归属物体j的概率,fi表示第i个像素位置的特征向量。最终采取以下计算公式确定每个物体的特征向量表达:

    从而将输入图像的每个分割区域进行的物体特征向量表达的计算,就可以实现对不同的物体进行判断,但仅仅通过物体特征难以表达物体的共存关系。

    因此,本发明进一步地,如图3所示,还提供了一轻量物体关联注意力模块,用于计算物体之间的共存关系。

    为了有效迁移场景分割中物体的特征用于场景识别,并学习物体之间的潜在关系,本发明还进一步提出了轻量物体关联注意力模块。所述轻量物体关联注意力模块是由一个或多个如图3中所示的轻量物体关联注意力块级联组成的,其实现方式为神经网络。其中q可以在降低数据维度的同时提炼出具有更高级语义信息的物体特征,相比于现有技术已存在的方法,基于q计算k和v不但减少了50%的计算量,还使得仅调节α的值就能同时控制q,k,v和输出特征的维度。k和v通过矩阵乘法可以获取每个物体的关系表达,最终物体关系与原物体特征拼接后输出给下一个模块,就将物体关系与物体特征进行了特征向量表达。

    为了用尽可能少的参数和计算量把物体特征和关系聚合成隐向量表达(过于复杂的参数和计算量会导致处理的效率过低且难以提取关键信息),如图4所示,本发明提出了一全局关联聚合模块,该模块中采用了条状深度卷积,与传统深度卷积中的块状卷积相比,条状深度卷积可以建模没有位置关系的物体特征。该模块首先对特征每个通道分别用150x1的条状深度卷积聚合每个通道中所有物体的信息。

    然而此时各通道之间信息是不流通的,因此再使用1x1的点卷积聚合所有通道之间的信息,从而生成高级语义特征表达向量来表达场景信息。最后把最终的场景表达向量也即物体特征向量表达传输给通用的全连接层,也就是分类识别模块,就可以获取输入图像或图片的最终场景识别结果。

    本发明所述基于物体关联注意力的室内场景识别实现方法及系统中,提供的物体特征聚合模块中采用了全新的物体特征聚合方法,也就是基于场景分割算法,计算出空间位置特征图f和物体归属概率图s后,把每个物体所有空间位置的特征向量与对应空间位置的物体归属概率加权求和得到该物体的特征向量表达o。最后再把所有物体的特征向量拼接起来得到图像的物体特征表达。

    其次,本发明还进一步提供了一物体关联注意力模块,采用全新的轻量级网络结构,与传统注意力模块相比,本发明所采用的轻量物体关联注意力模块在学习到物体关系的同时更轻量,并且可以随意控制输出的特征通道数。

    本发明所述基于物体关联注意力的室内场景识别实现方法及系统中,更进一步地还提供了一全局关联聚合模块,采用条状深度卷积方式,与传统深度卷积中的块状卷积相比,条状深度卷积聚合了所有物体的特征和关系,即使其输入是没有空间位置信息的,也可以进行聚合形成所有物体的最终特征向量表达。

    本发明所述基于物体关联注意力的室内场景识别实现方法及系统由于采用了上述物体特征聚合及轻量关联注意力处理方法和模块,实现了符合实际计算量要求的计算效率和准确度,方便了对输入图像的室内场景识别判断过程。

    应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。


    技术特征:

    1.一种基于物体关联注意力的室内场景识别实现方法,其包括以下步骤:

    a、对输入图像通过骨干网络提取该输入图像中每个空间位置的语义特征向量;

    b、将所有空间位置的语义特征向量根据其空间位置组成特征图并传送给分割模块以计算该输入图像中每个空间位置属于不同物体的概率;

    c、通过物体特征聚合模块计算每个物体的特征向量,把每个物体所有空间位置的特征向量乘以该空间位置属于该物体的概率并做加权平均,从而得到每个物体的特征向量表达;

    d、将所有物体的特征向量拼接构成该输入图像的物体特征表达。

    2.根据权利要求1所述的基于物体关联注意力的室内场景识别实现方法,其特征在于,所述骨干网络和所述物体特征聚合模块可基于不同空间位置特征隐向量计算不同物体的特征表达。

    3.根据权利要求2所述的基于物体关联注意力的室内场景识别实现方法,其特征在于,在所述步骤d之后还包括:

    e、将所述物体特征表达输入到一轻量物体关联注意力模块,所述轻量物体关联注意力模块采用神经网络实现,用以计算物体之间的关系。

    4.根据权利要求3所述的基于物体关联注意力的室内场景识别实现方法,其特征在于,所述步骤e具体还包括:

    e1、所述轻量物体关联注意力模块基于神经网络和余弦相似度计算每个物体与其他所有物体的关系特征向量表达,并将所述关系特征向量表达拼接到该物体自身的特征向量表达中。

    5.根据权利要求4所述的基于物体关联注意力的室内场景识别实现方法,其特征在于,所述步骤e之后还包括:

    f、将所述物体的特征向量表达与所述关系特征向量表达输入到一全局关联聚合模块,以聚合所有物体之间的关系并形成所有物体的共同特征表达向量。

    6.根据权利要求5所述的基于物体关联注意力的室内场景识别实现方法,其特征在于,所述步骤f之后还包括:

    g、将所述共同特征表达向量输入到神经网络全连接层的分类识别模块,用以识别该输入图像所属于的场景。

    7.一种基于物体关联注意力的室内场景识别实现系统,其包括:

    一骨干网络,用于对输入的图像提取每个空间位置的语义特征向量;

    一分割模块,用于将所有空间位置的语义特征向量根据其空间位置组成特征图给该分割模块,并计算该输入图像中每个空间位置对应不同物体的概率;

    一物体特征聚合模块,用于计算每个物体的特征向量,并把每个物体所有空间位置的特征向量乘以这些空间位置是该物体的概率并做加权平均,从而得到每个物体的特征向量表达;

    所述物体特征聚合模块还用于将所有物体的特征向量拼接构成该输入图像的物体特征表达。

    8.根据权利要求7所述的基于物体关联注意力的室内场景识别实现系统,其特征在于,还包括:一轻量物体关联注意力模块,基于神经网络和余弦相似度计算每个物体与其他所有物体的关系特征向量表达,并将所述关系特征向量表达拼接到该物体自身的特征向量表达中。

    9.根据权利要求8所述的基于物体关联注意力的室内场景识别实现系统,其特征在于,还包括:一全局关联聚合模块,该模块将所述物体的特征向量表达与所述关系特征向量表达作为输入,并聚合所有物体之间的关系,形成所有物体的共同特征表达向量。

    10.根据权利要求9所述的基于物体关联注意力的室内场景识别实现系统,其特征在于,还包括:一分类识别模块,用于将所述共同特征表达向量输入,并识别该输入图像所属于的场景。

    技术总结
    本发明公开了一种基于物体关联注意力的室内场景识别实现方法及系统,其方法包括:对输入图像通过骨干网络提取该输入图像中每个空间位置的语义特征向量;将所有空间位置的语义特征向量根据其空间位置组成特征图并传送给分割模块以计算该输入图像中每个空间位置属于不同物体的概率;通过物体特征聚合模块计算每个物体的特征向量,把每个物体所有空间位置的特征向量乘以该空间位置属于该物体的概率并做加权平均,从而得到每个物体的特征向量表达。本发明基于物体关联注意力的室内场景识别实现方法及系统针对不同场景中存在物体不同,使用物体特征聚合模块检测输入图像上的所有物体特征从而更好地表达图像中包含的信息。

    技术研发人员:苗博;周立广;林天麟;徐扬生
    受保护的技术使用者:深圳市人工智能与机器人研究院;香港中文大学(深圳)
    技术研发日:2020.11.26
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-19730.html

    最新回复(0)