一种多模态大模型预训练数据清洗与平衡方法与流程

    专利2025-03-30  28


    本发明涉及计算机科学和人工智能领域,尤其是涉及一种对用于多模态大模型预训练的数据进行清洗与平衡的方法。


    背景技术:

    1、当前,多模态大模型的预训练需要大量的图文数据来提高模型的性能和泛化性。然而,获取高质量的图文对数据是一项具有挑战性的任务。传统的数据收集方法往往依赖于人工筛选,这不仅耗时费力,还存在成本高、效率低的问题。此外,由于数据量庞大,人工筛选往往无法覆盖全部数据,导致预训练数据的质量参差不齐。


    技术实现思路

    1、本发明主要是解决现有技术所存在的数据质量参差不齐,需要人工筛选效率低成本高的技术问题,提供一种效率高、准确度高的多模态大模型预训练数据清洗与平衡方法。

    2、本发明针对上述技术问题主要是通过下述技术方案得以解决的:一种多模态大模型预训练数据清洗与平衡方法,包括以下步骤:

    3、s01、对图文对中的图像和文本进行特征提取;图文对即图文数据,包括图像以及与图像中的特征对应的描述性文本;

    4、s02、计算同一图文对中图像的特征向量和文本的特征向量的余弦相似度,并删除余弦相似度小于相似度阈值的图文对;

    5、s03、对保留的图文对中的文本进行分词,获得文本分词;

    6、s04、统计元数据中各条目在文本分词中出现的次数记为词频数量,并记录文本分词在元数据中的位置;

    7、s05、将元数据中词频数量小于词频阈值的条目的词频数量设定为词频阈值,再计算各条目的词频概率,词频概率为词频阈值和本条目词频数量的比值;

    8、s06、生成一个随机概率p,0≤p<1,根据每一对待平衡的图文对中每一个文本分词在元数据中的位置依次去索引对应的词频概率,当所有对应的词频概率均大于该次系统生成的随机概率p,则保留该图文对数据,否则去除该图文对数据,此图文对数据比较完后重新生成随机概率p然后开始处理下一个图文数据,最终保留的数据即为清洗与平衡后的预训练数据,用于给多模态大模型预训练。

    9、程序每次随机产生0≤p<1的概率,因为元数据中大于词频数量阈值的词频概率小于1,这样就有一定概率去减少含有这些文本的图文数据,而词频数量小于等于词频数量阈值的词频概率为1,肯定会保留下来,这么做目的是将经常的分词所在的文本进行随机删除。

    10、作为优选,所述步骤s01中,采用altclip(altering the language encoder inclip)模型提取图像的特征向量和文本的特征向量。

    11、作为优选,同一图文对中图像的特征向量和文本的特征向量的余弦相似度按以下方法计算:

    12、

    13、式中,cosinesimilarity为余弦相似度,x1为图像的特征向量,x2为文本的特征向量,·表示向量的点积(内积),||x1||和||x2||分别表示向量x1和向量x2的范数(长度)。

    14、作为优选,相似度阈值为0.2。余弦相似度过小的图文对不具备良好的训练价值。

    15、作为优选,英文元数据来源为:将英文版维基百科中的文本进行分词操作后,统计各条目出现的次数,并按照出现次数降序排列,取前50万个条目作为英文元数据;

    16、中文元数据来源为:将百度百科中的文本进行分词操作后,统计各条目出现的次数,并按照出现次数降序排列,取前50万个条目作为中文元数据。

    17、目前大模型常用的语言为中文和英文,本方案主要针对中文和英文展开元数据平衡。其他语言可以借助翻译软件翻译为中文或英文进行处理。

    18、作为优选,对文本的分词操作为采用hanlp分词工具进行分词。对图文对中的文本进行分词和对英文版维基百科中的文本分词以及对百度百科中的文本进行分词均采用此分词工具。

    19、作为优选,所述词频阈值通过以下方式确定:

    20、将元数据(图文对中的文字为中文则采用中文元数据,图文对中的文字为英文则采用英文元数据)中所有条目的词频数量进行升序排序,记为e=[e1,e2,…,en],n为元数据中的条目数量,并计算其滑动累加概率s=[s1,s2,…,sn],其中si计算公式如下:

    21、

    22、词频阈值最终确定为滑动累加概率si≥0.8所对应的最小词频数量ei。

    23、本发明带来的实质性效果是,能够有效地去除文本中频次极高的图文数据,从而实现数据之间的平衡。这种平衡的处理方式能够有效提升算法的性能和准确性,为后续的多模态大模型预训练提供更可靠的基础。



    技术特征:

    1.一种多模态大模型预训练数据清洗与平衡方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种多模态大模型预训练数据清洗与平衡方法,其特征在于,所述步骤s01中,采用altclip模型提取图像的特征向量和文本的特征向量。

    3.根据权利要求1或2所述的一种多模态大模型预训练数据清洗与平衡方法,其特征在于,同一图文对中图像的特征向量和文本的特征向量的余弦相似度按以下方法计算:

    4.根据权利要求3所述的一种多模态大模型预训练数据清洗与平衡方法,其特征在于,相似度阈值为0.2。

    5.根据权利要求1所述的一种多模态大模型预训练数据清洗与平衡方法,其特征在于,英文元数据来源为:将英文版维基百科中的文本进行分词操作后,统计各条目出现的次数,并按照出现次数降序排列,取前50万个条目作为英文元数据;

    6.根据权利要求5所述的一种多模态大模型预训练数据清洗与平衡方法,其特征在于,对文本的分词操作为采用hanlp分词工具进行分词。

    7.根据权利要求1所述的一种多模态大模型预训练数据清洗与平衡方法,


    技术总结
    本发明公开了一种多模态大模型预训练数据清洗与平衡方法,其包括以下步骤:S01、对图文对中的图像和文本进行特征提取;S02、计算同一图文对的余弦相似度,并删除余弦相似度小于相似度阈值的图文对;S03、对保留的图文对中的文本进行分词,获得文本分词;S04、统计元数据中各条目在文本分词中出现的次数记为词频数量,并记录文本分词在元数据中的位置;S05、计算各条目的词频概率;S06、生成一个随机概率p,根据每一对待平衡的图文对中每一个文本分词在元数据中的位置依次去索引对应的词频概率,当所有对应的词频概率均大于p,则保留该图文对,否则去除该图文对,最终保留的数据即为清洗与平衡后的预训练数据。

    技术研发人员:赵天成,方春鑫,余海
    受保护的技术使用者:杭州联汇科技股份有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-84785.html

    最新回复(0)