一种网页筛选方法及相关装置与流程

    专利2025-06-23  29


    本发明涉及计算机,尤其涉及一种网页筛选方法及相关装置。


    背景技术:

    1、当前开源情报收集与分析系统每天要搜索、监视、处理成千上万的网站和不计期数的网页,其中,网页解析和关键字搜索要消耗大量的计算资源和存储资源,现有的网络爬虫技术主要用于网站内容的爬取,并不对爬取的内容进行过滤,造成爬取的绝大部分内容都是垃圾信息,并不能作为后期情报分析与整编流程的情报素材,并且过多的垃圾信息造成了存储资源和计算资源的大量浪费,直接大幅度降低了系统的投资回报率。

    2、为了有目的、有针对性地引导爬虫,以实现高效爬取来大幅降低计算机的存储与计算资源消耗与负担,有必要采用一种有效的方法对待处理网页进行过滤,以实现对有用的待处理网页内容进行爬取。


    技术实现思路

    1、本发明的主要目的在于提供一种网页筛选方法、装置、计算机设备及存储介质,可以解决现有技术中的计算机存储与计算资源消耗与负担过大的问题。

    2、为实现上述目的,本发明第一方面提供一种网页筛选方法,所述方法包括:

    3、获取待处理网页,识别所述待处理网页的内容类型以及所述内容类型下的格式,根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件;

    4、若所述待处理网页不符合预设条件,则不对所述待处理网页进行后续处理;若所述待处理网页符合预设条件,则采用预设的关键字搜索算法筛选待处理网页的关键字,将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果;其中,所述关键字列表包含多个预设的关键字,所述匹配结果为在所述预设的关键字列中匹配到的关键字数量;

    5、若所述匹配结果达到预设数量,则对所述待处理网页进行后续处理,若匹配结果未达到预设数量,则不对所述待处理网页进行后续处理。。

    6、结合第一方面,在一种可能的实现方式中,上述根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件,包括:判断所述内容类型是否为预设的目标内容类型,若所述内容类型不为预设的目标内容类型,则确定所述待处理网页不符合预设条件;若所述内容类型为预设的目标内容类型,则判断所述内容类型下的格式是否为预设的目标格式,若所述内容类型下的格式不为预设的目标格式,则确定所述待处理网页不符合预设条件;若所述内容类型下的格式为预设的目标格式,则确定所述待处理网页符合预设条件。

    7、结合第一方面,在一种可能的实现方式中,上述将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,包括:遍历待处理网页的关键字集合,对于遍历到的目标关键字,将所述目标关键字与所述关键字列表进行匹配;其中,所述关键字集合由在所述待处理网页中筛选出的关键字组成;若所述目标关键字与所述关键字列表中包含的关键字匹配成功,则记录关键字数量加一,继续遍历下一个目标关键字,直到遍历完关键字集合中的所有的关键字,输出记录的关键字数量,得到匹配结果;若所述目标关键字与所述关键字列表中包含的关键字匹配失败,则继续遍历下一个目标关键字,直到遍历完关键字集合中的所有的关键字,输出记录的关键字数量,得到匹配结果。

    8、结合第一方面,在一种可能的实现方式中,上述将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,还包括:遍历待处理网页的关键字集合,对于遍历到的目标关键字,将所述目标关键字与所述关键字列表进行匹配;其中,所述关键字集合由在所述待处理网页中筛选出的关键字组成;若所述目标关键字与所述关键字列表中包含的关键字匹配成功,则记录关键字数量加一,判断当前的关键字数量是否达到预设数量,若当前的关键字数量达到预设数量,则输出记录的关键字数量,得到匹配结果;若当前的关键字数量未达到预设数量,则继续遍历下一个目标关键字,直到遍历完关键字集合中的所有的关键字;若所述目标关键字与所述关键字列表中包含的关键字匹配失败,则继续遍历下一个目标关键字,直到遍历完关键字集合中的所有的关键字。

    9、结合第一方面,在一种可能的实现方式中,上述判断所述内容类型是否为预设的目标内容类型之前,包括:配置预设的mime媒体类型顶层指示符集以及配置预设的mime媒体子类型指示符集,其中,mime媒体类型顶层指示符用于表征目标内容类型,mime媒体子类型指示符用于表征目标格式。

    10、结合第一方面,在一种可能的实现方式中,上述判断所述内容类型是否为预设的目标内容类型,包括:获取表征所述内容类型的第一目标指示符,判断所述mime媒体类型顶层指示符集是否包含第一目标指示符,若所述mime媒体类型顶层指示符集包含第一目标指示符,则确定所述内容类型为预设的目标内容类型,若所述mime媒体类型顶层指示符集未包含第一目标指示符,则确定所述内容类型不为预设的目标内容类型。

    11、结合第一方面,在一种可能的实现方式中,上述判断所述内容类型下的格式是否为预设的目标格式,包括:获取表征所述内容类型下的格式的第二目标指示符,判断所述mime媒体子类型指示符集是否包含第二目标指示符,若所述mime媒体子类型指示符集包含第二目标指示符,则确定所述内容类型下的格式为预设的目标格式,若所述mime媒体子类型指示符集未包含第二目标指示符,则确定所述内容类型下的格式不为预设的目标格式。

    12、为实现上述目的,本发明第二方面提供一种网页筛选装置,所述装置包括:

    13、获取判断模块:用于获取判断模块:用于获取待处理网页,识别所述待处理网页的内容类型以及所述内容类型下的格式,根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件;

    14、匹配结果获取模块:用于若所述待处理网页不符合预设条件,则不对所述待处理网页进行后续处理;若所述待处理网页符合预设条件,则采用预设的关键字搜索算法筛选待处理网页的关键字,将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果;其中,所述关键字列表包含多个预设的关键字,所述匹配结果为在所述预设的关键字列中匹配到的关键字数量;

    15、网页筛选模块:用于若所述匹配结果达到预设数量,则对所述待处理网页进行后续处理,若匹配结果未达到预设数量,则不对所述待处理网页进行后续处理。

    16、为实现上述目的,本发明第三方面提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:

    17、获取待处理网页,识别所述待处理网页的内容类型以及所述内容类型下的格式,根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件;

    18、若所述待处理网页不符合预设条件,则不对所述待处理网页进行后续处理;若所述待处理网页符合预设条件,则采用预设的关键字搜索算法筛选待处理网页的关键字,将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果;其中,所述关键字列表包含多个预设的关键字,所述匹配结果为在所述预设的关键字列中匹配到的关键字数量;

    19、若所述匹配结果达到预设数量,则对所述待处理网页进行后续处理,若匹配结果未达到预设数量,则不对所述待处理网页进行后续处理。

    20、为实现上述目的,本发明第四方面提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:

    21、获取待处理网页,识别所述待处理网页的内容类型以及所述内容类型下的格式,根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件;

    22、若所述待处理网页不符合预设条件,则不对所述待处理网页进行后续处理;若所述待处理网页符合预设条件,则采用预设的关键字搜索算法筛选待处理网页的关键字,将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果;其中,所述关键字列表包含多个预设的关键字,所述匹配结果为在所述预设的关键字列中匹配到的关键字数量;

    23、若所述匹配结果达到预设数量,则对所述待处理网页进行后续处理,若匹配结果未达到预设数量,则不对所述待处理网页进行后续处理。

    24、采用本发明实施例,具有如下有益效果:

    25、本发明提供一种网页筛选方法,通过根据待处理网页的内容类型以及该内容类型下的格式判断待处理网页是否符合预设条件,对不符合预设条件的待处理网页不进行后续处理,对符合预设条件的待处理网页,采用预设的关键字搜索算法筛选待处理网页的关键字,将待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,若匹配结果达到预设数量,则对待处理网页进行后续处理,若匹配结果未达到预设数量,则不对待处理网页进行后续处理。在本发明中,对不符合预设条件的待处理网页不进行处理可以有效地去除不符合预期的网页,减少对无效网页的处理,可以在一定程度上节约存储资源和计算资源,其次,对符合预设条件的待处理网页,基于待处理网页的关键字与预设的关键字列表的匹配结果对待处理网页进行二次筛选,可以进一步确定待处理网页是否有效,以提高待处理网页有效性的判断,进而提高存储资源和计算资源的有效利用率。


    技术特征:

    1.一种网页筛选方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述根据所述内容类型以及所述内容类型下的格式判断所述待处理网页是否符合预设条件,包括:

    3.根据权利要求1所述的方法,其特征在于,所述将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,包括:

    4.根据权利要求1所述的方法,其特征在于,所述将所述待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,还包括:

    5.根据权利要求2所述的方法,其特征在于,所述判断所述内容类型是否为预设的目标内容类型之前,包括:

    6.根据权利要求5所述的方法,其特征在于,所述判断所述内容类型是否为预设的目标内容类型,包括:

    7.根据权利要求5所述的方法,其特征在于,所述判断所述内容类型下的格式是否为预设的目标格式,包括:

    8.一种网页筛选装置,其特征在于,所述装置包括:

    9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

    10.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。


    技术总结
    本发明实施例公开了一种网页筛选方法及相关装置,其中,该方法包括:判断待处理网页是否符合预设条件,对不符合预设条件的待处理网页不进行后续处理,对符合预设条件的待处理网页,采用预设的关键字搜索算法筛选待处理网页的关键字,将待处理网页的关键字与预设的关键字列表进行匹配,得到匹配结果,对匹配结果达到预设数量的待处理网页进行后续处理,若匹配结果未达到预设数量的待处理网页不进行后续处理。在本发明中,对不符合预设条件的待处理网页不进行处理可以有效地去除不符合预期的网页,减少对无效网页的处理,可以在一定程度上节约存储资源和计算资源。

    技术研发人员:孙静,姜艳川,张学宇
    受保护的技术使用者:北京瞰天科技有限公司
    技术研发日:
    技术公布日:2024/4/29
    转载请注明原文地址:https://wp.8miu.com/read-88673.html

    最新回复(0)