本发明涉及文章解析技术领域,更具体地说,涉及一种基于dom树路径匹配的文章解析方法。
背景技术:
不同网站文章的结构和格式存在一定差异,不便于统计人员进行数据统计,现无法将不同网站上检索到的文章生成统一格式,各式各样的文章格式大大增加了统计人员工作难度,降低了工作效率。
技术实现要素:
本发明的目的在于提供一种基于dom树路径匹配的文章解析方法,针对不同网站配置特定解析模板,将不同网站上的文章通过特定解析模板解析成统一格式方便统计者进行信息统计,用以解决上述背景技术中存在的技术问题。
本发明技术方案一种基于dom树路径匹配的文章解析方法,系统模板库中存储有面向不同网站的特定解析模板;
通过网站w的网页url加载页面上的文章,将该文章按照层级标签解析成dom树,得到文章中的各个节点及其路径;
将网站w的特定解析模板中不同节点的路径与dom树各条路径进行匹配,获取匹配成功的dom树路径对应的节点内容;
将特定解析模板中节点内容的正则表达式与与其匹配成功的dom树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;
将解析结果按统一格式封装储存。
在一个优选地实施例中,当对系统模板库无对应特定解析模板的网站进行文章解析时,首先利用基础解析模板解析文章,当该文章bom树中存在与基础解析模板匹配不上的路径时,确定解析结果中缺失部分节点;将缺失的节点及其路径补充至基础解析模板内,形成该网站的特定解析模板。
在一个优选地实施例中,系统模板库是否存在某网站的特定解析模板的判断方法为:
获取该网站待解析文章的url,截取其二级域名;
根据截取的二级域名判断该网站是否存在特定解析模板。
在一个优选地实施例中,所述通用模板至少包括标题、作者、文章发布时间和内容。
本发明根据不同的网站配置特定解析模板,通过特定解析模板对文章进行解析得到对应的文章标题、作者、文章发表时间、内容等;生成统一的文章格式进行存储,方便统计者进行信息统计;同时,能够通过自学习的方式及时更新系统模板库,提升系统的文章解析能力。
附图说明
图1为本发明文章解析过程流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
系统模板库中存储有面向不同网站的特定解析模板,基于dom树路径匹配的文章解析方法为,获取待解析文章所在页面的url,截取其二级域名;根据截取的二级域名判断系统模板库是否存在该网站的特定解析模板;若存在,则使用该特定解析模板对页面文章进行解析;若不存在,则先使用基础解析模板去匹配,再优化基础解析模板形成该网站的特定解析模板。基础解析模板至少包括标题、作者、文章发布时间、内容。
特定解析模板解析页面文章的流程包括以下步骤:
1、通过网站w的网页url加载页面上的文章,将该文章按照层级标签解析成dom树,得到文章中的各个节点及其路径;各个节点代表的是文章内容地分类,如标题、作者等。
2、将网站w的特定解析模板中不同节点的路径与dom树各条路径进行匹配,获取匹配成功的dom树路径对应的节点内容;
3、将特定解析模板中节点内容的正则表达式与与其匹配成功的dom树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;
4、将解析结果按统一格式封装储存。
基础解析模板解析页面文章并形成特定解析模板的流程包括以下步骤:
1、通过网站w的网页url加载页面上的文章,将该文章按照层级标签解析成dom树,得到文章中的各个节点及其路径;各个节点代表的是文章内容地分类,如标题、作者等。
2、将网站w的基础模板中不同节点的路径与dom树各条路径进行匹配,针对文章dom树中存在与基础解析模板匹配不上的路径,将缺失节点及其路径补充至基础解析模板形成该网站的特定解析模板。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。
1.一种基于dom树路径匹配的文章解析方法,其特征在于,系统模板库中存储有面向不同网站的特定解析模板;
通过网站w的网页url加载页面上的文章,将该文章按照层级标签解析成dom树,得到文章中的各个节点及其路径;
将网站w的特定解析模板中不同节点的路径与dom树各条路径进行匹配,获取匹配成功的dom树路径对应的节点内容;
将特定解析模板中节点内容的正则表达式与与其匹配成功的dom树路径对应的节点内容进行匹配,将匹配成功的节点内容存放到解析结果中;
将解析结果按统一格式封装储存。
2.根据权利要求1所述的一种基于dom树路径匹配的文章解析方法,其特征在于,当对系统模板库无对应特定解析模板的网站进行文章解析时,首先利用基础解析模板解析文章,当该文章bom树中存在与基础解析模板匹配不上的路径时,确定解析结果中缺失部分节点;将缺失的节点及其路径补充至基础解析模板内,形成该网站的特定解析模板。
3.根据权利要求2所述的一种基于dom树路径匹配的文章解析方法,其特征在于,系统模板库是否存在某网站的特定解析模板的判断方法为:
获取该网站待解析文章的url,截取其二级域名;
根据截取的二级域名判断该网站是否存在特定解析模板。
4.根据权利要求2所述的一种基于dom树路径匹配的文章解析方法,其特征在于,所述通用模板至少包括标题、作者、文章发布时间和内容。
技术总结