本技术涉及数据处理的,具体涉及企业用户的新闻分析处理方法、装置、设备及介质。
背景技术:
1、企业中,管理人员(特别是企业高管)的行为对公司的声誉、财务健康和市场地位具有重大影响。当企业管理人员突然出现意料之外的新闻事件,可能会对公司产生负面影响。例如企业管理人员的负面新闻通常会导致投资者信心下降,进而引起股价急剧下跌,影响到公司的市值和投资吸引力。
2、但是,随着互联网技术的飞速发展和数字化媒体平台的日益增多,数字化媒体的快速增长导致了海量信息的生成,尤其是新闻内容的剧增。每天有成千上万的新闻报道、博客文章、社交媒体帖子和其他形式的数字内容被发布。通过人工阅读大量的数字新闻,从中查询关键信息,以用于分析企业管理人员的新闻。对大量新闻数据进行处理需要耗费大量时间,效率低下,因此需要一种方法提高新闻数据处理的效率,以用于新闻分析。
技术实现思路
1、本技术提供企业用户的新闻分析处理方法、装置、设备及介质,能够提高新闻数据处理的效率,以用于新闻分析。
2、在本技术的第一方面提供了企业用户的新闻分析处理方法,所述方法包括:
3、分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
4、从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
5、根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
6、基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
7、对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
8、通过采用上述技术方案,对目标媒体数据进行分词处理和频次分析,这个首先从大量目标媒体数据中快速筛选出与目标对象相关的新闻事件(第一实体)。而根据出现频次筛选出第二实体,能够得到新闻报道较为频繁的事件。接着,通过构建节点树并探索逆向节点链路并筛选节点实体,能系统地组织和关联这些第二实体,进一步揭示不同新闻事件之间的联系。这种组织数据的方式不仅减少了需要人工分析的数据量,还提供了一种直观的方法来理解和解释复杂的数据关系。最终,将节点实体组合成实体组,并对这些组进行分析,能够生成关于目标对象新闻的深入洞察。总的来说,通过自动化的数据处理和智能的信息组织,大幅提升了处理效率和分析深度,使其非常适合用于大规模的新闻数据分析。
9、可选的,在所述根据多个所述第二实体构建节点树之前,所述方法还包括:
10、对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,所述第一媒体数据为多个所述目标媒体数据中的任意一个目标媒体数据,所述第一子实体为多个所述第二实体中所述第一媒体数据对应的第二实体,其中,若多个所述第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个所述目标媒体数据中的所述多个第二子实体的先后排列顺序相同。
11、通过采用上述技术方案,在构建节点树之前对第一媒体数据中的第二实体进行排序,为后续的节点树构建提供了一个标准化和一致的数据结构。通过按照出现频次由多到少的顺序排列第一子实体,可以确保节点树的构建基于数据中的主要趋势和模式,从而提高了分析的准确性和相关性。此外,当存在出现频次相同的第二子实体时,定义一个第二排列顺序可以保证在不同目标媒体数据中这些实体的相对顺序一致,从而增加了分析过程中数据的一致性和可比性。这种方法在处理大量复杂数据时尤其有效,因为它减少了由于数据排列不一致而引入的潜在混乱和误解,使得从不同媒体数据中提取的信息更加标准化和可靠,从而提高整体的数据处理效率和新闻分析的质量。
12、可选的,所述根据多个所述第二实体构建节点树,具体包括:
13、对多个所述第一子实体按照所述第一排列顺序和/或所述第二排列顺序依次添加至所述子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,所述第一节点链路为多个所述节点链路中的任意一个节点链路,所述首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体,所述首端子节点为所述节点链路中连接所述空节点的子节点;
14、若检索出所述第一节点链路中存在所述首端子节点,则添加所述首端子实体至所述首端子节点,对所述首端子节点的节点计数加一;
15、若检索出所述第一节点链路中不存在所述首端子节点,则在所述节点树中创建第二节点链路,并添加所述首端子实体至所述第二节点链路的首端子节点。
16、通过采用上述技术方案,通过共享首端子节点,即当第一节点链路中已存在首端子节点时,将新的首端子实体添加到该节点并增加计数,这种方法显著减少了节点树中的节点数量。这在处理包含重复首端子实体的大量目标媒体数据时尤其有效,因为它减少了为每个重复实体创建新节点链路的需求。由于共享首端子节点的策略减少了节点树中的节点总数,搜索和更新特定第二实体变得更加高效。在大型数据集中,这种优化可以显著减少计算时间和资源消耗。
17、可选的,若检索出所述第一节点链路中存在所述首端子节点,存在包含次首端子实体的次首端子节点,则添加所述次首端子实体至所述次首端子节点,对所述次首端子节点的节点计数加一,所述次首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,位于所述首端子实体之后的第一子实体,所述次首端子节点为所述节点链路中连接所述首端子节点的子节点;
18、若检索出所述第一节点链路中存在所述首端子节点,不存在所述次首端子节点,则添加所述首端子实体至所述第二节点链路的首端子节点,创建第一子节点,并添加所述次首端子实体至所述第一子节点,所述第一子节点连接所述首端子节点。
19、通过采用上述技术方案,共享次首端节点(第一节点链路中包含次首端子实体的次首端子节点时,添加次首端子实体至次首端子节点并对次首端子节点的节点计数加一)能够进一步减少节点树中的节点数量,提高数据处理效率。创建节点分支(第一节点链路中不存在次首端子节点,创建第一子节点,并添加次首端子实体至第一子节点)使节点树具有更好的拓展性。
20、可选的,所述基于所述节点树中查询各个所述第二实体的逆向节点链路,并确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,具体包括:
21、从所述节点树中查询目标实体的多个目标逆向节点链路,所述目标实体为多个所述第二实体中的任意一个第二实体,所述目标逆向节点链路的首端子节点的内容为所述目标实体,末端子节点为所述根节点;
22、判断各个所述目标逆向节点链路是否包含所述目标对象对应的节点实体;
23、对多个所述目标逆向节点链路进行节点拆分,得到多个目标节点实体;
24、从各个包含所述目标对象对应的节点实体的目标节点实体中,筛选出所述实体数量大于所述预设频次阈值的第一节点实体,所述实体数量为多个所述目标节点实体中所述第一节点实体的出现数量之和。
25、通过采用上述技术方案,查询节点树以找到与目标实体相关的目标逆向节点链路,并对这些链路进行节点拆分和筛选,可以准确地追踪和识别与目标实体(第二实体)相关联的所有其他实体。这使得能够明确地理解目标实体在不同媒体数据中的上下文和关联关系,有助于揭示目标实体与其他实体之间的复杂关系和相互作用。
26、可选的,在所述从多个所述第一实体中筛选出第二实体之前,所述方法还包括:
27、计算任意一个所述第一实体的第一哈希值;
28、在预设哈希表中,查询是否包含所述第一哈希值;
29、若确定所述预设哈希表中不包含所述第一哈希值,则写入所述第一哈希值至所述预设哈希表,并对所述第一哈希值的频率计数加一;
30、若确定所述预设哈希表中包含所述第一哈希值,则对第二哈希值的频率计数加一,所述第二哈希值为所述预设哈希表中包含的多个哈希值中与所述第一哈希值相同的哈希值。
31、通过采用上述技术方案,使用哈希表来管理第一实体的哈希值能够快速检查和更新实体的存在与频率,这对于处理大量数据来说是非常高效的。哈希表提供了快速的数据访问和更新能力,这意味着即使在数据量非常大的情况下,实体的检索和频率更新也能高效进行。
32、可选的,所述对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻,具体包括:
33、基于各个所述第二实体,确定多个实体组,所述实体组为多个所述第一节点实体的组合;
34、确定多个所述实体组中,第一实体组的第一数量,所述第一实体组包括所述目标对象对应的目标节点实体;
35、确定多个所述实体组中,多个所述实体组的第二数量;
36、若确定所述第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析所述目标对象的新闻,所述出现概率为所述第一数量和所述第二数量的商值,所述第二节点实体为所述第一实体组中除所述目标节点实体外的第一节点实体。
37、通过采用上述技术方案,通过将相关的第二实体(即重要的新闻事件或话题)组合成实体组,当与目标对象相关的第一实体组出现概率超过预设阈值时,可以发现目标对象与其他实体潜在的关联关系,有助于深入理解目标对象与新闻事件之间的联系,从而有助于后续更准确地理解新闻趋势。
38、在本技术的第二方面提供了企业用户的新闻分析处理装置,包括识别模块、筛选模块、构建模块、查询模块以及处理模块,其中:
39、所述识别模块,用于分别对针对目标对象的各个目标媒体数据进行分词处理,得到多个第一实体,所述第一实体为所述目标媒体数据包括的与所述目标对象相关的新闻事件;
40、所述筛选模块,用于从多个所述第一实体中筛选出第二实体,所述第二实体的出现频次大于预设频次阈值,所述出现频次为所述第二实体在多个所述目标媒体数据中出现的频次之和;
41、所述构建模块,用于根据多个所述第二实体构建节点树,其中,所述节点树的根节点为空节点,所述第二实体为所述节点树的子节点,且出现于同一个所述目标媒体数据的多个所述第二实体处于所述节点树的同一节点链路上;
42、所述查询模块,用于基于所述节点树中查询各个所述第二实体的逆向节点链路,并且确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,所述逆向节点链路的首端子节点的内容为所述第二实体,末端子节点为所述根节点,其中,将任意一个第二实体的多个所述逆向节点链路拆分成多个节点实体后,得到拆分结果,任意一个所述节点实体的实体数量为所述拆分结果中的出现数量之和;
43、所述处理模块,用于对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻。
44、可选的,所述筛选模块,用于对第一媒体数据的多个第一子实体按照出现频次由多到少的第一排列顺序进行排序,所述第一媒体数据为多个所述目标媒体数据中的任意一个目标媒体数据,所述第一子实体为多个所述第二实体中所述第一媒体数据对应的第二实体,其中,若多个所述第一子实体中存在出现频次相同的多个第二子实体,则定义一个第二排列顺序,以使各个所述目标媒体数据中的所述多个第二子实体的先后排列顺序相同。
45、可选的,所述筛选模块,用于对多个所述第一子实体按照所述第一排列顺序和/或所述第二排列顺序依次添加至所述子节点,检索第一节点链路中是否存在包含首端子实体的首端子节点,其中,所述第一节点链路为多个所述节点链路中的任意一个节点链路,所述首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,排列位置在首位的第一子实体,所述首端子节点为所述节点链路中连接所述空节点的子节点;
46、所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,则添加所述首端子实体至所述首端子节点,对所述首端子节点的节点计数加一;
47、所述查询模块,用于若检索出所述第一节点链路中不存在所述首端子节点,则在所述节点树中创建第二节点链路,并添加所述首端子实体至所述第二节点链路的首端子节点。
48、可选的,所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,存在包含次首端子实体的次首端子节点,则添加所述次首端子实体至所述次首端子节点,对所述次首端子节点的节点计数加一,所述次首端子实体为多个所述第一子实体根据所述第一排列顺序和/或所述第二排列顺序,位于所述首端子实体之后的第一子实体,所述次首端子节点为所述节点链路中连接所述首端子节点的子节点;
49、所述查询模块,用于若检索出所述第一节点链路中存在所述首端子节点,不存在所述次首端子节点,则添加所述首端子实体至所述第二节点链路的首端子节点,创建第一子节点,并添加所述次首端子实体至所述第一子节点,所述第一子节点连接所述首端子节点。
50、可选的,所述处理模块,用于从所述节点树中查询目标实体的多个目标逆向节点链路,所述目标实体为多个所述第二实体中的任意一个第二实体,所述目标逆向节点链路的首端子节点的内容为所述目标实体,末端子节点为所述根节点;
51、所述处理模块,用于判断各个所述目标逆向节点链路是否包含所述目标对象对应的节点实体;
52、所述处理模块,用于对各个包含所述目标对象对应的节点实体的目标逆向节点链路进行节点拆分,得到多个目标节点实体;
53、所述查询模块,用于从多个所述目标节点实体中,筛选出实体数量大于所述预设频次阈值的第一节点实体,所述实体数量为多个所述目标节点实体中所述第一节点实体的出现数量之和。
54、可选的,所述处理模块,用于计算任意一个所述第一实体的第一哈希值;
55、所述查询模块,用于在预设哈希表中,查询是否包含所述第一哈希值;
56、所述处理模块,用于若确定所述预设哈希表中不包含所述第一哈希值,则写入所述第一哈希值至所述预设哈希表,并对所述第一哈希值的频率计数加一;
57、所述识别模块,用于若确定所述预设哈希表中包含所述第一哈希值,则对第二哈希值的频率计数加一,所述第二哈希值为所述预设哈希表中包含的多个哈希值中与所述第一哈希值相同的哈希值。
58、可选的,所述识别模块,用于基于各个所述第二实体,确定多个实体组,所述实体组为多个所述第一节点实体的组合;
59、所述处理模块,用于确定多个所述实体组中,第一实体组的第一数量,所述第一实体组包括所述目标对象对应的目标节点实体;
60、所述识别模块,用于确定多个所述实体组中,多个所述实体组的第二数量;
61、所述处理模块,用于若确定所述第一实体组的出现概率大于预设概率阈值,则根据第二节点实体的语义分析所述目标对象的新闻,所述出现概率为所述第一数量和所述第二数量的商值,所述第二节点实体为所述第一实体组中除所述目标节点实体外的第一节点实体。
62、在本技术的第三方面提供了一种电子设备,包括处理器、存储器、用户接口以及网络接口,所述存储器用于存储指令,所述用户接口和所述网络接口均用于与其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项所述的方法。
63、在本技术的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如上述任意一项所述的方法。
64、综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
65、对目标媒体数据进行分词处理和频次分析,这个首先从大量目标媒体数据中快速筛选出与目标对象相关的新闻事件(第一实体)。而根据出现频次筛选出第二实体,能够得到新闻报道较为频繁的事件。接着,通过构建节点树并探索逆向节点链路并筛选节点实体,能系统地组织和关联这些第二实体,进一步揭示不同新闻事件之间的联系。这种组织数据的方式不仅减少了需要人工分析的数据量,还提供了一种直观的方法来理解和解释复杂的数据关系。最终,将节点实体组合成实体组,并对这些组进行分析,能够生成关于目标对象新闻的深入洞察。总的来说,通过自动化的数据处理和智能的信息组织,大幅提升了处理效率和分析深度,使其非常适合用于大规模的新闻数据分析。
1.企业用户的新闻分析处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,在所述根据多个所述第二实体构建节点树之前,所述方法还包括:
3.根据权利要求2所述的企业用户的新闻分析处理方法,其特征在于,所述根据多个所述第二实体构建节点树,具体包括:
4.根据权利要求3所述的企业用户的新闻分析处理方法,其特征在于,所述方法还包括:
5.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,所述基于所述节点树中查询各个所述第二实体的逆向节点链路,并确定所述逆向节点链路中实体数量大于所述预设频次阈值的节点实体,具体包括:
6.根据权利要求1所述的企业用户的新闻分析处理方法,其特征在于,在所述从多个所述第一实体中筛选出第二实体之前,所述方法还包括:
7.根据权利要求5所述的企业用户的新闻分析处理方法,其特征在于,所述对多个所述节点实体进行组合得到实体组,以便于通过所述实体组分析所述目标对象的新闻,具体包括:
8.企业用户的新闻分析处理装置,其特征在于,包括识别模块(601)、筛选模块(602)、构建模块(603)、查询模块(604)以及处理模块(605),其中:
9.一种电子设备,其特征在于,包括处理器(701)、存储器(705)、用户接口(703)以及网络接口(704),所述存储器(705)用于存储指令,所述用户接口(703)和所述网络接口(704)均用于与其他设备通信,所述处理器(701)用于执行所述存储器(705)中存储的指令,以使所述电子设备执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法。
