本发明涉及文件生成方法,具体涉及基于关键字词智能搜索汇总的文件生成方法及其系统。
背景技术:
1、随着技术的不断发展,现在的行业发展都会涉及到2个以上的跨行业领域,以从多个领域综合发展,但对于从业者而言,其主要的专业大多是主行业,在面临业务需求需要涉及到跨行业时,就难以像对应行业内的专业人士一样获取精准的专业信息。而在当今信息化时代,各种技术文档和资料的数量激增。对于需要跨行业的非专业人士来说,要在大量文档资料中筛选出有用的信息,需要花费大量的时间和精力。特别是在涉及多个领域和技术的项目中,对专业知识的查找和了解将消耗更多的时间。并且若对相关技术不够了解,就很难准确地进行有效收集,并进行问题分析总结、制定解决方案,进而影响整个项目的进展和质量。因此,如何快速、准确地获取和整理技术文档资料,以便更好地理解和应用相关技术,成为了需要跨行业了解专业信息的一大挑战。
2、尽管现有技术中,有各种搜索引擎和在线文档管理工具可用,但在实际应用中,针对具体的问题和专业知识,其检索的准确性和数据量之间往往存在矛盾。即使现有的一些文档生成,如通过chatgpt算法进行自然语言处理,只能在语言描述上将各个片段知识串联起来,但是其生成语义逻辑可能已经改变了原意,更重要的是,为了语言表达连贯,所串起来的片段知识不一定都是正确的,导致现有的文档生成不够精准高效甚至出现错误信息。
3、一方面,为了确保检索的全面性,需要涵盖尽可能多的数据和信息源。这样做的目的是避免遗漏重要内容,但同时也导致了检索结果数据量庞大,难以快速筛选出真正需要的资料。另一方面,如果过于追求检索的准确性,可能需要在特定领域或范围内进行深度挖掘,这又可能导致耗费时间过长,而效率较低,影响结果的全面性和多样性。此外,一些需要特定格式的文档,除了需要将有用信息进行汇总外,还需要将对应的内容填写到对应的文档表格中,工作量较大,并非是现在的自然语言处理能力能够完成的。而面对这种机械性且重复性的信息收集整理工作,同时又需要带一些智能地对所接收信息进行概括和总结,这样的工作要求准确度和速度兼顾,现有的文档生成方式难以达到需求。
4、由此,亟需构建一套基于关键字词智能搜索汇总的文件生成方法及其系统。
技术实现思路
1、本发明意在提供基于关键字词智能搜索汇总的文件生成方法及其系统,通过对检索信息中关键字词的精准划分定位,提高文档检索效率,并根据划分的关键字词对文档内容进行快速全面的查找,能够精准定位到文档的具体段落位置,并将源文件地址与段落项进行映射,便于用户通过段落项快速获知文档内容,且能够直接查看源文件,提高信息检索效率,保证精准性和全面性,利于用户在获知文档内容后快速形成文稿。
2、为达到上述目的,本发明采用如下技术方案,基于关键字词智能搜索汇总的文件生成方法,包括以下步骤:
3、步骤1,输入检索信息;对检索信息进行关键字词提取,对关键字词划分得到主体词和描述词;根据主体词和描述词确定检索信息的技术领域信息和主题范围信息;并根据关键字词得到扩展词;所述扩展词包括主体词扩展词和描述词扩展词;
4、步骤2,根据关键字词和扩展词搜索文件资料,并建立文件资料库;文件资料库包括检索线上文库得到的检索文件,和检索本地文档资料得到的本地文件;
5、步骤3,对文件资料库中的文件资料进行真实性判断,筛选出真实值在85%以上的文件资料,形成检索要素库;
6、步骤4,根据关键字词和扩展词对检索要素库中的文件资料进行检索,筛选出各文档资料中包含关键字词或扩展词的段落内容,形成筛选段落项,并将筛选段落项与源文件地址形成映射;按照设定的输出模式将筛选段落项输出备用;
7、步骤5,从形成的筛选段落项中,选出需要的模版段落项,汇总形成文稿样板,对文稿样板进行编辑,形成总结文稿;并计算出文稿样板中每项模版段落项的主题关联度系数,根据主题关联度系数生成结果分析项。
8、本方案还提供一种基于关键字词智能搜索汇总的文件生成系统,应用于上述文件生成方法中,包括输入单元、处理单元、检索单元、分析单元、提取单元、输出单元、编辑单元;
9、输入单元用于用户通过交互终端输入检索信息,并将检索信息传输至处理单元;
10、处理单元用于对检索信息进行语义分析,并提取出关键字词;对关键字词进行划分,得到主体词和描述词;并根据主体词和描述词得到对应的扩展词;
11、检索单元用于根据关键字词按照检索需求分别对线上文库和本地文库进行检索,形成文件资料库;
12、分析单元用于对文件资料库中的文件资料进行真实性判断分析,筛选出真实值在85%以上的文件资料,形成检索要素库;
13、提取单元用于根据关键字词和扩展词对检索要素库中的文件资料进行检索,筛选出各文档资料中包含关键字词或扩展词的段落内容,形成筛选段落项,并将筛选段落项与源文件地址形成映射;按照设定的模式将筛选段落项传输至输出单元;
14、输出单元用于将筛选段落项以段落为单位按照设定的输出模式排序输出,供查看选择得到模版段落项,并汇总形成文稿样板;
15、编辑单元用于对形成的文稿样板按照需求进行调整和修改,形成总结文稿。
16、本方案的原理及优点是:
17、在现有的文档信息处理系统中,由于文档内容多而杂,为提高文档处理效率,就难以保证文档处理内容的准确性。导致在实际应用中,难以达到快速、准确地获取和整理文档资料的效果。而对于非专业人员,对相关技术不够了解,就更难从众多技术文档中准确的分析问题,并具有针对性的提出更佳的解决方案,由此在形成方案内容、报告等文稿过程中工作量大,耗时长,且文稿质量低。而为了保证准确性,又不可避免的会出现处理数据量大,处理时间长等问题,影响文档处理效率。
18、由此本方案根据检索信息,进行关键字词提取,并将关键字词进行划分,形成主体词和描述词,根据主体词和描述词得到技术领域和主题范围,根据技术领域和主题范围可缩小文件检索范围,建立关联性更高的文件资料库,缩小后续检索范围,并根据关键字词和扩展词快速获取相应的文件资料,保证检索全面性的同时提高检索效率,以此降低工作量。同时对整篇文档进行段落项内容提取,保证文档内容的逻辑准确性,避免片段式内容堆叠,确保文档资料与需求原意相符,提高检索的精准度和有效性。
19、同时,在建立了关联度较高的文件资料库后,即使有了初步的筛选,但也很难保证检索结果的准确性。这是因为在大量的检索文档中,我们忽略了文档真实性的问题,在面对非专业人员时,其文档真实性的判定更加困难,对不正确的文档内容,其检索结果即使在精准也会导致错误的结果,从而影响最终的分析和判断。因此,本方案在获得文件资料库后,可根据获得的文档信息、段落信息综合进行真实性判断,避免对片段式语言无法进行真实性判定的问题,以保证文件资料的真实性和准确度。
20、其次,在获取有效的筛选段落项后,将筛选段落项与源文件进行映射输出,便于用户快速浏览筛选内容,并能直接通过段落项查看对应源文件,提高文件查找效率,且能够直接通过段落项大致快速了解源文件记载内容,使检索的文件信息更清楚明了,操作更方便快捷。最后从筛选的筛选段落项中选出需要的模版段落项,快速形成主题关联度高且文档格式符合的文稿样板,实现高效、全面、精准、有效的文档生成方式,且还可根据形成的文稿按照需求进行编辑,形成最终的文档主题信息,根据主题信息可直观快速的了解文档实际核心内容,从而根据文档得到有效的分析结果,利于决策分析。
1.基于关键字词智能搜索汇总的文件生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:在步骤1中,所述主体词扩展词为与主体词语义相似度在70%以上的相似词;所述描述词扩展词为与描述词语义相似度在85%以上的相似词。
3.根据权利要求1所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:在步骤3中,对文件资料库中的文档根据文档属性、文档内容、文档签名内容进行真实性判定;按照文档属性权重30%-40%,文档内容权重30%-40%,文档签名权重10%-20%输出文档真实值。
4.根据权利要求1所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:在步骤4中,输出模式包括以下方式,
5.根据权利要求1所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:在步骤5中,主题关联度系数为分别计算主体词关联度和描述词关联度;并分别取主体词关联度权重系数60%-80%,和描述词关联度权重系数20%-40%,综合计算得到该段落的主题关联度系数。
6.根据权利要求5所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:所述主体词关联度为根据主体词词频值和主体词扩展词词频值计算,并分别取主体词词频值权重系数50%-70%,主体词扩展词词频值权重系数30%-50%计算出主体词关联度;所述描述词关联度为根据描述词词频值和描述词扩展词词频值计算,并分别取描述词词频值权重系数50%-70%,描述词扩展词词频值权重系数30%-50%计算出描述词关联度。
7.根据权利要求6所述的基于关键字词智能搜索汇总的文件生成方法,其特征在于:在步骤5中,还包括统计该文稿中各段落主题关联度系数值在总文稿中的占比,将占比值超过30%-50%的段落项进行标记,根据段落项形成对应的论点要素;计算论点要素的权重值,将权重值大于平均值的论点要素作为主要项生成结果分析项。
8.基于关键字词智能搜索汇总的文件生成系统,其特征在于:应用于上述权利要求1-7中任一所述的基于关键字词智能搜索汇总的文件生成方法,包括输入单元、处理单元、检索单元、分析单元、提取单元、输出单元、编辑单元;
9.根据权利要求8所述的基于关键字词智能搜索汇总的文件生成系统,其特征在于:处理单元还用于根据主体词和描述词得到检索信息对应的技术领域信息和主题范围信息。
10.根据权利要求9所述的基于关键字词智能搜索汇总的文件生成系统,其特征在于:检索单元包括线上检索模块和本地检索模块;线上检索模块用于根据技术领域信息、主题范围信息和关键字词的关联度值对在线文库中的文件资料进行检索,并筛选出关联度值在65%以上的文档资料,形成检索文件;本地检索模块用于根据技术领域信息、主题范围信息和关键字词的关联度值对本地文库中的文档资料进行检索,并筛选出关联度值在65%以上的文档资料,形成本地文件。
