本发明属于格式转换,尤其涉及一种文档转换方法与系统。
背景技术:
1、html格式文档,又称超文本标记语言——hypertext markup language(html)。html不是一门编程语言,而是一种用于定义内容结构的标记语言。html由一系列的元素组成,这些元素可以用来包围不同部分的内容,使其以某种方式呈现或者工作。一对标签可以为一段文字或者一张图片添加超链接,将文字设置为斜体,改变字号,等等。
2、各种不同的文档格式,如word、excel、ppt等,在线阅读和跨平台访问这些文档时,可能面临兼容性问题。因此,将文档转换为通用的html格式进行预览是一种有效的方式。
3、在翻译场合尤其是如此,不同语种的书面表现形式的文本格式不同,在不同系统上展现的差异很大。如果要在不同平台的系统上进行翻译结果校对与预览,就面临文档格式的转换问题。
4、现有技术已经存在通用的格式转换工具和库可以实现文档到html的转换,同时保留文档的基本结构和样式。然而,在某些情况下,由于格式差异、编码问题或转换过程中的限制,源文件与目标文件之间的文本可能会出现不完全匹配的问题。这使得用户在后续处理过程中无法方便、准确地定位原始文档和html中相应的文本区域,降低了工作效率;此外,由于非开放式平台与开放式平台的系统差异,某些通用的格式转换工具和库可能无法正常调用和响应转换需求。
技术实现思路
1、为解决上述技术问题,本发明提出一种文档转换方法与系统、电子设备与计算机可读存储介质。
2、在本发明的第一个方面,提出一种文档转换方法。
3、具体执行时,所述文档转换方法应用于第一客户端,所述第一客户端与至少一个第二客户端和至少一个第三客户端进行通信连接,所述方法包括如下步骤:
4、步骤一:使用文档解析库读取文档内容,识别文档段落;
5、步骤二:给文档中的段落进行编号,拿到段落文本内容,存储为数据结构;
6、步骤三:确定所述文档的目的客户端,所述目的客户端为所述第二客户端和/或第三客户端;
7、步骤四:基于所述目的客户端,在所述第一客户端执行文档转换,或者,在所述第二客户端和/或第三客户端执行文档转换。
8、第三客户端具有不同类型的操作系统,所述不同类型的操作系统包括开放式操作系统和非开放式操作系统。
9、具体的,所述第一客户端具有非x86架构的操作系统,所述第二客户端和所述第三客户端具有x86架构的操作系统;
10、或者,
11、所述第一客户端具有x86架构的操作系统,所述第二客户端和所述第三客户端具有非x86架构的操作系统。
12、所述步骤二具体包括:使用文档解析库修改段落文本内容,增加标记文本,标记文本中包含段落编号;
13、所述标记文本包含开始标记和结束标记,在开始标记和结束标记之间的内容为文档原始内容。
14、所述步骤四具体包括:
15、若所述第一客户端具有x86架构的操作系统,则使用所述第一客户端调用文档转换库读取步骤二所述的数据结构,将文档转换为html格式后,发送至所述目的客户端。
16、所述步骤四具体包括:
17、若所述第二客户端或者第三客户端具有x86架构的操作系统,则将所述数据结构发送至所述第二客户端或者第三客户端;
18、所述第二客户端或者第三客户端调用文档转换库接收数据结构,将文档转换为html格式。
19、进一步的,在所述步骤四之后,所述方法还包括:
20、步骤五:解析html/识别标记,使用html解析库读取html内容结构;
21、步骤六:使用html解析库将标记转换为html中的结构;
22、步骤七:通过生成的html文档,进行预览操作。
23、在一个具体应用中,在所述步骤二中,对所述段落文本内容执行翻译,得到翻译结果,将所述翻译结果和所述段落文本内容关联存储为所述数据结构。
24、在本发明的第二个方面,还提出一种文档转换系统,文档转换系统包括通过分布式数据总线通信连接的第一客户端、第二客户端以及第三客户端;
25、所述第一客户端包括:
26、文档段落识别单元:使用文档解析库读取文档内容,识别文档段落;
27、段落存储单元:给文档中的段落进行编号,拿到段落文本内容,对所述段落文本内容执行翻译,得到翻译结果,将所述翻译结果和所述段落文本内容关联存储为数据结构;
28、目的客户端确定单元:确定所述文档的目的客户端,所述目的客户端为所述第二客户端和/或第三客户端;
29、文档转换单元:基于所述目的客户端,在所述第一客户端执行文档转换,或者,在所述第二客户端和/或第三客户端执行文档转换;
30、所述第一客户端具有非x86架构的操作系统,所述第二客户端和所述第三客户端具有x86架构的操作系统;
31、或者,
32、所述第一客户端具有x86架构的操作系统,所述第二客户端和所述第三客户端具有非x86架构的操作系统。
33、本发明的上述方法可以通过计算机程序通过电子设备自动化执行,计算机程序存储于计算机可读存储介质,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行第一个方面所述的一种文档转换方法的步骤。
34、本发明提出的文档转换方法,首先使用文档解析库读取文档内容,识别文档段落,再给文档中的段落进行编号,拿到段落文本内容,存储为数据结构后,确定所述文档的目的客户端,所述目的客户端为所述第二客户端和/或第三客户端;基于所述目的客户端,在所述第一客户端执行文档转换,或者,在所述第二客户端和/或第三客户端执行文档转换,整个过程可以屏蔽不同平台系统的差异,使得转换过程顺利进行。
35、本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
1.一种文档转换方法,所述文档转换方法应用于第一客户端,所述第一客户端与至少一个第二客户端和至少一个第三客户端进行通信连接,其特征在于,所述方法包括如下步骤:
2.如权利要求1所述的一种文档转换方法,其特征在于,所述第一客户端、第二客户端、第三客户端具有不同类型的操作系统,所述不同类型的操作系统包括开放式操作系统和非开放式操作系统。
3.如权利要求1所述的一种文档转换方法,其特征在于,
4.如权利要求1所述的一种文档转换方法,其特征在于,
5.如权利要求1所述的一种文档转换方法,其特征在于,
6.如权利要求1所述的一种文档转换方法,其特征在于,
7.如权利要求5或6所述的一种文档转换方法,其特征在于,
8.如权利要求5或6所述的一种文档转换方法,其特征在于,
9.一种文档转换系统,文档转换系统包括通过分布式数据总线通信连接的第一客户端、第二客户端以及第三客户端;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至8中任一项所述的一种文档转换方法的步骤。