本发明涉及数据处理
技术领域:
:,具体涉及一种基于python的专利诉讼信息检索方法、系统与设备。
背景技术:
::专利信息是人类智慧的结晶。技术研发、专利分析与布局、专利运营、专利价值评估、专利侵权纠纷等方面都需要专利信息与诉讼、无效、复审信息的联动检索。官方的专利信息平台、诉讼文书平台、无效复审文书平台缺乏自身信息的深度挖掘和相互间的关联检索,分析能力有限。而专利的商业数据库偏重于专利信息和无效复审信息分析,对于专利诉讼的分析不足,更缺乏相互间的关联检索。商业的诉讼案例数据库,偏重于诉讼信息,相关的专利诉讼裁判文书、无效复审文书不齐全,缺乏与专利信息的关联检索,无法分析专利本身的性质与专利诉讼案件之间的关联。为了实现专利信息与诉讼信息的联动,使专利从业人员能够全面了解专利状况,更加综合的评判专利的价值,特别是诉讼价值。因此,亟需一种能够实现专利信息和诉讼信息的交叉检索的技术方案。技术实现要素:针对现有技术中存在的缺陷,本发明的目的在于提供一种基于python的专利诉讼信息检索方法、系统与设备,实现专利信息与诉讼信息的联动,使专利从业人员能够全面了解专利状况。为达到以上目的,本发明采取的技术方案是:一种基于python的专利诉讼信息检索方法,包括以下步骤:在本地或云服务器中创建诉讼信息数据库,在专利数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;通过图表控件以图形化的方式展示检索结果。在上述技术方案的基础上,接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理,具体包括以下步骤:通过python脚本根据预设的提取策略,从包含诉讼信息的文本中提取关键词对应的关键词字段;判断关键词字段中是否包含预设字符,若包含,判定关键词字段对应的结果字段;根据预设的处理策略,将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器,或对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储在所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。在上述技术方案的基础上,所述预设的提取策略包括:判断用户输入的包含诉讼信息的文本是否包含预设的关键词,若包含,则提取关键词后面的字段作为关键词字段;所述预设的关键词包括案件标题、专利公开(公告)号、审判长、案件地区、立案日、判决日、文书类型、诉讼审级、原告信息、被告信息、代理人、律师。在上述技术方案的基础上,所述判断关键词字段中是否包含预设字符,判定关键词字段对应的结果字段,具体包括以下步骤:判断原告或被告关键词字段中是否有“法定代表人”字符,若否,则判定身份为个人;若是,判断原告或被告关键词字段中是否有“公司”字符,若是,则判定身份为公司,若否,则判定身份为学校或研究机构;判断地址关键词字段中是否包含我国行政区划的关键词,若包含,根据预设的我国行政区划信息判定当事人所处的省份。在上述技术方案的基础上,所述对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储,具体包括以下步骤:提取出关键词字段“判决日”和“立案日”;根据审判周期=判决日-立案日,计算出获得审判周期的天数。在上述技术方案的基础上,将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中,具体包括以下步骤:读取处理结果,获取与关键词关联的诉讼信息字段,输出到python的list对象中;将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表。在上述技术方案的基础上,读取处理结果,获取与关键词关联的诉讼信息字段,输出到python的list对象中,具体包括以下步骤:读取包含与关键词关联的诉讼信息字段的csv文件,以及文件路径参数、dialect参数和fmtparams参数;通过csv.reader()函数单独读取csv文件第一行作为python的list对象的表头;通过csv.reader()函数从csv文件第二行开始遍历,直到读取完整个csv文件;将输出的诉讼信息字段保存到list对象中。在上述技术方案的基础上,将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表,具体包括以下步骤:调用pymssql.connect()方法,将用户端口、用户名和密码信息传入,得到一个连接对象;调用connectcursor方法创建数据库游标对象;调用connectexecute()方法执行sql语句,通过cursorfetch()方法获取查询到的list对象;调用insert命令将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。本发明还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现所述的方法。本发明还提供一种基于python的专利诉讼信息检索系统,包括:数据库构建模块,其用于:在本地或云服务器中创建诉讼信息数据库,在专利数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;数据提取模块,其用于:接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;数据写入模块,其用于:将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;数据检索模块,其用于:接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;数据处理模块,其用于:通过图表控件以图形化的方式展示检索结果。与现有技术相比,本发明的优点在于:本申请通过在本地或云服务器中创建诉讼信息数据库,接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略对关键词字段进行提取及处理;将处理结果作为与关键词关联的诉讼信息字段,插入诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;接收用户通过客户端输入需要检索的关键词,从诉讼信息数据库中获取与关键词关联的诉讼信息字段作为检索结果;最后通过图表控件以图形化的方式展示检索结果,从而实现专利信息与诉讼信息的联动,使专利从业人员能够全面了解专利状况,更加综合的评判专利的价值,特别是诉讼价值。附图说明图1为本发明实施例的基于python的专利诉讼信息检索方法的流程示意图;图2为本发明实施例的云数据库的安装和设置的流程示意图;图3为本发明实施例的诉讼信息数据库的基本结构示意图;图4为本发明实施例的当事人身份的判断逻辑过程示意图;图5为本发明实施例的当事人身份的判断的部分相关代码示意图;图6为本发明实施例的行政区划的关键词通过查表获得的部分相关代码示意图;图7为本发明实施例的基于python的专利诉讼信息检索方法的数据存储的流程示意图;图8为本发明实施例的基于python的专利诉讼信息检索方法的pymssql模块的工作过程的流程示意图。具体实施方式以下结合附图对本发明的实施例作进一步详细说明。参见图1所示,本发明实施例提供一种基于python的专利诉讼信息检索方法,包括以下步骤:s1、在本地或云服务器中创建诉讼信息数据库,在诉讼信息数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;s2、接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;s3、将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;s4、接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;s5、通过图表控件以图形化的方式展示检索结果。具体的说,本发明实施例的专利信息和诉讼信息的交叉检索方法,包括以下步骤:为了便于用户在公网访问,数据存储优选为华为云关系型数据库sqlserver基础型。它具有完善的性能监控体系和多重安全防护措施,同时提供了专业的数据库管理平台,用户能够在云中进行设置和扩展关系型数据库。(一)云数据库的安装和设置云数据库要与之前的程序相连接首先要经过一定的配置,如图2所示。其中在通过弹性公网ip连接rds实例时,需要为rds所在安全组配置相应的入方向规则。安全组的默认规则是在出方向上的数据报文全部放行,同一个安全组内的弹性云服务器和华为云关系型数据库实例可互相访问。安全组创建后,可以在安全组中定义各种访问规则,并将华为云关系型数据库实例加入该安全组,以受到这些访问规则的保护。默认情况下,一个租户可以创建500条安全组规则,为了避免增加首包延时,通常一个安全组内的安全组规则不超过50条。将设置修改为使用最小权限访问,并及时修改数据库默认端口号(3306),同时将可访问ip地址设置为远程主机地址或远程主机所在的最小子网地址,限制远程主机的访问范围。通过公网连接sqlserver实例的具体步骤如下:1)下载并上传ssl根证书下载根证书或捆绑包,并将根证书上传至需要连接sqlserver实例的弹性云服务器,然后将根证书导入弹性云服务器windows操作系统。2)启动客户端客户端需要填写服务器名称、主机ip、登录名、密码,其中,“服务器名称”是目标实例的主机ip和数据库端口,主机ip为已绑定的弹性公网ip地址。端口为“基本信息”页签中,“连接信息”模块的“数据库端口”。同时启用加密。(二)数据库的设计数据库的设计可以使用云关系型数据库的客户端进行。在数据库中创建专利诉讼信息表、专利信息数据表和专利无效和复审数据表,其字段的创建和命名规则遵从数据库的通常标准,在表1~3中截取了部分字段作为示例。y表示是主键,n则表示非主键。表1专利信息数据表的部分字段表2专利无效和复审数据表的部分字段表3专利诉讼数据表的部分字段由于三个表中的专利公开号是具有关联性的,专利无效和复审数据表和专利诉讼数据表中的decinum字段也是具有关联性的,三张表可通过外键相关联。除了上述表单外,还需要创建关于用户信息和会话信息的表单,用户信息表用于储存用户名、密码等用户信息,如表4所示;而会话信息则用于储存用户与页面交互的信息,如表5所示,两张表中的用户名是具有关联性的,可通过外键相互关联。表4用户信息表的部分字段表5会话信息表的部分字段用户信息数据的导入和其它三张表一样,同样依靠管理用户创建的list导入,而会话信息则由用互与页面交互的信息生成,最终数据库的整体结构如图3所示。(三)提取数据并处理通常从网上直接获取的裁判文书的格式是html,排列也很零乱,不符合数据管理的要求,需要对其进行提取并处理后才符合写入数据库的要求。作为优选的实施方式,所述预设的提取策略包括:判断用户输入的包含诉讼信息的文本是否包含预设的关键词,若包含,则提取关键词后面的字段作为关键词字段;所述预设的关键词包括案件标题、专利公开(公告)号、审判长、案件地区、立案日、判决日、文书类型、诉讼审级、原告信息、被告信息、代理人、律师。网页上某些关键词的字段撰写是相对规范的,只需简单处理即可以作为数据表格的诉讼信息字段存储,例如“ifp新能源公司与国家知识产权局专利复审委员会其他二审行政判决书”为“案件标题”关键词的字段值,涉案专利后的cn101283074a为“专利公开(公告)号”关键词的字段值,审判长、案件地区、立案日、判决日、文书类型、诉讼审级后的值也均可直接引用。网页上某些关键词的字段需要经过简单处理后进行判定。例如,在原网页的下方,“(2019)京行终351号,北京市高级人民法院”载明了案号和法院,其中逗号“,”前是案号,逗号“,”后是法院。案件当事人和“代理人/律师”关键词的字段加工则更为复杂。案件当事人即在“原告”和“被告”下显示的关键词字段(如果是专利无效的行政诉讼,第三人也属于案件当事人),以“原告信息”关键词为例,需要从下面提取原告的名称,原告的身份,原告的城市,原告的省份,原告的代理人,以及原告的代理律所。例如,在“原告”关键词下,“东莞欧森隆科技发展有限公司”表示原告的名称,“广东省东莞市塘厦镇科苑城田沙路6号龙迪产业园a栋一至六楼”表示原告的地址,“法定代表人:王华”表示法定代表人信息;在“代理人/律师”关键词下,“刘硕”和“陈晓晗”分别代表两位代理人,代理人后面跟的字符“律师,湖北百思特律师事务所”表示代理人的身份和单位。其中大部分的信息根据其相对位置和“,”都可辨认出。但还需要对当事人的身份做出进一步加工,获得原告的具体身份(个人、公司、学校和研究所三类)以及当事人所处的城市和省份。作为优选的实施方式,所述逻辑判断单元判断关键词字段中是否包含预设字符,判定关键词字段对应的结果字段,具体包括以下步骤:判断原告或被告关键词字段中是否有“法定代表人”字符,若否,则判定身份为个人;若是,判断原告或被告关键词字段中是否有“公司”字符,若是,则判定身份为公司,若否,则判定身份为学校或研究机构;判断地址关键词字段中是否包含我国行政区划的关键词,若包含,根据预设的我国行政区划信息判定当事人所处的省份。当事人身份的判断逻辑过程如图4所示,部分相关代码如图5所示。若“当事人”关键词字段中有“法定代表人”字符,名称中又有“公司”,可以判断出其身份为组织中的公司。通过原告的地址是否含有我国行政区划的关键词,可以判断出当事人所处的省份。行政区划的关键词通过查表获得,如表6~表10示例。例如原告的地址包含关键字“武汉”,最终表格中输出的“原告省份”字段对应的值就是湖北。部分相关代码如图6所示。表6行政区划参考列表表7行政区划参考列表表8行政区划参考列表表9行政区划参考列表表10行政区划参考列表例如,原告地址为“广东省东莞市塘厦镇科苑城田沙路6号龙迪产业园a栋一至六楼”,含有关键字“广东”和“东莞”,可以判断出,原告是属于广东省东莞市的。立案日期往往也需要进行分析处理,判决书全文中往往会以“本院于20**年*月*日受理”或“本院于20**年*月*日立案”来记载立案日,例如,本案的立案日期为2019年12月30日。作为优选的实施方式,所述信息处理单元对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储,具体包括以下步骤:提取出关键词字段“判决日”和“立案日”;根据审判周期=判决日-立案日,计算出获得审判周期的天数。经过上述加工处理后,信息最终以csv表格的形式,储存在开发环境中,以供领域专家进行检视。作为优选的实施方式,所述csv表格包括专利诉讼信息表、专利信息数据表和专利无效和复审数据表中的一种或多种。获得的专利诉讼信息表如表11所示。表11专利诉讼信息表除专利诉讼信息表以外,还需要获得专利信息数据表(如表12所示,其中涉及专利具体内容的部分由于过于冗长我们进行了省略)和专利无效和复审数据表(如表13所示),其获取的步骤与专利诉讼信息表类似,在此不再赘述。表12专利信息数据表表13专利无效和复审数据表(四)数据写入数据库虽然直接用云关系型数据库的客户端也可以导入数据,但有些字段在前面是需要经过python加工的,所以直接使用python语言完成数据的存储功能,其中需要先用csv模块转换为python的list对象,再用pymssql模块写入数据库,如图7所示。(1)读取csv表格csv表格需要先经过csv模块读取才能导入数据库。python的csv模块实现了读写csv表格格式文件的一些类,可以让编写的程序以一种更容易被数据库处理的格式来输出或者输入数据,而不必纠结于csv表格的一些麻烦的小细节。而且使用csv模块可以自由地定制想要的csv格式文件。在数据读取操作中使用的是csv.reader()函数,这个函数需要用到三个参数:第一个是文件路径;第二个是dialect参数,即操作csv文件的规范,可选的参数有三个,分别是excel,excel-tab和unix;第三个是fmtparams参数,包括用于指定分隔符的delimiter、用于指定引用符的quotechar、用于指定引用模式的quoting等。当输入了相应的量后,返回结果是一个_csv.reader的对象。由于字段名称在csv表格的第一行,首先要单独读取第一行作为表头。然后再从第二行开始遍历,直到读取完成整个csv文件,最终输出保存到list对象中。(2)写入数据库python默认的数据库是sqllite,如果要读写sqlsever数据库的数据则需要使用到pymssql模块。pymssql是一个python的数据库接口,基于freetds构建,对_mssql模块进行了封装,遵循python的dbapi规范,其工作过程如图8所示。通过调用pymssql.connect()方法,将记录的端口、用户名和密码信息传入,得到一个连接对象,再使用该对象的cursor方法得到数据库游标对象,再用游标对象的execute方法,即可执行sql语句。用insert命令将数据插入数据库中创立的表以及用户信息,即完成了数据的写入。该命令中会带有list与表的对应信息。如果后续需要根据管理人员的要求修改数据库,也可以使用该模块相应的用于数据修改和数据删除的操作命令。作为优选的实施方式,所述dialect参数包括excel、excel-tab和unix;所述fmtparams参数包括用于指定分隔符的delimiter、用于指定引用符的quotechar、用于指定引用模式的quoting。作为优选的实施方式,将list对象中的数据插入所述云服务器中专利诉讼信息表、专利信息数据表和专利无效和复审数据表,具体包括以下步骤:调用pymssql.connect()方法,将用户端口、用户名和密码信息传入,得到一个连接对象;调用connectcursor方法创建数据库游标对象;调用connectexecute()方法执行sql语句,通过cursorfetch()方法获取查询到的list对象;调用insert命令将list对象中的数据插入所述云服务器中专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。(五)数据检索用户在检索界面中选择不同的关键词主类别(属于专利相关或复审与无效相关或诉讼相关),再进一步选择子类别,以及不同关键词之间的关系是and还是or,然后点击关键词右边的输入框,输入所需的检索信息;其中,“全部字段”表示无视关键词类别进行模糊检索。专利相关的结果是以专利信息的形式进行展示,专利公告(公开)号是唯一的;复审与无效相关是以复审或无效决定的形式展示,决定号是唯一的;而诉讼相关的结果是以裁判文书的形式展示,案号是唯一的;如果检索时字段数量不足以限制检索结果,还可以进一步添加字段。输入关键词再“点击进入下一步后”,访问后端接口,该接口带有上一步骤随机生成的固定session值(如url=http://127.0.0.1/query?session=136fae90),后端接口返回html页面,该页面展示从专利信息数据表中查询获得的结果。(六)以图形化的方式展示检索结果在进行了数据检索后,用户点击“数据下载”则会将检索结果通过html内嵌的handsontable控件以表格形式导出,而“进入数据分析界面”能够根据用户的需求以图形化的方式展示检索结果,该功能通过html内嵌的echart等图表控件实现。作为优选的实施方式,接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理,具体包括以下步骤:通过python脚本根据预设的提取策略,从包含诉讼信息的文本中提取关键词对应的关键词字段;判断关键词字段中是否包含预设字符,若包含,判定关键词字段对应的结果字段;根据预设的处理策略,将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器,或对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储在所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。作为优选的实施方式,所述预设的提取策略包括:判断用户输入的包含诉讼信息的文本是否包含预设的关键词,若包含,则提取关键词后面的字段作为关键词字段;所述预设的关键词包括案件标题、专利公开(公告)号、审判长、案件地区、立案日、判决日、文书类型、诉讼审级、原告信息、被告信息、代理人、律师。作为优选的实施方式,所述判断关键词字段中是否包含预设字符,判定关键词字段对应的结果字段,具体包括以下步骤:判断原告或被告关键词字段中是否有“法定代表人”字符,若否,则判定身份为个人;若是,判断原告或被告关键词字段中是否有“公司”字符,若是,则判定身份为公司,若否,则判定身份为学校或研究机构;判断地址关键词字段中是否包含我国行政区划的关键词,若包含,根据预设的我国行政区划信息判定当事人所处的省份。作为优选的实施方式,所述对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储,具体包括以下步骤:提取出关键词字段“判决日”和“立案日”;根据审判周期=判决日-立案日,计算出获得审判周期的天数。作为优选的实施方式,将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中,具体包括以下步骤:读取处理结果,获取与关键词关联的诉讼信息字段,输出到list对象中;将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表。作为优选的实施方式,读取处理结果,获取与关键词关联的诉讼信息字段,输出到list对象中,具体包括以下步骤:读取包含与关键词关联的诉讼信息字段的csv文件,以及文件路径参数、dialect参数和fmtparams参数;通过csv.reader()函数单独读取csv文件第一行作为list对象的表头;通过csv.reader()函数从csv文件第二行开始遍历,直到读取完整个csv文件;将输出的诉讼信息字段保存到list对象中。作为优选的实施方式,将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表,具体包括以下步骤:调用pymssql.connect()方法,将用户端口、用户名和密码信息传入,得到一个连接对象;调用connectcursor方法创建数据库游标对象;调用connectexecute()方法执行sql语句,通过cursorfetch()方法获取查询到的list对象;调用insert命令将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。本发明实施例还提供一种基于python的专利诉讼信息检索系统,包括:数据库构建模块,其用于:在本地或云服务器中创建诉讼信息数据库,在专利数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;数据提取模块,其用于:接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;数据写入模块,其用于:将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;数据检索模块,其用于:接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;数据处理模块,其用于:通过图表控件以图形化的方式展示检索结果。基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现基于python的专利诉讼信息检索方法中的所有方法步骤或部分方法步骤。所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 当前第1页1 2 3 
技术特征:1.一种基于python的专利诉讼信息检索方法,其特征在于,包括以下步骤:
在本地或云服务器中创建诉讼信息数据库,在专利数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;
接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;
将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;
接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;
通过图表控件以图形化的方式展示检索结果。
2.如权利要求1所述的方法,其特征在于,接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理,具体包括以下步骤:
通过python脚本根据预设的提取策略,从包含诉讼信息的文本中提取关键词对应的关键词字段;
判断关键词字段中是否包含预设字符,若包含,判定关键词字段对应的结果字段;
根据预设的处理策略,将单个关键词字段或结果字段作为诉讼信息字段存储在本地或云服务器,或对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储在所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。
3.如权利要求2所述的方法,其特征在于,所述预设的提取策略包括:
判断用户输入的包含诉讼信息的文本是否包含预设的关键词,若包含,则提取关键词后面的字段作为关键词字段;
所述预设的关键词包括案件标题、专利公开(公告)号、审判长、案件地区、立案日、判决日、文书类型、诉讼审级、原告信息、被告信息、代理人、律师。
4.如权利要求2所述的方法,其特征在于,所述判断关键词字段中是否包含预设字符,判定关键词字段对应的结果字段,具体包括以下步骤:
判断原告或被告关键词字段中是否有“法定代表人”字符,若否,则判定身份为个人;若是,判断原告或被告关键词字段中是否有“公司”字符,若是,则判定身份为公司,若否,则判定身份为学校或研究机构;
判断地址关键词字段中是否包含我国行政区划的关键词,若包含,根据预设的我国行政区划信息判定当事人所处的省份。
5.如权利要求2所述的系统,其特征在于,所述对多个关键词字段结合处理,将处理结果作为诉讼信息字段存储,具体包括以下步骤:
提取出关键词字段“判决日”和“立案日”;
根据审判周期=判决日-立案日,计算出获得审判周期的天数。
6.如权利要求1所述的方法,其特征在于,将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中,具体包括以下步骤:
读取处理结果,获取与关键词关联的诉讼信息字段,输出到python的list对象中;
将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表。
7.如权利要求6所述的方法,其特征在于,读取处理结果,获取与关键词关联的诉讼信息字段,输出到python的list对象中,具体包括以下步骤:
读取包含与关键词关联的诉讼信息字段的csv文件,以及文件路径参数、dialect参数和fmtparams参数;
通过csv.reader()函数单独读取csv文件第一行作为python的list对象的表头;
通过csv.reader()函数从csv文件第二行开始遍历,直到读取完整个csv文件;
将输出的诉讼信息字段保存到list对象中。
8.如权利要求6所述的方法,其特征在于,将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表,具体包括以下步骤:
调用pymssql.connect()方法,将用户端口、用户名和密码信息传入,得到一个连接对象;
调用connectcursor方法创建数据库游标对象;
调用connectexecute()方法执行sql语句,通过cursorfetch()方法获取查询到的list对象;
调用insert命令将list对象中的数据插入所述专利数据库中专利诉讼信息表、专利信息数据表和专利无效和复审数据表中。
9.一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:处理器执行计算机程序时实现权利要求1至8任一项所述的方法。
10.一种基于python的专利诉讼信息检索系统,其特征在于,包括:
数据库构建模块,其用于:在本地或云服务器中创建诉讼信息数据库,在专利数据库中创建专利诉讼信息表、专利信息数据表和专利无效复审数据表;
数据提取模块,其用于:接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略,从包含专利信息或诉讼信息的文本中提取关键词对应的关键词字段;并根据预设的处理策略,对关键词字段进行处理;
数据写入模块,其用于:将处理结果作为与关键词关联的诉讼信息字段,插入所述诉讼信息数据库的专利诉讼信息表、专利信息数据表和专利无效和复审数据表中;
数据检索模块,其用于:接收用户通过客户端输入需要检索的关键词,从所述诉讼信息数据库中获取与所述关键词关联的诉讼信息字段作为检索结果;
数据处理模块,其用于:通过图表控件以图形化的方式展示检索结果。
技术总结本发明公开了一种基于Python的专利诉讼信息检索方法、系统与设备,涉及数据处理技术领域,本申请通过在本地或云服务器中创建诉讼信息数据库,接收用户输入的包含专利信息或诉讼信息的文本,根据预设的提取策略对关键词字段进行提取及处理;将处理结果作为与关键词关联的诉讼信息字段,插入诉讼信息数据库中;接收用户通过客户端输入需要检索的关键词,从诉讼信息数据库中获取与关键词关联的诉讼信息字段作为检索结果;最后通过图表控件以图形化的方式展示检索结果,从而实现专利信息与诉讼信息的联动,使专利从业人员能够全面了解专利状况,更加综合的评判专利的价值,特别是诉讼价值。
技术研发人员:何丹;黄庆凤
受保护的技术使用者:武汉华成知识产权代理服务有限责任公司
技术研发日:2020.11.27
技术公布日:2021.03.12