本发明涉及生物信息,尤其涉及一种肺心病相关基因和物种数据库的构建方法及其应用。
背景技术:
1、肺源性心脏病(简称肺心病)主要是由于支气管-肺组织或肺动脉血管病变所致肺动脉高压引起的心脏病,肺心病目前是一种较为普遍且死亡率较高的疾病(10%-15%)。脂多糖(lipopolysaccharides,lps)是内毒素的主要成分,来源于革兰氏阴性菌细胞壁的外膜,吸入一定浓度的上述物质后可引起或加重一系列临床病症,如哮喘、支气管肺炎等。lps能够引起支气管肺炎并最终可能发展成为肺心病。肠道菌群及其代谢产物与肺心病的发生发展密切相关,控制微生物衍生代谢产物的生产以改善人类健康是药物发现的一个重要领域。
2、然而,目前无法将不同细菌类群及其代谢产物与肺心病建立联系,尚不清楚哪些细菌类群或代谢产物在导致肺心病中起主导作用。一些基于16s rrna的常规方法也只能在物种层面对疾病进行关联分析,无法确定其代谢产物合成基因。以及,很多现有数据库(例如ncbi、kegg、cog、uniprot等)在人体微生物组与肺心病的分析中仍存在很多局限,例如基因代表性不足,计算量大,耗费时间长,缺乏相关的物种信息等。此外,基因的功能注释信息在现有数据库中不一致,甚至一些基因未反映在相关数据库中。同时,现有数据库中一些肺心病相关的基因未被准确呈现,这些数据库可能导致高假阳性的同源分配。
3、所以,亟需一种新型的肺心病相关基因和物种数据库的构建方法,以建立全面、精细的肺心病相关基因和物种数据库,辅助肺心病治疗研究。
技术实现思路
1、本发明提供一种肺心病相关基因和物种数据库的构建方法及其应用,用以解决现有技术无法建立全面、精细的肺心病相关基因和物种数据库的缺陷。
2、本发明提供一种肺心病相关基因和物种数据库的构建方法,包括:
3、从ncbi genbank数据库获取细菌参考基因组数据,并筛选组装水平符合预设组装要求的细菌参考基因组数据和来自人体肠道的细菌参考基因组数据,整理得到细菌参考基因组完成图和草图数据库;
4、获取lps参考基因序列数据,通过隐马尔可夫模型在细菌参考基因组完成图中对lps参考基因序列数据进行序列比对和搜索,构建lmgcd数据库(lipopolysaccharidemetabolic gene cluster database);
5、基于lmgcd数据库,得到带lps基因的细菌参考基因组数据,通过kraken2-build模块对带lps基因的细菌参考基因组数据进行训练,得到本地化的物种数据库;
6、从ncbi sra数据库下载健康者和肺心病患者的肠道菌群元基因组数据,所述肠道菌群元基因组数据包括携带有lps基因的物种数据,并通过lmgcd数据库和物种数据库对健康者和肺心病患者的肠道菌群元基因组数据进行分析健康者和肺心病患者在基因和物种上的差异,以验证肺心病与lps的相关性。
7、本发明主要针对contig-level(重叠群水平)的细菌参考基因组数据进行筛选,可以根据完整度和污染度设置预设组装要求,例如完整度≥99%且污染度<5%。
8、根据本发明提供的一种肺心病相关基因和物种数据库的构建方法,所述获取lps参考基因序列数据,通过隐马尔可夫模型在细菌参考基因组完成图中对lps参考基因序列数据进行序列比对和搜索,构建lmgcd数据库,具体为:
9、获取lps参考基因序列数据,通过隐马尔可夫模型根据e-value值(例如1e-5,e-value值越小,表示序列之间的相似性越高,比对结果越可靠)在细菌参考基因组完成图中对lps参考基因序列数据进行序列比对和搜索,构建lmgcd数据库。
10、根据本发明提供的一种肺心病相关基因和物种数据库的构建方法,所述通过lmgcd数据库和物种数据库对健康者和肺心病患者的肠道菌群元基因组数据进行分析健康者和肺心病患者在基因和物种上的差异,以验证肺心病与lps的相关性,包括:
11、根据健康者和肺心病患者的肠道菌群元基因组数据,得到元基因组组装基因组数据或分箱得到的物种级bins,基于lmgcd数据库,对元基因组组装基因组数据或分箱得到的物种级bins进行blast序列比对,并通过物种特异性相似度方法对blast序列比对结果进行筛选,得到物种特异性序列比对结果;
12、根据健康者和肺心病患者的肠道菌群元基因组数据,得到clean reads,基于lmgcd数据库,对clean reads进行序列比对,得到健康者和肺心病患者的肠道样本的基因相对丰度比对结果;
13、根据健康者和肺心病患者的肠道菌群元基因组数据,得到clean reads,基于物种数据库,对clean reads进行物种注释,得到健康者和肺心病患者的肠道样本中lps合成相关物种的丰度比对结果;
14、对物种特异性序列比对结果、基因相对丰度比对结果、lps合成相关物种的丰度比对结果进行排序、统计和整合,在微生物组和物种水平上比较分析健康者和肺心病患者在基因和物种上的差异,以验证肺心病与lps的相关性。
15、根据本发明提供的一种肺心病相关基因和物种数据库的构建方法,还包括:
16、从草图数据库获取已知物种的基因组草图,并利用其对lmgcd数据库进行blast序列比对,以验证lmgcd数据库的数据准确性。
17、根据本发明提供的一种肺心病相关基因和物种数据库的构建方法,所述从草图数据库获取已知物种的基因组草图,并利用其对lmgcd数据库进行blast序列比对,以验证lmgcd数据库的数据准确性,包括:
18、当利用已知物种的基因组草图对lmgcd数据库进行blast序列比对,比对结果表示能够从lmgcd数据库中查找到对应物种携带lps基因的细菌参考基因组数据时,表示lmgcd数据库的数据准确性为可接受。
19、根据本发明提供的一种肺心病相关基因和物种数据库的构建方法,所述细菌参考基因组完成图和草图数据库,为~160,000个细菌的细菌参考基因组完成图和草图数据库,所述lmgcd数据库为非冗余的lmgcd数据库。
20、本发明还提供一种肺心病相关基因和物种数据库的应用方法,包括:
21、获取待测者肠道样本的元基因组测序数据,其中,待测者为健康人群、罹患肺心病人群、或疑似罹患肺心病人群;
22、根据待测者肠道样本的元基因组测序数据,得到clean reads,将clean reads在与上述任一项所述的肺心病相关基因和物种数据库的构建方法构建的lmgcd数据库中进行序列比对,得到待测者肠道样本的基因相对丰度比对结果;
23、根据待测者肠道样本的元基因组测序数据,得到clean reads,基于上述任一项所述的肺心病相关基因和物种数据库的构建方法构建的物种数据库,对clean reads进行物种注释,得到待测者肠道样本中lps合成相关物种的丰度比对结果;
24、按照预设序列要求对序列比对结果进行过滤,并根据过滤后的序列比对结果,结合基因相对丰度比对结果和lps合成相关物种的丰度比对结果,得到待测者是否与由lps引起的肺心病相关的预测结果。
25、根据本发明提供的一种肺心病相关基因和物种数据库的应用方法,预设序列要求包括氨基酸序列要求、短片段序列要求和核苷酸序列要求,其中,
26、氨基酸序列要求为:氨基酸序列相似度为80%以上,覆盖度为90%以上;
27、短片段(reads)序列要求为:短片段序列相似度为95%以上,覆盖度为90%以上;
28、核苷酸序列要求为:将序列对比设为ssani阈值。
29、ssani阈值,species specific average nucleotide identity,即物种特异性核苷酸平均相似度,每个物种均具有特定的ssani阈值,该ssani阈值可以从ncbi数据库(https://ftp.ncbi.nlm.nih.gov/genomes/assembly_reports/)中下载得到的。
30、根据本发明提供的一种肺心病相关基因和物种数据库的应用方法,还包括:
31、根据待测者是否与由lps引起的肺心病相关的预测结果,将若干待测者分为健康组和疾病组;
32、对健康组和疾病组的肺心病相关基因进行差异分析。
33、根据本发明提供的一种肺心病相关基因和物种数据库的应用方法,还包括:
34、对物种注释结果进行合并处理,并进行物种差异分析。
35、本发明还提供一种肺心病相关基因和物种数据库的应用系统,包括:
36、数据获取模块,用于:获取待测者肠道样本的元基因组测序数据,其中,待测者为健康人群、罹患肺心病人群、或疑似罹患肺心病人群;
37、第一序列比对模块,用于:根据待测者肠道样本的元基因组测序数据,得到cleanreads,将clean reads在与上述任一项所述的肺心病相关基因和物种数据库的构建方法构建的lmgcd数据库中进行序列比对,得到待测者肠道样本的基因相对丰度比对结果;
38、第二序列比对模块,用于:根据待测者肠道样本的元基因组测序数据,得到cleanreads,基于上述任一项所述的肺心病相关基因和物种数据库的构建方法构建的物种数据库,对clean reads进行物种注释,得到待测者肠道样本中lps合成相关物种的丰度比对结果;
39、预测模块,用于:按照预设序列要求对序列比对结果进行过滤,并根据过滤后的序列比对结果得到待测者是否与由lps引起的肺心病相关的预测结果。
40、本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现上述任一种所述的肺心病相关基因和物种数据库的应用方法和/或肺心病相关基因和物种数据库的构建方法。
41、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种所述的肺心病相关基因和物种数据库的应用方法和/或肺心病相关基因和物种数据库的构建方法。
42、本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述任一种所述的肺心病相关基因和物种数据库的应用方法和/或肺心病相关基因和物种数据库的构建方法。
43、本发明提供的一种肺心病相关基因和物种数据库的构建方法及其应用,通过将肺心病相关肠道微生物及其代谢产物进行组合策略研究,构建全面的、精确到种水平的lmgcd数据库和物种数据库,能够辅助研究人员全面、准确、快速地分析人体微生物组中肺心病相关代谢产物及其关联物种;在生命健康领域,构建的lmgcd数据库可作为肺心病早期诊断的生物标记物参考,构建的物种数据库则有利于辅助鉴定特定肺心病相关的细菌类群,lmgcd数据库和物种数据库能够为肺心病的靶向治疗提供重要的数据支撑,并为生命健康领域相关研究提供数据基础,符合“同一健康”(one health)理念。
1.一种肺心病相关基因和物种数据库的构建方法,其特征在于,包括:
2.根据权利要求1所述的肺心病相关基因和物种数据库的构建方法,其特征在于,所述获取lps参考基因序列数据,通过隐马尔可夫模型在细菌参考基因组完成图中对lps参考基因序列数据进行序列比对和搜索,构建lmgcd数据库,具体为:
3.根据权利要求2所述的肺心病相关基因和物种数据库的构建方法,其特征在于,所述通过lmgcd数据库和物种数据库对健康者和肺心病患者的肠道菌群元基因组数据进行分析健康者和肺心病患者在基因和物种上的差异,以验证肺心病与lps的相关性,包括:
4.根据权利要求3所述的肺心病相关基因和物种数据库的构建方法,其特征在于,还包括:
5.一种肺心病相关基因和物种数据库的应用方法,其特征在于,包括:
6.根据权利要求5所述的肺心病相关基因和物种数据库的应用方法,其特征在于,预设序列要求包括氨基酸序列要求、短片段序列要求和核苷酸序列要求,其中,
7.根据权利要求6所述的肺心病相关基因和物种数据库的应用方法,其特征在于,还包括:
8.一种肺心病相关基因和物种数据库的应用系统,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的肺心病相关基因和物种数据库的构建方法,和/或,所述处理器执行所述程序时实现如权利要求5至7任一项所述的肺心病相关基因和物种数据库的应用方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述的肺心病相关基因和物种数据库的构建方法,和/或,该计算机程序被处理器执行时实现如权利要求5至7任一项所述的肺心病相关基因和物种数据库的应用方法。
