本发明属于大数据检测技术领域,具体涉及一种关于第三方数据源大规模自动化数据测试方案。
背景技术:
由于现在第三方数据呈现的海量化、多样化以及表现出来的高增长率,当前的人工抽测无法快速、准确、高效的对大批量的数据进行全量测试,出现数据漏测少测等现象的产生,增加测试结果的不确定性。若继续使用人工测试验证数据质量,会导致测试结果成为一种不确定性和低效率现象,并且无法保证数据的查得率=查得数/样本量、覆盖率=查得命中对象单数/样本中命中对象单量、误拒率=查得命中对象单数/样本中通过且为good量这三个测试重点的准确性。
技术实现要素:
发明目的:提供一种关于第三方数据源大规模自动化数据测试方案,解决了现有技术存在的上述问题。
技术方案:一种关于第三方数据源大规模自动化数据测试方案,基于hadoop环境对大数据进行分析,将测试对象数据拉取到hdfs存储,使用已建立的数据测试脚本对数据进行分析并标记,具体包括以下步骤:
步骤一:把清洗结果数据根据维度从mongodb库中拉取到hdfs中存储;
步骤二:收集测试对象每个字段数据的正确规则和特性、出现的规律以及易出错的样式书写成测试用例;
步骤三:对step2中的每个字段用例进行整合,组合成一个针对于整个表格的测试脚本,并实现对每个字段ture/false标记功能;
步骤四:对已标记的数据实现两种出口;
步骤五:维护测试脚本;
步骤六:重复上述步骤。
在进一步的,所述步骤二中每个字段由多种测试用例组成,每个脚本由多个字段的测试用例组成,每个脚本单独持续化迭代维护。
在进一步的,所述步骤三在hadoop环境自动化执行测试脚本,通过测试脚本对每天增量数据进行标记。
在进一步的,所述步骤四中的两种出口包括(1):es从mongodb拉取数据改为从hadoop拉取,并且只拉取被标记为ture的数据;(2):对被标记数据进行大数据分析,根据分析结果跟踪每天数据的量与质量,及时定位数据问题的所在点。
在进一步的,所述步骤五需要实时在原有的测试脚本上进行新增和修改用例。
有益效果:一种关于第三方数据源大规模自动化数据测试方案,替代了人工随机抽取的测试方式,可快速、高效、准确的实现对大量数据形态与外观的测试验证,压缩人员成本,提高工作效率;同时解决了数据测试结果不确定性,提高了测试效率,实现对每天增量数据可持续性、迭代性的测试,保证了流入es库数据的质量。
附图说明
图1为本发明的测试流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种关于第三方数据源大规模自动化数据测试方案,包括以下步骤:
步骤一:把清洗结果数据根据维度从mongodb库中拉取到hdfs中存储;
步骤二:收集测试对象每个字段数据的正确规则和特性、出现的规律以及易出错的样式等书写成测试用例,每个字段可由多种测试用例组成,每个脚本由多个字段的测试用例组成,每个脚本可单独持续化迭代维护;
步骤三:针对步骤二中的每个字段的用例进行整合,组合成一个针对于整个表格的测试脚本,并实现对每个字段ture/false标记功能,在hadoop环境自动化执行测试脚本,通过测试脚本对每天增量数据进行标记;
步骤四:对已标记的数据实现两种出口,(1):es从mongodb拉取数据改为从hadoop拉取,并且只拉取被标记为ture的数据,保证了被拉取得数据到es的质量;(2):通过被标记数据实现大数据分析,可根据分析结果跟踪每天数据的量与质量,能及时定位数据问题的所在点;
步骤五:维护测试脚本,可实时在原有的测试脚本上进行新增或者修改用例;
作为一种优选方案,当被标识的数据被标识为false时,首先排查false数据,确定其是需要优化脚本还是返回重洗,需要优化的数据,通过优化或者新增规则,优化测试脚本,对优化后的脚本中的每个维度中的字段测试用例整合,整合形成对应的测试脚本,并对其重新进行真假判定;需要重洗的数据,经过清洗错误后据根据维度从mongodb库中拉取到hdfs中存储,并重复步骤二到步骤五。
与现有技术相比,本发明基于hadoop环境对大数据分析优势,把测试对象数据拉取到hdfs存储,并使用已建立的数据测试脚本对数据进行分析和标记,替代人工随机抽取的测试方式,快速、高效、准确的实现了大量数据形态与外观的测试验;解决了数据测试结果不确定性,提高了测试效率,实现对每天增量数据可持续性、迭代性的测试,保证了流入es库数据的质量。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
1.一种关于第三方数据源大规模自动化数据测试方案,其特征在于,基于hadoop环境对大数据进行分析,将测试对象数据拉取到hdfs存储,使用已建立的数据测试脚本对数据进行分析并标记,具体包括以下步骤:
步骤一:把清洗结果数据根据维度从mongodb库中拉取到hdfs中存储;
步骤二:收集测试对象每个字段数据的正确规则和特性、出现的规律以及易出错的样式书写成测试用例;
步骤三:对step2中的每个字段用例进行整合,组合成一个针对于整个表格的测试脚本,并实现对每个字段ture/false标记功能;
步骤四:对已标记的数据实现两种出口;
步骤五:维护测试脚本;
步骤六:重复上述步骤。
2.根据权利要求1所述的一种关于第三方数据源大规模自动化数据测试方案,其特征在于:所述步骤二中每个字段由多种测试用例组成,每个脚本由多个字段的测试用例组成,每个脚本单独持续化迭代维护。
3.根据权利要求1所述的一种关于第三方数据源大规模自动化数据测试方案,其特征在于:所述步骤三在hadoop环境自动化执行测试脚本,通过测试脚本对每天增量数据进行标记。
4.根据权利要求1所述的一种关于第三方数据源大规模自动化数据测试方案,其特征在于:所述步骤四中的两种出口包括(1):es从mongodb拉取数据改为从hadoop拉取,并且只拉取被标记为ture的数据;(2):对被标记数据进行大数据分析,根据分析结果跟踪每天数据的量与质量,及时定位数据问题的所在点。
5.根据权利要求1所述的一种关于第三方数据源大规模自动化数据测试方案,其特征在于:所述步骤五需要实时在原有的测试脚本上进行新增和修改用例。
技术总结