本申请涉及数据采集领域,具体而言,涉及一种流量数据采集方法及装置。
背景技术:
随着移动互联网的发展,对于移动设备的流量数据的分析成为了移动互联网行业的一项重要的工作。通过对移动设备的流量数据分析,可以了解到用户对于网站和软件的访问频率、访问时间段、类型比例等,对于移动互联网公司的改进决策和未来走向都有很高的参考价值。
对于移动设备的流量数据采集一般分为被动采集和主动采集,被动采集是指当流量到达采集服务器后再做处理和分析,主动采集是指在用户的移动设备中安装采集软件模块,在移动设备发送流量前进行采集。现有技术中,在被动采集中,移动设备的流量可能分散在多个不同的服务器,很多情况下只能获取到部分服务器上的流量数据。而在主动采集中,在流量发送过大的情况下,会由于采集软件模块占用移动设备的资源过多而影响移动设备的性能。
技术实现要素:
有鉴于此,本申请的目的在于提供一种流量数据采集方法及装置,用于解决现有技术中样本流量主动采集占用移动设备资源过多的问题。
第一方面,本申请实施例提供了一种流量数据采集方法,应用于移动设备,该方法包括:
采集模块接收设置于移动设备内的虚拟网桥转发的流量数据;
所述采集模块针对每一条流量数据携带的流量特征进行分析,判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;所述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,所述采集策略包括本地更新策略和转发策略;
若所述流量数据携带的流量特征符合所述至少一种当前采集策略对应的特征规则,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输。
在一些实施例中,在所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输之后,还包括:
所述采集模块根据所述流量数据携带的流量特征,更新当前统计特征;
所述采集模块按照预设时间间隔,根据当前统计特征生成统计数据;
所述采集模块为所述统计数据添加所述移动设备的标识,并将所述统计数据发送至采集服务器。
在一些实施例中,该方法还包括:
所述采集模块按照预设时间间隔,向所述采集服务器获取迭代采集策略,以替换当前采集策略;所述迭代采集策略是采集服务器根据所述采集模块转发的流量数据和所述统计数据,通过策略生成模型生成的。
在一些实施例中,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输,包括:
当所述流量数据是加密数据时,所述采集模块根据预设设备密钥对,通过预设解密算法对所述流量数据进行解密操作,得到解密后的流量数据;
将所述解密后的流量数据按照所述当前采集策略对应的传输方式进行流量数据传输。
在一些实施例中,所述判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则,包括:
判断所述流量数据携带的流量特征是否符合转发策略对应的特征规则;
若所述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断所述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
当所述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对所述流量数据的采集。
第二方面,本申请实施例提供了一种流量数据采集装置,应用于移动设备,该装置包括:
接收模块,用于接收设置于移动设备内的虚拟网桥转发的流量数据;
分析模块,用于针对每一条流量数据携带的流量特征进行分析,判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;所述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,所述采集策略包括本地更新策略和转发策略;
转发模块,用于若所述流量数据携带的流量特征符合所述至少一种当前采集策略对应的特征规则,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输。
在一些实施例中,还包括:
特征更新模块,用于根据所述流量数据携带的流量特征,更新当前统计特征;
统计模块,用于按照预设时间间隔,根据当前统计特征生成统计数据;
发送模块,用于为所述统计数据添加所述移动设备的标识,并将所述统计数据发送至采集服务器。
在一些实施例中,所述分析模块,包括:
第一判断单元,用于判断所述流量数据携带的流量特征是否符合转发策略对应的特征规则;
第二判断单元,用于若所述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断所述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
终止单元,用于当所述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对所述流量数据的采集。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面中任一项所述的方法的步骤。
本申请实施例提出的一种流量数据采集方法,通过对设置于移动设备内的虚拟网桥转发的流量数据逐条进行流量特征分析,判断每条流量数据携带的流量特征是否命中至少一种当前采集策略的特征规则,如果命中了至少一种当前采集策略的特征规则,则采用对应的采集策略对盖条流量数据进行采集。本申请实施例所提出的一种流量数据采集方法,通过采集策略从移动设备的流量数据中有针对性地获取所需的样本流量,减少了移动设备的资源占用。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种流量数据采集方法的流程示意图;
图2为本申请实施例提供的一种采集策略判断方法的流程示意图;
图3为本申请实施例提供的一种流量数据采集装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种流量数据采集方法,应用于移动设备,如图1所示,包括以下步骤:
步骤s101、采集模块接收设置于移动设备内的虚拟网桥转发的流量数据;
步骤s102、上述采集模块针对每一条流量数据携带的流量特征进行分析,判断上述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;上述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,上述采集策略包括本地更新策略和转发策略;
步骤s103、若上述流量数据携带的流量特征符合上述至少一种当前采集策略对应的特征规则,上述采集模块按照上述当前采集策略对应的传输方式进行流量数据传输。
具体地,在移动设备内预先设置虚拟网桥以及采集模块,移动设备发出的所有流量数据都会通过虚拟网桥发送给采集模块。
采集模块内包含有采集策略执行单元、采集策略存储单元和统计特征存储单元。采集策略执行单元会对每条流量数据进行流量特征检查,判断每条流量数据携带的流量特征是否命中了采集策略存储单元存储的采集策略对应的特征规则。该规则可能是一种流量特征,也可能是多种流量特征的组合,例如,一种特征规则是请求资源类型为图片并且请求资源大小大于2mb,那么当流量数据携带的流量特征中的请求资源类型和请求资源大小同时满足上述要求时,就判断符合该特征规则。
采集策略包括本地更新策略和转发策略,本地更新策略是将根据流量数据携带的流量特征更新统计特征存储单元中的统计特征,转发策略不仅要更新统计特征存储单元中的统计特征,还要将流量数据转发到采集服务器,转发的时候会为流量数据添加移动设备的标识(采集模块在安装到移动设备上后,会自动为移动设备生成一个唯一id,将该唯一id定义为移动设备的标识)。
统计特征存储单元将统计特征存储在移动设备上,存储形式可以是文件、嵌入式数据库等。
通过本申请实施例提供的流量数据采集方法,在主动采集的基础上,通过设置采集策略,有选择性地进行流量数据的采集,解决了主动采集原有的全流量采集对于移动设备的资源占用大的问题。
在一些实施例中,在步骤s103、上述采集模块按照上述当前采集策略对应的传输方式进行流量数据传输之后,还包括:
步骤104、上述采集模块根据上述流量数据携带的流量特征,更新当前统计特征;
步骤105、上述采集模块按照预设时间间隔,根据当前统计特征生成统计数据;
步骤106上述采集模块为上述统计数据添加上述移动设备的标识,并将上述统计数据发送至采集服务器。
具体地,采集模块对于命中了采集策略对应的特征规则的流量数据,在进行了对应的传输(本地更新策略是将流量数据存储在本地等待统计特征更新,转发策略是将流量数据转发样本至采集服务器)后,需要根据流量数据中携带的流量特征进行当前统计特征的更新。
统计特征存储单元会按照预设时间间隔周期性地根据当前统计特征生成统计数据,并附加上移动设备的标识,发送给采集服务器。该预设时间间隔也会在每次将统计数据发送给采集服务器时从采集服务器获取最新的设定值。
由于采集服务器接收到的流量数据都是符合转发策略对应的特征规则的数据,这部分数据是作为主要的流量样本,而移动终端上的统计特征存储单元还统计了包括转发的流量数据和作为次要流量样本的本地更新的流量数据共同累积的当前统计特征,该当前统计特征对于用户的流量数据分析也是具有较高的价值的。
在一些实施例中,该方法还包括:
步骤107、上述采集模块按照预设时间间隔,向上述采集服务器获取迭代采集策略,以替换当前采集策略;上述迭代采集策略是采集服务器根据上述采集模块转发的流量数据和上述统计数据,通过策略生成模型生成的。
具体地,采集策略是动态进行调整的,每隔预设时间间隔就会从采集服务器获取迭代采集策略来对采集策略存储单元中的当前采集策略进行更新。
而更新用的迭代采集策略是采集服务器根据从移动设备中的采集模块接收到的流量数据和统计数据,通过策略生成模型计算后生成的。该策略生成模型是基于机器学习算法和统计算法训练得到的。
在一些实施例中,上述步骤s103采集模块按照上述当前采集策略对应的传输方式进行流量数据传输,包括:
步骤1031、当上述流量数据是加密数据时,上述采集模块根据预设设备密钥对,通过预设解密算法对上述流量数据进行解密操作,得到解密后的流量数据;
步骤1032、将上述解密后的流量数据按照上述当前采集策略对应的传输方式进行流量数据传输。
具体地,有一些流量数据是加密流量,为了方便数据分析,采集模块中也包含有解密单元,该解密单元通过mitm(man-in-the-middleattack,中间人攻击)方式对加密流量进行解密。采集模块在安装时,会在移动设备本地生成已对独有的密钥对,并会向移动终端用户提示密钥对和解密操作的存在。
当流量数据的流量特征中的加密特征为加密状态时,解密单元对该流量数据进行解密操作,在解密完成后,将解密后的流量数据进行对应的采集策略的流量数据采集。
在一些实施例中,上述步骤s102、判断上述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则,如图2所示,包括:
步骤s201、判断上述流量数据携带的流量特征是否符合转发策略对应的特征规则;
步骤s202、若上述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断上述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
步骤s203、当上述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对上述流量数据的采集。
具体地,对于采集策略的判断,可以是并发的且当符合多种特征规则时,执行对应的多种采集策略;也可以是有先后顺序的,择优进行采集策略的执行。
本申请实施例提供一种判断方式,优先判断流量数据携带的流量特征是否符合转发策略对应的特征规则,若符合转发策略对应的特征规则,则执行转发策略,并将该流量数据发送至移动终端的原目的服务器。
若不符合转发策略对应的特征规则,则继续判断该流量数据携带的流量特征是否符合本地更新策略对应的特征规则,若符合本地更新策略对应的特征规则,则执行本地更新策略,并将该流量数据发送至移动终端的原目的服务器。
若不符合本地更新策略对应的特征规则,则停止对该流量数据的样本采集,直接将该流量数据发送至移动终端的原目的服务器。
本申请实施例还提供了一种流量数据采集装置,应用于移动设备,如图3所示,该装置包括:
接收模块30,用于接收设置于移动设备内的虚拟网桥转发的流量数据;
分析模块31,用于针对每一条流量数据携带的流量特征进行分析,判断上述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;上述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,上述采集策略包括本地更新策略和转发策略;
转发模块32,用于若上述流量数据携带的流量特征符合上述至少一种当前采集策略对应的特征规则,上述采集模块按照上述当前采集策略对应的传输方式进行流量数据传输。
在一些实施例中,该装置还包括:
特征更新模块33,用于根据上述流量数据携带的流量特征,更新当前统计特征;
统计模块34,用于按照预设时间间隔,根据当前统计特征生成统计数据;
发送模块35,用于为上述统计数据添加上述移动设备的标识,并将上述统计数据发送至采集服务器。
在一些实施例中,上述分析模块,包括:
第一判断单元311,用于判断上述流量数据携带的流量特征是否符合转发策略对应的特征规则;
第二判断单元312,用于若上述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断上述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
终止单元313,用于当上述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对上述流量数据的采集。
对应于图1中的一种流量数据采集方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种流量数据采集方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种流量数据采集方法,解决了现有技术中样本流量主动采集占用移动设备资源过多的问题。
对应于图1中的一种流量数据采集方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种流量数据采集方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种流量数据采集方法,解决了现有技术中样本流量主动采集占用移动设备资源过多的问题,本申请实施例提出的一种流量数据采集方法,通过对设置于移动设备内的虚拟网桥转发的流量数据逐条进行流量特征分析,判断每条流量数据携带的流量特征是否命中至少一种当前采集策略的特征规则,如果命中了至少一种当前采集策略的特征规则,则采用对应的采集策略对盖条流量数据进行采集。本申请实施例所提出的一种流量数据采集方法,通过采集策略从移动设备的流量数据中有针对性地获取所需的样本流量,减少了移动设备的资源占用。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
1.一种流量数据采集方法,其特征在于,应用于移动设备,该方法包括:
采集模块接收设置于移动设备内的虚拟网桥转发的流量数据;
所述采集模块针对每一条流量数据携带的流量特征进行分析,判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;所述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,所述采集策略包括本地更新策略和转发策略;
若所述流量数据携带的流量特征符合所述至少一种当前采集策略对应的特征规则,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输。
2.如权利要求1所述的方法,其特征在于,在所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输之后,还包括:
所述采集模块根据所述流量数据携带的流量特征,更新当前统计特征;
所述采集模块按照预设时间间隔,根据当前统计特征生成统计数据;
所述采集模块为所述统计数据添加所述移动设备的标识,并将所述统计数据发送至采集服务器。
3.如权利要求2所述的方法,其特征在于,还包括:
所述采集模块按照预设时间间隔,向所述采集服务器获取迭代采集策略,以替换当前采集策略;所述迭代采集策略是采集服务器根据所述采集模块转发的流量数据和所述统计数据,通过策略生成模型生成的。
4.如权利要求1所述的方法,其特征在于,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输,包括:
当所述流量数据是加密数据时,所述采集模块根据预设设备密钥对,通过预设解密算法对所述流量数据进行解密操作,得到解密后的流量数据;
将所述解密后的流量数据按照所述当前采集策略对应的传输方式进行流量数据传输。
5.如权利要求1所述的方法,其特征在于,所述判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则,包括:
判断所述流量数据携带的流量特征是否符合转发策略对应的特征规则;
若所述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断所述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
当所述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对所述流量数据的采集。
6.一种流量数据采集装置,其特征在于,应用于移动设备,该装置包括:
接收模块,用于接收设置于移动设备内的虚拟网桥转发的流量数据;
分析模块,用于针对每一条流量数据携带的流量特征进行分析,判断所述流量数据携带的流量特征是否符合至少一种当前采集策略对应的特征规则;所述流量特征包括互联网协议地址、域名、请求资源类型、请求资源大小、加密状态,所述采集策略包括本地更新策略和转发策略;
转发模块,用于若所述流量数据携带的流量特征符合所述至少一种当前采集策略对应的特征规则,所述采集模块按照所述当前采集策略对应的传输方式进行流量数据传输。
7.如权利要求6所述的装置,其特征在于,还包括:
特征更新模块,用于根据所述流量数据携带的流量特征,更新当前统计特征;
统计模块,用于按照预设时间间隔,根据当前统计特征生成统计数据;
发送模块,用于为所述统计数据添加所述移动设备的标识,并将所述统计数据发送至采集服务器。
8.如权利要求6所述的装置,其特征在于,所述分析模块,包括:
第一判断单元,用于判断所述流量数据携带的流量特征是否符合转发策略对应的特征规则;
第二判断单元,用于若所述流量数据携带的流量特征不符合转发策略对应的特征规则,则判断所述流量数据携带的流量特征是否符合本地更新策略对应的特征规则;
终止单元,用于当所述流量数据携带的流量特征不符合本地更新策略对应的特征规则时,停止对所述流量数据的采集。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-5中任一项所述的方法的步骤。
技术总结