基于多元回归时间序列分析的长租市场预警方法与流程

    专利2022-07-08  115


    本发明涉及时间序列分析技术领域,尤其涉及一种基于多元回归时间序列分析的长租市场预警方法。



    背景技术:

    目前长租市场风险频频发生,在该领域风险预测的通用技术方法和流程一般有三:使用回归分析方法、时间序列、深度神经网络。而上述三种方法均存在缺陷,都具有局限性,原因是其中回归分析方法要求样本量大,且数据要服从某个典型的概率分布,且特征数据要求和结果呈某种线性关系,因此具有局限性;对于时间序列来说,最大的缺点就是数据需要较为平稳,不能有异常点,因为时间序列模型的数列由于受到各种因素的影响表现出随机性,但各个元素在统计上存在依赖关系,所以一些异常事件对于模型的影响很大;深度学习模型也要求庞大的数据,而本发明涉及的问题目前没有数据可以参考,数据不足将导致深度学习模型出现严重的偏移,性能将会下降,同时深度学习模型对硬件有很高的要求,如果服务器算力不足,将严重影响训练效率。



    技术实现要素:

    本发明的目的就在于为了解决目前主流方法使用的经典算法存在的弊端,和现代算法存在的高度计算复杂性的缺点问题而提供一种基于多元回归时间序列分析的长租市场预警方法,本发明应用于长租市场风险的预警,对可能出现风险的现象及时提醒,减少租房群体受损失的可能。本发明解决问题的方法本质是将多元回归与时间序列有机结合,周期性利用回归分析将众多因素转化为风险因子,再对风险因子建立时间序列模型对未来风险进行预测。

    本发明通过以下技术方案来实现上述目的:

    一种基于多元回归时间序列分析的长租市场预警方法,包括以下步骤:

    步骤1,风险因素挖掘及量化

    通过阅读相关报道,挖掘出尽可能多的可能引发长租房的风险因素,然后针对风险因素制定初步的量化方案;

    步骤2,数据采集

    使用网络爬虫技术采集目前为止全国出现租房风险的房屋的数据;采集依据为步骤1挖掘的危险因素及其量化方法,其中挖掘出的危险因素作为长租房风险预测问题的特征;

    步骤3,数据预处理

    包括数据清洗、数据划分以及特征工程;

    所述数据划分为将数据按9∶1的阈值划分为训练集和测试集;

    步骤4,通过回归分析得到风险因子

    包括确定网络拓扑结构,搭建bp神经网络、使用遗传算法(ga)优化bp神经网络权值、周期性对特征数据进行回归分析得到风险因子;

    步骤5,对风险因子建立时间序列模型

    重复步骤2、3、4,将各阶段步骤4中风险因子序列进行预处理为稳定非白噪声序列后,进行时间序列模型的建模;根据该序列计算出的自相关系数和偏相关系数进行模型定阶后,进行参数估计,然后进行模型的检验优化。

    步骤6,使用模型进行短期预测

    使用步骤5中的模型进行短期内的长租市场风险预测,对于可能出现风险的房屋租户发出预警,并采取适当措施进行干预。

    进一步方案为,所述步骤2中,数据清洗包括数据一致性检查和缺失值处理,数据一致性检查将删去数据逻辑错误值,降低数据错误造成的干扰,缺失值处理采用常值填充、数据拟合、整例删除和特征删除的方法对缺失值、部分实例和特征进行处理。常值填充即:根据情况对部分特征下的空值采用常数值进行填充数据拟合即为:对于某一实例缺失的特征值,可以使用其他特征进行拟合,整例删除即为:若采集到的某一实例的特征缺省严重,则对该例进行删除,特征删除即为:若某一特征下的数据由于难以采集或量化的问题导致缺省严重,则对该特征进行删除。

    进一步方案为,所述步骤2中,特征工程包括特征提取、缩放和编码。特征提取即:由于本发明针对的问题设计的特征数据复杂,维度众多,所以首先绘制特征离散图和特征热图来直观分析特征与结果及各特征之间的相关性;然后采用因子分析的方法对特征进行降维。在特征缩放阶段,本发明将对数据进行归一化由于原始数据会存在不同的量纲和量纲单位,为了消除指标之间的量纲影响,需要进行数据标准化处理,以提升数据指标之间的可比性,降低量纲不同带来的影响。特征编码即使用序号编码的方法对部分特征进行编码。

    进一步方案为,所述步骤3中,客服端接收到返回的验证码后,使用javascript技术生成验证码图层,其中包括验证码数据的读取、验证码显示的渲染及验证码输入框的渲染,渲染的样式依然使用javascript编写样式表内容,在生成的验证码元素上添加输入事件监听函数并获取步骤2中返回的验证码字符串的长度值;

    进一步方案为,所述步骤4具体为:

    确定网络拓扑结构,搭建bp神经网络

    使用如下公式计算隐藏层节点:

    k=2(m n) 1

    k=log2(m n)

    其中m为输入层节点数,n为输出层节点数。

    使用遗传算法(ga)优化bp神经网络权值

    首先根据步骤四的结果构建神经网络,ga优化具体流程如如图1流程图所示,本步骤使用遗传算法,通过每轮适应度的择优,染色体的复制、交叉、变异,达到迭代优化bp神经网络的初值的效果。

    周期性对特征数据进行回归分析得到风险因子

    使用构建好的bp神经网络对数据周期性地进行回归分析,得到当前时间点各房屋的风险因子;每周使用构建优化好的bp神经网络对更新、预处理的数据进行回归预测,得到当周房屋i(i∈[1,n])的风险因子ti(i∈[1,n])。

    本发明的有益效果在于:

    本发明的一种基于多元回归时间序列分析的长租市场预警方法,综合采用爬虫、机器学习、数据清洗、特征工程等技术,将回归分析与时间序列分析有机结合,把多元因素转换为单一风险因子进行时间序列分析预测,规避了经典算法的短板,提高了预测效果,避免了现代算法的高度计算复杂性,实现对长租市场的预警。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1为本发明ga优化bp神经网络算法流程图。

    图2为本发明流程图。

    图3为本发明实例挖掘的风险因素。

    具体实施方式

    为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

    在任一实施例中,如图1-3所示,本发明的一种基于多元回归时间序列分析的长租市场预警方法,包括以下步骤:

    步骤一:风险因素的挖掘及量化

    通过阅读大量相关报道,提炼了如图3的影响因素(特征)。并制定量化方法——其中主观风险因素均可直接按照数量或定义进行采集,数字类型的特征按采集计算后的绝对值录入数据库;非数字类型如房屋风评,按口碑等级进行录入;合作金融机构性质按是否是网贷借贷平台进行录入。客观风险因素房屋所在地位置分区可以划分为工业区、居民区、商业区等,房屋所在地位置偏僻程度可以量化为该片区到城市若干个中心的距离的加权平均值,交通是否遍发达可以处理为房屋临近地铁站及交通主要干线则视为发达,否则视为不发达。

    步骤二:数据采集

    根据步骤一确定的风险因素及量化方法,周期性地使用网路爬虫技术分别采集、更新全国目前为止出现风险的房屋的数据。此处每一周更新一次。

    步骤三:数据预处理

    1.数据清洗

    数据一致性检查:将检查步骤二的数据中的逻辑错误值,剔除显而易见的不合理值。

    缺失值处理:采用常值填充、数据拟合、整例删除和特征删除的方法对缺失值、部分实例和特征进行处理。根据情况对部分特征下的空值采用常数值进行填充,如对于特征“地理位置偏僻程度”,对于空值的处理是填充所有数据的众数;对于某一实例缺失的特征值,可以使用其他特征进行拟合;若采集到的某一实例的特征缺省严重,则对该例进行删除;若某一特征下的数据由于难以采集或量化的问题导致缺省严重,则对该特征进行删除。

    2.数据划分

    将数据按9∶1的阈值划分为训练集和测试集。

    3.特征工程

    特征提取:首先对进行特征相关性分析,通过绘制特征离散图和热图可以直观判断特征与特征、特征与结果之间的关联度,由于本发明提供的数据维度较多,因此需要使用因子分析的方法对特征进行降维处理。

    特征缩放:为提升模型准确率,降低量纲影响,对特征数据进行归一化。

    特征编码:使用序号编码的方法对部分特征进行编码。如本实例特征“房屋风评”,可以以好评、中评、差评的等级录入数据库,特征编码时,按照1-3依次编码;另如对于特征“房屋所在地交通发达程度”,根据阈值以发达、不发达录入数据库,特征编码是,按照1、0进行编码。

    步骤四:通过回归分析得到风险因子

    1.确定网络拓扑结构,搭建bp神经网络

    使用如下公式计算隐藏层节点,确定网络拓扑结构

    k=2(m n) 1

    k=log2(m n)

    其中m为输入层节点数,n为输出层节点数。

    2.使用遗传算法(ga)优化bp神经网络权值

    首先根据步骤四的结果构建神经网络,ga优化具体流程如如图1流程图所示,本步骤使用遗传算法,通过每轮适应度的择优,染色体的复制、交叉、变异,达到迭代优化bp神经网络的初值的效果。

    本实例指定损失函数为交叉熵,使用ga优化时,首先编码染色体,形成新种群,解码后将训练集导入网络进行训练及测试,根据输出计算本轮模型参数的适应度。此处指定信任度函数为误差平方差,然后根据信任度选择优解进行复制、交叉、变异。迭代完成后获取最优bp神经网络参数。

    3.周期性对特征数据进行回归分析得到风险因子;使用构建好的bp神经网络对数据周期性地进行回归分析,得到当前时间点各房屋的风险因子。

    每周使用构建优化好的bp神经网络对更新、预处理的数据进行回归预测,得到当周房屋i(i∈[1,n])的风险因子ti(i∈[1,n])。

    步骤五:对风险因子建立时间序列模型

    重复步骤二、三、四,将房屋i(i∈[1,n])的风险因子ti整理为时序并预处理为稳定非白噪声序列后,进行时间序列模型的建模。根据该序列计算出的自相关系数和偏相关系数进行模型定阶后,进行参数估计,然后进行模型的检验优化。

    步骤六:使用模型进行短期预测

    使用步骤五中的模型进行短期的长租市场风险预测,即预测各个房屋在未来短期时间内的风险,对于可能出现风险的房屋租户发出预警,并采取适当措施进行干预。

    以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。


    技术特征:

    1.一种基于多元回归时间序列分析的长租市场预警方法,其特征在于,包括以下步骤:

    步骤1,风险因素挖掘及量化

    通过阅读相关报道,挖掘出可能引发长租房的风险因素,然后针对风险因素制定初步的量化方案;

    步骤2,数据采集

    使用网络爬虫技术采集目前为止出现租房风险的房屋的数据;采集依据为步骤1挖掘的风险因素及其量化方法,其中挖掘出的风险因素作为长租房风险预测问题的特征;

    步骤3,数据预处理

    包括数据清洗、数据划分以及特征工程;

    所述数据划分为将数据按9∶1的阈值划分为训练集和测试集;

    步骤4,通过回归分析得到风险因子

    包括确定网络拓扑结构,搭建bp神经网络、使用遗传算法优化bp神经网络权值、周期性对特征数据进行回归分析得到风险因子;

    步骤5,对风险因子建立时间序列模型

    重复步骤2、3、4,将各阶段步骤4中风险因子序列进行预处理为稳定非白噪声序列后,进行时间序列模型的建模;根据该序列计算出的自相关系数和偏相关系数进行模型定阶后,进行参数估计,然后进行模型的检验优化;

    步骤6,使用模型进行短期预测

    使用步骤5中的模型进行短期内的长租市场风险预测,对于可能出现风险的房屋租户发出预警,并采取适当措施进行干预。

    2.如权利要求1所述的一种基于多元回归时间序列分析的长租市场预警方法,其特征在于,所述步骤2中,数据清洗包括数据一致性检查和缺失值处理,数据一致性检查将删去数据逻辑错误值,降低数据错误造成的干扰,缺失值处理采用常值填充、数据拟合、整例删除和特征删除的方法对缺失值、部分实例和特征进行处理。

    3.如权利要求1所述的一种基于多元回归时间序列分析的长租市场预警方法,其特征在于,所述步骤2中,特征工程包括特征提取、缩放和编码。

    4.如权利要求1所述的一种基于多元回归时间序列分析的长租市场预警方法,其特征在于,所述步骤3中,客服端接收到返回的验证码后,使用javascript技术生成验证码图层,其中包括验证码数据的读取、验证码显示的渲染及验证码输入框的渲染,渲染的样式依然使用javascript编写样式表内容,在生成的验证码元素上添加输入事件监听函数并获取步骤2中返回的验证码字符串的长度值。

    5.如权利要求1所述的一种基于多元回归时间序列分析的长租市场预警方法,其特征在于,所述步骤4具体为:

    确定网络拓扑结构,搭建bp神经网络

    使用如下公式计算隐藏层节点:

    k=2(m n) 1

    k=log2(m n)

    其中m为输入层节点数,n为输出层节点数;

    使用遗传算法优化bp神经网络权值

    首先根据步骤四的结果构建神经网络,使用遗传算法,通过每轮适应度的择优,染色体的复制、交叉、变异,达到迭代优化bp神经网络的初值的效果;

    周期性对特征数据进行回归分析得到风险因子

    使用构建好的bp神经网络对数据周期性地进行回归分析,得到当前时间点各房屋的风险因子;每周使用构建优化好的bp神经网络对更新、预处理的数据进行回归预测,得到当周房屋i(i∈[1,n])的风险因子ti(i∈[1,n])。

    技术总结
    本发明公开了一种基于多元回归时间序列分析的长租市场预警方法,通过采用爬虫、机器学习、数据清洗、特征工程等技术,将回归分析与时间序列分析有机结合,把多元因素转换为单一风险因子进行时间序列分析预测,规避了经典算法的短板,提高了预测效果,避免了现代算法的高度计算复杂性,实现对长租市场的预警。

    技术研发人员:杨懿龄;刘楚雄;肖欣庭;池明辉
    受保护的技术使用者:四川长虹电器股份有限公司
    技术研发日:2020.12.17
    技术公布日:2021.03.12

    转载请注明原文地址:https://wp.8miu.com/read-17131.html

    最新回复(0)