本发明涉及数据分析及预测,具体的说是一种基于spark的电商用户行为分析系统及方法。
背景技术:
1、随着电商市场的不断扩大,竞争也变得越来越激烈。电商企业需要了解其用户的行为和偏好,以便提供更好的购物体验、优化营销策略、提高转化率等。
2、yen-hao hsieh,i-hsuan chen等人(2014年)基于fcm算法设计了一个可以根据用户行为对用户进行细分从而提供针对性服务的系统。类似的,张晓诺通过k-means算法来对用户进行细分,相比于fcm算法,k-means的实时处理能力更加优秀。但是fcm算法和k-means算法在对大数据集进行处理时速度很慢。而使用spark不仅能对大数据集进行快速处理,还能实现对数据的实时分析。
技术实现思路
1、本发明针对目前技术发展的需求和不足之处,提供一种基于spark的电商用户行为分析系统及方法,通过分析用户行为数据并预测用户可能喜欢的产品,为电商企业提供重要的洞察和决策支持。
2、第一方面,本发明的一种基于spark的电商用户行为分析系统,解决上述技术问题采用的技术方案如下:
3、一种基于spark的电商用户行为分析系统,其包括数据存储层、数据计算层、数据共享层、数据展示层四个部分,其中:
4、数据存储层从某个购物网站获取电商用户行为数据,对行为数据进行预处理,预处理后的行为数据以数据块形式存入hadoop的hdfs中,将hdfs中的文件映射成为hive表;
5、数据处理层通过spark的组件,对hive表中的数据进行多维分析,并根据分析结果中的用户行为对用户可能喜欢的商品进行预测;
6、数据共享层对数据处理层的分析结果和预测结果进行存储;
7、数据展示层使用springboot框架与数据共享层进行交互,将分析结果和预测结果展现给用户。
8、可选的,数据存储层通过爬虫从某个购物网站获取电商用户行为数据,电商用户行为数据包括基于用户点击、购买、加购、喜欢获取的数据;
9、数据存储层获取行为数据后通过爬虫进行数据清洗的预处理操作。
10、可选的,数据处理层通过spark sql组件对hive表中的数据进行多维分析,通过内置als协同过滤算法的spark mllib组件根据分析结果中的用户行为对用户可能喜欢的商品进行预测。
11、可选的,数据共享层采用关系型数据库mysql,关系型数据库mysql以图表形式存储分析结果和预测结果;
12、数据展示层与数据共享层交互后,通过图表形式将分析结果和预测结果展现给用户。
13、第二方面,本发明的一种基于spark的电商用户行为分析方法,解决上述技术问题采用的技术方案如下:
14、一种基于spark的电商用户行为分析方法,其包括如下步骤:
15、s1、从某个购物网站获取电商用户行为数据,对行为数据进行预处理后以数据块形式存入hadoop的hdfs中,将hdfs中的文件映射成为hive表;
16、s2、借助spark的组件,对hive表中的数据进行多维分析,并根据分析结果中的用户行为对用户可能喜欢的商品进行预测;
17、s3、将分析结果和预测结果存储于关系型数据库;
18、s4、可视化页面与关系型数据库进行交互,将分析结果和预测结果展现给用户。
19、可选的,执行步骤s1时,使用爬虫工具从某个购物网站获取电商用户行为数据,电商用户行为数据包括基于用户点击、购买、加购、喜欢获取的数据;
20、获取行为数据后使用爬虫工具进行数据清洗的预处理操作。
21、可选的,执行步骤s2时,借助spark sql组件,对hive表中的数据进行多维分析;
22、借助内置als协同过滤算法的spark mllib组件,根据分析结果中的用户行为对用户可能喜欢的商品进行预测。
23、可选的,关系型数据库mysql以图表形式存储分析结果和预测结果;
24、可视化页面使用springboot框架与关系型数据库进行交互后,将分析结果和预测结果以图表形式展现给用户。
25、本发明的一种基于spark的电商用户行为分析系统及方法,与现有技术相比具有的有益效果是:
26、(1)本发明通过收集和分析用户在电商平台上的数据,如点击、搜索、浏览和购买等行为,为企业提供重要的洞察和决策支持,通过这些数据,电商企业可以更好地了解其目标用户,并提供个性化的服务和推荐,从而提高用户忠诚度和购买意愿,保持竞争优势;
27、(2)本发明通过使用爬虫技术,可以替代繁琐的人工数据采集工作,在较短时间内从互联网上抓取大量数据,大大提高了数据获取效率;通过使用hdfs作为底层存储系统,可以将数据分成多个块并复制到多个节点上,如果某个节点发生故障,可以从其他节点中获取数据的副本,避免数据丢失,同时,hdfs适用于大型数据集的批量读写操作,可以实现高吞吐量的数据处理;
28、(3)本发明通过使用spark能够将数据分布在集群中,从而提高数据处理的效率和速度,同时,spark支持处理多种数据类型,包括结构化数据、半结构化数据和非结构化数据,如文本、图像和音频等;
29、(4)本发明采用了spark作为数据处理的主要工具,与其他传统算法处理数据的方式比,能够快速处理上百万条的数据集合,与hadoop相比能够对实时数据进行分析,同时使用了als协同过滤算法,可是对用户进行商品的精准推荐。
1.一种基于spark的电商用户行为分析系统,其特征在于,其包括数据存储层、数据计算层、数据共享层、数据展示层四个部分,其中:
2.根据权利要求1所述的一种基于spark的电商用户行为分析系统,其特征在于,数据存储层通过爬虫从某个购物网站获取电商用户行为数据,电商用户行为数据包括基于用户点击、购买、加购、喜欢获取的数据;
3.根据权利要求1所述的一种基于spark的电商用户行为分析系统,其特征在于,数据处理层通过spark sql组件对hive表中的数据进行多维分析,通过内置als协同过滤算法的spark mllib组件根据分析结果中的用户行为对用户可能喜欢的商品进行预测。
4.根据权利要求1所述的一种基于spark的电商用户行为分析系统,其特征在于,数据共享层采用关系型数据库mysql,关系型数据库mysql以图表形式存储分析结果和预测结果;
5.一种基于spark的电商用户行为分析方法,其特征在于,其包括如下步骤:
6.根据权利要求5所述的一种基于spark的电商用户行为分析方法,其特征在于,执行步骤s1时,使用爬虫工具从某个购物网站获取电商用户行为数据,电商用户行为数据包括基于用户点击、购买、加购、喜欢获取的数据;
7.根据权利要求5所述的一种基于spark的电商用户行为分析方法,其特征在于,执行步骤s2时,借助spark sql组件,对hive表中的数据进行多维分析;
8.根据权利要求5所述的一种基于spark的电商用户行为分析方法,其特征在于,关系型数据库mysql以图表形式存储分析结果和预测结果;