返回顶部
关闭软件导航
位置:首页 > 资讯 > 电商资讯>淘宝用户行为分析案例数据分析Day6实战
淘宝用户行为分析案例数据分析Day6实战

淘宝用户行为分析案例(数据分析Day6实战)

一、项目背景

本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。

二、数据来源

三、提出问题

1.日PV有多少

2.日UV有多少

3.付费率情况如何

4.复购率是多少

5.漏斗流失情况如何

6.用户价值情况

四、理解数据

本数据集共有104万条左右数据,数据为淘宝APP2021年11月18日至2021年12月18日的用户行为数据,共计6列字段,列字段分别是:

user_id:用户身份,脱敏

item_id:商品ID,脱敏

behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示)

user_geohash:地理位置

淘宝用户行为分析案例数据分析Day6实战1

item_category:品类ID(商品所属的品类)

time:用户行为发生的时间

五、数据清洗

#coding:utf-8importpandasaspdimportnumpyaspyimportmatplotlib.pyplotaspltimportseabornassnsimportre#设置列数据全显示pd.set_option('display.max_columns',None)data_user=pd.read_csv(r'.ianchi_mobile_recommend_train_user.csv')missingTotal=data_user.isnull().sum()missingExist=missingTotal[missingTotal>0]missingExist=missingExist.sort_values(ascending=False)print(missingExist)

print(missingTotal)

存在缺失值的是User_geohash,有717785条,不能删除缺失值,因为地理信息在数据集收集过程中做过加密转换,因此对数据集不做处理。

data_user.head()

#拆分数据集data_user['date']=data_user['time'].map(lambdas:re.compile('').split(s)[0])data_user['hour']=data_user['time'].map(lambdas:re.compile('').split(s)[1])data_user.head()

#查看data_user数据集数据类型:data_user.dtypes

#发现time列和date列应该转化为日期类数据类型,hour列应该是字符串数据类型。#数据类型转化data_user['date']=pd.to_datetime(data_user['date'])data_user['time']=pd.to_datetime(data_user['time'])data_user['hour']=data_user['hour'].astype('int64')data_user.dtypes

#异常值处理data_user=data_user.sort_values(by='time',ascending=True)data_user=data_user.reset_index(drop=True)data_user.describe()

image.png

通过观察数据集的四分位数,总数,平均值,方差等,发现数据集并无异常值存在。

六、用户行为分析

(1)pv和uv分析

PV(访问量):即PageView,具体是指网站的是页面浏览量或者点击量,页面被刷新一次就计算一次。

UV(独立访客):即UniqueVisitor,访问您网站的一台电脑客户端为一个访客。

1)日访问量分析

#pv_daily记录天天用户操作次数,uv_daily记录天天不同的上线用户数量pv_daily=data_user.groupby('date')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_daily=data_user.groupby('date')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_daily.plot(x='date',y='pv',ax=axes[0])uv_daily.plot(x='date',y='uv',ax=axes[1])axes[0].set_title('pv_daily')

结果显示如上图所示,在双十二期间,pv和uv访问量达到峰值,并且可以发现,uv和pv两个访问量数值差距比较大,同时,因为数据集总人数大约是10000人左右,因此,通过nv值可以分析出双十二期间淘宝用户的日活跃大概是45%浮动。

#小时访问量分析#pv_hour记录每小时用户操作次数,uv_hour记录每小时不同的上线用户数量pv_hour=data_user.groupby('hour')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_hour=data_user.groupby('hour')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_hour.plot(x='hour',y='pv',ax=axes[0])uv_hour.plot(x='hour',y='uv',ax=axes[1])axes[0].set_title('pv_hour')axes[1].set_title('uv_hour')

如果您觉得 淘宝用户行为分析案例数据分析Day6实战 这篇文章对您有用,请分享给您的好友,谢谢
文章地址:https://www.tianxianmao.com/article/online/8384.html
解放双手无尽可能,有问题添加天线猫微信