淘宝用户行为分析案例(数据分析Day6实战)
一、项目背景
本数据报告以淘宝app平台为数据集,通过行业的指标对淘宝用户行为进行分析,从而探索淘宝用户的行为模式,具体指标包括:日PV和日UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。
二、数据来源
三、提出问题
1.日PV有多少
2.日UV有多少
3.付费率情况如何
4.复购率是多少
5.漏斗流失情况如何
6.用户价值情况
四、理解数据
本数据集共有104万条左右数据,数据为淘宝APP2021年11月18日至2021年12月18日的用户行为数据,共计6列字段,列字段分别是:
user_id:用户身份,脱敏
item_id:商品ID,脱敏
behavior_type:用户行为类型(包含点击、收藏、加购物车、支付四种行为,分别用数字1、2、3、4表示)
user_geohash:地理位置
item_category:品类ID(商品所属的品类)
time:用户行为发生的时间
五、数据清洗
#coding:utf-8importpandasaspdimportnumpyaspyimportmatplotlib.pyplotaspltimportseabornassnsimportre#设置列数据全显示pd.set_option('display.max_columns',None)data_user=pd.read_csv(r'.ianchi_mobile_recommend_train_user.csv')missingTotal=data_user.isnull().sum()missingExist=missingTotal[missingTotal>0]missingExist=missingExist.sort_values(ascending=False)print(missingExist)
print(missingTotal)
存在缺失值的是User_geohash,有717785条,不能删除缺失值,因为地理信息在数据集收集过程中做过加密转换,因此对数据集不做处理。
data_user.head()
#拆分数据集data_user['date']=data_user['time'].map(lambdas:re.compile('').split(s)[0])data_user['hour']=data_user['time'].map(lambdas:re.compile('').split(s)[1])data_user.head()
#查看data_user数据集数据类型:data_user.dtypes
#发现time列和date列应该转化为日期类数据类型,hour列应该是字符串数据类型。#数据类型转化data_user['date']=pd.to_datetime(data_user['date'])data_user['time']=pd.to_datetime(data_user['time'])data_user['hour']=data_user['hour'].astype('int64')data_user.dtypes
#异常值处理data_user=data_user.sort_values(by='time',ascending=True)data_user=data_user.reset_index(drop=True)data_user.describe()
image.png
通过观察数据集的四分位数,总数,平均值,方差等,发现数据集并无异常值存在。
六、用户行为分析
(1)pv和uv分析
PV(访问量):即PageView,具体是指网站的是页面浏览量或者点击量,页面被刷新一次就计算一次。
UV(独立访客):即UniqueVisitor,访问您网站的一台电脑客户端为一个访客。
1)日访问量分析
#pv_daily记录天天用户操作次数,uv_daily记录天天不同的上线用户数量pv_daily=data_user.groupby('date')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_daily=data_user.groupby('date')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_daily.plot(x='date',y='pv',ax=axes[0])uv_daily.plot(x='date',y='uv',ax=axes[1])axes[0].set_title('pv_daily')
结果显示如上图所示,在双十二期间,pv和uv访问量达到峰值,并且可以发现,uv和pv两个访问量数值差距比较大,同时,因为数据集总人数大约是10000人左右,因此,通过nv值可以分析出双十二期间淘宝用户的日活跃大概是45%浮动。
#小时访问量分析#pv_hour记录每小时用户操作次数,uv_hour记录每小时不同的上线用户数量pv_hour=data_user.groupby('hour')['user_id'].count().reset_index().rename(columns={'user_id':'pv'})uv_hour=data_user.groupby('hour')['user_id'].apply(lambdax:x.drop_duplicates().count()).reset_index().rename(columns={'user_id':'uv'})fig,axes=plt.subplots(2,1,sharex=True)pv_hour.plot(x='hour',y='pv',ax=axes[0])uv_hour.plot(x='hour',y='uv',ax=axes[1])axes[0].set_title('pv_hour')axes[1].set_title('uv_hour')
上一篇:淘宝PC流量平台的作用
下一篇:新手提升淘宝流量的九大秘籍
文章地址:https://www.tianxianmao.com/article/online/8384.html