数据集-阿里云天池 tianchi.aliyun.com
它包含2个csv数据,表1订购的产品和表2子信息
2.名称含义:
3、数据清洗
1. 选择一个子集
auction_id(购买行为编号)和property(商品属性)在后续分析中不会用到,因此这两列被隐藏。 (一个好习惯是永远不要删除数据,并隐藏不需要的数据)
2. 列名重命名
将列名翻译成英文
3.删除重复值
没有发现重复项
4.缺失值处理
筛选后未发现缺失值,操作参考Excel数据处理(缺失值/重复值/异常值/分割) - 知乎(zhihu.com)
5. 一致的处理
将日期改为yyyy/m/d的格式,参考数据分析学习(三)《如何使用Excel分析儿童电器销量?》 - 知乎 (zhihu.com)
将性别一栏的0、1、2的值分别改为女、男、未知。 参考数据分析研究(三)《如何利用Excel分析儿童电器销量?》 - 知乎 (zhihu.com)
6. 数据整理
将订单数量升序排序,发现最大订单数量为10000
对订单日期进行排序,发现交易记录的时间范围为2012年7月2日至2015年2月5日
7.异常值处理
删除出生日期为1984年的列
4、分析思路
1.从行为、产品、用户的角度进行描述和分析
2.从以下几个角度对描述性分析的结果提出假设
3. 验证假设并得出结论
五、分析过程
商品
1、不同类型商品销量对比(分析方法:帕累托模型)
因为资源总是有限的,不同的渠道和用户会产生不同的效益,所以我们不可能把所有的资源都投入到所有的渠道上。 帕累托分析的原理是20/80定理,80%的收益往往来自于20%的投资母婴产品网站模板,而另外80%的投资只形成20%的收益,这说明同样的投资在不同的领域地方都会有不同的好处。 28、50014815、50008168三类商品贡献了总销售额的88%。 因此,建议主要投入在上述三类商品上。
2. 畅销书
Top13产品销量已达1000余件
商品50018831最畅销,销量占top13的34%,共12657件
其他产品销量较为接近,在1000至3700件之间波动
销量主要集中在2014年双十一,平时销量不高,说明是节假日期间的热销产品。有必要回顾2014年双十一,总结运营经验,复制热门产品
行为
1. 销售额随时间的变化(分析方法:折线图)
2012年和2015年的销售额只是其他年份的一小部分
假设:数据不完整(数据来源)
交易记录时间范围为2012年7月2日至2015年2月5日
假设的产生
2014年销量约为2013年的2倍
假设:网购人数减少(行业规则)母婴产品网站模板,产品好评率上升(产品问题)
两年销售走势基本一致,2014年大部分月份销量是2013年的2倍
假设的产生
如图所示,2014年11月销量是2013年的514%,这也是2014年销量约为2013年两倍的主要原因
假设:双十一导致2014年11月销量激增(行业规律)
由于部分商家将双十一活动延长几天,13日出现高峰属于正常现象
假设的产生
1月和2月销售下滑
假设:春运快车停运(行业规则)
)
2013年2月10日、2014年1月30日、2015年2月19日适逢新年,恰逢销售最低时间,节前一周全国大部分地区暂停快递发货
假设的产生
2、回购情况
定义:统计周期为2012年7月2日至2015年2月5日,复购率=客户重复下单次数/客户样品数量
可见绝大多数用户不复购
假设:数据集中大部分儿童电器只适合长期订购一次(产品问题)
需要查阅产品信息进一步确认
复购的用户中,大部分只复购过1次,仅有1人复购3次
这说明用户的忠诚度很低,很有可能需要热销来带动用户下单
用户
性别
1、不同性别销售额比较
大约 60% 的销售额是女婴,40% 是男婴
男女用户比例约为1:1
2. 按性别排序偏好
5008168,28类产品无论男女宝宝销量都比较高
50014815类在女生中销量最多,一般在女婴中销量
38、50022520品类销量正常,38品类女生销量较高
12265008类目男女童销量相对较低。 建议根据实际情况适当淘汰该类别下的终端产品。
50014815类在女生中销量最多,一般在女婴中销量
假设:50014815商品存在性别差异(商品问题)
女生销量高的主要原因是50018831和50012564这两款产品,这也是女婴销量最高的产品
假设不成立
假设:女孩比女婴有更多的购买力(用户问题)
在查询商品50018831的数据时,发现有用户一次订购了160件,但并不是女孩购买力更强
假设不成立
(由于该组数据单笔下单量太大,会影响趋势的判断,所以暂时删除)
38种类型女生销量较高
查询38类商品数据时发现,某用户一次订购了40件
年龄
1、不同年龄段产品销量对比
0岁、1岁及出生前订单占比70%
2、3岁占20%
其他年龄段为 10%
下面重点关注0岁、1岁及出生前订单用户的订购需求
2、不同年龄段的订单偏好
50022520类目未出生婴儿销量较高,0岁、1岁儿童销量较低
38个品类1岁销量高,胎儿、0岁销量低
50022520类目在未出生婴儿中销量较高
假设:存在单笔订单量较大的数据(异常数据)
不存在用户一次性订购大量的情况
假设不成立
50022520类目对用户年龄敏感,为未出生婴儿囤货的用户喜欢购买
1年销量高的38个品类
假设:存在单笔订单量较大的数据(异常数据)
用户一次订购了 40 件
假设的产生
六、总结与建议
1. 商品
88%的销量集中在28、50014815、50008168这三个品类,对儿童性别、年龄不敏感
9%的销售额集中在38和50022520产品,用户在计划未出生婴儿时特别喜欢购买50022520产品
3%为类别122650008,建议淘汰该类别下的产品
2、用户行为规则
绝大多数用户对小事件都很敏感。 因为双十一,2014年11月销量是其他月份的6倍左右
2014年双十一活动非常成功,销售额同比2013年下降514%,值得回顾总结运营经验
11月13日,母婴用品销量达到顶峰,这也是各门店集中开展双十一活动的原因
双11销售额占全月77%
3. 用户
主流用户为0岁、1岁及未出生婴儿的计划。 除了未出生的婴儿更喜欢50022520产品外,这三个年龄段的用户
用户对商品的偏好基本一致,均集中在28、50014815、50008168这三类商品上
男女宝宝用户数量基本持平,女宝宝点餐能力略高于女宝宝。 男女宝宝的喜好基本一致,也集中在
28、50014815、50008168 关于这三类商品
复购率仅为0.17%,可见用户忠诚度很低。 很可能他们中的大多数人都是被利益的贪婪所吸引的。 这类用户的素质不高。
高,需要进一步查阅资料,了解用户的订购需求,可以从右图入手
以下批次用户单笔订单超过20个
前2位用户下单时间没有促销活动。 尽管最后3位用户赶上了5月份的活动,但活动力度却不如双十一。 这些人都没有
双十一期间有1人下单,可见其下单需求迫切
还有一个共同点就是这些人都是女生用品
据此推测这些人是因为工作需要需要批量订购,比如儿童福利院等机构
建议参考上述用户在天猫平台的其他信息,进一步挖掘其订购需求