python数据分析01-数据分析、常见业务指标及常见分析方法_python做过哪些业务指标-CSDN博客

admin 体育 2024-05-20 44 0

　　数据分析：就是使用分析方法和分析工具在大量数据中提取有价值的信息，形成有效结论，挖掘数据最大价值的过程。

　　再简单来说，数据分析就是用来分析数据对象内在规律的，变废为宝。

　　如果再做成图表，就更能清晰的看出其中的规律，方便对症下药。

　　硬实力：

Excel：数据存储、数据清洗、可视化方面，需要掌握常用的操作及重要函数，图标和数据透视功能。SQL：SQL语句的提取分析。SPSS：统计分析软件，提供可视化按钮。Python：数据爬取、分析，含数据分析第三方包numpy/pandas/matplotilib/sklearn。

　　软实力：

业务知识：要懂业务，要懂爬虫。逻辑思维&分析方法：对比分析、多维度拆解分析、相关分析等。沟通表达：良好的沟通能力，不说废话，擅长跨部门协作。统计学知识：统计学原理，对知识的要求不高。机器学习：机器学习模型和算法，有难度，但是发展好。

数据支持数据报表数据监控，问题分析专题报告

　　做什么工作都不容易，当你下决心做一件事情的时候，不要只是三分钟热度，坚持下去，没有学不会的知识，也没有过不去的坎儿，只有不愿付出的努力，一起加油！

　　公司肯定会有不同的分析场景，我们需要做的就是根据场景，明确问题，分析问题，然后提供数据支持，最后进行总结，得出有价值的结论。

明确问题

　　明确数据来源，从时间地点事件角度。

　　明确业务指标，指标的口径、数据对比等。

　　用户数据

日增用户数活跃用户数活跃率留存率：40-20-10法则单位获客成本客单价ARPU：Average Revenue Per User，每个用户的平均收入ARPPU：Paying 每位付费用户的平均收入

　　行为数据

PV：page view，页面访问/点击量，只要刷新就算一次。UV：独立访客数，以记录用户浏览器为准，100个人用一个浏览器访问，也只算1次。IP：计算某ip地址的计算机访问网站的次数，局域网里的同一个ip访问100次，也只算1次。平均访问时长：用来衡量用户体验，体验越好，肯定留存时间越长。用总时长/访问次数来计算。跳出率：反应网站流量质量的重要指标，只访问了一个页面就离开网站的访问次数占总访问次数的百分比。跳出率=只访问一个页面就离开网站的访问次数/总访问次数。转化率：潜在用户在我们的网站上完成一次我们期望的行为，就叫做一次转化，转化率=转化次数/访问次数。复购率：购买两次及以上的客户/总购买客户数。

　　产品数据

成交总额（GMV）：也叫“流水”，包含销售额、取消、拒收、退货订单总额。SKU（stock keeping unit）：库存量单位，一个商品有多个SKU，比如衣服颜色。SPU（standard product unit）：标准化单元产品，SPU是一个集合，比如一款手机是一个SPU，内存等参数就是一个SKU。ROI（return on investment）：投资回报率，交易金额/投放成本。

　　我们都会挑选核心指标，一般反应业务能力的指标，比如各种率。

　　“五法三模”

逻辑树分析法多维度拆解分析法对比分析法归因分析法相关性分析法RFM分析模型漏斗分析模型AARRR分析模型

　　就是将一个复杂的大问题，拆解成多个关系密切的小问题，用来解决验证估算问题，比如费米问题。

　　主要培养我们的逻辑及思维方式，锻炼清晰的表达能力

　　你要如何知道煎饼铺一年能卖多少煎饼呢？

　　通过逻辑树分析法得出的结论没有明显用处的时候，可以考虑从多个维度对问题进行拆解。

　　比如指标拆解、业务流程拆解等。

　　通过对两个事物进行比较，我们知道的同比和环比，横比和纵比，都属于对比分析法。

　　同一时间和别人比，这叫横向；不同时间和自己比，这叫纵向。

　　同年异月和自己比，这叫环比；异年同月和自己比，这叫同比。

　　就是针对问题做假设，然后搜集证据证明假设的过程。成则是，失则排。

　　需要研究两种或两种以上的变量间关系时使用，判断哪些因素是印象某种现象的主要原因，记住是主要原因。

　　在相关分析法中，会有相关系数r的概念，表示关系强弱，r的取值范围为[-1，1]，r>0.6表示相关性强；具体r值需要通过方差和协方差来计算。

　　相关性又分为正相关：++和负相关：±。

3.5.1 注意事项

　　A和B相关的五种可能性，A->B / B->A / C(A&B) / A<=>B / 巧了

　　相关分析要讲究数据，不是凭经验靠感觉；

　　但是要避免一个误区，相关关系并不一定是因果关系，因此在进行相关分析时除了看相关系数大小外，还要进一步验证，如果其他因素不变，该变量是否能够引起另外一个变量相应的变化。

3.5.2 协方差

　　两个变量在变化过程中的同向或反向的程度，就是通过协方差来体现，同向协方差为正，异向协方差为负。

　　理解为：X和Y两组数据，在每个时刻的值与其均值之差的乘积，求期望（求和并求出平均值）。

　　很多时候，正负项会抵消掉，最后求平均得出的值就是协方差，其数值大小，可以判断这两个变量同向或反向的程度。

　　协方差为正时，数值越大，说明XY同向程度越高；协方差为负时，数值越小，说明XY同向程度越高。

3.5.3 相关系数

　　理解为：X、Y的协方差 / X的标准差和 Y的标准差。

　　所以，相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。其消除了两个变量变化幅度的影响，而只是单纯反应量两个变量每单位变化时的相似程度。

　　标准差的计算：

　　理解为：每个时刻的变量值与均值之差再平方，得到数值后相加后求平均，再开方。

　　怎么理解偏离均值的幅度？为什么又要平方？为什么又要进行开方？

　　所以标准差描述了变量在整体变化过程中偏离均值的幅度。协方差除以标准差，也就是把协方差中变量变化幅度对协方差的影响剔除掉，这样协方差也就标准化了，它反应的就是两个变量每单位变化时的情况。这也就是相关系数的公式含义了。

　　同时，你可以反过来想象一下：既然相关系数是协方差除以标准差，那么，当X或Y的波动幅度变大的时候，它们的协方差会变大，标准差也会变大，这样相关系数的分子分母都变大，其实变大的趋势会被抵消掉，变小时也亦然。于是，很明显的，相关系数不像协方差一样可以在＋无穷到负无穷间变化，它只能在＋1到－1之间变化。

近度（Recency）：最近一次消费到当前的时间间隔频度（Frequecy）：最近一段时间内的消费次数额度（Monetory）：最近一段时间内的消费金额

　　RFM模型反映了用户的现在价值和潜在价值，并对用户分类，便于因材施教，使效果最大化。

　　此时三高为最优。

3.6.1 RFM模型能够轻松地解答业务上的这些问题

谁是我最好的客户？哪些客户正处于流失的边缘？谁有可能转化为更有利可图的客户？谁是你不需要关注的无价值客户？你必须保留哪些客户？谁是你的忠实客户？哪些客户最有可能对当前的营销动作做出回应？

3.6.2 RFM计算方式

　　用来分析从潜在用户到最终用户这个过程中用户数量的变化趋势，从而寻找到最佳的优化空间，这个方法被普遍用于产品各个关键流程的分析中。

　　在一个流程里，每个环节都会造成用户的流失，通过计算用户流失数量，来发现存在问题的环节。

3.7.1 数据收集

　　数据埋点，可以自己开发，也可以利用第三方统计工具。

　　（Acquisition获取、Activation激活、Retention留存、Revenue收入、Refer推荐），用于帮助业务成长。

　　均数、中位数的适用范围及特点