网站数据分析中的误区探讨

时间:2022-09-17 09:04:57

网站数据分析中的误区探讨

摘 要 数据已成为企业发展的风向标,介由数据分析企业可以量化自身的目标和经营状况,为以后的发展提供决策依据。然而,尽管数据本身是客观的,但在分析、择取和解读过程中却易受分析者主观臆测影响,错误分析方式将导致分析结果与真实情况大相径庭。本文通过浅显易懂的实例介绍网站数据分析中存在的一些误区。

关键词 网站数据分析;误区;辛普森悖论;蹦失率;退出率;数据敏感性

中图分类号:P208 文献标识码:A 文章编号:1671-7597(2013)11-0000-00

时至今日,业务数据的获取变得更加简单全面,网络问卷取代上门和电话回访,以往无法获取的访客位置、系统环境也可通过Google Analytics(GA)等工具轻易得到,企业正逐步建立以数据为导向的商业模式。即便如此,对于业务数据的解读却往往受到分析者主观臆测的影响,错误的处理方式甚至会让分析结果与真实情况背道而驰。一些分析师往往只看到数据的表象,而忽视其背后关联。如数据分析的结论有误,对决策会造成致命的负面影响。以下结合个人经验将网站数据分析中几种常见误区予以说明。

1 分组统计误区

分组统计误区又名辛普森悖论,因数据解读不全面造成潜在因素被忽视。某企业为了测试网站改版后的效果,统计注册转化率有否提高,在原网站前端增加了一个导向页,各分流130万用户到新版和旧版的首页。经过一段时期,通过流量分析工具很快得到了对比结果(下表1和下表2),改版前首页上的用户数是50万个,通过首页注册链接的用户数是10万个,注册转化率为20%。其他页面上的用户数是80万个,而注册的人数(如通过结算页的快捷注册链接进行注册的用户数等)是60万个,注册转化率为75%。而改版后首页的注册转化率提升为25%。其他页面的注册转化率提升为80%。

不难看出改版后无论是首页还是非首页的注册转化率均高于改版前,但这真的是一次成功的改版么?且慢,如果进行总量统计(下表3)的话,改版前的注册转化率为53.8%,而改版后的注册转化率仅为46.2%,仔细分析上表,改版后访问其他页面的用户数显著减少,这或许是首页的各分页链接有误,也可能是具体产品页设计的不合理,造成用户不会在相关子页面进行浏览。

2 样本选择和方案优先

某学习网站频遭用户投诉,称网站下载慢且易出错。于是网站提供一种额外的下载方法。功能开发完毕后,运营方组织500个学生真实测试,发现均能顺利下载,结果正式上线后不久又接到用户投诉。是样本数目不够大,还是测试方式有误呢?

经细致分析,发现测试样本的选择和默认下载的方式可能都存在问题。500作为测试人数而言并非小数目,但相比日PV数超过5000的网站,样本显得小且单一,测试的用户数过于集中,虽可测试并发压力,但对异构环境下的分布模拟则无能为力。因此真实测试应尽量在同一时间、不同地点、网络环境、操作系统及浏览器下进行。此外,网站虽增加了下载方式,但未将其作为默认方式。如默认方式不成功,用户是否愿意尝试另一种下载方式呢?下载过程太过繁复恐怕也是投诉原因之一。

3 不确定的因果关系

用Excel或SPSS进行相关性分析已成为数据分析师的必修课。淘宝某商铺通过量子恒道进行数据采集后导入excel中进行相关系数计算,得出用户平均停留时间和商店单品转化率之间的相关系数是0.88,属于强相关,于是便认定两者间存在因果关系,得出平均停留时间越长转化率越高的结论。事实则不然,两者之间虽强相关,但不一定互为因果。也许是由于转化率高才使平均停留时间变长,又也许这两者均和第三方因素有关。在那个因素高于或低于某个阀值下,这两者的关系看似非同一般起来。轻率的将相关关系具体化,可能会得出完全错误的结论。

4 不同的目的不同的分析点

企业都很想看到各项指标都很理想的数据报表,但实际过程中,总有些指标达不到预期。在不能快速调整所有指标前,应确立主要的目标指标。对一家刚踏入市场的B2C而言,流量和人气是首要问题,此时的毛利变得相对不重要。夸张的说,在获得风投后,公司宁愿亏本促销,博得眼球。而对于另一家已占领市场的B2C而言,流量的增长率意义不大,而交易的转化率及回头率则应十分关注。

5 蹦失率和退出率哪个更糟

蹦失率(Bounce Rate)指只看了一页就离开的访客数与进入访客总数的比率。对GA而言,是指该网页是会话中“唯一网页”的会话数占从此网页开始的所有会话数的百分比;退出率(Exit Rate)指从当前页退出的访客数,与当前页总浏览数的比率。对GA而言,是指该网页是会话中“最后一页”的浏览量占此网页总浏览量PV的百分比。

低蹦失率不一定代表网站的用户体验很糟。蹦失率可作为Landing Page的评价标准,但对某些网站,用户甚至只要浏览单页面,就可满足需求。比如WordPress博客,可能旧访客只为看博客有否更新。如未更新,则立即跳出,这属正常情况。同样,高退出率也不代表网站一定很糟糕,退出率统计的范围应针对特定页面,而非整个网站的平均退出率。电子商务网站的支付成功页面,其他网站的客户服务(如联系我们,关于我们)页面,退出率一般都很高。因为用户结算完成或知晓联系方式后,需求即得到满足。

6 数据敏感性和人际工程学

对数据分析师而言,获取和解读数据的基本方式有两种,一是通过技术手段和数据敏感性,二是通过人机工程学(俗称的人脉关系),前者迂回曲折,后者干脆直接,但前者才是数据分析的基本功,而后者则是对前者结论的验证。如果你是人人网的流量分析产品经理,该如何解释7月1日到7月7日,总流量以每日5%的幅度下滑呢?如果你是淘宝某店主,该如何解释竞争对手淘宝店的周收入突然下降了20%,但隔周后又自然恢复,中间毫无其它异常情况呢?数据敏感性高的人会通过技术手段罗列所有可能性,并通过后续验证逐一排除,将最终原因圈定在尽可能少的个数里。尽管由此得到的原因可能并非真实原因,分析也许一时没有人脉消息管用,但所得到的对数据的认知和积累,是人脉永远不会给你的。

参考文献

[1]朴海明.数据库安全威胁与安全防范措施[I].科技资讯,2010(03).

上一篇:优化电源维护管理 保证电源安全 下一篇:基于属性的地籍信息分类与编码体系的分析与研...