使用R进行统计分析——假设检验

作者: afenxi来源: afenxi时间:2017-04-30 09:15:30

摘要：本篇文章介绍如何使用R语言中的这些函数进行假设检验。

假设检验是统计学中的一种推断方法，用来判断两个样本或总体间的差异是由于抽样误差引起的还是本质差别造成的。R语言中提供了很多假设检验函数，如F检验，t检验和卡方检验等等。本篇文章介绍如何使用R语言中的这些函数进行假设检验。

二项分布检验

假设一个广告的点击率为0.02，更换新的广告创意后1000次曝光获得了23次点击，新广告在点击率上是否明显优于老广告？

H0：新广告与老广告效果无差异 H1：新广告效果优于老广告

1 2 #老广告点击率0.02，新广告1000次广告曝光获得23次点击是否明显优于老广告 binom.test(x =23,n = 1000,p = 0.02,alternative = "greater",conf.level = 0.95 ) 使用R进行统计分析——假设检验-数据分析网

p-value = 0.2778>0.05，在0.95的置信区间下接受原假设H0。新广告与老广告在点击率上没有显著差异。

1 2 #1000次访问0.02点击率下差异显著的临界值 qbinom(p = 0.95,size = 1000,prob = 0.02)

[1] 28

新广告在1000次广告曝光中点击量需要提升到28次以上才能明显优于老广告的效果。

泊松分布检验

假设一次市场推广活动中前一个小时有50人注册，后一个小时有60人注册，后一小时的注册人数是否明显高于前一小时？

H0：前一小时与后一小时注册人数无差异 H1：后一小时注册用户数量高于前一小时

1 2 #上一小时50人注册，下一小时60人注册，后一小时是否显著高于前一小时 poisson.test(x = 60,T = 50,alternative = "greater",conf.level = 0.95) 使用R进行统计分析——假设检验-数据分析网

p-value = 0.09227>0.05，在0.95的置信区间下接受原假设H0，后一小时注册人数与前一小时无差异。

1 2 #与上一小时50人注册差异显著的临界值 qpois(0.95,lambda =50)

[1] 62

后一小时的注册用户数需要提升到62以上才能明显高于前一小时的注册用户数。

单样本t检验

假设某流量渠道的目标是每日带来150个咨询，在过去的一周带来的咨询用户数量分别为229,164,121,137,145,127,123，我们是否能认为该渠道已经达到目标，即每日的平均咨询量大于150？

这里使用单样本t检验，首先建立假设。

H0：每日平均咨询量不大于153，未达到目标。 H1：每日平均咨询量大于153，达到目标。

1 2 3 4 #将过去一周咨询用户数量赋给X X=c(229,164,121,137,155,127,143) #计算过去一周咨询量的均值 mean(X)

[1] 153.7143

1 2 #过去一周咨询用户数量是否达到目标 t.test(X,alternative = "greater",mu=153,conf.level = 0.95) 使用R进行统计分析——假设检验-数据分析网

p-value = 0.4801>0.05，在0.95的置信区间下接受原假设H0，流量渠道的咨询量没有达到目标。

双样本t检验

假设两个流量渠道在过去的一周分布为网站带来咨询用户，这两个流量渠道带来的咨询用户数量是否有显著差异？

这里使用双样本t检验，首先建立假设。

H0：两个流量渠道带来的咨询用户数量没有显著差异。 H1：两个流量渠道带来的咨询用户数量存在有显著差异。

1 2 3 4 #流量渠道1带来的咨询用户数量赋值给X X=c(229,164,121,137,155,127,143) #流量渠道2带来的咨询用户数量赋值给Y Y=c(175,120,187,144,117,184,135)

进行双样本t检验之前先进行方差检验，确定两组样本方差是否相同。 H0：两个总体方差相同 H1：两个总体方差不同

1 2 #方差检验，确定两个流量渠道的咨询量是否相同 var.test(x = X,y = Y,conf.level = 0.95) 使用R进行统计分析——假设检验-数据分析网

p-value = 0.6469>0.05，在0.95的置信区间下接受原假设H0，两个总体方差相同。进行等方差t检验。

1 2 #等方差t检验，两个流量渠道带来的咨询用户数量是否有差异 t.test(X,Y,var.equal=TRUE,alternative = "two.sided") 使用R进行统计分析——假设检验-数据分析网

p-value = 0.9125>0.05，接受原假设H0，在0.95的置信区间下两个流量渠道的咨询用户量没有显著差异。

成对样本t检验

假设网站对咨询流程进行了优化并进行了测试，那么改版后的效果是否明显优于改版前？

这里使用成对t检验，首先建立假设。

H0：改版后的效果与改版前无差异 H1：改版后的效果明显优于改版前

1 2 3 4 #改版前注册用户量赋给before before=c(229,164,121,137,155,127,143) #改版后注册用户量赋给after after=c(217,284,155,190,158,170,180) 1 2 #改版前的咨询量是否小于改版后的咨询量 t.test(before-after,alternative = "less",conf.level = 0.95)

p-value = 0.02362<0.05，拒绝原假设H0，接受备择假设H1。在0.95的置信区间下改版后的效果明显优于改版前。

卡方检验

假设广告创意A1315次访问，65次转化，转化率4.94%，广告创意B939次访问，54次转化，转化率5.75%。广告创意B的效果是否优于广告创意A？

这里使用卡方检验，首先建立假设。

H0：两个广告创意的效果无差异

H1：广告创意B的效果优于广告创意A

对源数据近整理，广告创意A1250次未购买，65次购买，广告创意B885次未购买，54次购买。以此建立列联表。

1 2 3 4 #创建列联表 X=c(1250,885,65,54) dim(X)=c(2,2) X 使用R进行统计分析——假设检验-数据分析网 1 2 #使用卡方检验 chisq.test(X,correct = FALSE)

p-value = 0.3978>0.05，在0.95的置信区间下接受原假设H0，两个广告创意效果没有显著差异。

看过还想看

可能还想看