banner
大数据平台>大数据技术与应用>R语言比例置信区间

R语言入门秘录13/25:比例的置信区间

作者: afenxi来源: afenxi时间:2016-12-01 13:57:41

摘要:数据分析网整理自tbkken的《R语言入门25招》,一招招技能带你走进R语言。

问题

样本来自由“成功”和“失败”组成的群体。根据样本数据,要判断群体中“成功”的比例的置信区间。

解决方案

使用prop.test函数。假设样本数量是n,样本中有n个“成功”:

代码

> prop.test(n, x)

函数的输出中包含有p的置信区间。

讨论

我订阅了一份总体上来说还不错的股市新闻邮件,期中有一个栏目是推荐可能上涨的股票。他们寻找具有特定股价模式的股票并做出推荐。例如,最近该栏目就说某支股票的行情符合该模式。同时还介绍说,最近6次出现该行情模式时,有6次股价上涨。该作者得出结果,这支股票再次上涨的概率是6/9,即66.7%。。

用prop.test,我们可以计算出符合该模式的股票真正上涨的置信区间。这里观察的次数是n=9,成功的次数是x=6。下面输出了95%置信水平的置信区间是(0.309, 0.910):

代码

> prop.test(6, 9)

1-sample proportions test with continuity correction

data: 6 out of 9, null probability 0.5

X-squared = 0.4444, df = 1, p-value = 0.505

alternative hypothesis: true p is not equal to 0.5

95 percent confidence interval:

0.3091761 0.9095817

sample estimates:

p

0.6666667

这个作者说上涨的概率是66.7%是不明智的。这可能会让他们的读者陷入麻烦。

默认情况下,prop.test会计算置信水平为95%的置信区间。通过conf.level参数可以调整置信水平,例如:

代码

> prop.test(n, x, p, conf.level=0.99)

# 99% confidence level

banner
看过还想看
可能还想看
最新文章
Yonghong Z-Suite一站式大数据分析平台 —— 以卓越的数据技术为客户创造价值,实现客户成功。