揭开统计学性感的面纱
扫描二维码
随时随地手机看文章
21ic讯 《哈佛商业评论》宣布“数据科学家”是21世纪最性感的职业,所谓性感,既代表着难以名状的诱惑,又说明了大家都不太懂这个职业做的是什么。
看到这个评价,小编就想,这说的不也是统计学么!现在大数据和工业4.0的口号响彻祖国大地,统计学在大学里可谓炙手可热;而一个学期的统计课程上下来,同学们个个都是云中望月,雾里看花;考完试之后更是哀嚎遍野。如何让这“性感”变得美好起来,不再可望而不可及呢?
SASRPython等软件工具都可以帮您将课堂上学到的数据分析方法进行重新演绎和输出,但估计您想到那密密麻麻的code就开始摇头了,“要花大把的时间学代码,还要看晦涩的输出结果,只能让性感变得更加只可远观啊!” 小编在这里要给您强烈推荐SAS旗下的JMP软件,这款软件相当于SAS的窗口化应用,界面超级友好,主打interactive analysis & visualization,也就是说那些晦涩的统计参数以及输出结果都可以动态交互可视化了,真正的做到了SAS的总裁Jim Goodnight先生说的“Give everyone the power to know”。如此一来,揭开统计学“性感”的面纱就指日可待了。下面我们就来看一下JMP的特色之处吧。
动态辅助教学
有不少同学一学期读下来往往连置信区间等基本的统计学概念都不甚清楚,就更别提什么大数据分析必须要具备的统计思维了。其实一旦搞清楚这些基本概念,就相当于一只脚迈进了统计学的大门,后面再接触其他的深层次的数据分析方法自然就会豁然开朗。
下面我们就举一个正态总体均值区间估计的例子。为了了解统计学专业学生毕业后一年内的平均工资水平,我们有代表性的选取了100个该专业的毕业生做了调查,调查结果为年平均工资水平为19.91w,误差是±0.35w,置信度为95%。这里我们该如何解读这些数字呢?
Ÿ 样本均值为19.91w--即为抽取的100个毕业生的年工资水平均值,可以作为对总体统计学专业毕业生工作一年内的年工资水平的估计。
Ÿ 95%的置信水平下,估计的置信区间为19.91w±0.35w(19.56w,20.26w)
Ÿ 如果用类似的方式,抽取N多个类似的样本,每个样本都可以计算构造出一个置信区间,这N多个置信区间中大概会有95%会包含真正的工资水平。
上面给出的是对于置信区间在文字上的解释,借助于JMP,您可以自行进行模拟以了解置信区间的构造和原理。如下图所示,您可以在左侧设定总体的分布,抽取的样本大小,样本的数量以及置信水平;右侧就会相应的给出对总体均值的估计。图中展示的结果来自于均值为20w,标准差为2的总体,在其中抽取大小为100的样本,共抽取10000次,相应的置信水平为95%;我们可以看到
Ÿ 右边最上侧列出的是第10000次抽取的样本数据的直方图;
Ÿ 紧跟在直方图下面的是第10000次抽取的样本数据计算的均值估计和置信区间;
Ÿ 中间部分的图表告诉我们所有10000次抽取的样本构造的置信区间对真实的均值的覆盖情况(真实的均值为20,不是所有的置信区间都覆盖真实值);
Ÿ 置信区间图下面是抽取的1000次样本的样本均值平均以及样本均值的标准差,他衡量的是样本均值与总体均值的接近程度,每次抽取的样本数越多,样本均值与总体均值越接近,该值越小。均值的标准误公式σ/sqrt(n)就是对该值的估计,估计值为2/sqrt(100)=0.2.
Ÿ 最后一部分告诉我们构造的所有的置信区间中覆盖真实的均值水平的比例为95.03%,这95.03%即为置信水平的真正意义所在。
当然你可以改变样本的大小,抽取次数以及总体分布来观察不同分布不同抽样对均值区间估计的影响。怎么样,看到这里,是不是觉得柳暗花明又一村了。
交互分析
说到交互分析,这可以算作JMP的独门武器了。无论是你刚刚拿到数据要做探索性数据分析,还是建立复杂的统计模型,JMP都可以提供交互分析帮助您更好的解读数据。小编在这里只举一个模型刻画器的例子。模型刻画器通过可视化的方式把构建好的模型(包括各种形式的模型)动态交互的展现出来,相较于枯燥的数字,这种方式更加直接,更容易理解变量之间的关系以及相互作用机制。
模型刻画器
丰富的统计分析方法
作为SAS家族的系列产品,JMP自然也少不了各种经典的、前沿的统计分析方法,既包括决策树神经网络等数据挖掘算法,又涵盖了Lasso,Elastic Net等处理多重共线性问题的惩罚算法,还有模型比较帮助你进行模型的筛选,都可以通过一键式菜单完成分析,您可以处理多种形式的复杂数据及问题。
灵活定制
对于爱钻研爱创新爱搞怪的好学生们,JMP还提供了灵活的脚本程序,以满足你们的创作需求。看看下面这个歪歪扭扭的时钟是不是可以放在你的桌面上,或者情人节的时候,你也可以为你心仪的女同学制作一颗爱心来给她一个惊喜,只需要尽情地发挥你们的想象力和创造力哦!
其实,JMP的可视化和交互性探索分析特色就是为了培养你对数据的好奇心,让你在数据中遨游的同时,运用探索性数据分析发现规律,然后通过统计建模进行深入的业务洞察,验证想法并升华得到新的结论。这样的过程又何尝不是一种更让人着迷的“性感”呢!
点击下方链接,去看看JMP都还有哪些精彩的可视化动态分析结果吧!小编还要告诉你一个好消息,这样的HTML5结果,你自己也可以通过JMP来实现哦!
HTML5输出示例
JMP试用版下载
--"We support education because it is an investment in the future, not just for our company, but for the world."