当前位置:首页 > 芯闻号 > 充电吧
[导读]我不是试图用通俗的语言来解释清楚什么是假设检验,如何去实践。 做到能用理 论化的语言来描述和理解问题是科研工作者应该掌握的能力。其实这个不难,只要 把基本问题吃透了,就可以在基本问题上继续问题。本文中

我不是试图用通俗的语言来解释清楚什么是假设检验,如何去实践。 做到能用理 论化的语言来描述和理解问题是科研工作者应该掌握的能力。其实这个不难,只要 把基本问题吃透了,就可以在基本问题上继续问题。本文中主要解释的是什么是假设检验,一些相关的概念的理解,以及如何构造检验规则,构造拒绝域。
1、统计假设检验问题     “假设检验”,从字面上上理解就是先“假设”,后“检验”的过程,“检验”的对象当然 是之前的假设本身,有些情况下为了区分与其它学科的“假设”,研究统 计的人就 用“统计假设”来描述统计上的假设问题,既然我们研究统计,跟其它行业的人们打 交道就较少了,所以我们有时候就会简称“统计假设”为“假 设”了。
说了半天,那,到底什么是“假设”呢?其实,在统计学中,“假设”目前主要有两 种,至少我没有碰见其它“假设”类型。(这里突出“两种”,也是一种研究问 题的 方法学,在研究某个问题的时候,能够精确讲问题分类,是一种必要的素质)。一 种是参数的假设,另一种是非参数的假设,后者好像概括了所有“不 是第一种假 设”的情况,其实不然,在实际研究中,人们把随机变量分布的假设称为非参数的 假设。为什么把分布的假设称为非参数的假设呢?一方面是因 为它确实不是参数 的假设,另一方面,其它类型的除了参数和分布的假设外,我们想不到其它东西的 假设了,至少我没有想到,也许真的存在,只是我还没 有遇到,没有学习过而已。
    什么是参数的假设呢?实际就是对随机变量分布中未知参数的假设。参数如果已 知,我们没有必要假设了呀!还有一个前提就是我们已知随机变量的分布类型。所 谓 分布,就是知道分布函数的类型,已知分布函数的前提下,我们便知道了概率 分布列(离散的),密度函数(连续情况)。还有未知参数的问题,我们可以 举 一个例子,比如某个随机变量服从正太分布,大家都立马想到正太分布的密度函 数,这个函数中有两个参数确定后,这个函数就可以来实际计算了,如果 我们不 知到其中一个,或者都不知道参数的值,那么我们就说它是未知参数了。其实未知 参数不是定义的,未知参数一般不会给出定义,是因为它很容易满 足所有人的思 维逻辑。我们对某个参数作出假设,这就是参数的假设了。
    什么是非参数的假设呢?大家在看书的时候,会看到书里大部分写的是“非参数假 设”,只是少个“的”而已,但是这种缺省就很容易导致不在一个思维逻辑上的人 们 产生迷惑,当然也正是很多学科中存在这样或者那样的迷惑才吓退一些人来保证少 部分人掌握这些迷惑背后的东西,不信你想想什么EM啊,什么 SIFT,什么支撑向 量机(SVM)呀,多么让人迷惑的东西啊。当然,你知道了缺省的存在,或者迷糊 背后美妙的结论,就没什么可怕的了。前面也说 过了,就是随机变量分布的假 设,我们称为非参数的假设。比如我们研究世界人民的身高的分布情况,我们现在 不知道身高这个数字特征定义的随机变量服 从什么分布,我们就可以假设他是某 个分布,这个就是非参数的假设问题了。
检验呢?什么是检验?前面给出了假设,对假设进行判断的过程就叫检验了。我们 怎么检验呢?是要组织构造一个检验规则的,然后根据这个规则来检验之前的假 设,这样在逻辑上大家都说的过去。
2、检验规则构造的思考     我们从犯错误的角度来构造检验规则。如果你看书,也许或者很有可能,书里面并 没有解释,他在做什么,而是给出逻辑推理过程后,给出你他们的动机。不过现在 你不用担心了,我已经告诉你我的动机了。当然我这样做也可能违背了提出“假设 检验”问题的人的原始意愿,但是这起码是一种理解问题的方式,尽管他 可能有所 偏差。(一切皆有可能,基于这个原理,我会在讲述过程中说明某些属于小概率事 件的事情)。 
    为了有理论依据,数学上给出一些符号来标记,文字上给出一些定义用来说明问题。首先H_0 这个数学符号用来表示“原”假设,H_1这个符号用来表示“备择”假设,可以理解为“准备选择的”假设,至于为什么这样理解,其实等我们熟悉了这套理论之 后,我们就会明白往往拒绝H_0这个结论更具有说服力(这是基于小概率原理的),不过如果大家没多少概念,也没有关系,后面我会试图一点点的 解释清楚,力图让你豁然开朗,当然你没有耐心看下去,我也没有能力让你理解这一且的。
    我们可用的数据只有样本,或许还有一些已知的参数,那我们应该努力使用这些已知的东西来构造检验准则。记住这一点!
    为了弄出检验准则,我们先从结果考虑。不管作出什么选择,我们的总会有出现错误的可能,幸运的是我们只会犯两个错误,一个错误是H_0实际上是正确的,我 们根据我们的检验规则,判断H_0是错误的了,这种错误我们称他为第一类错误,统计中,我们称“判断H_0正确”为“接受H_0”,相反为 “拒绝H_0”, 第一类错误也就可以说成拒绝真值的错误了,为了高深一点,大家会说,这个叫“拒真”。另一种错误,就是第二类错误,就是“在H_0错误的情况下,根据判决 规则判断H_0正确”,这种错误也可以叫“取伪”。
    那我们是根据样本观测值给出判断的吧,我们就必须把样本观测值搞成两个集合,我们做实验后,样本观测值属于了某个集合,我们作出相应的判断,即接受或拒绝 H_0,我们再起一个名字,就是包含可以用来拒绝H_0的那个样本观测值的所在的集合,我们称之为“拒绝域”。既然有了拒绝域,相应的我们再 给另一个可以用来接受H_0的样本观测值的集合叫做“接受域”,这样理解非常符合逻辑。其实我叙述接受域和拒绝域的过程,就是构造检验规则的 一种逻辑想法,为什么说这种想法是逻辑的呢?因为我只有样本观测值可以使用的情况下(某些情况可能知道更多),我很自然的想到使用样本观测值 来检验假设,我既然有两个选择(接受和拒绝H_0),那么我就把样本观测值的所有可能结果(有些书也称他为样本空间,当然样本空间的理解是正 确的,我只是没怎么用)分成两个集合,一个称之为拒绝域(我们记为W),一个称之为接受域(记为!W),相应的,当样本观测值落在拒绝域中的 时候,我们拒绝H_0,相反接受H_0 。知道了这些,前面我们提到的“拒真”就可以表示出它的概率形式了。P((X_1,X_2,...,X_n) in W | H_0实际为真) = alpha,表示的是实际H_0为真的条件下,样本观测值落在了拒绝域中的概率,用alpha来表示它的结果,自然我们会想,如果我们的H_0是真 的,那么样本观测值就应该很难落在拒绝域中,也就是说在假设为真时,“我们的样本观测值落在拒绝域中”这个事件是一个小概率事件,一般我们认 为发生概率比较小的事件为小概率事件,这里“小”的度量根据实际问题来定,根据小概率事件原理,即小概率事件在一次事件中认为不会发生,如果 发生了,我们就认为这不是小概率事件了,往往这句话的前半句更容易接受一点,我们很难说一个发生的事件不是小概率事件,这也就是为什么我们更 愿意得到拒绝H_0的原因。这个原理看起来有太大人为思想了,我们还是承认他,就是在没有完美解决方案的情况下,退而求其次的结果呀。
    那到底如何给出我们谈论的这个“拒绝域”呢?这个一般根据具体情况而定,不过套路还是差不多的,一般都会用统计量的某些规则来给出拒绝域。
    需要说明一下的是,很多情况下,我们也希望取伪概率要尽可能小,但是我们很难都照顾到,所以我们又找了个简单的做,就是只考虑拒真概率尽可能小,
   首先给出一个小概率值alpha(比如取0.05),来限定拒真概率以便给出拒绝域。这里数学家给了一个名字,叫显著性水平,alpha值越小,显 著性水平就越低,说明的是小概率发生的概率就越低。对于参数的建设检验问题,我们要构造一个估计这个参数的统计量。然后我们在H_0为真的前 提下,找到这个统计量的分布。 找到分布就成功了一大步了。下一步也很关键,这一步是根据原假设H_0的形式进行的,这一步我们用例子说明,这一步完成了,任务基本上完成了。

   例子,有一堆铅笔要出厂啊,根据经验,该厂的铅笔长度满足正态分布,方差已知为sigma^2,假设某个组织给了一个标准,说铅笔的长度的期望为 u_0才能合格。


       那我们就设H_0: u = u_0, H_1:u!=u_0。 我们找一个估计u的统计量,就用样本均值了,由于CSDN我编辑不了X的上面画个横线,我就用Y表示样本均值了。样本容量为n,那么(Y- u)sqrt(n)/(sigma)就服从标准正态分布N(0,1)了,在H_0为真的条件下,就是说u=u_0的条件下,T=(Y- u_0)sqrt(n)/(sigma)就是一个统计量了,这个统计量服从标准正态分布。我们就是要根据这个统计量来寻找拒绝域。观察T这 个统计量,当样本均值Y与u_0接近的越近,我们就更容易接受H_0,也就是说当样本均值远离u_0的时候,在总体数学期望为u_0的条件 下,发生这个的概率比较小,也是为了限定这个小的程度,我们给定一个数值,比如我们前面提到的alpha=0.05,这个可以在不同的场合 下给出不同的值,这里我只是随便给出的一个值而已。拒真的概率为 P(|T|>u_x) = alpha, 根据标准正态分布的分位数性质,u_x = u_{alpha/2}。根据|T|>u_x这个不等式,我们就可以来限制拒绝域了。W = {(x_1,...x_n) | |T|>u_x}。后面做判断就水到渠成了。

 3、总结一下
   本文中主要讨论的是参数的假设检验问题。  在统计中,假设检验的关键问题是如何构造统计量。 然后是如何思考选定拒绝域。 多多训练之后,我们就自然明白这个过程了。所以还是要研究一些实际问题,来获得理解。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭