只要符合参加不符合录用条件是什么么意思？

点击联系发帖人 时间：2015-08-14 04:30

不符合录用条件是什么

教职成司函【号&|是否符合免试条件?这个是什么意思?_百度知道统计学假设检验中 p 值的含义具体是什么？
统计学假设检验中 p 值的含义具体是什么？
【知乎用户的回答(141票)】:这是修改后的版本，之前的答案中提到我的假如没有另外说明的话都是修改前的版本。原版本存在一定的误导性，以及语句上的确存在漏洞，所以进行了订正。既然题主不想听干巴巴的定义，那就让我们讲故事。就从打赌开始说起。一日闲机无聊，我与楼主会饮于望胡楼。饮罢，两人都不想主动买单，于是我提议以置硬币来决定谁买单。规则是这样的：有二十个一元硬币，谁的菊花朝上多，谁就算赢。然后楼主先投，有十一个硬币菊花朝上。他就得意洋洋的看我。然后我一扔，有十九个硬币个个菊花朝天。楼主角色由红转白，由白转黑。拍案而起，大吼一声，你丫作弊，硬币有问题！我笑而不语问楼主：凭什么说硬币有问题？难道二十个硬币中十九个硬币菊花朝上就根本不可能么？显然理论上是可能的，但是楼主依旧会认为我在作弊，实际上，任何人见到这个的场景都会怀疑背后有猫腻。因为楼主或其他任何人都知道：假如这场打赌是公平的话，那么每一个硬币的两面都有相等的概率向上，所以每个硬币菊花朝上的概率都是1/2也就是0.5，那么十九个菊花朝上的概率是20/1048576，约等于0.00002。这种概率太小了，楼主认为在假如我没有在硬币上做手脚以让结果有利于我的话是不可能发生这种情况的。我立刻反驳说，你这是嫉妒我，那我要扔出二十个菊花朝上你还不是要说我也在作弊？楼主说，没错，我既然认为你扔出十九个菊花朝上是在作弊，那二十个菊花朝上当然也是因为你对硬币动了手脚！让我们用的语言概括一下。H0：我没有对硬币动手脚。H1：我对硬币动了手脚，以让结果偏向于我。（这里面的H0称之为检验假设，意思是说你要检验的这个假设，H1称之为备择假设。他们两的关系是不能兼容的。这两者只能且必须拒绝一个。假如拒绝H0的话，那么就不能拒绝H1了。）于是我们做了一个实验（赌博）。结果出现了十九个硬币菊花朝上的情况。假如赌博是公平的，那么出现这种情况的概率是20/1048576。而比这种情况更加极端的二十个硬币统统朝上的概率是1/1048576，这种概率更加低。假如我们认为十九个硬币朝上是个小概率事件的话，那么比它更极端的二十个硬币朝上是一个更加极端的更小概率事件。这两者的和是21/1048576。于是楼主认为在这么一次实验（赌博）当中出现这么个小概率事件或者比它更极端的事件是不肯能的。于是只能拒绝H0，于是不能拒绝H1。也就是说我对硬币动了手脚，以让结果偏向于我。以上就是假设检验的基本思想，里面涉及到了楼主的一个问题，什么是p值？这里的p值等于21/1048576，p值就是假如赌博是公平的，那么出现这种情况和比这种情况更极端的概率值。翻译成干巴巴的语言就是在H0成立的条件下，出现该实验结果或更极端情况的概率值。继续鄙视剧透党，我恨你们！！！【夏澈丹的回答(75票)】:的答案尽管基本正确，但从严格的定义来说是有一定误导的。要说清楚p-value，就要说清楚很多其他基本概念。我就用题主的例子讲个故事好了。题目叫：射击队来了个新领导。射击队来了个新领导，想选拔一些队员为省（自己）争光。于是他找来一个叫费舍尔的人来做检验。虽然费舍尔表示这个方差应该是比较好判断一个选手素质的统计量。但领导表示我们没那么多时间，全运会马上开始了，大家打一枪直接看结果拉到。费舍尔想应该是个分布应该是正态吧，你看要不我自己定一个拒绝区间，但领导表示就是10-3了。费舍尔算了一下发现合格选手打进这个区间的概率应该是96%。但领导希望这个检测最好尽量少出错，费舍尔说这有两种可能的错误：第一种是，运动员是合格的，但我们认为他不合格，就是拒绝原假设。第二种是，运动员不合格，但我们认为他合格。领导说那就让这两种概率都小，费舍尔说这个数学上不行啊，两种错误概率不能同时都降得很小。领导想了想说把一个好的人说成不合格，他会出去说我们输了是领导选人无房，你把不合格的人说成合格的，我们可以说比赛前状态不好。看来第一种错误比较严重，那就尽量让第一种小吧。费舍尔说，我们统计一般都是把第一类错误确定一个很小数值，然后尽量设计实验令第二种尽量小。领导说最多4%好了。费舍尔告诉领导这个4%，或者说我们希望第一类错误的最大值，就是显著水平。那么同时，我们希望看一下我们犯错误的平均概率也恰好是4%，这个4%同时也是我们犯错误百分比的期望，也就是说有100个候选人，我们平均会把四个合格的人弄成不合格的。那么具体到实验中就是，这个人在合格的情况下，打出n环以外就会被认为不合格。所以这个实际的概率就是合格的人打出n环以外的概率，我们希望这个概率不要大于4%。费舍尔发现n等于3的时候恰好是4%。那么只要n小于等于3，整体的第一类错误都不会大于4%。但是我们还要尽量让第2类的错误概率小，就是说一个不合格的人，打进n环以内的概率要尽量小。反过来，一个不合格的人打出n环以外的概率就是我们正确的概率，当然第一类错误地反面也是正确的，但那个概率就是最少1-4%，在最优情况下，无法改动。所以我们就希望让一个不合格的人打出n环以外的概率尽量大，费舍尔给这个概率起了一个名，叫检验的势（power），检验的是就是我们争取的概率，他越大，第二类错误就越小。费舍尔算了一下对于一个不合格的人来说，打出3环的概率也就势是60%，打出2环是20%。3环最大。所以我们就选择了3环到10环作为拒绝区间。这时候第二类错误最小是40%。费舍尔发现跟领导想的一样，不用说服领导了，松了一口气。（下面开始解释p-value）然后费舍尔做了一次实验，一个人打了一个2环外。费舍尔的拒绝区间的形式，是多少环之外就拒绝。那么当一个人打了2环外，如果拒绝区间是2环外，那么如果假定他合格，平均来说他被拒绝，也就是费舍尔犯错的概率就是2%。如果是3环外，就是4%。如果1环，我们不拒绝。如果我们的拒绝区间没有定下来，领导希望这个犯错误的概率越小越好，那么这个拒绝区间就应该是2环外。在假设拒绝区间没确定的情况下，对给定的样本，在H0假设下，我们选择一个拒绝区间，使得拒绝这个样本的概率（也就是一类错的概率）最小，这个概率叫做p-value（这就是为何之前的答案不妥，p-value是个最小值，只不过由于某人答案里拒绝区间只有一种，所以最小值就是唯一的值，那个答案没错，但定义不全面）。费舍尔这时候跟领导说，假设有100个人都这样，如果我们都拒绝他们，我们平均也就弄错两个，也就是2%，领导您定的是最多4%，这个符合要求，不如就索性都拒绝了吧。领导表示费舍尔领会了他的精神表示同意。这也就是为什么pvalue小于置信度就拒绝，因为在给定了拒绝区间的情况下，p-value越小我们约少可能犯错，所以就放心大胆拒绝了。这基本就是答案。必须说，在高等数理统计里的p-value定义真反人类。【憶记的回答(69票)】:好吧我不擅长讲故事..但我还是试着讲一下。这些故事是我的统计老师讲给我听的P.S. 1 在我的故事里，显著性水平被称为α，“检验的势”被称为“检验力”，power..P.S. 2 要彻底理解这三个概念，故事真的不够，建议在有了更多了解之后，看这篇文章《》，或者果壳的翻译版《》故事1公司A全国的某个岗位X有1000人应聘，这1000人当中，有400是真的符合公司要求的，有600个是能力不达标来碰运气的。这间公司对自己的测试题很有信心（觉得只有5%的人能碰运气通过），没有面试，只是让所有应聘者参加这个测试，只要测试通过就录取入职，根据一年后的表现决定留任、升职还是裁员。最后350人通过测试，入职但是实际上呢，其实5%浑水摸鱼的人因为种种原因通过了测试，20%真正有能力的人又因为其他种种原因没有通过测试这些人工作一年后，根据他们的表现，公司发现，其中320人是真的符合公司要求的，30人是碰运气给碰进来的。也就是如下图的情况有30个（8.57%&5%）浑水摸鱼的，看来这测试不太行啊..故事2公司B全国的某个岗位Y有1000人应聘，这1000人当中，有800是真的符合公司要求的，有200个是能力不达标来碰运气的。这间公司也对自己的测试题很有信心（觉得只有5%的人能碰运气通过），没有面试，只是让所有应聘者参加测试，只要测试通过就录取入职，根据一年后的表现决定留任、升职还是裁员。最后650人通过测试，入职但是实际上呢，其实5%浑水摸鱼的人因为种种原因通过了测试，20%真正有能力的人又因为其他种种原因没有通过测试这些人工作一年后，根据他们的表现，公司发现，其中640人是真的符合公司要求的，10人是碰运气给碰进来的，也就是如下图的情况650人里只有10人（1.54%&5%）是浑水摸鱼的，这个测试还不错~为什么要说这两个坑爹的故事？（哪有公司这么招人的= =）因为这和研究者在进行“通过样本推断总体”一类的研究时的情况类似，不过两家公司代表的可能是不同的研究领域。而用故事最后的比例对比5%来判断故事中的测试是否“有用”，是很容易犯的一个错误所谓显著性水平α，就是你允许最多有多大比例庸才（H0）通过你的测试——你允许最多有多大比例“H0”被你误以为是H1。这是预先设置好的，在研究前就存在的。为了防止浑水摸鱼的人靠运气入职公司，你的测验不能太简单所谓检验力power，就是你的测试能够让多大比例人才（H1）通过——你有多大能力发现"H1是H1"。检验力分两种，一种是事前检验力，即在正式进行研究前，你预先设定一个检验力标准，为了获得这么大的检验力（以防人才没有被你招进来），你需要对研究进行一些设计（公司需要设计一份“好”的测试，例如不要太难）；另一种是回溯性检验力，即在研究进行之后，根据结果计算自己在研究中实际拥有的检验力。故事里的两个其实都是回溯性检验力如何权衡上面两者，就看所在领域，及研究者自身了（公司的偏好、决策，以及对于损失人才和浪费资源在庸才两种不同类型的风险承担能力）而p值，我的理解则是实际上你让庸才之中的多大比例庸才（H0）招了进来，而不是入职者当中的庸才比例。故事里两个p值都是.05，但是入职者当中的庸才比例却不是.05。这是最容易混淆的两点。放到研究里，假设p=.030，意思是说你的研究有3%的可能是在“H0”这个库里面被发现而错误地归入H1；而不是指3%的可能在“包含H0和H1的所有现象”这个库里被发现。后一个比例的大小，相当于故事里入职庸才在所有入职人士中的比例，这个比例取决于在应聘者（你想要检验的假设的总体）当中，有多少是人才（H1），有多少是庸才（H0）【姚岑卓的回答(46票)】:谢邀，。反对当前排名第一的
的答案。（原因见后）我整篇文章就说了一句话：通俗的来说，p值代表：在假设原假设（H0）正确时，出现现状或更差的情况的概率。前半句话大家理解起来都没问题，重点在理解后半句——出现现状或更差的情况。举个例子：假如我有特别的打电话技巧，我告诉楼主接我电话的人都是女生。楼主不信，于是他要做试验来检验。他默默的写下原假设和备择假设：原假设（没有确凿证据一般不推翻的假设）：这个人没有特别的打电话技巧，也就是他打电话是男是女接听的概率都是1/2。备择假设：他真的有特别的打电话技巧。好了然后我们做实验：我在楼主面前打了20个电话，这20个电话里有18个是娇滴滴的萌妹子回复的。那这个实验的p值怎么算呢？在假设原假设（H0）正确时：所以现在我们都假设接我电话的人的性别是随机的，也就是接听我电话的人是男是女的概率分别为1/2。出现现状或更差的情况：对楼主来说，20个里有18个萌妹子已经是很奇怪的了。如果有19个？甚至20个都是岂不是更奇怪么？所以，出现现状或更差的情况代表着：接我电话的妹子等于或超过18个。这下p值就清楚了吧：楼主看了一眼这么多0，觉得还是吹的可能性还是很小的，于是就拒绝了原假设，接受了我“真的有特别的打电话技巧的”备择假设。可是呢！！！！！！千万不要以为你这就理解了出现现状或更差的情况哦！更多时候，我们会遇到这种情况：我们检验硬币的均匀性：原假设（没有确凿证据一般不推翻的假设）：硬币均匀，正反出现概率各为1/2。备择假设：硬币不均匀。如果这次试验我们抛了20次硬币，18次出现正面，出现现状或更差的情况是什么呢？答案是：出现18次、19次、20次正面和0次、1次、2次正面。（不是出现18、19、20次正面哦！）我可没说这个硬币正面出现概率多，所以这个时候出现18次正面和出现18次反面（2次正面）或更差的情况（19正、19反、20正和20反）一样是更坏的情况。这也是为什么当前排名第一的的答案是错误的原因。他的答案应该是1/当然，如果你以后继续学习概率论的知识的话，有可能碰到比单侧和双侧更难的情况。当然我就不让你犯迷糊了。最后回到另一个问题：为什么我不对楼主的命题进行分析呢？因为楼主的命题要求：H0：他是合格的射手（p=1）这下....只要出现任意一次没射中，p就小于等于 1-至少全中=1-1*1*1*1*1……=0看到了吗？一次没中，H0就一定拒绝了。同理，在检验很多东西的时候，你不能说绝对如何如何。因为数理统计告诉你：小概率发生不正常；而概率论告诉你：一切皆有可能。【Klaith的回答(14票)】:前几天刚刚学完 Coursera 的课程《Statistical Reasoning for Public Health: Estimation, Inference, & Interpretation》，看到这一题难免有点手痒。当年学医学统计的时候，蒙混过关，现在终于到还的时候。答案有点长，废话有点多，不想花时间的请直接读文末的粗体字，其余的就当作我的复习了。鉴于题主的例子不够典型，不能体现样本、总体的概念，所以我决定和其他几位一样，重新设定场景。在此之前，假设题主理解通常的函数、概率、正态分布和统计学概念，这样我不至于太痛苦。后台老板发布任务，要求我提供知乎所有知友的月收入平均值。显然，一种直观的解决方法是询问每一个知友他们的月收入，然后计算出平均值。可是这并不简单：一来我不知道究竟有多少知友，难免有所遗漏；二来难免有个别知友不愿合作，提供我月收入情况；三来工作量巨大，会耽误我「德玛西亚」的时间。于是我决定使用统计学方法，随机寻找 100 位善良的知友，收集他们的收入数值，计算平均值，再借助这个平均值去估计（estimate）全体知友的收入平均值。在这里，全体知友就是本次统计学研究的总体（population），研究的参数（parameter）是月收入平均值（），而那些善良的知友则是一个样本（sample），其样本数（n）为 100，月收入平均值记为。经过一系列复制粘贴发送的枯燥动作，我终于获得了善良知友们的数据，然后轻而易举地算出了。看看距离交差时间还早，我突然胡思乱想，害怕这 100 位知友的其实无法代表老板需要的，于是我痛下决心，再多取样（sampling）几次，多计算几个，看看会有什么发生。所谓「好奇害死猫」，我反复取样了几次，发现算出来的竟然都不一样——究竟哪个才能代表呢？我越来越恐惧，唯一能做的就是反复取样，反复取样……等我缓过神来，发现已经整整取样了 500 次，手头已经握有整整 500 个。我停下手头的工作，陷入了深深的恐慌，习惯性地将这些数字按出现的次数进行归纳，结果惊讶地发现，它们竟然服从正态分布（中心极限定理）！我灵机一动，只要我的取样足够靠谱，真正的不就是正态分布最中央的峰值吗？考虑到正态分布的特性，假如我在当中随便取一个，然后计算以其为中心、前后各 2 倍这些的标准差（standard deviation, SD）距离的区间（即），那么岂不是有 95% 的概率将包含其中吗？我释然了，随手找了个（点估计），算出个区间发给了后台老板——这就是置信度（confidence level）为 95% 的置信区间（confidence interval, CI），区间估计。邮件刚发出，突然铃声大作，我猛然从桌前抬头。该死！工作太过无聊，我竟然伏案睡着了，之前的不过是黄粱一梦。笔记本里仍然仅有 1 个样本得出的 1 个均值，扭头看手表，时间也来不及了。于是我决定将我手头的这个作为「点估计」，然后估计一个反复取样样本均值的标准差（标准误，standard error），便可轻轻松松地计算出区间估计交差了。到此告一段落，看看之前提到哪几个概念：标准误：对某一总体进行相同样本数的反复取样，得到的样本均值的标准差。可以使用某个样本标准差和样本数进行估计。置信区间：使用某个样本的参数均数和标准误构造的区间，有一定概率能够覆盖（包含）总体该参数均数的真值。其相应的概率，称为「置信度」。很快，老板发来回复。我喜滋滋地打开邮件，期待收到表扬。没想到展现在我面前的，是资产阶级的罪恶本质。老板又布置了任务，丢给我一组数据，声称是百度贴吧随机抽样 120 人的月收入数据，要我研究研究两个网站人群的收入是否一致。我计算出贴吧样本的收入均值，估计出标准误，看上去也可以估计一个置信区间。如果和之前那个有重叠的话，那我可不敢说两个人群的收入不一致。不过，这次我想试试「假设检验」（hypothesis test）的方法。这个方法的原理相当简单，如果反复在两个总体中对应地抽样，然后将同一批抽样的样本均值相减，得到差异值（difference），就会发现这许许多多差异值同样符合正态分布（中心极限定理）。那么假设两个总体的均值相等，换言之，刚刚发现的正态分布，就以 0 为中心，以的标准误为标准差。接下来，便可以利用正态分布的性质计算手头上的样本均值差异（或更远值），在该正态分布中出现的概率（P value，P 值）。所以，第一步先做假设。一般地，需要一个零假设（null hypothesis）和一个备择假设（alternative hypothesis）。比如像这次的问题：然后，还需要一个概率的临界值。如果两个总体的均值相等（成立），已有的样本差异（或更远值）发生的概率多小，才算不可能发生啊？就 5% 吧，如果样本差异（或更远值）落在正态分布两头最远端各 2.5% 的区域，应该是小概率事件，不可能发生；既然发生了，说明假设有误，必须拒绝零假设，备择假设成立。而这里的 5% 就被称为「显著性水平」。于是又产生了两个概念：P 值：当零假设成立时，已知样本参数差异（或更远值）出现的概率。显著性水平：拒绝零假设时的 P 值阈值，一般取 5%。好吧，我的故事讲完了。我不是统计学出身，大学时的统计学成绩仅仅及格，这里所提及的例子也只能涵盖「假设检验」的一小部分。而且我确实不懂什么叫做「检验势」…… 的答案更为专业，请移步阅读。非常感谢各位，希望知友发现错误，能够不吝指出。谢谢！【知乎用户的回答(11票)】:谢谢两位高票的评论，更赞同前者观点和实例，后者的阐述详尽，但可能混淆了p-value，两类统计学错误等概念，也就是混淆了“显著性检验”和“假设检验”的两套理论体系。p值是Fisher先提出来的“显著性检验”理论体系中的概念：1. 有一个命题，称之为”零假设“（null hypothesis）H0；2. 找到一个统计量T，可以计算T的统计分布；3. 一次试验结果可以计算得到一个确切的T值（T0），在H0成立的情况下，出现比T0更极端情况的概率值记作p值；4. 如果p很小，则可以作为”零假设并不成立“的有力证据。注意，在Fisher的这套体系里面不涉及备择假设Ha（alternative hypothesis）。参考文献：Fisher, Ronald Aylmer. "The goodness of fit of regression formulae, and the distribution of regression coefficients." Journal of the Royal Statistical Society (1922): 597-612.()Fisher, Ronald Aylmer. "On a distribution yielding the error functions of several well known statistics." Proceedings of the international congress of mathematics. Vol. 2. 1924.()Fisher, RonaldAylmer. "Applications of” Student's” distribution." Metron 5.3 (1925): 90-104.()Fisher, Ronald Aylmer. Statistical methods for research workers. Genesis Publishing Pvt Ltd, 1925.关于备择假设Ha和两类错误（以及似然比检验），是E. Pearson和J. Neyman在1928年发表在《生物计量》杂志上的文章中提出的概念，他们建立了与Pearson简单的p值系统不同的一套称作“假设检验”的理论体系。H0为真而拒绝的错误，称作I类错误，又称弃真错误、假阳性（false positive），和检验的显著水平（significancelevel），记作α；H0为假Ha为真而没能拒绝H0的错误，称作II类错误，又称存伪错误、假阴性（false negative）。而是否拒绝H0是将一次实验得到的统计量T0与事先确定的显著水平α相比较。参考文献：Neyman, Jerzy, and Egon S. Pearson. "On the use and interpretation of certain test criteria for purposes of statistical inference: Part II." Biometrika A 20.175-240 (1928): 263-294.()Fisher和E. Pearson、J. Neyman对于这两套体系是互相诋毁互不相认的，现今也有诸多争论，但一般认为后者更加global而前者比较简单粗暴。而现今的教科书和实践中，已经把这些概念混淆起来了，想必这是两套体系的发明者不愿意看到的状况。"For all the P value's apparent precision, Fisher intended it to be just one part of a fluid, non-numerical process that blended data and background knowledge to lead to scientific conclusions. But it soon got swept into a movement to make evidence-based decision-making as rigorous and objective as possible. This movement was spearheaded in the late 1920s by Fisher's bitter rivals, Polish mathematician Jerzy Neyman and UK statistician Egon Pearson, who introduced an alternative framework for data analysis that included statistical power, false positives, false negatives and many other concepts now familiar from introductory statistics classes. They pointedly left out the P value.But while the rivals feuded — Neyman called some of Fisher's work mathematically "worse than useless"; Fisher called Neyman's approach “childish” and “horrifying [for] intellectual freedom in the west” — other researchers lost patience and began to write statistics manuals for working scientists. And because many of the authors were non-statisticians without a thorough understanding of either approach, they created a hybrid system that crammed Fisher's easy-to-calculate P value into Neyman and Pearson's reassuringly rigorous rule-based system. This is when a P value of 0.05 became enshrined as 'statistically significant', for example. “The P value was never meant to be used the way it's used today,” says Goodman."参考文献：Lew, Michael J. "Bad statistical practice in pharmacology (and other basic biomedical disciplines): you probably don't know P." British journal of pharmacology 166.5 (2012): .（）Regina Nuzzo. Scientific method: Statistical errors. Nature 506（2014）: 150-152.（）Statistical Hypothesis Testing, Wiki.()而现今批评p值滥用的文章也不乏其数，总结起来是p值显著结果在重复研究中不可重现的问题。而不论Fisher还是E. Pearson、J. Neyman的体系，都是频率学派的理论，所以对p值的批判常被当做频率学派和贝叶斯学派之间争论的靶子。频率学派与贝叶斯学派的不同可以参考知乎相关问题“”。参考文献：Ioannidis, John PA. "Why most published research findings are false." PLoS medicine 2.8 (2005): e124.（）Regina Nuzzo. Scientific method: Statistical errors. Nature 506（2014）: 150-152.（）Goodman, Steven N. "Toward evidence-based medical statistics. 1: The P value fallacy." Annals of internal medicine 130.12 (1999): 995-1004.（）O'Neill, Robert T. "Secondary endpoints cannot be validly analyzed if the primary endpoint does not demonstrate clear statistical significance." Controlled Clinical Trials 18.6 (1997): 550-556.（）笔者认为还是将这些概念区分开来比较好。对于p值而言，如所解释的“在H0成立的条件下，出现该实验结果或更极端情况的概率值”就足够通俗易懂地传达Sir Ronald Aylmer Fisher老人家方法的初衷了。【西班牙疼的回答(2票)】:其实不用想得多复杂。P值就是一个概率数值，它表示对你提出的原假设有多支持，这是用来确定是否应该拒绝原假设的一种方法。你提到的95%，说明它的置信度a就是0.05，这是说明我们有多少把握认定最后结果是正确的。这里你设定的是95%,那意思就是最后结果我们有95%的把握做对。比如说，根据你提到的数据，假设最后分析出来P值是0.01，它小于0.05，那就是要拒绝你提出的H0假设了。关于显著性水平。假设检验中有两种错误，一种就是弃真错误。A其实是个不好的投手，但题主最后结论是A是个好投手，那题主得到的结论把真相抛弃了，所以就是弃真错误。我们把犯这个错误的概率成为a，这个a就是显著性水平了。【JuliaZhang的回答(1票)】:显著性水平就是你定的5%（1-5%就是你所谓的95%置信区间的confidence level，中文可能是叫做置信阈）。P值得官方定义，在零假设成立的条件下，得到观察值以及比观察值更极端的值得概率。比如你说3-10环，如果做单尾检验，P值就是当A是好投手时，A投出3环以下的概率。如果P值大于0.05，就是一般说的p值不显著，也就是说我们没有足够的证据排除A作为一个好投手投出3环以下是偶然的这种情况，那么我们仍然不能认为A不是一个好投手（注意，不能认为A不是好投手，一般不说我们认为A是一个好投手，在实践里面一般不”接受“空假设，只说不拒绝空假设）。相反，如果p小于0.05，那么认为p是显著的，我们就接受alternative hypothesis，认为A投手之所以投出3环以下，是因为他不是好投手，而不是出于偶然。0.05的制定不是硬性的，只是通常情况下大家都这样用。关于具体为什么制定成0.05，比如我以前在国内的教材上看到的说法是”认为发生概率小于0.05的事件是小概率事件，单次不可嫩发生“，但是在其他地方还没有怎么见过。假设检验大概就是这样了，希望有帮助。【天真的小黄书的回答(1票)】:P值越小，拒绝原假设的理由越充足。可以理解为，P值是原假设成立的概率。拒绝原假设，即不能认为原假设成立。但这不代表接受备择假设。【LinglaiLi的回答(1票)】:前段日子正好Nature上又有一篇关于p-value被滥用的文章，于是我这个外行感兴趣去查了不少相关资料，例如一直不遗余力批评p-value滥用的Goodman写的这篇文章：看过之后我的大致理解如下：正如许多人提到的一般，p-value的含义是在假设原假设（H0）正确时，出现现状或更差的情况的概率。如果换成数学语言，不严格的写就是p(x|H0)（实际应该是p(x或比x更坏 | H0)），但我们真正想知道的事情实际上是p(H0|x)或p(H1|x)，从这里可以很清楚看到用贝叶斯来解释，这儿差了一个先验概率——这也是p-value经常被错误理解和使用的一个原因。问过一个药厂做生物统计的同学也说现在他们都用贝叶斯那套了，因为用贝叶斯更好interpret result【学无术的回答(1票)】:哎哎。不要忘记了小概率实际不可能性原理。【xumengnan的回答(0票)】:从这个题目的提法，我觉得题主可能有一个误区。在这个题目里，合格不合格不能以投进10-3环的圈内判断，这样判断等同于一次投标判定，与统计学没有关系了。需要判断应该有限次投标投进的次数，比如一个合格的投手应该投100次，有70次以上投进圈内，另外，这个与圈内外的面积无关（楼主题目中说的95%）。其实只要在靶上画个圈，圈内计投中一次，圈外不计即可。圈的大小只影响一组人中，可能达到合格的比例。与本题判断一个人是否合格无关。理清这个就应该弄明白问题方向了。电脑里没装作图软件，文字表述这个太苍白了，我觉得其他人讲的也比较多了，就不再说了。【天怡的回答(0票)】:一般，原假设都是否定假设【张三的回答(0票)】:p-value: 在原假设成立的情况下，发生比原假设这个事件更极端的情况的概率。如果原假设H0:A&B,那这个事情的反面或者是极端情况就是A&=B，p-value=P(A&=B|H0)；如果原假设是H0:A=B，那这个事情的反面或者是极端情况就是A&B或A&B，p-value=P(A&B|H0)+P(A&B|H0)【yifanzhou的回答(0票)】:犯第一类错误的概率的一种体现吧【知乎用户的回答(0票)】:做参数假设检验问题时，一定会将『H0：A是一个合格投手 &-& H1：A不是合格投手』也就是研究目的转化为数学语言，如『H0: theta&a &-& H1:theta&=a』然后才是讨论参数假设检验名词的时候。但如何转化是建模的问题了。。。问题是题设定义『合格投手为其真实水平能投到10~3环，而不管他临场表现如何。』想说明什么，个人觉得不清不楚，很难把投手水平参数化，如果真要研究，不如删去重新假设。很多答案都在进行上面说的建模，然后再用统计分析。但由于题主定义有问题，我觉得都不是好模型。的回答 p 值定义不对。和匿名用户比较靠谱。。。最后吐槽一下，这么多非统计的过来答统计题，明明在谈很严谨的 p『值』、假设检验，大部分人却脱离数值谈意义。。。【DeviliveD的回答(0票)】:在原假设成立的情况下，比统计量所得数值还要更荒谬的概率。因此当P值小于显著水平（alpha）时，拒绝原假设。如果哪位朋友认同这个答案或是有修改意见不必点赞，请私信我。学术路途漫漫，交个朋友。【吉吉的回答(0票)】:其实理解起来很简单，基本原理只有两个：1、一个命题只能证伪，不能证明为真2、小概率事件不可能发生证明逻辑就是：我要证明命题为真-&证明该命题的否命题为假-&在否命题的假设下，观察到小概率事件发生了-&搞定。结合这个例子来看：证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件（比如A连续10次投中10环），而这个事件在“A不是合格投手”的假设下，概率为p，小于0.05-&小概率事件发生，否命题被推翻。可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信---------------------这个过程实际上和人脑的做判断的过程很相似
发表评论：
馆藏&46607
TA的推荐TA的最新馆藏}

快乐无忧网