帶菜刀的詩人对《统计学》的笔记(9)

帶菜刀的詩人 (https://www.libinx.com)

读过统计学

书名: 统计学
作者: 贾俊平/何晓群/金勇进
副标题: 统计学
页数: 398
出版社: 中国人民大学出版社
出版年: 2015-1-1

假设检验的基本问题

但什么样的概率才算小呢？著名的英国统计学家费希尔把小概率的标准定为 0.05 ，虽然费希尔并没有对为什么选择 0.05 给出充分的解释，但人们还是沿用了这个标准，把 0.05 或比 0.05 更小的概率看成小概率。

引自假设检验的基本问题

当我们做假设检验的时候，通常是可以通过z统计量或者P值比较。

关于P值的定义，就是我们假定原假设为真的前提下，由实际观察到的数据与原假设不一致的概率。

举个例子，我们假定硬币是均匀的，掷一枚普通硬币5次，如果硬币是均匀的（假定原假设为真），连抛5次得到都是正面的概率就是0.5的5次方，即0.03125（实际观察到的数据），这就是我们所说的P值，即发生这种事件（5次得到都是正面）的概率为0.03125。

使用P值决策的时候，我们会去拿一个观察到的事件发生概率（P值）与0.05做比较，如果这如果这个值比0.05还要小，那么说明，几乎不可能发生的事情，现在居然就发生了，所以我们就有理由拒绝原假设，不相信它是真的。

P值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值，与传统的拒绝域范围相比，P是一个具体的值，这样就提供了更多的信息。如果事先确定了显著性水平，如α＝0.05，则在双侧检验中，P＞0.025（α/2＝0.025）不能拒绝原假设；反之，P＜0.025则拒绝原假设。在单侧检验中，P＞0.05不能拒绝原假设，P＜0.05则拒绝原假设。当然，也可以直接使用P值进行决策，这时P值本身就代表了显著性水平。我们也可以使用P值，按照我们所需要的显著性水平进行判断和决策，具体做法就是用P值和需要的显著性水平进行比较。

引自假设检验的基本问题

http://www.novopro.cn/articles/201507221201.html

2019-07-06 00:29:49 回应

参数估计

参数估计就是用样本统计量去估计总体的参数，可以分为一个总体参数的估计和两个总体参数的估计，我们可以根据样本的容量大小划分为不同的情形并使用相应的分布，用十多种情形，比较难记。

2019-07-06 15:20:38 回应

统计量及其抽样分布

在统计学的抽样分布理论中，至今已求出的精确抽样分布并不多。通常，抽样分布是很难求得的，有时尽管求出了精确抽样分布，但也因为过于复杂而难以应用。所以统计学家们借助极限工具，寻求在样本量n无限增大时，统计量T （ X1 ，X2，…，Xn）的极限分布。在实际应用中，当n较大时，就用这种极限分布作为抽样分布的一种近似，这种极限分布常称为渐近分布。现在有不少重要的统计方法就是基于渐近分布提出的。

2019-07-07 23:05:11 回应

9.2 卡方检验

我看的是先前一版本的纸质教材，看到这一章的时候，分不清楚拟合优度检验和独立性检验的区别，其实它们都是检验两个变量之间是否存在相互依赖关系，在特征工程中经常会用于做特征筛选，直到在电子版本的教材中看到，这两部分合在一块了。

在实际应用中，由于问题背景的不同，得到期望频数的方法不同，于是也有人把 X2 检验细化为拟合优度检验和独立性检验。不论拟合优度检验或独立性检验，其原理和方法都是一样的，所以这里不再做严格区分，在后面结合运用的具体问题中附必要的说明。

引自 9.2 卡方检验

2019-07-10 09:06:11 回应

8.3 两个总体参数的检验

比较两个群体之间的参数是否有显著差别，比如两个不同行业职工的平均收入水平是否存在差异，一般的逻辑是直接比较均值或者更不合理的是拿一个群体的均值作为代表跟另外一个群体相比较，可以用两个总体参数的检验寻找答案。

2019-07-11 13:32:56 回应

4.2 离散程度的度量

离散程度的度量：

对于分类数据来说，是异众比率，顺序数据来说，是四分位差，数值型数据主要是方差和标准差。其中有一条经验法则挺值得注意的，也就是说在数据对称分布的时候，大多数的数据是在k个标准差的范围之内，如果超过了这个标准，那他可能这个点就被认作是离群点。对于不对称分布的数据，那就得需要切比雪夫不等式。

当我们想要比较两组数据的离散程度，如果均值不同的话是不能直接拿标准差去比较的，因为他们不在同一个量纲下，所以为了消除量纲的差距，我们需要用相对离散程度，即离散系数，标准差与平均数之比。

2019-07-11 22:44:17 回应

5.3.2 离散型随机变量的概率分布

均值与数学期望的区别：

均值是实验后对统计结果的平均数而数学期望是实验前根据概率分布对实验结果的预测的平均值。因为我们在实验中没办法穷尽所有的可能，所以只能根据概率，分布去预测样本的平均值，即数学期望。

2019-07-11 22:57:09 回应

6 统计量及其抽样分布

抽样分布、参数估计和假设检验是统计推断的三个中心内容，在正态分布的总体条件下，统计学下有三大分布：卡方分布、t分布和F分布。这三大分布对后面的参数估计和假设检验至关重要。

还需要记得一条伟大的中心极限定理。中心极限定理的大致意思就是如果我从一个服从正态分布的总体中抽出n个样本，当样本量充分大的时候（经验上一般大于30即可）样本的均值也是服从正态分布。

2019-07-11 23:10:32 回应

7 参数估计
2019-07-11 23:21:05 回应

帶菜刀的詩人的其他笔记 · · · · · · ( 全部42条 )

黑天鹅: 1
沉默的大多数: 1
事实: 1
心流: 2
理性乐观派: 1
Spark编程基础（Scala版）: 3
枪炮、病菌与钢铁: 3
邓小平时代: 3
女士品茶: 1
人类简史: 1
进化心理学(第4版): 4
临高启明: 1
总统是靠不住的: 4
围城: 1
禅与摩托车维修艺术: 4
红星照耀中国: 2