帶菜刀的詩人对《统计学》的笔记(9)
-
假设检验的基本问题
当我们做假设检验的时候,通常是可以通过z统计量或者P值比较。
关于P值的定义,就是我们假定原假设为真的前提下,由实际观察到的数据与原假设不一致的概率。
举个例子,我们假定硬币是均匀的,掷一枚普通硬币5次,如果硬币是均匀的(假定原假设为真),连抛5次得到都是正面的概率就是0.5的5次方,即0.03125(实际观察到的数据),这就是我们所说的P值,即发生这种事件(5次得到都是正面)的概率为0.03125。
使用P值决策的时候,我们会去拿一个观察到的事件发生概率(P值)与0.05做比较,如果这如果这个值比0.05还要小,那么说明,几乎不可能发生的事情,现在居然就发生了,所以我们就有理由拒绝原假设,不相信它是真的。
-
参数估计
参数估计就是用样本统计量去估计总体的参数,可以分为一个总体参数的估计和两个总体参数的估计,我们可以根据样本的容量大小划分为不同的情形并使用相应的分布,用十多种情形,比较难记。
-
统计量及其抽样分布
在统计学的抽样分布理论中,至今已求出的精确抽样分布并不多。通常,抽样分布是很难求得的,有时尽管求出了精确抽样分布,但也因为过于复杂而难以应用。所以统计学家们借助极限工具,寻求在样本量n无限增大时,统计量T ( X1 ,X2,…,Xn)的极限分布。在实际应用中,当n较大时,就用这种极限分布作为抽样分布的一种近似,这种极限分布常称为渐近分布。现在有不少重要的统计方法就是基于渐近分布提出的。
-
9.2 卡方检验
我看的是先前一版本的纸质教材,看到这一章的时候,分不清楚拟合优度检验和独立性检验的区别,其实它们都是检验两个变量之间是否存在相互依赖关系,在特征工程中经常会用于做特征筛选,直到在电子版本的教材中看到,这两部分合在一块了。
-
8.3 两个总体参数的检验
比较两个群体之间的参数是否有显著差别,比如两个不同行业职工的平均收入水平是否存在差异,一般的逻辑是直接比较均值或者更不合理的是拿一个群体的均值作为代表跟另外一个群体相比较,可以用两个总体参数的检验寻找答案。
-
4.2 离散程度的度量
离散程度的度量:
对于分类数据来说,是异众比率,顺序数据来说,是四分位差,数值型数据主要是方差和标准差。其中有一条经验法则挺值得注意的,也就是说在数据对称分布的时候,大多数的数据是在k个标准差的范围之内,如果超过了这个标准,那他可能这个点就被认作是离群点。对于不对称分布的数据,那就得需要切比雪夫不等式。
当我们想要比较两组数据的离散程度,如果均值不同的话是不能直接拿标准差去比较的,因为他们不在同一个量纲下,所以为了消除量纲的差距,我们需要用相对离散程度,即离散系数,标准差与平均数之比。
-
5.3.2 离散型随机变量的概率分布
均值与数学期望的区别:
均值是实验后对统计结果的平均数而数学期望是实验前根据概率分布对实验结果的预测的平均值。因为我们在实验中没办法穷尽所有的可能,所以只能根据概率,分布去预测样本的平均值,即数学期望。
-
6 统计量及其抽样分布
抽样分布、参数估计和假设检验是统计推断的三个中心内容,在正态分布的总体条件下,统计学下有三大分布:卡方分布、t分布和F分布。这三大分布对后面的参数估计和假设检验至关重要。
还需要记得一条伟大的中心极限定理。中心极限定理的大致意思就是如果我从一个服从正态分布的总体中抽出n个样本,当样本量充分大的时候(经验上一般大于30即可)样本的均值也是服从正态分布。
-
7 参数估计