-
章节名:4 连续分布
-
2017-07-05 21:04:17
- 连续分布(continuous distribution) 由连续函数描述的分布。
- 语料库(corpus) 特定语言中用做样本的正文文本。
- 经验分布(empirical distribution) 样本中值的分布。
- 误差函数(error function) 一种特殊的数学函数,因源自误差度量研究而得名。
- 一次频词(hapaxlegomenon) 表示语料库中只出现一次的词。这个单词在本书中迄今出现了两次。
- 间隔时间(interarrival time) 两个事件的时间间隔。
- 模型(model) 一种有效的简化。对于很多复杂的经验分布,连续分布是不错的模型。
- 正态概率图(normal probability plot) 一种统计图形,用于表示样本中排序后的值与其服从正态分布时的期望值之间的关系。
- 秩变换 (rankit) 元素的期望值,该元素位于服从正态分布的已排序列表中。
empirical distribution基于观察,样本有限。continuous distribution的CDF 是一个连续函数(不同于阶跃)。实际生活中现象更多是后者。
exponential distribution和它的CDF图。(很典型,很好记)观察事件的interarrival time,如果事件在每个时间点发生的概率相同,那间隔时间的分布就近于exponential distribution.
CDF(x)=1−e−λx 均值是1/λ
取间隔事件的CDF,跟exponential distribution很像。如何确定它就是?一种办法是画出取对数后的互补累积分布函数(Complementary CDF,CCDF):1 - CDF(x)。如果数据服从指数分布,这应该是一条直线。y轴上的值取对数后,CCDF是一条斜率为−λ的直线引自 4 连续分布pareto分布:
帕累托分布:财富分布情况,自然界和社科中各种现象(城镇大小、沙砾和陨石、火灾和地震etc)(Xm是最小值)
帕累托分布的CDF是:。。。图是。。。该分布的中位数是:。。。https://jobrest.gitbooks.io/statistical-thinking/di_4_zhang_lian_xu_fen_bu/42_pa_lei_tuo_fen_bu.html
可以通过图形判断一个经验分布是否服从帕累托分布:对两条数轴都取对数后,其CCDF应该基本上是一条直线。在对y和x取对数后,就应该基本上是条直线,斜率是−α,截距是 −αlogxm。引自 4 连续分布Gaussian
正态分布/高斯分布,有普适性。相对于CDF,更常用error function来表达。公式为https://jobrest.gitbooks.io/statistical-thinking/di_4_zhang_lian_xu_fen_bu/43_zheng_tai_fen_bu.html引自 4 连续分布(python中很容易实现)
【威布尔分布(Weibull distribution),又称韦伯分布或韦布尔分布,是可靠性分析和寿命检验的理论基础 尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用于各种寿命试验的数据处理。】
对数正态分布(lognormal distribution)
连续模型也是一种数据压缩。如果模型能很好地拟合数据集,那么少量参数就可以描述大量数据。
有时候,我们会惊讶地发现某种自然现象服从某个连续分布,观察这些现象可以让我们深入理解真实的系统。有时候,我们可以解释观察到的分布服从特定形式的原因。例如,帕累托分布通常是正反馈生成过程的结果(也称为偏好依附:preferential attachment引自 4 连续分布
104人阅读