关于工作中使用到的统计知识
这本书是将教材课本中介绍的统计方法与计算机语言R进行结合,通过编程实现对统计学理论知识的理解,通过接口封装,进一步增加了其可用性。整本书的使用价值很高,通过理解其中的实例,结合自己的工作,你会有更深的心得体会。
这本书就是两条线,一条线是统计学中的各种基础知识和方法,另一条线是R语言实现。然而这两条线如果放在过去,那么我一定会在一段相当长的时间段内不断分别沿着这两条线去琢磨。可以说,这两条线非常复杂,内容也非常多,按照这种读书方法最终收获的是“模糊的记忆”,没有什么系统性的感触,也没有与工作结合的认识。现在看来,我觉得一种比较好的阅读本书的方式是划分成如下几步。第一步,粗看目录,知道整本书的大体框架;第二步,看每一章的序或介绍,通过看序,知道每一章的核心要解决的问题是什么;第三步,看每一章的实例,知道解决实例的方法。
【通过目录看书的框架】
要了解统计学的基本知识,那就是chapter1;
要了解R语言的语法,那就是chapter2;
统计学与R的初步结合,基于描述性分析,那就是chapter3,其中用R画图也是本章;
个人认为本书最大价值在于5-9章。
假设推断 in chapter5;
回归分析 in chapter6;
方差分析 in chapter7;
判别分析与聚类分析 in chapter8;
主成分分析、因子分析、相关分析 in chapter9;
ok,第一步达到了,本书的框架就是理论到实践的打通,由浅入深。
【核心关键词的含义】
你知道的分布有哪些?均匀分布、正态分布、泊松分布、卡方分布;
统计分析:分为统计描述和统计推断两个部分。
统计描述:是通过绘制图表、计算统计量等方法来描述数据的分布特点。是数据分析的基本步骤,也是记性统计推断的基础。
统计推断:主要包含参数估计和假设检验两个主要内容。
参数估计:通过样本来估计总体分布所包含的未知参数,叫做参数估计,是统计推断的一种重要形式。常见的方法有两种,一种称为点估计,另一种是区间估计。
假设检验:通过样本数据对某个事先做出的假设按照某种设计好的方法进行检验,判断该假设是否正确。是统计推断的另一种表现形式。
假设检验的参数方法:在统计推断问题中,如果假定或者给定了总体分布的具体形式(如正态分布),只是其中含有若干未知参数,需要基于总体的样本对参数做出估计或者进行某种假设校验,这种推断方法称为参数方法。
假设检验的非参数方法:在许多实际问题中,都不知道总体是怎样的一种分布,很难对总体分布做出正确的假定,对于这种不假定总体分布的具体形式,尽量从样本本身来获取所需要的信息的统计方法称为非参数方法。
回归分析:变量间的关系有两类,一类是完全确定的关系,可以用函数形式表示;还有一类是变量间有一定的关系,但是由于情况复杂或者存在不可避免的误差无法做到精确确定,为了能够研究这类变量之间的关系,常常通过大量试验或观测获取数据,用统计方法去寻找两者之间的关系,注意,这种关系反映的是变量间的统计规律。这种统计方法便是回归分析。
方差分析:在实际工作中,影响一件事情的因素有很多,人们总是希望通过各种试验来观察各种因素对试验结果的影响。方差分析就是研究一种或多种维度的变化对试验结果指标是否有显著影响,从而找出较优的试验条件或者生产条件的一种常用统计方法。基本目标就是通过比较各种原因在总变异中的重要程度,对原因进行排序,从而实现下一步工作方向的确定。
判别分析:也就是机器学习中的有监督学习,鸡仔已知有多少类的情况下,并且在有训练样本的前提下,利用训练样本对数据进行分类。是用于判断个体所属群体的一种统计方法。
聚类分析:预先不知道有多少类别,很据某种规则将样本进行分类。是一类将数据所对应的研究对象进行分类的统计方法。
主成分分析:PCA。是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的大部分信息,通常表现为原始变量的线性组合。
因子分析:是PCA的推广和扩展,也是降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。
相关分析:分析两组随机变量之间相关性程度的一种统计方法。
这本书就是两条线,一条线是统计学中的各种基础知识和方法,另一条线是R语言实现。然而这两条线如果放在过去,那么我一定会在一段相当长的时间段内不断分别沿着这两条线去琢磨。可以说,这两条线非常复杂,内容也非常多,按照这种读书方法最终收获的是“模糊的记忆”,没有什么系统性的感触,也没有与工作结合的认识。现在看来,我觉得一种比较好的阅读本书的方式是划分成如下几步。第一步,粗看目录,知道整本书的大体框架;第二步,看每一章的序或介绍,通过看序,知道每一章的核心要解决的问题是什么;第三步,看每一章的实例,知道解决实例的方法。
【通过目录看书的框架】
要了解统计学的基本知识,那就是chapter1;
要了解R语言的语法,那就是chapter2;
统计学与R的初步结合,基于描述性分析,那就是chapter3,其中用R画图也是本章;
个人认为本书最大价值在于5-9章。
假设推断 in chapter5;
回归分析 in chapter6;
方差分析 in chapter7;
判别分析与聚类分析 in chapter8;
主成分分析、因子分析、相关分析 in chapter9;
ok,第一步达到了,本书的框架就是理论到实践的打通,由浅入深。
【核心关键词的含义】
你知道的分布有哪些?均匀分布、正态分布、泊松分布、卡方分布;
统计分析:分为统计描述和统计推断两个部分。
统计描述:是通过绘制图表、计算统计量等方法来描述数据的分布特点。是数据分析的基本步骤,也是记性统计推断的基础。
统计推断:主要包含参数估计和假设检验两个主要内容。
参数估计:通过样本来估计总体分布所包含的未知参数,叫做参数估计,是统计推断的一种重要形式。常见的方法有两种,一种称为点估计,另一种是区间估计。
假设检验:通过样本数据对某个事先做出的假设按照某种设计好的方法进行检验,判断该假设是否正确。是统计推断的另一种表现形式。
假设检验的参数方法:在统计推断问题中,如果假定或者给定了总体分布的具体形式(如正态分布),只是其中含有若干未知参数,需要基于总体的样本对参数做出估计或者进行某种假设校验,这种推断方法称为参数方法。
假设检验的非参数方法:在许多实际问题中,都不知道总体是怎样的一种分布,很难对总体分布做出正确的假定,对于这种不假定总体分布的具体形式,尽量从样本本身来获取所需要的信息的统计方法称为非参数方法。
回归分析:变量间的关系有两类,一类是完全确定的关系,可以用函数形式表示;还有一类是变量间有一定的关系,但是由于情况复杂或者存在不可避免的误差无法做到精确确定,为了能够研究这类变量之间的关系,常常通过大量试验或观测获取数据,用统计方法去寻找两者之间的关系,注意,这种关系反映的是变量间的统计规律。这种统计方法便是回归分析。
方差分析:在实际工作中,影响一件事情的因素有很多,人们总是希望通过各种试验来观察各种因素对试验结果的影响。方差分析就是研究一种或多种维度的变化对试验结果指标是否有显著影响,从而找出较优的试验条件或者生产条件的一种常用统计方法。基本目标就是通过比较各种原因在总变异中的重要程度,对原因进行排序,从而实现下一步工作方向的确定。
判别分析:也就是机器学习中的有监督学习,鸡仔已知有多少类的情况下,并且在有训练样本的前提下,利用训练样本对数据进行分类。是用于判断个体所属群体的一种统计方法。
聚类分析:预先不知道有多少类别,很据某种规则将样本进行分类。是一类将数据所对应的研究对象进行分类的统计方法。
主成分分析:PCA。是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化成少数几个主成分的方法。这些主成分能够反映原始变量的大部分信息,通常表现为原始变量的线性组合。
因子分析:是PCA的推广和扩展,也是降维的一种方法,是一种用来分析隐藏在表面现象背后的因子作用的一类统计模型。
相关分析:分析两组随机变量之间相关性程度的一种统计方法。
有关键情节透露