纸上得来终觉浅
这篇书评可能有关键情节透露
这个书还是很好的,适合数学渣,先把一些统计概念讲清楚,又讲讲了最小二乘和最大似然估计,缺点是没有结合数学,和课堂上的只讲数学刚好反过来,可能最好的方式是能够结合起来,对于数学学得好的人来说,确实只学数学就够了,这个基本上就不用看了。
学方法的两大错觉:以为学了方法就是学了方法论,以为学好了方法和方法论就能做好研究。与其纸上谈兵,不如乱操作一番,然后才能理解书上的精髓吧。
略记一番,以前大概都知道,不过是又忘了,可以预见,到了狗年估计就又忘得一干二净了。
1、correlated并非relevant
2、categorical variable=nominal variable,都是定类变量
3、针对valid和reliable,作者建议将前者译为切实,后者译为可靠
4、问卷设计中,要区分substantive equivalence and verbal equivalence,同样的问卷问题(做到了后者)在不同的国家和地区可能测量并非同一个变量(没能做到后者),如果不加区分直接使用,会有问题。
5、定类变量,就是等于或者不等于;定序变量,数值大小只能说明高低、不能说明数值差距和实际差距是否相同,数学符号就是大于或者小于;定距变量可以说差的数值相同就是差距相同,但是数值不能没有实际意义,0不代表没有,只代表选了一个(没有实际意涵的)基准线,例如温度,数学上可以加减;定比变量,变量的数值意涵就是表明了实际的情况,例如年龄,数学上能够乘除。
6、“回归”目前的含义就是追本溯源,最简单的预测就是根据均值来预测,但是方差太大,用回归来预测的时候就能够减少方差,最好做到残差。标准化回归系数就是自变量变动一个标准差时候因变量变动多少标准差,从而方便比较哪个自变量对于因变量的影响更大。
7、OLS中,ordinary的意思是数据是普通的,原来的,而不是经过取对数等处理。LS就是让Y-hat和Y的差的平方和最小。R方是拟合优度,表明回归模型减少了多少误差(和单纯用均值预测来比较),根据R方的计算公式也能看出,R方越大,其实就是LS越小,而其分母也恰恰就是Y-bar和Y的差的平方和,这个OLS当然越好喽。但是实际上R方也不会很大,否则的话意味着这个模型预测也太准了,这还是社会科学么?
8、siginificant的意思是系统性的、非随机的
9、t检验用来检测抽样有误差的概率有多大。如果抽样有误差,回归系数就不能用来推断总体了。
10、多元共线性的问题就是两个差不多的自变量换了个面孔都放进了回归(比如一个回归中同时放进x、2x)
11、之所以要搞因子分析,是因为许多想做回归的变量很难测出,此时通过因子分析和构建量表就能够很好地把感兴趣的变量测出来了。
12、现在的可能性叫概率,过去的可能性叫似然(likehood),过去发生的概率或者就是在如今现实中看到的发生率的分析,就用到对数回归,这时候就要搞个最大似然估计。用到的是卡方检验来检测显著度。