序
最近想学机器学习方面的技术,发现里头满满的全是数理统计与概率的内容,不得不说这是一块我非常不愿意触碰的知识点, 但不去努力尝试克服,那就永远都是自己的软肋,所以我选择了去学习。
我想过我为什么会在统计学与数量统计以及线性代数的领域比较弱呢?
- 一方面是因为脑中有无数的问题得不到解答,比如高斯分布是怎么来的,为什么用了常数e,而常数e为什么是这个值,想得多了脑子不够用了,于是学习的兴趣就弱了,虽然考试成绩还是理想的;按豆的意思就是,我是因为没搞懂,又找不人问,所以就开始逃避这些问题了。
- 另一方面,因为学习确定系混沌的理论后,让我萌生了确定论应该还是有生存空间的,毕竟并没有一个绝杀的方式推翻确定轮,而只是对拉普拉斯的定义,提出了不科学之处,否定论证只能证明拉普拉斯说得有问题,并不能推翻确定论。从这个角度出发,我是站在爱因斯坦一方的,虽然明知道概率模型会推导出符合事实观测的数据,但我仍不能接受概率能表征事物本质的说法,我一直认为概率只能表征事物的表现,而不是本质。这个想法,是被《世界观》这本书认同的,我并不是疯子。
七支柱–《统计学七支柱》
我一度对概率有偏见,毕竟我认为并没有不确定的事情,只有无法确定的技术,包括对拉普拉斯的推翻,也是因为现有的技术观测就必然会影响物理状态,所以根本测不准,在我看来这是技术层面的事情,而不是运行机制的问题。
后来陆续看了一些关于统计学的书后,自己的心结也就慢慢解开了,毕竟表征一大堆的数据需要用一些特殊的方法,这就是统计学,从现实数据得到的描述方法,是统计学。根据理论或者从现有的数据,推断未来发生的情况,叫做期望值,只是我们很多时候都把它的名字与概率混淆了,的确像我对知识这么矫情的人实在是不多。
虽然我对数理统计有一定的误解,但是我一直很清楚的是这是一门经过验证的学科,我有偏见不假,但并不能否认这门学科的合理性,只是我在做Critical thinking的时候遇到了自己无法解答的难题罢了。思辨,一直是我学习知识的一个重要的方法,我有时候表现出来的咄咄逼人的追问,只是我想弄清楚这个问题,而不合时宜的追问当然会招致他人的反感。
最近我在翻阅材料的时候,发现很多人推荐陈希孺先生的《数理统计简史》,这是一本绝版书,又因为说陈先生也参考过Stephen M. Stigler的书,所以凑巧看到了Stephen M. Stigler的新书《统计学七支柱》,于是买下了电子版。
我并不是很喜欢读电子版的书,以前尝试过kindle,后来也用过一些电子书的阅读器,都不是太理想。直到我接触了Mac的iBooks后,我发现我爱上了这个阅读器,kindle下回来的书,我都会想办法变成epub格式,然后静静的在Mac上阅读,毕竟家里实在没地放书了。
梳理一下脉络:
No.1 聚合
本质上在讲信息的放弃,这是一种“创造性毁灭”的行为。这个术语是约瑟夫·熊彼特提出的,用于描述一种经济重组的形式,是看待这种行为的一种方式。正如类似的其他应用,“聚合”必须遵守原则进行,放弃不利于(甚至可能减损)最终科学目标的信息。不过,即便如此,它也会受到指责:隐匿了其他观点下的个别特征。
No.2 信息及其测量
我们通过组合观测值获取信息,获取的信息与观测个数之间的联系,以及如何度量信息的价值和获取过程。数据和的变化并不随着相加的独立项个数成比例上升(并且均值的标准差也不会随着项数的增加反比例减少)。
No.3 似然
使用概率校准推断,并为度量不确定性提供尺度。危险性很高,价值也很大,要求有极大的细心和理解进行明确运用,但回报也是丰厚的。其中最简单的应用是显著性检验,它的误导性应用已经展现出来,似乎它们成了“诅咒”企业的证据,而不是为了支持特殊用途的证据。
No.4 相互比较
给出内部标准,以及根据手边数据判断内部效应及其显著性的一种方法。它是一把双刃剑,因为不需要外部标准会使结论移除所有相关性。如果仅仅依靠一种数据内部变异的分析作为指导,将会遇到许多陷阱。模式似乎已经出现,接下来就是解释模式的故事。数据集越大,故事越多。有些故事是有用的,或具有深刻意义的,但许多故事两者皆非,甚至有些最优秀的统计学家也会受到这些差异的蒙蔽。
No.5 回归
相关关系并不隐含因果关系。哲学家乔治·伯克利1710年这样写道:“思想的联系并不隐含着因和果的关系,它们只是标记事物的一个记号或符号。”
达尔文的堂弟高尔顿认为“向均值的回归不是生物上改变的结果,相反,这是亲代和后代之间不完美相关的结果”。高尔顿的分离持久效应和暂时效应的思想,是经济学家米尔顿·弗里德曼1957年出版的著作The Theory of the Consumption Function 中提出的模型的核心,后者因此获得了1976年诺贝尔经济学奖。
No.6 设计
这个术语受到了更广泛的解释,包括一般的观测计划、决策结果分析以及执行方案。设计包括积极实验的计划、研究规模的决定、问题的设计以及处理的安排,还包括田野试验和抽样调查、质量监督和临床试验,以及在实验科学中的政策和策略评价。
No.7 残差
复杂现象往往存在几种相同的、相反的或者彼此完全独立的原因,它们糅合在一起,产生了复合作用。为了简化,可以排除已知原因的影响与这种情况允许的特点,也可以通过演绎推理或诉诸经验。留下的就是要解释的残差现象。
结语
看完这本书,自己最原初的问题,还是没有得到解答,希望在陈希孺先生的书中能找到更多的启示。