这是我喜欢的一篇科普文,开篇便是那么直白。我实在是觉得喜欢,便在这里把它mark。
概率论只不过是把常识用数学公式表达了出来。
——拉普拉斯
贝叶斯方法如果用最简单的表述的话,就是:P(B|A) = P(AB) / P(A) 或者说 P(h | D) = P(h) * P(D | h) / P(D)。贝叶斯当初为了解决这样的问题“”如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测” ,他很顺理成章地想出了这个方法。但是最近的几十年以来,贝叶斯被信息领域采用,它成为了机器学习的核心。简单来讲,机器学习就是让计算机通过学习来预测不熟悉的事物,而这恰恰是贝叶斯方法背后很深刻的思想,同时强调先验和后验概率。
这篇文章里讲到了很多简单却又深刻的道理,摘出几段如下:
1、对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积
2、 最大似然还有另一个问题:即便一个猜测与数据非常符合,也并不代表这个猜测就是更好的猜测,因为这个猜测本身的可能性也许就非常低.
3、平面上 N 个点总是可以用 N-1 阶多项式来完全拟合 。如果过分去寻求能够完美解释观测数据的模型,就会落入所谓的数据的境地,一个过配的模型试图连误差(噪音)都去解释(而实际上噪音又是不需要解释的),显然就过犹不及了。
4、如果两个理论具有相似的解释力度,那么优先选择那个更简单的(往往也正是更平凡的,更少繁复的,更常见的)
当然还有很多需要细细地看了