深度学习入门-贝叶斯规则

发表于2018-06-04

|浏览量:

通常，事件x在事件y（发生）的条件下的概率，与事件y在事件x（发生）的条件下的概率是不一样的。然而，这两者是有确定的关系的，贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途在于通过已知的三个概率函数推出第四个。

数学表达

贝叶斯规则的数学表达如下：

$P(x|y)=\frac{P(x)P(y|x)}{P(y)}$

这个公式的含义是x的后验概率是x的先验概率*与y的标准相似度。$\frac{P(y|x)}{P(y)}$称作标准相识度。

应用范例

基于贝叶斯定理：即使100%的胰腺癌症患者都有某症状，而某人有同样的症状，绝对不代表该人有100%的概率得胰腺癌，还需要考虑先验概率，假设胰腺癌的发病率是十万分之一，而全球有同样症状的人有万分之一，则此人得胰腺癌的概率只有十分之一，90%的可能是是假阳性。

END

文章作者: LeFer

文章链接: https://www.lefer.cn/posts/19178/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 LeFer！

相关推荐

深度学习入门

想想n年之前，我也是能用numpy，pandas做一些机器学习应用的人，几年的摸爬滚打，这块东西忘完了。现在医疗领域AI如火如荼，有必要完善自己的知识结构，投入深度学习的浪潮中。这次学习，我希望能从基础出发，不求快，但求稳。我将记录下学习过程中的关键点、心得，本文是汇总目录。深度学习入门1-线性代数-基本概念深度学习入门2-线性代数-基本运算深度学习入门3-线性代数-单位矩阵和逆矩阵深度学习入门4-概率论基础深度学习入门5-常用概率分布深度学习入门6-常用函数

深度学习入门-概率论基础

概率论是深度学习最核心的数学工具之一。本文是涉深度学习的概率论方面知识的回顾。为什么要使用概率深度学习有别于传统的计算机场景，是在未能完全观测或不具备全部信息的前提下去猜测答案。当精确会带来复杂的时候，简单但是可能不确定有时候更有用。但事实上机器学习领域的概率有别于我们在大学里学到的数学概率。之前我们理解的概率是事件重复发生足够多次的时候，某个结果出现的比例。但在机器学习领域，比如说去预测一个患者罹患肺炎的概率，这个时候你无法让同一个患者重复足够多次得到最终确诊为肺炎的比例。这个时候所说的概率应该称之为信任度。1那么肯定是肺炎，0肯定不是肺炎。所以之前的概率可称为频率派概率，后者称为贝叶斯概率。所以对机器学习来说，概率论是一套工具：可以在给定一套命题的似然后，计算其他命题为真的似然。随机变量随机变量$\textrm{x}$是可以随机取不同值的变量。$x_1$,$x_2$就是他可能取到的值。如果随机变量是向量，那么可以记为$\bf x$。概率分布概率分布是指随机变量$x$取到某个状态值$x_1$的可能性大小。对于离散随机变量和连续随机变量有不同的描述方式。离散型随机...

什么是距离

在机器学习领域，距离是一个核心的概念，距离是用来衡量两个对象多近、多相似或者差别有多大的一个标尺。下面是近期学习过程中总结的对距离的理解。闵科夫斯基距离我们知道$3$比$2$大，那$3$为什么比$2$大呢？实际上我们假设了原点，$3-2$是$(3,0)$到$(0,0)$的距离减去$(2,0)$到$(0,0)$的距离。$(3,0)$到$(0,0)$的距离是$3$是显而易见的。但是是怎么算出来的呢？或者考虑不那么特殊的点，比如$(3,4)$这个点，它到$(0,0)$的距离是多远呢？这是个勾股定理问题。如上图所示，OA的距离是$\sqrt{(3-0)^2+(4-0)^2}=\sqrt{3^2+4^2}=5$ 将上式再抽象一层，假设两点$P(x_1,x_2),Q(y_1,y_2)$，那么两点之间的距离为: $\sqrt{(x_1-y_1)^2+(x_2-y_2)^2}$ 这样计算出来的距离即称为欧几里得距离。欧几里得距离的一个更通用表达如下: $d(x,y)=\sqrt{\sum_{i=0}^n(x_i-y_i)^2}$ 可以看到，在欧几...

理解特征工程

入门TensorFlow的第二道拦路虎就是特征工程，也就是各种示例代码中经常出现的tf.feature_column.xxx。为了理解特征工程，我查阅了一些资料和代码，下面是我的总结。什么是特征工程在去训练一个模型的时候，总会用到原始数据。原始数据是每列有着含义的N行数据。所谓特征工程就是把原始数据的列转换成特征的过程。什么是特征在机器学习和模式识别中，特征是在观测现象中的一种独立、可测量的属性。选择信息量大的、有差别性的、独立的特征是模式识别、分类和回归问题的关键一步。原始数据的列为什么不是特征特征是从原始数据的列转换而来。从关系上来说，可能是一对一，也可能是多对一（比如经度和维度两列合成一个特征），原始数据还可能存在冗余列，比如年龄和出生年月；从数据类型上来说，原始数据可以是任意类型，但特征一定是数字或者布尔；从数值上来说，原始数据随心所欲，特征可能就要格式化或者归一化；从代码层面上来说，特征应该是tensorflow框架指定的数据类型feature_column。所以原始数据的列和特征有着区别。怎么做特征工程st=>start: Starte=>e...

深度学习入门-数值计算

机器学习算法通常需要大量的数值计算。这通常是指通过迭代过程更新解的估计值来解决数学问题的算法，而不是通过解析过程推导出公式来提供正确解的方法。常见的操作包括优化（找到最小化或最大化函数值的参数）和线性方程组的求解。对数字计算机来说实数无法在有限内存下精确表示，因此仅仅是计算涉及实数的函数也是困难的。上溢和下溢当大量级的数被近似为$\infty$或$-\infty$，进一步的计算将会导致这些异常值变成非数字，这称为上溢。当接近0的数被四舍五入成0时，就会产生下溢。因此在实际模型中，我们会避免将多个概率相乘，而转为求其对数（Log）。病态条件数值分析中，一个问题的条件数是该数量在数值计算中的容易程度的衡量，也就是该问题的适定性。一个低条件数的问题称为良置的，而高条件数的问题称为病态（或者说非良置）的。条件数表征函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来说可能是有问题的，因为输入中的舍入误差可能导致输出的巨大变化。【这个暂未理解，仅做摘录】基于梯度的优化方法大多数深度学习算法都涉及某种形式的优化。优化指的是改变 x 以最小化或最...

深度学习入门2-线性代数-基本运算

理解矩阵的一些基本运算定义。转置 transpose矩阵的转置是以对角线为轴的镜像，左上到右下的对角线称为主对角线。矩阵$\bf A$的转置矩阵记为$\bf A^T$。转置的定义为：$(A^T){i,j}=A{j,i}$ 向量是一个只有一列的矩阵，所以向量的转置是一个只有一行的矩阵。为了便于书写，有时会将向量元素作为行矩阵写在文本中，然后使用转置操作将其变为标准的列向量，来定义一个向量，比如 $\bf x \rm = [x_1,x_2,x_3]^T$。标量可以看作只有一个元素的矩阵，所以其转置矩阵即为其本身，$a=a^T$。矩阵的加法只要两个矩阵的形状一样，就可以把两个矩阵相加。两个矩阵相加，是指对应位置的元素相加。 $\bf C=A+B$ 即为 $C_{i,j} = A_{i,j} + B_{i,j}$ 标量与矩阵的乘法标量与矩阵做乘法即为标量与矩阵的每个元素做乘法。$\bf D \rm = a * C_{i,j}$ 标量与矩阵的加法标量与矩阵的加法即为标量与矩阵的每个元素做加法。$\bf D \rm &...

评论