逻辑回归系数解读

昨天面试,说到逻辑回归系数的意义,和面试官有点分歧。当时我说系数可以看成特征的权重,面试官认为和权重没关系,因为特征有可能是不同量纲,后来想想是自己表达不准确,但是我的理解应该没有错误,现将自己的理解简要地写下来,还望看到的大佬指出错误。

逻辑回归来源于线性回归,属于广义线性回归。逻辑回归虽然叫回归,但是它其实是分类,我们主要用它做二分类问题。对于一般的线性回归:$Y=\beta_0 + \beta_1 x_1+\beta_2x_2+…+\beta_nx_n$. 可以看到因变量 $Y$ 的值域为$[-\infty,+\infty]$ 。逻辑回归就是使用 $sigmoid$ 函数将 $Y$ 映射为$[0,1]$ 。

我们将类别分为1,0,令 $p$ 为类别1的概率:

$p=\frac{1}{1+e^{\beta x}}$

其中$\beta x =Y$,可以看到在逻辑回归中变量 $x$ 与概率是非线性关系,这时我们可以做个变换:

$ln(\frac{p}{1-p})=\beta_0 + \beta_1 x_1+\beta_2x_2+…+\beta_nx_n$

我们把$\frac{p}{1-p}$ 叫做胜率(odds)或者优势比,胜率是指事件发生的概率与事件不发生概率的比值。胜率和变量的系数是线性关系。如果只是定性地来看的话,在特征都已经标准化(或者归一化)的情况下,系数的绝对值越大,说明这个特征越重要。若系数为正,这个特征与目标值为1的概率正相关;若系数为负,这个特征与目标值为0的概率正相关。

如果$x_1$ 增加一个单位,则胜率:

$\frac{p}{1-p}=e^{\beta_0 + \beta_1 (x_1+1)+\beta_2x_2+…+\beta_nx_n}=e^{\beta_0 + \beta_1 x_1+\beta_2x_2+…+\beta_nx_n}\cdot e^{\beta_1}$

以系数 $\beta_1$ 为例,如果 $x_1$ 是连续变量,当 $x_1$ 变化一个单位且其他变量保持不变时,新的胜率变成了原来的 $e^{\beta_1}$ 倍。

因此,可以近似认为在特征都已标准化的情况下(统一量纲),逻辑回归的系数可以看成胜率的权重($e^{\beta}$),注意是胜率($\frac{p}{1-p}$),而不是概率 $p$ 。系数可以表示它的存在,使得概率如何变化。

参考资料

赞赏是对作者最大的支持!
0%