在金融相关领域的建模中,WOE 和 IV 用的比较多。之前参加的一次征信相关比赛最后的评估指标就是特征的 IV 值,用于发现征信模型中的重要特征。

IV 值的计算是以 WOE 为基础的,因此先介绍 WOE,再引入 IV。

WOE

WOE 的全称是 Weight Of Evidence. 要对一个特征计算 WOE,尤其是连续型的数值特征,需要先对特征做离散化处理,也叫做分组或分箱。

为方便叙述,假设共有 $M$ 个样本,其中正负样本数量分别为 $p_M$ 和 $n_M$ ,满足 $p_M + n_M = M$。只考虑单个特征,分组数量为 $N$,第 $i$ 个分组中正负样本数量分别为 $p_i$ 和 $n_i$。则对于第 $i$ 组,其 WOE 计算公式为:

$$ WOE_i = \ln{\frac{P_{p_i}}{P_{n_i}}} = \ln{\frac{p_i/p_M}{n_i/n_M}}$$

从公式中可以看出,WOE 表达的是当前分组中正样本占所有正样本的比例当前分组中负样本占所有负样本的比例的比例关系。

由于可能出现某个分组中正负样本某个值为零的可能,导致公式取值为正无穷或负无穷,因此实际使用中,一般会加上一个常数 $\epsilon$, 范围是 $[0, 1]$, 一般的,$\epsilon = 0.5$。WOE 调整为:

$$ WOE_i = \ln{\frac{(p_i+ \epsilon)/p_M }{(n_i+\epsilon)/n_M}}$$

IV

有了 WOE 的基础,IV 的引入就很顺利了。从 WOE 的计算公式可以看出,WOE 有正有负,分别表达了特征在该分组上与整体样本是正相关还是负相关。可以稍加变化,直接表达特征在分组上与整体样本分布的相关程度,因此引入 IV 的计算公式:

$$ IV_i = (P_{p_i} - P_{n_i}) \cdot WOE_i = (p_i/p_M - n_i/n_M)\cdot\ln{\frac{p_i/p_M}{n_i/n_M}}$$

上面是特征的第 $i$ 个分组的 IV 值,整个特征的 IV 值即为所有分组的 IV 值相加:

$$IV = \sum_{i=1}^{N}IV_i = \sum_{i=1}^{N}(p_i/p_M - n_i/n_M)\cdot\ln{\frac{p_i/p_M}{n_i/n_M}} $$

IV 值越高的特征,说明在模型中的预测能力越强,在做特征选择时,可以按 IV 值从高到低筛选。

WOE 与 IV 的区别

从 WOE 和 IV 的公式中可以看到,WOE 和 IV 都能表达特征对目标变量的预测能力。但实际应用中,尤其是金融领域,IV 的直接应用更多,一方面是因为 IV 值由于乘上了 $P_{p_i} - P_{n_i}$ 这个因子,把值域都变成了非负,比较统一;另一方面是这个因子也能体现出分组中样本占整体的比例,对于占比较低的分组,会降低它在 IV 值中的权重,更科学合理。