法律常识

当前位置: 首页 > 贷款逾期

逾期风控预测,风控评分卡模型

来源: 法律常识 作者: 欣欣没吃饱 贷款逾期 时间:2022-11-12 15:24:58

风控模型建立之后,必须对风控模型的效果进行评估。在分类模型评估中,最常见的评估标准有KS曲线、ROC曲线、AUC值等。那么她们分别的意思和用途是什么呢?以下为卡尔数科风控总监介绍的全部内容。


01

KS曲线


KS(Kolmogorov-Smirnov):用于评估模型的风险区分能力,指标衡量的是好坏样本累计分布之间的差值(最大值)。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。



为了便于理解,现假设有1000个样本,其中200个为坏样本(标记为1),800个为好样本(标记为0)。计算模型KS值的步骤如下:


step1:用这1000个样本训练一个模型(可以是逻辑回归、GBDT等),得到1000个样本预测为逾期的prob。

step2:把1000个样本根据prob从高到低排序。

step3:把样本均分成10组/20组等。

step4:统计每个组别中逾期客户数量/正常客户数量。

step5:统计每个组别中累计逾期客户数量占比/累计正常客户数量占比。

step6:计算每个组别中abs(累计逾期客户数量占比-累计正常客户数量占比)。

step7:找到累计占比差值绝对值最大的数,即为所求的KS值。


计算出了模型的KS,那么什么样的KS值,模型是可以使用的?根据行业内的规范,一般KS值要大于0.2才是一个可用的模型,且KS值越大模型效果越好。但是,KS值过高,需核验模型是否使用未来变量,要谨慎使用。具体KS值对应的模型区别能力见下表:




02

ROC曲线和AUC值


ROC(Receiver Operating Characteristic):曲线通过设置不同的临界值,来展示分类模型在不同临界值下的表现。


AUC(Area Under Curve):ROC 曲线与 FPR 轴围成的面积记作 AUC,AUC 越大,说明分类器的性能越好。


风控模型训练完成之后,每个样本都会有对应的两个概率值,一个是样本为正样本的概率,一个是样本为负样本的概率。把每个样本为正样本的概率取出来,进行排序,然后选定一个阈值,将大于这个阈值的样本判定为正样本,小于阈值的样本判定为负样本,然后得到两个值,一个是真正率,一个是假正率。


真正率是判定为正样本,实际为正样本的样本数/所有的正样本数。假正率是判定为正样本,实际为负样本的样本数/所有的负样本数。每选定一个阈值,就能得到一对真正率和假正率,由于判定为正样本的概率值区间为[0,1],那么阈值必然在这个区间内选择,因此在此区间内不停地选择不同的阈值,重复这个过程,就能得到一系列的真正率和假正率,以这两个序列作为横纵坐标,即可得到ROC曲线了。而ROC曲线下方的面积,即为AUC值,一般模型的AUC在0.5到1之间,AUC越高,模型的区分能力越好。


AUC也存在一些缺陷:


1.忽略了预测的概率值和模型的拟合优度;

2.AUC 反应的信息过于笼统,无法反应实际业务中关心的指标;

3.AUC 对 FPR 和 TPR 两种错误的代价同等看待;

4.AUC 没有给出模型误差的空间分布信息;

5.AUC 的 misleading 的问题:可能存在两个模型的 AUC 相等,但其在不同区域的预测能力是不同的。



03

KS与AUC的区别


KS值是能找出风控模型中差异最大的一个分段,因此适合用于cut_off,像评分卡就适合用KS值来评估。但是KS值只能反映出哪个分段是区分最大的,而不能反映所有分段的效果,因此同时还要关注AUC值。AUC值一般在0.5到1之间,值越大表示模型判断准确性越高,即越接近1越好。


如果负样本对业务影响极大,那么区分度肯定就更重要,此时KS比AUC更合适用作模型评估,如果没什么特别的影响,用AUC评估就可以了。




END

相关文章