- 收藏
- 加入书签
基于XGBoost的车险客户续保概率预测
摘要:本文介绍了使用机器学习算法对个人车辆商业险数据进行续保预测的方法,过程包括数据采集、特征定义、数据预处理以及模型的建立、预测、优化和应用。本文使用的机器学习算法是XGBoost,结果显示,预测精确率达到70%以上,比未使用该方法预测时提高了近30%。同时,本文结合保司实务,提供了保司如何在续保工作中结合预测概率识别忠诚客户、摇摆客户和流水客户的建议,使保司能把有限的资源集中在摇摆客户上以提高续保率。
关键词:车险续保;续保预测;机器学习; XGBoost
0 引言
大部分财险公司的保费大头都来自车险业务,行业内车险保费占整个财险公司保费收入60%以上。而续保对于保险公司来说,可大幅降低获客成本,有调查显示续保业务比转保业务和新保业务销售成本低四倍以上,原因是转保业务和新保业务保司大都通过代理或经纪渠道获取,需要付高昂的手续费。而对于续保业务,保司可做成直接业务,将节省的手续费用在提高服务质量上。综上所述,提高车险续保率对于保险公司有重要的意义,保司如何将有限的资源用在正确的地方是提高续保率的重点。
由于团车一般使用协议投保,在续保的选择上不像个人车辆那样更有主动性和随机性,个人车辆的续保选择受车主的主观意向影响严重,不同车主的风险意识、经济能力、服务体验都会影响到来年车辆的续保选择。而且相对于团车,个人车辆是否续保在不同的车辆上是相互独立的,在统计学上满足样本数据独立分布的要求,适合进行数据挖掘。而团车一般整个协议内的车辆要么全部续保,要么全部脱保,不满足数据独立分布的要求。综上所述,本文使用个人车辆进行续保分析及预测。
机器学习是人工智能中的一个分支,其通过算法,能从历史数据中学习规律,用来对新数据进行识别预测。本文使用Python语言,使用XGBoost算法,对某保险公司2018年至2022年全司个人车主数据进行分析,建立续保预测模型,通过前一年数据预测下一年数据的方法来验证模型。结果显示,续保和脱保的预测正确率达到了70%以上,有较好的商用价值。最后,本文也对模型在实务中的使用提出了一些建议。
1 数据采集
1.1 特征定义
本方法结合行业经验,从“从人”、“从车”、“理赔情况”、“销售渠道”四个方面定义多个特征,如表1所示,共有37个特征。
以上特征未必全部与续保有关,将这些特征都列示是为了表明本方法充分考虑了可能会影响到车险续保预测的特征,实际上是否与续保预测有关在下面模型实证中会再次提到。
为了提高数据的处理速度,根据经验和实际情况对连续值特征和多值的离散特征进行了分组,比如对于平均结案时长,对1天以内、大于1天小于5天分别设置了特征值1和2。
1.2 取数规则
以某保险公司起保日期大于2018年1月1日作为提数起期,终保日期小于等于2022年8月1日作为提数止期,按以下规则取数:
(1) 提取全司所有车主为个人的车险保单数据和理赔数据,并根据保单号进行关联,计算保单理赔总金额、满期赔付率、理赔次数和平均结案时长。
(2) 设置保单续保标志,如果该保单号存在于下一年被续保保单号中,则设置续保状态为1,否则设置为0,约定1为续保,0为脱保。因数据在2022年9月份提取,超过30天未找到被续保保单号的保单,认为已经脱保,设置续保状态为0。
(3) 对相同车架号的保单设置续保次数,比如一个车从2018年连续投保到2022年,则2022年续保次数为4,2021年续保次数为3,2020年为2,2019年为1,2018年为0。
根据以上规则,提取到2018年至2022年数据总共1003950笔,根据起保日期所在年份汇总续保和脱保数量,如表2所示。
从上表看出,起保日期在2022年的数据,因为大部分尚未终保,所以提取的数据集很少,不能作为分析依据,后面数据分析不使用2022年数据进行分析。
因为车险基本都是一年期,不同年份之间可能由于监管需求的不同导致续保率有变化,比如2019年和2020年续保率的明显变化是因为银保监进行了商业险综合改革导致,车主担心综改后保费变化大,都在原保险公司进行了续保,所以相邻年份之间的数据关系最为紧密。鉴于车险这种特性,本方法使用前一年数据作为训练数据,使用后一年数据进行验证数据,应用机器学习算法建立个人车主续保预测模型,用验证数据检验模型并优化模型。
XGBoost[1]是当前比较热门的机器学习算法,在保险数据挖掘中也有不少的应用,在训练速度、预测精度和泛化能力方面都有比较突出的表现,本文使用XGBoost算法对续保率进行预测。
2 算法简介
XGBoost(eXtreme Gradient Boosting)极端梯度梯度提升模型,由美国华盛顿大学的陈天奇博士于2014年提出,具有运算速度快和准确率高等良好特性。其从提升树模型优化而来,更具体地说是GBDT模型,但相对于GBDT模型,模型进行了改进,在计算效率方面做了优化,是目前最流行的机器学习算法之一。
XGBoost模型与GBDT模型类似,都以回归决策树为基函数,用已有的模型近似残差不断拟合新模型,并加入现有模型进行更新。相比GBDT,一方面改进了损失函数,加入了正则化项。另一方面,一定程度上实现了并行化,训练速度更快,可以处理稀疏数据。
3 模型评价方法
本文解决的是续保和脱保预测的二分类问题,在分类问题中,一般使用精确率、召回率、准确率、F1分数进行评价[2]。从表2可看出续保和脱保的比例比较接近,正负样本不存在不均衡的问题,可以使用精确率、召回率和F1分数作为评价指标。
脱保和续保,模型预测结果之间的偏差,可以用混淆矩阵来做表示。
上表中,TP代表为正样本被正确预测为正样本,FN代表为正样本被错误预测为负样本,FP代表负样本被错误预测为正样本,TN代表负样本被正确预测为负样本。
精确率和召回率两者是一堆矛盾的度量, F1是精确率和召回率的调和平均值。
F1越高,表示预测精度越准确。
4 数据处理
由于样本数据不存在不均衡的问题,所以无需做样本均衡处理,约定1续保为正例,0脱保为反例[3]。本方法主要从以下几个方面多数据进行了预处理:
(1) 输出各特征的IV值(Information Value),IV值表示该特征预测能力的强弱,对于IV值较小的特征进行删除。
(2) 输出特征关联矩阵,将存在多重共线性的特征进行删除。
(3) 对样本数据进行数据审查,根据经验或者进行数据验证对空值进行填充。
(4) 对类型为字符串的特征值进行整数编码。
(5) 根据旧特征新建新特征,比如根据车辆投保险别情况新增投保险别组合特征。
通过以上步骤后,留下的特征如表4所示,共26个特征。
5 模型构建
在前文提到车险投保基本都是一年期,尝试使用不同的年份作为训练数据和验证数据,最终结果如表5所示。
从表5可以看出,训练数据年份与验证数据年份越接近,预测效果越好,所以模型使用上一年数据作为训练数据,下一年数据作为验证数据建模。
通过打印学习曲线和验证曲线,并结合网格搜索找到最优参数,最终得到的结果如表6所示。
前文提到行业在2020年进行过商业险综合改革,所以对续保率有一定影响,造成2018、2019对下一年度的预测精确率没有2020年高。因为是二分类问题,我们可以打印出混淆矩阵[4],以2020年预测2021年为例,如表7所示。
表格中阴影部分表示的是预测正确数据,没有阴影的标识未预测错误数据,FP表示实际未续保且被正确预测为未续保的数据,FN表示实际未续保但被预测为续保的数据,TN表示实际续保且但被预测为未续保的数据,TP表示实际续保且被预测为续保的数据,可以看出模型对于正反例的预测正确率分别达到了72.33%和70.68%。
由于XGBoost算法发源于树模型,可以输出特征的重要性排序,表8展示了重要性较高的14个特征,并对前9个特征进行了解释。
从以上结果分析,影响客户是否续保的因素主要还是跟保费相关,也就是说客户主要关心保险公司的保费折扣,之前估计的可能会较大影响续保率的理赔结案时长反而作用较小,这也解释了为什么行业内主要还是以价格战拼市场,提高服务质量没有打折的效果来的立竿见影。
6 模型应用
分类模型虽然最终的输出是某一子类,但其是以预测客户的续保概率来判断最终的分类结果[8],在本方法中,这个概率可以作为客户的续保意向,在实际工作中可以配合预测结果一起使用以提高续保跟进工作的可操作性。
在实务中,可以将客户续保意向概率记为p,把客户分为如表9所示3类。
续保专员应该根据用户的分类调整自己的工作重心,而不是无差别地开展工作。续保工作的重点是争取摇摆客户,续保专员应该将主要精力用在对于摇摆客户的续保跟进上,对于忠实客户,只需按正常续保流程就可以了。而对于流失客户,可安排保司客服对该类用户进行回访,调查客户的流失原因以提高自己的服务质量。
根据前面的分析结果,续保预测的准确率与时间关联较密切,在实际操作中,可以这样开展工作:
(1) 动态更新模型,每月初利用前一年(或更短时间)的数据生成模型。
(2) 因车险可以提前1个月续保(部分保司提前3个月即跟客户发续保提醒),利用该模型预测未来一个月终保的车辆的续保概率(如果提前3个月开始续保工作的保司,可预测未来3个月),并根据预测结果和续保概率p值进行优先级排序,将摇摆客户排在最前。
(3) 对排在前面的客户优先安排业务骨干进行重点跟进,对于排在后面且预测结果为续保的按正常续保流程跟进,对于排在后面且预测结果为脱保的安排客户调查流失原因。
7 总结
本文使用XGBoost算法对个人车辆续保概率进行预测,预测准确率达到了70%以上,有一定的商用价值。并将客户分为忠诚、流失、摇摆三类,并根据这三类预测结果有针对性的指导保司续保专员开展续保跟进工作,以提高续保率。
从研究的结果看,客户的续保意向还是有较大的不确定性。本文分析的数据来自保司的承保库和理赔库,根据经验,客户的投保体验,也就是保司的服务质量对客户续保也会有较大的影响,但这方面的数据较难量化或未收集,建议保司在客户投保后和理赔后对客户的满意度进行调查,并将此部分数据纳入模型的考虑范围,应该可以进一步提高续保的预测准确率。
【作者简介】
赖垒烁,对外经济贸易大学统计学院在职人员高级课程研修班学员,性别男,汉族,出生年月1984-09-15,工程师,主要从事保险业务系统建设工作,有十几年的车险业务系统建设经验。
参考文献:
[1] 何龙. 深入理解XGBoost:高效机器学习算法与进阶[M]. 北京:机械工业出版社,2020.
[2] 王宇韬,钱妍竹. Python大数据分析与机器学习商业案例实战 [M]. 北京: 机械工业出版,2020.
[3] Jacqueline Kazil,Katharine Jarmul. Python数据处理[M]. 北京:人民邮电出版社,2017.
[4] 宋天龙. Python数据分析与数据化运营(第2版)[M]. 北京: 机械工业出版,2019.
[5] 雷俊丽,张良均. 数据大数据数学基础:Python语言描述[M]. 北京: 人民邮电出版社,2019.
[6] 白宁超,唐聃. 数据Python数据预处理技术与实践[M]. 北京: 清华大学出版社,2019.
[7] 翟琳琳. 基于机器学习方法的车险续保情况研究[D].黑龙江:黑龙江大学,2020.
[8] 李笃群. 基于机器学习算法的车险客户续保意向研究[J]. 信息技术与信息化. 2021(10):211-213.




京公网安备 11011302003690号