基于聚类思想对车险客户精准画像的研究

一、引言

车险作为分散机动车辆在行驶过程中可能发作的未知风险和损失的一种保障机制, 近年来, 由于我国汽车保有辆的继续增加和相关车险的政策出台, 投保率也呈继续上升趋向。中国目前的车险费率制度, 大多数符合“从车主义”, 导致了中国的车险定价模式非常的单调。为了使未来的车险定价转变为“从人主义”, 我们做出了合理的模型假设, 并建立合理的数学模型, 对客户进行了精准画像, 计算出客户的续保概率以及针对不同类型的客户制定了不同的提高续保概率的有效措施。

虽然有很多因素影响客户的续保概率, 但是我们利用指标聚类的思想从中提取其中的几个直接因素, (从中选取能描述客户属性的九个直接因素) 即起保日期、间隔、新车购置价、客户类别、性别、年龄、签单保费、续保年、是否续保。在对车险公司提供的客户信息并对其进行精准画像的时候, 我们需要选取相应关于客户的主要信息指标, 忽略次要或重复说明的信息, 不考虑客户拥有的车辆对其精准画像的影响, 在此基础上, 我们采用聚类分析对已有客户样本进行聚类, 根据每一类的综合特征来进行精准画像。并针对不同的客户设计个性化的优惠和福利方案, 以提高客户续保概率。

二、模型的建立与求解

我们从车险行业提供的信息中, 进行不同的量化处理方式, 消除量纲影响, 利用hierarchical cluster分析方法对影响续保率的因素进行了聚类分析, 从而完成对影响续保率的指标系数的精确细分。它的基本思想是:一种是初始时将每个待聚类的数据样本视为一个cluster, 采用合并的方式, 每次合并两个“距离”最近的cluster, 直到合并成一个cluster为止。其具有描述、时间效率高、适于处理大规模数据等优点。

模型求解与分析:

以下是我们得到的用户精准画像, 可见, 用户被分为五类。具体如表1。

我们抽取5000个数据进行分析, 运用hierarchical cluster分析方法对保险客户的基本特征进行统计分析, 其结果如表1中所示, 将其分成了五大类, 拿第一个编号案类举例, 其买车日期平均值距今有31.1个月;新车购置平均价格为137229.6456元;我们将客户类别定义成了1和0, 1代表个体, 0代表机构, 在第一个编号下, 客户类别为0.9968, 显而易见的是, 个体占绝大多数;在性别方面, 我们将女性定义为1, 将男性定义为0, 表中显示为0.2848, 即与0的差值小于与1的差值, 可以得出在编号为1的情况下男性占绝大部分的结论;在年龄这一方面, 我们将个体的18岁为标准, 在编号1的结果下, 其年龄显示为20.5316, 因此在该情况下, 用户的平均年龄是在其基础上加上18, 即38.5316岁;签单保费为1460.0513元。

纵向比较, 新车购置价为14万左右时, 客户大多属于个体, 签单保费在1500元左右;新车购置价为60万左右时, 客户大多属于机构, 签单保费在一万七千元左右;并且我们可以看出, 随着新车购置价的提高, 签单保费也在随之增加。

由此可总结客户的精准画像概括为如下五类:第一类为消极消费群体-偏重于男性消费群体, 消费水平中偏下, 年龄集中于38岁, 投保时间间隔长, 签单保费低。第二类为中等机构群体-偏向于女性消费群, 平均保费较高, 消费水平中等。第三类为高价值机构群体-消费水平为五类中最高;第四类为低等消费群体, 年龄结构年轻化, 签单、保费和新车购置价较低;第五类为核心客户群, 年龄分布以中年为主, 投保间隔短, 整体较活跃。

三、模型评价

(一) 优点

1.可消除评价指标之间的相关影响

因为聚类及主成分分析是在对原指标变量进行变换后形成了彼此相互独立的主成分, 而且实践证明指标之间相关程度越高, 主成分分析效果越好。

2.可减少指标选择的工作量

对于其它评价方法, 由于难以消除评价指标间的相关影响, 所以选择指标时要花费不少精力。

3.我们尽可能多的选取影响客户续保概率的因素

使模型的结果更加具有可信度和推广性。

(二) 缺点

在确定模型影响因素的权重时, 存在主观判断, 可能影响模型的精准程度, 需要找更好的方法进行计算。

四、模型的改进和推广

在建立客户精准画像模型时, 我们忽略了风险类型对于客户续保概率的影响, 一方面由于数据难以量化处理, 另外一方面, 数据缺少严重, 一旦引入, 可能会对结果造成负面的影响, 但是在未来工作中, 可以采取一些办法对其进行量化处理, 也可以使用遗传算法或粒子群算法来获得更好的解。

摘要：近年来, 我国的保险行业稳步开展、汽车保有量继续增加, 机动车辆保险在我国的财险保费及财险公司业务中占有很大的份额, 故建立合理的客户续保模型和研究续保概率影响因素对于财险公司具有重大的意义。本文以客户为主要研究对象, 通过分析客户购买保险的数据信息, 从中提取客户属性因素, 对数据进行量化处理, 使用SPSS软件采用K-Means聚类技术和Hierarchicalcluster分析客户得到精准画像, 以此有针对性的向客户提供个性化建议方案, 从而提高续保概率。

关键词：车险,续保概率,聚类分析,客户画像

参考文献

[1] 司守奎, 孙玺菁.数学建模算法与应用[M].北京:国防工业出版社, 2011:236-239.

[2] 谭征.基于K-Means和SEM的消费者互联网保险购买意愿研究-以TPB和TAM为分析框架[J].重庆理工大学学报 (自然科学) , 2019, 33 (2) :198-207.

[3] 倪琪, 刘骅飞, 田雪颖.车险续保率影响因素模型[J].企业研究, 2011 (10) :112-113.

[4] 任明杰, 李海燕, 刘洪.基于Logistic变换的回归正交试验模型[J].辽宁科技大学学报, 2012, 35 (3) :239-243.

[5] 杨卫兵, 邵增兵.保险公司提升车险续保能力的意义和途径[J].中国保险, 2011 (8) :32-33.

[6] 来春蕾, 郑建国.从客户信息准确性角度分析4S店渠道车险续保业务[J].现代经济信息, 2012 (15) :182.

[7] Xi L.Discussed of the curriculum reform about Auto Insurance and Claims——based on telemarketing job (Auto insurance renewal) [J].Automobile Applied Technology, 2016.

[8] Segovia-Gonzalez MM, Guerrero F M, Herranz P.Explaining functional principal component analysis to actuarial science with an example on vehicle insurance[J].Insurance Mathematics&Economics, 2009, 45 (2) :278-285.