贷款客户数据分析,Lending Club贷款数据分析数据分析一
来源:整理 编辑:问贝网购 2023-01-06 11:43:53
1,Lending Club贷款数据分析数据分析一
接上篇 针对 数据集的各个方面进行简单数据分析。 主要有 先说结论: 将逾期15天以上的贷款视为坏账,简化贷款质量 可以看出,坏账仅有不到8%,但是实际上的金额也是比较惊人的。 2011年后,贷款总额每年都在飙升 可以看出2012年后Lending Club飞速发展,客户飞速增加,虽然有波动,但总体再增加 各行各业的人都有,居然是老师最多,管理者次之。 工作年限越长越容易贷款吗,看来是了 这里将年收入大致分为三个区间 20000以下的视为低年收入,20000-60000视为中等,高于60000的就是高收入人群 大部分客户年收入都在20000以上 中等人群坏账数量最多 可以看出人们贷款主要是为了债务整合和信用卡偿还,债务整合就是借信用卡还其他信用卡,和信用卡偿还貌似没区别 一半客户按揭,四成客户租房。有房子的不足10% 看来有不良记录的人很难申请贷款 LC在2012-2015飞速发展,能发的钱越来越多 信用等级越低,贷款利率越高 DTI:每月还款占月收入的比例 大部分的贷款客户的DTI在35%以下,说明还款压力不是很大 一小部分客户DIT达到45%,存在风险 后续特征工程中将以35%为分界 分为两类 在右侧看不见的地方还存在极小一部分,,基本属于风险很大的贷款 LC平台以短期贷款为主,但长期贷款比例也不低
2,拍拍贷业务数据分析
所提供数据来自拍拍贷真实业务数据,从2015-01-01到2017-01-30的所有信用标的10%sample样本。数据集包含LC.csv(标的特征表数据)。 1.用户分析 2.借贷相关业务分析 1. 导入数据 2.数据清洗 2.1完整性处理 本数据无重复值,但是在gender/age/province/tags/comments KeyWords这几列中有部分缺失值,其中年龄的缺失值较多,数据不太具有代表性。 2.2全面性处理 在4个表中,actionTime、oerderTime都是以时间戳形式存储,先将时间戳改为日期格式。 2.3唯一性处理 1.用户分析 1.1用户性别分析 从借款用户群体看,男性居多,无论是用户数量还是借款金额都是是女性用户两倍,但在逾期数量上女性稍高于男性群体。 1.2用户年龄分析 判断年龄区间值 对年龄进行细化分组,观察 25-32岁用户数量最多,高达50.24%,为主要用户,另外也表明25-32岁这个年龄段经济压力最大 1.3 用户借款区间维度分析 判断借款金额区间值 观察金额分布情况 拍拍贷借款人借款金额主要集中在100-10000元区间,超过10万元的大额借款不足1%。拍拍贷是小额贷款,针对的目标人群应该是一般白领以下人群。 进一步分析100-10000的借款区间各类分布情况 在100-10000借款区间内,49%是借款2000-5000,借款5000元及以下是72%,大部分人群借款在5000元及以下 1.4 用户初始信用等级分析 初始评级主要集中在C、D评级,初始评级不高,可能是由于渠道认证信息不完善导致。 1.5 用户借款期限分析 绝大多数用户借款期限在5-12月,可以看一看5-12月每个月的具体情况: 借款期限为6个月和12个月较多,一方面这可能跟拍拍贷的借贷产品有关,另一方面也跟用户的习惯有关系 1.6 用户借款利率分析 96%用户借贷利率都在16%年利息上,50%的用户通过拍拍贷获得贷款的利息都在20%以上,小贷贷款只要还款金额能覆盖逾期坏账就是暴利 ** 2 借贷相关业务分析 ** ** 2.1 时间维度下的客户数量、放款金额、逾期率等 ** 随着用户量增长,总借款金额也随着上升,但是在16年11月后,借款金额增长放缓。 平均借贷金额从15年8000-10000到16年3月逐渐稳定在4000元上下,在16年11月平均借贷金额缓慢下降。 月度逾期率在15年12月后维持在15%,但在16年10月开始攀升,到17年1月份约为19%。 ** 2.2 逾期率分析 ** ** 2.2.1 逾期类型分析 ** 电商借款类型逾期率相对较高,应引起足够重视,关注电商客户经营状况以及造成逾期的具体原因。 借款类型为APP闪电和普通,这两类占据逾期用户群体87%,应关注这两类客户使用资金的用途及资金去向。 其他类型是一个特殊的群体,该类客户逾期量跟逾期率都是较高的,应关注该类用户群体深挖原因 ** 2.2.2 初始评级逾期率分析** 用户主要初始评级集中在CD两种类型,逾期率相对较高,应重点关注评级CD的客群,需要加以辅助手段,降低逾期率水平 (一)用户维度分析 1、贷款客户男性居多,维护并抓住好男性客户群体 2、平台客户贷款年龄主要集中在25-32岁,可以针对该群体特征,有选择性的进行渠道推广,与此同时,应关注该类群体逾期率较高问题 3、借款金额范围应该5000元以下为主要产品,5000-10000为次要产品推广 4、应该重点关注初始信用等级为C和D的用户群体,降低这类客户的逾期率 5、用户偏好的借款期限在6个月和12个月,但是逾期率较高,9个月的借款量较少,但是逾期率偏低,可以推广三个季度的借贷产品。 6、拍拍贷借款利率多说超过20%,利率超过16%在96%以上 (二)业务分析 1、随着用户量增长,总借款金额也随着上升,但是在16年11月后,借款金额增长放缓,逾期率却在上升,应加大了风控措施。 2、平均借贷金额从15年8000-10000到16年3月逐渐稳定在4000元上下,在16年11月平均借贷金额缓慢下降,应收缩借贷金额规模,提高甄别等级。 3、借款类型应可重点推广APP闪电和普通类型的借款,但是要提高风控水平。电商借款类型,要关注用户经营状况。 4、对初始信用评级在C、D的,应多拆出几个更新维度的信用评级,用于有针对性进行风控,降低逾期率。
3,Lending Club贷款数据分析
可视化报告见: 报告全文 Lending Club是美国的一家P2P金融机构,主要是通过连接投资人和借款人来达成双方的投资及融资需求,收入主要来源于交易手续费、服务费和管理费。自2007年起,Lending Club已经为上百万客户提供了贷款。2015年,平台全年新设的贷款金额就已经达到了83.6亿美元,远远超越行业第二的37亿美元,优势十分明显。 Lending Club会对提交申请的借款人进行 资格审查 ,只有符合标准才能拿到借款:(1)FICO分数(根据Experian、TransUnion、Equifax三大征信局信用报告)要在660分以上(2) 债务收入比例 要低于40%(3) 征信报告 :正在使用的循环账户不少于2户、6个月内征信查询次数小于5次、至少36个月的信用记录。借款人通过初始信用审查后,Lending Club会再次通过评分模型对申请人进行评估,两次的结果将会一起输入Model Rank中,最终得到一个基础风险子级。Lending Club会根据这个风险子级结合客户贷款的金额和贷款期限得出最终子级。最终子级共有35个级别,分为A、B、C、D、E、F、G这7 个等级,每个等级又包含1、2、3、4、5 五个子级。最终子级的不同对应了不同的贷款利率, 子级等级越高,贷款利率则越低 。 根据Lending Club的分级流程,借款申请人越符合平台资格审查的标准,最终的风险等级越高,借款所需的利率也越低。所以本文通过以下几个问题,借助SQL对Lending Club 2018年第二季度的贷款数据进行分析,探究 平台的审查条件是否合理 : 1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级? 2.资产负债比率越低,还款能力是否越高? 3.6个月内征信查询次数越少,还款意愿是否越高? 4.过去2年内逾期30天以上的次数越少,还款意愿是否越高? 5.还款能力是否与客户贷款目的有关? 数据集来自: Lending Club 将数据导入SQLyong后,观察数据特征:数据包括2018年Q2的贷款数据记录,共130770多行,多达145个字段,本文只选取一些 关键字段 作为分析: loan_status :贷款状态(Fully paid-全额还款 Charged off-已注销的坏账 Current-当前 Default-违约不还 Late 31-120 days-逾期31-120天 In grace period-宽限期内 Late 16-30 days-逾期16-30天 Issued-已放款) grade :信用评级 dti :资产负债比(负债总额/资产总额)*100% inq_last 6mths :近6个月查询次数 delinq_2yrs :近2年逾期30天以上次数 annual_inc :年收入 emp_length :工作年限 purpose :贷款目的 1.修改表名 将表名修改为Lending Club贷款情况 2.选择子集 由于原数据字段太多,所以只挑选了以上8个关键字段作为分析 3..列名重命名 为了方便分析,把字段名重命名为中文名: 方法一:可通过SQL语句实现字段重命名 方法二:也可以直接在客户端内双击字段名进行修改,因为字段较多,本文采用这种方法修改名字 4.删除重复值 由于每行数据都是一个客户id,所以不存在重复值 5.处理缺失值 通过语句查询发现资产负债比存在空值,本文不进行删除,直接将null值作为一类。依次查询其他列没有发现其他缺失值 1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级? 将还款情况分为还款正常和逾期还款,还款正常包括Fully Paid 、Current、In Grace Period,逾期还款包括Late (16-30 days)、Late (31-120 days)、Charged Off、Default 输出结果: 由此可知信用等级A-C的放款人数最多,还款意愿也最强,随着信用等级变低,正常还款数量开始降低,坏账率逐渐上升。 2.资产负债比率越低,还款能力是否越高? 观察数据发现,资产负债比的区间为【0,999】,按照步长为10分为[0,10)、[10,20)、[20,30)、[30,40)、(≥40)五个区间,另外加上null值,共6个区间。 输出结果: 由图可知资产负债比与还款意愿总体呈现反比趋势。客户的资产负债比越低,还款意愿越强,在20%-30%区间内,还款占比最高,之后逐渐开始下降,逾期比例上升,还款能力降低。资产负债比为空值的客户逾期还款率高达1.23%,需要对未填写资产负债比的客户进行放款控制。 3.6个月内征信查询次数越少,还款意愿是否越高? 输出结果: 近6个月查询次数与还款意愿有一定的联系,普遍来说查询次数越高,逾期还款的占比越大。但是查询次数为4次时比较特殊,这一次数下的逾期还款为0,可能为该季度的特例导致。总体来看,还款意愿与查询次数还是存在反比的关系。 4.过去2年内逾期30天以上的次数越少,还款意愿是否越高? 输出结果: 由图可知当逾期次数在0-5次时,次数与逾期占比呈现正比关系,过去2年内逾期的次数越多,造成坏账的比率就越大。但当次数超过5次时,正常还款占比都远高于逾期还款占比。仔细分析逾期次数超过5次的具体数据可知,除了逾期超过7次的客户有1次逾期还款,其他次数的逾期还款人数都为0,从而使得正常还款占比反而较高。也可能是Lending Club对于逾期次数太多的客户控制了放款通过率。总体来说,当逾期次数在0-5次这个区间时,次数越小,还款意愿会越高。 5.还款能力是否与客户贷款目的有关? 输出结果: 由图可知,因为搬家、旅游、医疗等情况下,逾期还款的占比远远高于其他情况,而因为自身债务或信用卡等问题造成的逾期比例反而不高,所以对于不同的情况需要采取不同的风险监控措施。 通过本文的分析,Lending Club制定的审查条件基本合理: 1. 信用等级越高,还款比率越高 。A-C信用等级区间内的放款人数最多,正常还款的数量也最多,随着等级的降低,坏账率开始上升。证明平台的等级区间划分的基本合理。 2.整体来看,客户的 资产负债比越高,还款意愿越低 ,特别是对于 未提供资产负债比 的客户,逾期还款比例最大,所以需要 加强对这一部分客户的监管 ,督促客户尽快提供相关信息,降低未来的贷款坏账。 3.平台对于近6个月内征信查询次数需小于5次这一规定比较合理。根据分析得知, 次数为0-4次时客户的逾期比率很低 ;当次数为5次时,逾期占比大幅升高。 4.对于客户 近2年内的逾期次数,如果次数在0-5次区间内,次数与还款意愿成反比关系 ,平台需要对次数较多的客户加强管控,避免坏账率上升。而对于 次数超过5次 的客户,根据分析可知,这一部分的客户人数本身就较少,基本上都能够做到正常还款,所以对于这一区间的客户,只要延 续以往的风控措施 即可。 5.本文还对 贷款目的 进行了分析,结果显示对于未来有 旅游、搬家或者医疗需要 的客户,平台需要多加关注,以降低未来坏账率。
文章TAG:
贷款客户数据分析贷款 客户 数据