蚂蚁信贷图风控实践的关键探索
来源:51CTO.COM
时间:2023-09-15 17:35:25 483浏览 收藏
科技周边不知道大家是否熟悉?今天我将给大家介绍《蚂蚁信贷图风控实践的关键探索》,这篇文章主要会讲到等等知识点,如果你在看完本篇文章后,有更好的建议或者发现哪里有问题,希望大家都能积极评论指出,谢谢!希望我们能一起加油进步!
一、信贷图风控业务背景及案例
首先简单介绍我们的业务场景。
1、业务背景
我们的信贷风控主要用于防范反欺诈和反洗钱
- 骗贷是指黑产恶意骗取贷款,无还款意愿。这种情况导致了较高的资金风险,业界来看占整体逾期贷款的30%-40%左右。
- 套现是指用户通过虚假的交易场景,将信贷额度套取成现金。这种行为违反了信用卡、花呗等消费贷的使用规范,无法管控资金使用范围,另外也容易造成多头借贷,引起金融风险。
常见的套现骗贷手法包括:
- 扫码模式:线下店铺开通收款码,保存本地或到店进行扫码的方式,让套现人使用花呗支付,进行套现。
- 淘宝模式:中介在网上开店,上架商品,套现人使用花呗支付完成虚拟网购,从而信用额度。
- 预下单模式:使用三方APP,下单后不支付,然后告诉套现人三方账号密码,由套现人登录后使用花呗支付,完成套现。
基于信贷的业务特色,我们设计了事前、事中到事后的全面防控,各环节的主要内容为:
- 事前:提前感知、认知风险。包括对商户进行风险分析、对用户进行风险等级评级,这部分工作会用到近线的图分析功能。
- 事中:当用户申请贷款、或要用贷款去付钱时,基于交易请求实时分析和计算,进行风险策略和模型应用及图谱的交叉验证。
- 事后:对信贷业务进行全面的风险分析,如分析资金使用、套现可能性、挖掘团伙。
2、业务应用全局视角
我们根据事前、事中、事后的业务体系,设计了相应的技术框架
- 事前:T+1调度进行图跑批计算、由事件驱动的近线计算。
- 事中:基于请求在线实时计算,使用了图数据库的能力,保证查询性能。
- 事后:近线的消息监控、T+1的全量分析,以及交互式图分析。
上述模块会使用到的图技术包括:图的多度关系聚合特征(Traversal&Aggregate)、模式匹配(Pattern Matching)、图社区检测算法(Community Detection)、图学习、图推理等
3、花呗反套现案例
我们将通过一个花呗反套现的案例来说明事后和事中的防控措施
事后
由于风控场景中Y标的稀缺,如果依赖人工专家进行标注,可能会出现无法覆盖专家未识别到的套现模式的情况。因此,我们通过使用T+1的离线数据和实时数据开发了风险大图。基于“近朱者赤近墨者黑”的思想,我们将Pattern Matching中识别到的黑、灰种子在图上进一步扩散传播,以识别更多的风险用户,并将风险从单点转换为社团
事中
传统事中实时风控计算,多使用Flink产出统计型特征,它无法刻画多度关系。另外,如果图Pattern全部依赖专家定义存在效率和覆盖度的问题。所以我们使用了在线子图,包括买家子图、卖家子图、买卖家连通子图,作为神经网络的输入并在线打分,从而进行实时的防控。
二、图风控规模化落地
1、微贷图平台
我们最初只是简单尝试图风控技术规模化的业务落地,但效率较低。由于信贷场景较为严谨,上线需要进行离线测算和旁路验证。这就要求离线和在线数据源头一致,计算语义一致,以实现图仿真功能。否则,只能通过离线表JOIN的方式进行构图,很难支持3-6个月的图回测
我们通过技术验证后,沉淀了一套能力,包括:
- 图建模:离线、近线、在线的图资产统一。
- 图交互式分析:专家使用图交互式分析进行研判。
- 图仿真回测:基于分析的case进行3-6个月的图仿真回测。
- 图计算服务上线:图特征和图算子的一键发布上线。
统一图资产的分析、仿真和上线过程中,语义保持一致,实现了三线一体,从而确保了图风控规模化的高效率
2、规模化效率瓶颈
经过规模化操作后,我们发现业务流程前面的模块都是离线T+1跑批或基于事件触发,都是自动完成的。只有最后一步需要人工分析,这一环节对人工的依赖限制了图的大规模应用。因此,我们下一步的工作是自动挖掘风险
三、子图挖掘
我们之前的业务分析测算,都基于专家给出了明确的风险模式后进行处置,但其实这样的流程周期很长,效率较低。所以我们目前正在自动挖掘风险模式,然后推荐给专家分析。
1、总体技术方案
整体技术方案分为以下几个步骤:
- 基于离线T+1及实时数据构建底图。
- 计算图中每个节点的表征向量,然后计算p-value值及各种业务指标
- 筛选节点,并基于种子节点进行扩散,获得重要风险子图
- 在子图中进行风险模式的挖掘,获得风险模式(Pattern)的候选集,并进行回测
- 回测结果符合预期指标的风险模式,交由业务方进行交互分析,并决定是否采用上线
- 通过这一套流程,我们把挖掘风险模式,结合算法和算力做到了自动化。
在这个过程中,存在两个较大的挑战:
- 信息混杂问题:底图数据庞大,噪声较多。
- 算力复杂问题:子图同构算法复杂度为指数级。
2、信息混杂问题
对于信息混杂问题,当我们基于原始大图进行挖掘时,首先图的规模比较大,难以进行挖掘。另外,图中有许多噪音,比如我们每天购买咖啡、早餐,当我们基于频繁度进行挖掘时,这种模式很容易被挖掘出来,但没有提供风险信息,应该被剔除。
我们的做法是基于完整的底图,计算节点表征向量。然后根据节点p-value和业务指标,计算节点的重要度,最后裁剪低于一点重要度的节点,我们目前通常挖掘的图在10亿规模左右。这样做可以剔除噪声,并且提升挖掘的效率。
3、算力复杂问题
计算量非常大的原因主要是因为组合爆炸,例如某种边的类型只有10万条,但它对应的模式可能有11亿个。而我们的挖掘过程中,每增加一度都需要反复验证相应的业务指标。因此,算力复杂度主要来源于这些方面
对于这个问题,我们有两种解决方案。第一种是基于业务语义,对不合理的模式进行修剪。从业务应用的角度来修剪图,取得了很好的效果。第二种是从技术角度,引入图的外部存储,缓解了大规模图挖掘的内存压力
4、子图自同构问题
子图自同构,原本需要遍历所有子图进行对比,是一个np问题,比较难找到最优解。我们与高校合作,使用了数学的思路,将子图映射成一个数学函数,然后通过数学函数可以比较快速的对比。这个方法不能解决所有问题,但是能解决大部分问题。我们基于这个思路进行了分布式的实现,从而更好地做图挖掘,以及图模式的匹配。
四、回顾总结
我们的信贷风险控制建设始于2018年,基于专家总结的风险模式,转化为图模式匹配进行风险挖掘。这种方法具有高准确性,但风险覆盖范围相对较低。因此,在2019年,我们引入了团伙算法来解决聚集性风险。2020年,我们从图的静态切面分析图的当前信息,推进到分析图的时序演进状态,进一步捕捉团伙的发展和变化信息。2021年,我们实现了图平台规模化落地,实现了三线一体。在2022年和2023年,我们的主要工作是图的自动挖掘和分析
五、问答环节
Q1. 刚刚提到事中阶段会在线进行拦截,时延是120毫秒,线上用了什么样算法,还是用专家系统进行模式匹配?怎么做到120毫秒?
A:模式匹配和团伙发现是事后做的,社团的计算需要几十秒。事中主要是在图数据库中查了买家子图、卖家子图、买家卖家连通子图,主要做Traversal&Aggregate,进行表征向量抽取,然后进行深度学习模型的打分,这个过程大概消耗20毫秒左右。当然我们也在风控链路上做了许多优化,整套流程大概在70-80毫秒。
Q2. 20毫秒的查询会涉及到几度邻居查询?
A:买家和卖家子图往外扩两度,买家卖家连通子图则是各扩两度,并且各扩充两度后可以连通。
Q3. 事中查询时,图的切片如何选取?
A:图中有多个线程持续更新写入数据,当有访问请求时,会实时对被访问节点进行遍历和聚合
Q4. 图中节点表征的更新频率是什么?
图节点的表征是通过实时抽取计算得出的
Q5. 子图挖掘整体方案中,蓝色模块的评估任务,是自动化评估还是有业务专家介入评估?
这部分的评估是使用自动化评估方法进行的。我们会根据风险的候选集,在历时3-6个月的图表上进行回测。然后,根据历史数据中匹配到的模式,计算用户和商户的各种风险和业务指标。最后,根据业务要求进行自动化评估
以上就是《蚂蚁信贷图风控实践的关键探索》的详细内容,更多关于风控体系,图风控技术的资料请关注golang学习网公众号!
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
501 收藏
-
354 收藏
-
233 收藏
-
418 收藏
-
326 收藏
-
326 收藏
-
390 收藏
-
- 前端进阶之JavaScript设计模式
- 设计模式是开发人员在软件开发过程中面临一般问题时的解决方案,代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景,打造一站式知识长龙服务,适合有JS基础的同学学习。
- 立即学习 542次学习
-
- GO语言核心编程课程
- 本课程采用真实案例,全面具体可落地,从理论到实践,一步一步将GO核心编程技术、编程思想、底层实现融会贯通,使学习者贴近时代脉搏,做IT互联网时代的弄潮儿。
- 立即学习 507次学习
-
- 简单聊聊mysql8与网络通信
- 如有问题加微信:Le-studyg;在课程中,我们将首先介绍MySQL8的新特性,包括性能优化、安全增强、新数据类型等,帮助学生快速熟悉MySQL8的最新功能。接着,我们将深入解析MySQL的网络通信机制,包括协议、连接管理、数据传输等,让
- 立即学习 497次学习
-
- JavaScript正则表达式基础与实战
- 在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。
- 立即学习 487次学习
-
- 从零制作响应式网站—Grid布局
- 本系列教程将展示从零制作一个假想的网络科技公司官网,分为导航,轮播,关于我们,成功案例,服务流程,团队介绍,数据部分,公司动态,底部信息等内容区块。网站整体采用CSSGrid布局,支持响应式,有流畅过渡和展现动画。
- 立即学习 484次学习