互联网是一把双刃剑。随着互联网成为各行业加快业务开展的关键技术,各行业都面临着诸如垃圾评论、排名欺诈、交易欺诈、薅羊毛、账户盗用、扫码、套现、批量虚开等欺诈问题,反欺诈也成为各行各业保证运营业务与营销业务正常开展的前提。这些欺诈现象的背后往往是黑产团伙协同作案,企业与日俱增的反欺诈成本。
反欺诈模型作为一个重要的技术手段,在互联网、金融、传统零售等各行各业广泛的存在,但却没有一套完整的理论框架和方法论。本文结合互联网反欺诈的现状,罗列总结了互联网反欺诈模型体系建设过程中的经验和教训。
随着互联网欺诈团伙化、产业化,风控、反欺诈、信贷、异常检测等领域均需要认真思考如下六个方面的问题,并提出尽可能合理的解决方案:
原始案件数据标注来源
历史案件深度挖掘应用
专家经验规则自学习机理
风评结果可解释性说明
模型实时计算预测服务
案件核准闭环运维思维
一、原始案件数据标注来源
反欺诈案件标注数据是极为珍贵的资源。绝大多数场景下,项目初始化阶段是没有任何数据标注的。标注数据来源从技术手段分类有:
名单库
传统的黑白名单通过内部积累和外部获取的各种人员信息、手机号、设备、IP等对欺诈行为进行判断,是一种实施简单、成本较低的反欺诈手段。但存在准确度低、覆盖面窄等缺点,仅可作为互联网反欺诈的第一道过滤网使用。
专家规则
专家规则是目前较为成熟的反欺诈方法和手段,基于反欺诈策略人员的经验和教训,制定反欺诈规则,当用户的操作行为触发了反欺诈规则时,启动相应处置策略。
优点:实现较为简单、可解释性强、可快速响金融行业的监管文件。
缺点:存在严重的滞后性,对于新出现的欺诈手段和方法无法及时应对,往往需要付出大量损失代价后才能总结规律,提取新的规则。
此外,由于人脑的限制,专家规则只能使用一个或几个维度的标量进行计算和识别,存在着较大的误报率。同时,专家规则严重依赖于策略人员的经验水平,不同水平的策略人员制定的专家规则效果也会存在较大区别,主要作为互联网反欺诈的应急响应手段和兜底防线。
统计分析
运用对比分析、趋势分析、分布分析、漏斗分析等数据分析手段,挖掘数据一致性、集中性等特征发现欺诈规律,适用于静态数据场景,如模型POC、机器学习比赛等,具体采用数据分析技术+客群分类+场景化先验知识假设综合技术手段,可以获取很好的召回率和模型可解释性。
在生产环境实时计算场景,劣势也很明显,主要包括如下几点:
作为一种事后分析技术手段,不具实时性,无法在事中实时检测中发挥作用。
作为基于业务先验经验基础上分析推理,不具备对抗性,模型有效时间短,容易被经验丰富,组织化黑产团伙分析绕过。
基于场景化欺诈特性假设和数据分布假设,在业务演化和场景变化后,模型大多数情况会失去原有预测效果,模型不具备场景普适性和时间稳定性。
异常检测
适用于场景化个体欺诈场景和场景化团伙欺诈场景。在账号盗用、盗转盗刷、防内鬼等个体欺诈场景,常规打法有两类:一类是规则+简单统计模型,基于用户注册、登录、消费、转账信息构建统计特征、拟合特征和分类特征等,对接指数移动平均算法、LOF、IForest、Holt-Winters、ARIMA算法发现异常点。
优点:开发部署快,可解释性强。
缺点:误报率高,不适应用户正常行为的突然改变,随着时间的迁移,特征工程将会变得越来越复杂,并且在预测的时候,时间复杂度也会大量增加。
另一类是深度学习+时间序列检测算法,常用的LSTM模型来拟合周期型的时间序列,或利用自编码器的重构误差和局部误差,输入数据是归一化之后的原始数据(normalized raw data),输出的是两个标签(正常&异常)。
优点:可以实现端到端(End to End)的训练过程,有效拟合用户行为规律。
缺点:维护模型的成本比较高,不太适用于大规模的时间序列异常检测场景,周期型的曲线效果比较好,如果是毛刺型的数据有可能就不太适用。
关联图谱
图数据是一种更加广泛的数据表示方式,夸张地说,没有任何一个场景中的数据彼此之间是孤立存在的,这些数据之间的关系都可以图的形式进行表达。最近一年,GNN 的应用场景不断延伸,覆盖了计算机视觉、3D 视觉、自然语言处理、科研、知识图谱、推荐、反欺诈等场景。
关系数据的挖掘是绝大部分反欺诈业务开展最重要的技术视角,不论是基于欺诈风险传播的关联分析还是基于黑产团伙模式的结构化挖掘,图都是反欺诈业务人员的首选工具。在这样的背景下,GNN 也变得极有发挥空间。例如,GNN 对支付宝欺诈用户进行识别检测, GNN 对咸鱼上的评论进行欺诈识别。
场景化团伙欺诈场景,引入关联图谱关系定义,通过共用、共享、连接指向等关系定义,构建基于不同资源维度的复杂关系图谱,如账号图谱、设备图谱、电话号码图谱等。引入图论领域出入度、中心度、模块度、最短链路、Riskrank、顶点嵌入、图卷积等图算法,对大部分团伙欺诈场景有很好的适用性。
优点:通过部署一个模型可以应对多个场景的团伙性欺诈挖掘,项目部署实施成本低,运维成本低等。
缺点:相对于独立的场景化团伙欺诈检测,模型召回率在可接受范围内有一定损失。
二、历史欺诈案件深度挖掘应用
项目上线一段时间后,原始案件数据有一定沉淀积累,这个阶段面临的问题是如何更好地从已有沉淀案件中深度挖掘隐藏的欺诈模式,提供在线实时预测服务。深度欺诈检测常用算法列表有XGBoost、DeepFFM、XDeepFM、Wide&Deep、DIN等以及算法融合。
有监督学习模型在发现历史案件中蕴含的欺诈模式方面相对于专家经验有如下5个方面的优势:
发现深度复杂隐式欺诈特征,这点对比专家规则,具有较强针对性;
发现的规则是非线性的,对事后分析绕过对抗有较强的免疫力;
具有正反双向作用力,对比专家规则单向作用模型,正反双向作用性质,可以对模型过拟合风险起到很好对冲作用;
通过深度网络多层交叉组合,一方面进一步加强规则集对抗性、持续性,另一方面提升模型泛化能力、增强欺诈场景的普适性;
做到在线实时风评防控,提升模型风控时效性,从事后分析前置到事中实时防控,通过一个模型可以覆盖全渠道场景欺诈类型检测,真正做到One Model Rule All。缺点是相对专家规则模型单规则理解性差,算法复杂度高。
当然,要正确理解机器学习模型作用和功能,需要模型相关的业务人员、技术运营人员建立模型治理理念和认知,从单规则角度转变为模型整体防控角度来更好更全面理解模型效果。从检出率,误报率,漏报率,准确率等全局性指标中,分析研判模型整体效果和趋势。
三、专家经验规则自学习机制
在大数据时代背景下,金融犯罪和金融欺诈的新手段层出不穷,日渐趋于科技化、专业化、规模化,也更具有隐蔽性,由过去的单兵作战演变成有规模、有组织的团伙欺诈,严重制约了传统的专家知识库、专家经验规则持续有效地发挥作用,亟需解决两方面问题:
基于数据算法驱动,自动化调整的场景规则集中的阈值和权重,以保障规则持续有效性;
从不同维度发掘时效性强的新风控规则,以持续丰富完善反欺诈规则集。
规则阈值、权重
规则阈值、权重学习涉及特征离散化、特征选择、特征降维、权重参数回归等流程。
信息熵:用来评估样本集的纯度的一个参数,是系统的不确定性、随机性度量指标。
卡方分箱原理:特征离散化算法,根据样本数据推断总体的分布与期望分布是否有显著性差异, 或者推断两个分类变量是否相关或者独立。
最小熵分箱:特征离散化算法,最小熵分箱是典型的自顶向下分箱方法。最小熵分箱将待分箱特征的所有取值都放到一个箱体里,然后依据最小熵原则进行箱体分裂。
基尼(gini)系数:特征离散化算法,总体内部包含越混乱,基尼系数越大;内部纯度越高,基尼系数越小。
特征选择:特征选择在于选取对训练数据具有分类能力的特征,提升模型整体预测能力,常用到技术包括lasso回归、Feature Importance、特征共线性验证等。
Lasso回归:使用少量观测值就能够完全恢复出非零的系数。其中不同的是,样本的数量需要“足够大”,否则L1模型的表现会充满随机性。
新风控规则
新欺诈规则挖掘,根据规则中所处理的值类型分为两类:
如果规则考虑的关联是项的存在与不存在,则它是布尔关联规则;
如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。
本质是频繁项集挖掘,常用到算法包括Apriori、FpGrowth。
Apriori算法利用频繁集的两个特性,过滤了很多无关的集/合,效率提高不少,但是Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。
FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集/合,所以效率会比较高。
四、风评模型可解释性问题
人工智能算法模型正在对金融行业产生重大影响,前提是要了解AI算法的优势和局限性,以及适合在金融领域发挥作用的场景。当我们在金融业务中使用AI算法,期望通过可度量的方法对模型结果进行分析、解释,以期对算法进行优化,对业务进行方向性的指导,确保模型与要解决的业务问题保持一致,即模型解释性分析问题。模型的解释性分析可帮助模型开发人员及业务运营人员了解并解释模型中包含和未包含的特征因素,及特征如何影响模型结果。
广义上,模型的解释性分析目的是全局定义特征对模型的影响,同时定义单个特征对模型的个性化影响;更好的理解模型行为,更好的进行相应的业务决策;通常对机器学习模型分为“白盒”模型和“黑盒”模型:
“白盒”模型
“白盒”模型如线性、Logistic回归模型,预测能力较弱,但是简单易理解。线性关系如信贷欺诈与人口统计学特征、经济收入等的相关性。决策树模型(RandomForest vs XGBoost vs LightGBM)是目前业内公认可解释性较好的非线性机器学习算法,模型每作出一个决策都会通过一个决策序列来向我们展示模型的决策依据,决策树模型自带的基于信息理论的筛选变量标准也有助于帮助我们理解在模型决策产生的过程中哪些变量起到了显著的作用;白盒模型特征明确,逻辑简单,本身具备可解释性。
针对“白盒”模型,我们可以从数据分布图、特征重要度、Embedding可视化、独立特征分析(PDP)、全局性分析(SHAP)、局部特征信息(LIME)、特征相关性(相关系数)等维度提供分析技术。
特征重要度:从两个角度分析“特征收益重要性”和“特征分裂重要性”;特征收益重要性指特征分类的平均训练损失的减少量,意味着相应的特征对模型的相对贡献值;特征分裂重要性是指训练样本决策分裂的次数,两者从不同维度度量不同特征在模型训练中的重要性。
独立特征分析:我们通过特征重要度得知某个特征对模型的影响度,以及用SHAP来评估全局特征重要性;但如何评估某个单独的特征,尝试通过PDP来评估独立特征,展示单个特征对于模型预测的边际效益,单个特征是如何影响预测的,通过绘制特征和预测目标之间的一维关系图或二维关系图来了解特征与目标之间的关系。多个特征的复杂性,通过单个特征分析,进一步验证单个特征对模型的影响度。
“黑盒”模型
“黑盒”模型使用复杂的机器学习算法(深度网络学习)训练数据,输入特征经过组合变换,维度变换等特征工程步骤,需要分析及调整数据与模型,确保模型结果与要解决的问题保持一致;然而这些模型的内部机制难以理解,也无法估计每个特征对模型预测结果的重要性以解释模型结果与输入的特征属性潜在的关联关系,更无法直接理解不同特征之间如何相互工作(数据的相关性不等价于因果关系)。
针对“黑盒”模型,我们可以从深度网络结构分析,风评结果命中团伙关联图谱角度去解释模型有效性。
关联图谱提供丰富的图构建、图查询、图分析、图嵌入、图挖掘技术,通过社区检测、关键节点分析、关联分析、异常网络结构发现等场景化算法和模型,提供风控和营销等场景化辅助决策服务。如信用ka养卡套现识别,养卡套现团伙往往都与黑商户沟通,正常养卡阶段,消费的商户相对固定,而通过遍历关联图谱的方式,能够基于上述行为特征建立欺诈关联图谱,识别养卡套现团伙。
风控场景对于数据、模型、特征的可解释性,稳定性要求是重点,可解释性和稳定性仍然需要结合业务和专家经验进行判断。
五、模型实时计算预测服务
风控系统有规则和模型两种技术路线,规则的优点是简单直观、解释性强、配置灵活,缺点是容易被攻破,一旦被黑产经过多次试错就会绕过预先设定好的规则进而失效,实际的风控系统中,往往再结合上基于模型的风控环节来增加系统健壮性。
传统机器学习模型采用烟囱式开发、测试、部署上线模式,存在如下几点弊端:
训练数据准备工作需要手工完成。数据清洗和特征挖掘是模型训练的前期工作,既包括从原始数据清洗出特征数据,也包括对清洗出的特征进行处理。由于缺乏统一的特征管理平台,目前训练需要的原始数据仍需算法工程师自行收集、整理、清洗。
模型服务处于离线预测阶段。相对于离线预测,实时预测能结合用户的实时行为数据信息作出精细化预测,有效提高预测的准确性。但实时数据存在复杂、多变等特性,以及实时预测对性能上的要求更加严苛,工程技术门槛高,不少团队选择了相对容易实现的离线预测方式。
实时模型服务的开发周期长。实时模型服务离不开实时特征准备、业务逻辑开发、模型调用开发等步骤。实时特征一般由各项目的开发工程师自行维护,不可避免地存在特征重复开发的现象,带来开发资源和存储资源的浪费。此外,一个预测场景一般由一个模型服务提供支持,新的模型服务需求需要完全从头开始开发,开发周期较长。
流批一体架构较完美地实现方式:采用流计算 + 交互式分析双引擎架构,在这个架构中,流计算负责的是基础数据,而交互式分析引擎是中心,流计算引擎对数据进行实时ETL工作,与离线相比,降低了ETL过程的latency,交互式分析引擎则自带存储,通过计算存储的协同优化,实现高写入TPS、高查询QPS和低查询latency ,从而做到全链路的实时化和SQL 化,这样就可以用批的方式实现实时分析和按需分析,并能快速的响应业务的变化,两者配合,实现1+1>2的效果 。
针对以上行业现状和弊端,提供一体化流批混合模型实时计算预测服务能力势在必行,全面考虑实际应用的业务场景与技术指标要求,为场景计算、模型服务提供高效可靠的基础设施平台。
基于消息驱动模式动态解析加载模型文件,准确还原运行时模型流程,构建高并发、低延时、高可用模型实时预测服务。
支持主流AI算法,包括特征工程算法、分类器算法、回归算法,无监督算法等。
提供毫秒级实时计算服务,高效满足在线实时模型引擎特征计算要求。
从设计、架构、功能、性能层面分析,具体应包括如下特性:
模型性能:提供高并发、低延时、高可用实时预测服务。99.99%请求延时在百毫秒以内,TPS达到万级以上;
高可用保障:提供高可用计算能力。保障在部分节点故障情况下,计算引擎正常提供计算服务能力;
模型流程重放:支持基于消息驱动模式动态更新模型算法流程,并高效生成相关算法组件运行时实例,提供实时特征转换计算;
特征算法类型:支持常见特征工程算法,包括特征编码、特征转换、特征降维、特征融合等;
AI算法类型:支持常见分类器、回归、无监督算法,包括但不限于线性回归,Logistic、TreeModel、Graph、Logistic、SVM、NN、kmeans、DBSCan等;
文件类型:支持多种模型文件格式,如PMML、Python文件、Parquet等;
系统监控:支持数据流链路性能监控、服务组件监控、客户端调用监控、系统资源利用率监控等;
动态扩容:在服务不间断前提下,实现系统动态扩容能力;
数据预热:提供基于事件时间数据处理能力,实现历史数据预热。
六、案件核准闭环运维思维
物理学熵增定律告诉我们,在一个孤立系统里,如果没有外力做功,其总混乱度(熵)会不断增大。比如物质总是向着熵增演化,屋子不收拾会变乱,手机会越来越卡,耳机线会凌乱,热水会慢慢变凉,太阳会不断燃烧衰变......直到宇宙的尽头——热寂。
在反欺诈领域,任何优秀的模型随着业务平台发展、行为路径的变化、欺诈模式演进,模型局限性问题会逐步放大,模型预测效果必然趋于平庸化。通过周期性投入算法研究员去优化已有模型,是一种既不优雅也不经济的运作方式。从平台层面提供疑似样本核准技术和机制,将核准后的案件样本通过机器学习采样技术采集到模型训练集,可以有效解决样本失效问题,及时更新欺诈样本到模型训练集,持续保障模型训练、预测效果。
疑似样本核准技术支持体系包括但不限于:OLAP在线分析、实时报表、用户画像标签、团伙欺诈图谱、样本边缘采样、样本染色等技术,可以有效降低人工审核成本,缓解繁琐工作压力,提升标注效率和效果。
用户画像标签分多级标签体系,包括基础类标签、实体关联类、滑窗类等。
基础特征类标签:包括设备类型、设备品牌、设备网络制式、手机号、证/件类型、证/件号、产品、渠道、地理位置等;
实体关联特征类标签:空间网络特征类标签,Session特征类标签,包括关联设备关联账号、账号操作设备、账号-设备网络拓扑度等;
滑窗特征类标签:时序特征类标签包括常用IP、常用设备、常用账号、常在地、各场景常用渠道、各场景偏好时间、行为序列频次、属性偏好等;
团伙欺诈图谱社区集聚度度量指标包括关联度,中心度、网络聚类、PageRank。
关联度指标:一度的关联度即是指一个节点和多少个其他节点相邻。如果是有向网络,还可细分为入度和出度,分别对应链入和链出的节点数。二度关联度则是指介由一个中间节点相关联的节点数。一度,二度关联的关联度在反欺诈的场景中的使用非常的广泛;
节点重要性的指标是中心度(Centrality): 比如介数中心度,特征向量中心度等等。介数中心度度量对于一个节点X,多少其他节点对之间的最短路径必须介由X。特征向量中心度则可以认为是一度关联度的一种延伸,当考虑一个节点的重要性时,不止考虑他有多少个邻接节点,还要考虑这些邻接节点的重要性;
网络聚类:物以类聚,人以群分,考察和一个节点有紧密联系的其他节点所构成聚类的共性,往往对研究该节点的特性有很强的指导性,基于少量数据标签标注算法包括标签传播算法、Triangle count、Connected components等。
芯盾时代机器学习引擎
芯盾机器学习引擎提供了集体系化风控模型、全生命周期管理、模型实时服务的一体化解决方案。
体系化风控模型
异常检测模型:通过无监督方式,有效解决群体类和个体类欺诈检测问题,捕获新型欺诈样本,为案件平台提供新型欺诈样本。
深度欺诈检测模型:综合学习增量欺诈案例和历史欺诈案例,深度挖掘新型非线性高维组合欺诈特征,提升有效欺诈检测率、降低误判率。
阈值-权重动态学习模型:通过增量学习新型欺诈案例,动态调整规则集中具体规则的阈值和权重配比,持续优化风评引擎结果准确率和时效性问题
用户画像和欺诈关联图谱:从多业务维度聚合指标和团伙网络欺诈角度提供了可视化结果分析工具,为模型预测结果判断提供科学决策辅助支撑。
全生命周期管理
依托于案件核准技术和运行机制,持续化迭代更新训练集。通过模型监控、模型训练、模型优选、模型发布、模型优化等生命周期管理功能,实现从微观层面规则调整运维跃升为基于模型生命周期宏观管理机制。
模型实时服务
芯盾模型在线服务引擎,基于kappa架构设计理念,提供集高并发、低延时、高可用、易扩展、热部署等特征于一体的实时特征计算、模型预测服务能力,高效实现事中风险事件评估反馈。