使用机器学习和预测分析的债务催收系统

2019-04-11

企业越来越关注如何使用大数据,人工智能机器学习预测分析来增加收入,降低成本和改善业务流程。在这篇博文中,我们描述了我们如何开发一种数据驱动的机器学习方法来优化收债公司的收款流程。

根据纽约联邦储备银行的统计,截至2017年6月30 ,美国超过6000亿美元的家庭债务拖欠。其中4000亿美元拖欠超过90天。这不仅给消费者带来了严重的问题,因为债务往往会累积利息,而且对于拥有债务的公司来说也是如此,因为它大大削减了他们的收入。对于这些公司来说,能够尽可能多地收取债务将大大增加他们的底线。

债务催收过程

收集过程通常遵循预定的信件,电子邮件和电话时间表,随着时间的推移越来越紧迫地需要偿还债务。最终,如果债务人拒绝偿还债务,那么收债公司可以采取法律行动来强制还款。法律诉讼费用昂贵,而且通常不在收款机构的控制之内,所以它只是作为最后的手段而被视为尽可能避免。与普遍看法相反,收债员通常倾向于与债务人合作,通过提供无息延期,还款计划来偿还债务,或者在某些情况下,如果债务人真的无力偿还,则可以免除部分债务。但是,这只有在债务人合作并对收集者的通信尝试作出回应时才有可能(例如,

信件和电子邮件大多是自动化的,但是电话呼叫仍然需要人工收集者物理拨打号码并与债务人进行对话。这是收款过程中不可或缺的一部分,因为收债是高度情绪化的,经验丰富的收款人能够解读债务人的需求和问题,并确定最佳行动方案,以最大限度地提高还款的可能性。

然而,收债公司一般都有大量公开案件,而且可以拨打的电话数量受到人力资源的限制。在这些限制下,召集每一个债务人并选择债务人进行调用的方法变得必要是不可行的。不要求需要人类劝说的债务人导致进一步的拖欠和更大的不偿还风险,但要求不需要额外说服的债务人会导致浪费精力。我们的目标是确定电话呼叫在哪些条件下最有效地引发最终还款,并在遵守收集者面临的容量限制的同时为每个债务人创建最佳呼叫时间表。

债务1

优化呼叫时间表:一个众所周知但不可行的解决方案

解决此类问题的常见方法是建立收集过程的数学模型,然后使用历史收集数据校准其参数。这种模型通常采用马尔可夫决策过程(MDP)的形式,它采用封装在完整债务人组合的状态空间内的所有当前可用信息,并计算每个债务人为每个国家实现调用的长期价值。空间。它的工作原理是从每个债务人的最终状态开始(例如完全还款或注销债务),然后向后遍历所有发生的行为和事件,将此结果的价值归因于所发生的一切。

虽然这种方法在理论上是合理的,但是两个主要问题阻碍了它在实践中的可行性。首先,收集者不知道预期会有多少未来案例,以及这些案件将提供何种信息。这意味着,对于当前债务人的当前投资组合优化的通话时间表可能会在一周后被一大批新抵达的债务人打断。因此,有必要的是一种适应性解决方案,它始终能够灵活应对债务人组合和呼叫能力的波动。第二个也是更具挑战性的问题是,解决MDP会受到维度诅咒的影响。

解决MDP的计算时间相对于我们用于封装当前可用信息的状态的数量是指数的,并且在整个收集过程中可能发生相对大量和多种可能的事件。我们编制了一组25个可能影响债务偿还可能性的变量(例如债务金额,债务人是否承诺偿还,以及自上次打电话给这个债务人以来的天数)。未知的未来债务人到达和难以处理的计算的组合表明应该考虑不同的解决方案。

预测呼叫值:简化但可行的解决方案

我们决定简化我们的方法。我们只关注确保在某一天所做的所有电话呼叫在收集的债务方面增加最大价值,而不是为每个债务人推导出最佳的呼叫时间表。这意味着所有可能的电话呼叫都应该根据价值进行排名,收款人应该从高到低呼叫债务人,直到当天的容量耗尽为止。为了计算电话呼叫的价值,仍然需要考虑导致最终还款的行为和事件,因此维度的诅咒仍然存在,因为状态空间保持不变。这是机器学习发挥作用的地方!

大规模MDP在实践中很常见,并且已经开发了许多技术来找到近似解决方案而不是强迫难以处理的问题。在我们修改的方法中,我们使用机器学习来直接预测任何时间点的最终收集结果,而不是考虑所有可能的未来行动和最终还款事件。这样,我们就可以通过计算在有或没有给债务人打电话的情况下预期最终还款的差额来估计随时调用债务人的价值。

机器学习框架

为了构建机器学习模型,我们从2014年到2016年期间开始使用一家保险公司的80,000名债务人的数据集。数据最初包括有关案件的一些基本信息以及债务人和收债员之间的交互历史记录。我们处理的原始数据转换成表格的形式,其中每个债务人是包含25个变量定义债务人的状态行,然后标记结果为肯定的,如果债务人偿还全额,没有其他方式,所以这是一个二元分类问题。

我们使用的机器学习算法是LightGBM,它在实践中运行得非常好,并且通常被认为与XGBoost一起被认为是在Kaggle上托管的预测分析竞赛的最佳算法。此外,它易于使用,不需要复杂的功能工程实现良好的业绩。通过将数据集分成火车和验证集,我们可以看到虽然很难,但可以预测债务人的还款可能性。下图显示了收集过程25天后债务人最终还款预测的接收操作特征(ROC)曲线。由于中华民国的区域仅为0.6385,预测性能不高。但是,它仍然表明最终的还款是可预测的,因此这种方法仍有潜力。

债务2

然后,我们可以通过预测还款可能性的变化来估计调用债务人的价值,无论是否从当前状态拨打额外的电话。然后,最佳决策是呼叫债务人,其中呼叫的价值是容量允许的最高值。

与某些观点相反,机器学习不是黑盒子,并且总是可以分析关于用于进行预测的特征值所做出的预测。我们对估计的电话呼叫效果进行了分析,发现可以将许多功能与更好的呼叫效率联系起来。首先,自从先前与债务人的交互以来,调用的价值随着时间的推移而增加。这表明最好再等几天再打电​​话给债务人。其次,当债务人和收债员之间有更多先前的互动时通话会表现得更好。由于收集过程在我们的历史数据样本中基本保持不变,我们认为债务人 – 收债员互动的数量实际上代表了债务人在收款过程中的时间长度。这表明新债务人很有可能在这个过程中尽早偿还债务而不需要被调用,因此最好在打电话之前等待和观察。最后,当债务人先前接听电话时电话往往表现得更好。请注意,这些见解在某些方面重叠,而在其他方面则相互矛盾。我们的分析只是为了更好地理解模型结果,而不是对最优债务收集过程做出明确的结论。

实施和控制现场实验

验证任何决策策略的最佳方法是在实践中对其进行测试。我们与最初向我们提供数据的行业合作伙伴实施了我们的解决方案 – 荷兰收集机构每年处理超过250,000个收集案例,总计1.2亿欧元的本金。我们的实现采用简单的Python脚本(运行时间约为15分钟)的形式,以csv格式读取原始数据,并输出一个排序的债务人列表来调用当天。

为了测试我们的政策,我们进行了一项实时实验,将新到达的债务人随机分配到两组。第一组(466个案例,我们称之为现任政策的知识产权)是对照组,并遵循收集机构使用的现有政策。第二组(455个案例),我们将其称为GOCP,用于GBDT优化收集政策,由我们的算法提出的数据驱动策略处理。在每天开始时,符合IP规定的规则和GOCP排名的前20%案例的所有案例都被放入一个中央池中,以便收藏者在当天致电。收藏家不知道实验并且在不知道案件来自两个不同群体的情况下履行职责。最后,跟踪案例至少60天,并在实验结束时计算了许多绩效指标(见下表)。

债务-3

我们可以看到GOCP能够提高收集性能。它能够完全收集更多的案件(62.6%对59.0%),占债务总额的比例更高(65.2%对57.2%),以及提前偿还的案件的早期还款(20.3天对22.2)天)。更重要的是,GOCP能够大大减少呼叫工作量,观察呼叫次数减少了21.5%(1,064对1,355)。

当我们分析这两个政策的呼叫行为时,显然GOCP等待的时间比IP更长,可以呼叫债务人,并且还会向债务人分配更大比例的电话,最终不会偿还债务。从这一点来看,我们可以推断出三个似乎可以提高收款绩效的规则:1)有很大的空间来减少调用工作,2)给债务人更多的时间,然后再打电话给他们,3)继续与困难的债务人联系,希望能找到解决方案。

关于作者

Qingchen Wang
Qingchen Wang是阿姆斯特丹大学阿姆斯特丹商学院数据科学与商业分析的博士候选人。他的  研究重点是通过开发利用先进机器学习技术的数据驱动优化方法来解决复杂的现实生活中的业务问题。 他之前曾担任数据科学家,并在Kaggle取得了“竞赛大师”的称号。

Ruben van de Geer
Ruben van de Geer是数学系的博士候选人,隶属于阿姆斯特丹商业分析中心,该中心是Deloitte和de Vrije Universiteit参与的学术界和工业界的合作。他研究了“计量经济学和金融数学”以及“运筹学和商业计量经济学”。他的博士项目是与德勤共同研究并专注于零售业的动态定价。

Sandjai Bhulai
Sandjai Bhulai是阿姆斯特丹自由大学(Vrije Universiteit Amsterdam)商业分析教授。他学习了“数学”和“商业数学和信息学”,并获得了马尔可夫决策过程的博士学位,用于控制复杂的高维系统。他是阿姆斯特丹商业分析中心的联合创始人,商业分析/数据科学研究生课程的联合创始人,也是Prompt Business Analytics的联合创始人。

 

原文链接

没有评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注