5299 篇
13868 篇
408780 篇
16079 篇
9269 篇
3869 篇
6464 篇
1238 篇
72401 篇
37108 篇
12060 篇
1619 篇
2821 篇
3387 篇
640 篇
1229 篇
1965 篇
4867 篇
3821 篇
5293 篇
机器学习在通信企业用户流失预警中的应用
引言
随着通信市场逐渐饱和,新用户增速放缓,使得通信运营商对中高端用户的抢夺成为市场竞争的焦点,同时中高端用户的流失势必对公司的收入和利润产生的影响越来越大。面对激烈的竟争环境、用户状态不稳定性、在网客户的周期缩短等问题,确实有必要对中高端用户进行离网风险识别,并开展针对性的工作来维系存量用户。
在通信运营行业中,移网用户的月流失率在2.55%左右,若按存量用户以这样的方式来流失率计算流失,用不了几个月用户流失完将使运营商难以承受。去年2019年我国电信运营商移动用户的规模和普及率再上了一个新台阶,历史再创新高,移动的电话用户规模达到了16.01亿户,移动的电话普及率达到了114.7部/百人。在这样一个市场饱和的状态下,发现发展一个新用户的难度可想而知。从某种意义上来说,移动用户在通信行业,留住老客户的利润率是新发展一个客户的20倍,对于移动电信市场日渐稀少的用户市场来看,加大维系力度,减少用户流失,相当于减少成本,增加利润,这一点是我们现阶段我国电信运营商已经公认接收必须面对和努力的方向。
由此可见,存量维系移动用户的重要性,移动的老客户用户维系比发展一个新客户更重要。如何提前对运营商中高端用户进行离网风险识别,成为各大运营商越来越关心的焦点问题。
一、机器学习
1.1 机器学习论述
机器学习是交叉多领域一门学科,人工智能的核心,算法是计算机自动运行。机器学习有非常多的方法,从目前来看,比较成熟的是监督学习,其核心是处理数据应用和模型的调参,大数据时代核心技术是机器学习。
训练数据在监督式学习算法中分为两大部分,一部分是特征预测变量数据,一部分是目标变量数据。通过这些变量数据,搭建一个模型,根据一个已知预测的变量值,得到相应目标的变量值。
反复训练模型,以至于在训练的数据集上得到预定准确度。关于岭回归、随机森林、SVM(支持向量机等都是监督式学习。
1.2 机器学习应用前景
机器学习是一种基于大数据自主学习的方法,和传统的用户存量维系的用户维挽方法相比,机器学习能够提高效率,对移网用户离网风险识别的效率更高,准确性更高,成本更低。
这就是近年来机器学习广泛应用于各大运营商用户流失分析中的主要原因,并且也降低了成本,另外还有一个最明显的特性是模型可以随历史数据的变化不断优化,提高预测准确性。
二、机器学习在通信企业用户流失预警设计
运用最成熟的是监督学习,监督学习分类模型应用于移网用户流失的预警,包括目标变量也就是用户是否流失的标签,同时包含自变量也就是移网用户使用的通话、流量、合约、预存款、短信、欠费、资费、社交圈等信息预测变量的字段。运用这些变量,进行移网用户流失预警的模型建立,是否流失标签是对于已知的移网用户信息,得到相应的流失预测。反复训练用户的流失模型,在特征过程后,使用训练数据集对模型行进行训练。
最终使用训练好的模型对测试集进行预测。之后通过改变参数和使用交叉验证等方法提升模型精度。预测结果越靠近真实数据越好。反复训练流失模型,直到评估指标达到非常好的状态。
模型从产生到生产系统落地应用分别为:用户群目标的确定,用户群的目标、预测的模型、流失明细(得分、是否流失、重要指标)、维系用户、维系的效果反馈、效果的结论对比、进一步优化模型、模校验模型的效果,模型的预测是通过优化和校验再进一步指导,模型预测精度进一步提高。建模流程分为以下几个阶段:
2.1 业务理解
目前,移网用户的发展趋于饱和,移网用户增速降低,携号转网政策落地,用户粘性降低;业务部门无法全方位了解用户的入网感知;在网的移动用户,进行质量评估,全方位了解用户感知;为业务部门提供抓手,改善用户在网感知,增加用户粘性,实现精准维系。对移网用户进行分类,移网用户中取出存量的中高端用户,利用分析流失特征对这些用户进行流失风险判断。对基本稳定的用户和有流失风险的用户分别计算稳定性得分和风险流失得分,得分越高说明特征越明显。
2.2 数据理解
预测账期当月及前推三个月的用户数据。对这些数据进行分类,利用分析流失特征对这些用户进行流失风险判断。移网用户流失预警模型的流程、模型导入用户字段属性及用户群、模型的实施流程,模型测试的结果。
本模型以移网用户的数据为例进行训练的模型,重复训练,得到最优的参数模型,用于将来月份的预测移网用户是否流失,给出流失用户明细、流失用户的可能性得分、流失用户影响的重要因子。用于存量维系模型、模型的校验和模型的优化等场景。
2.3 数据准备
数据准备最终目是根据有价值的字段和衍生出的字段形成大宽带表。流失预测使用到用户的基本信息是用户ID、用户号码、套餐、品牌、年龄、入网时间、客户类型、性别;业务使用属性通话次数、通话时长、短息、费用和APP偏好生成一张宽带,方便后序的流失预测数据。另外,是否流失字段在宽带中增加是重要属性,0是在网用户,1是预测流失用户,预测时间点确定的属性取值是在需求分析中商定的。
数据采集是数据读取和对数据进行检查。
数据清洗是对处理空值进行删除、替换或填充。整理及过滤掉部分异常的字段,定义并且转换建模所需要的的数据类型和编码,进而进行数据分析,核查均值、众数、中位数和缺失值、离散值等信息。
运用均值、中位数等方法对缺少值进行填充或者剔除,离散化处理数据或连续性数据标准化,这也是数据整合,是数据根据行为特征归纳分类;同类的数据字典相关性分析;特征处理、数据标准化。
2.4 模型构建
常用分类算法有多种,根据数据特点和机器学习算法规则,对过滤出来的数据进行交叉验证方法采样并划分,8∶2是划分的比例,也就是说80%用于训练集,20%用于测试集;训练集用户建立模型库,岭回归、随机森林、SVM(支持向量机)用户本文建立算法模型,使用网格搜索(GridSearch)方法进行参数调整,最终确定最佳参数,丛而得到各个算法模型的最优,进行保存三个最优模型;进行模型调用预测数据,输出三个最优模型的数据。
预测判断用户是否在某个时间段内流失,同时模型输出流失用户的可能性得分和导致流失重要因子。岭回归、SVM(支持向量机)逻、随机森林是基于移动用户2020年3、4、5月份数据,预测6月份数据,得到的测试集上的结果。
从运行的结果看到,其实应用机器学习算法的过程,多半是在调参,各种不同的参数会带来不同的结果(比如正则化系数,比如决策树类的算法的树深和棵树,比如距离判定准则等等);
运用交叉验证的方法,来瞧瞧模型的效果,Suport Vector Regression/支持向量回归,Ridge Regression/岭回归和Random Forest Regressor/随机森林回归。每个模型需要运行3遍,结果略。
岭回归、SVM(支持向量机)逻、随机森林是基于移动用户2020年3、4、5月份数据,预测6月份数据,得到的测试集上的结果略。
通过岭回归、支持向量回归SVR、随机森林等运算的结果对比,随机森林算法的效果比较好,故选RandomForestClassifier进行建模。
随机森林在机器学习中起着非常重要的作用,防止过拟合采用方法有early stopping、数据集扩增、正则化、Dropout等等。
参数调整阶段是移网用户流失预警模型的流程、模型导入用户字段属性及用户群、模型的实施流程,模型测试的结果。
本模型以移网用户的数据为例进行训练的模型,重复训练,得到最优的参数模型,使用GridSearch()方法进行参数调整,最终确定最佳参数;证明网格搜索方法节约查找模型最佳参数时间,自动提升模型预测结果。
2.5 模型评估
模型评估是评价模型的稳定性,确保模型使用业务需求;通过绘制学习曲线对模型的效果良好,计算模型的AUC、准确率、精确度、F1得分均通过了模型的评估,结果auc是0.999370639101、accuracy是0.994970845481、precision是0.981191222571、recall是0.91654465593、f1是0.947766843301,可以进行模型发布。
2.6 模型发布
经过以上五步的处理和第五步的模型评估达到业务的指标预期就可以进行模型发布了。
生产环境中达到85%以上认可,会根据业务数据周期性进行模型变更;模型发布后会以产线数据进行模型验证和新一轮的CRISP-DM。
2.7 模型调优方向
模型优化的方向是探索其他领域数据,添加不同类别特征,减少模型对使用数据特征依赖,弱化模型精准度与真实命中用户可触占比的矛盾。进一步分析特征重要性,对现有特征的移网用户数据进行降维,进而提高执行的效率,满足按日更新输出流失目标用户的需求。考虑维系的成本和存量维系挽留工作量,对输出目标制定相应规则,每日优先输入流失概率大、价值高的用户。