大数据应用思路与实践.docx
《大数据应用思路与实践.docx》由会员分享,可在线阅读,更多相关《大数据应用思路与实践.docx(12页珍藏版)》请在冰豆网上搜索。
大数据应用思路与实践
本文的介绍分三个部分。
第一是介绍一下我们整个大数据应用开始建设初衷,第二个是介绍我们的实施历程,第三是风控应用的实践情况。
谈谈大数据技术为我们带来的价值,首先是整个大数据技术提供了一个高性价比的解决方案,能够极大降低我们整个数据应用投入的成本,提高硬件资源使用效率,提升海量数据处理能力,实现更多的应用成果;我们有机会从更多维度的数据关系我们去看待组织这个数据,由以前注重数据的因果关系转移到注重数据的关联关系,逐步逼近数据的真相,其实最麻烦的一个问题就是我们在风控、售后、营销业务也好,较小维度的数据准确性得不到保障,传统建模方法得不到很好的预测结果,采纳更多维度数据,那我们分析预测的可操作性更强了。
有前面两个基础,我们有机会在行业应用提升系统体验,包括我们的客户和员工,可以从原来标准化的服务逐步转移到个性化的服务,把简单的程式化营销模式转化为更自然的场景化营销模式。
构建大数据平台我们一开始的诉求还是解决我们原有的数据应用,特别是数据仓库存在的问题。
以前我们的数据应用是比较零散的,数据标准、数据存储这一块问题比较多。
大数据是平台有更强大的处理能力,我们可以规划企业级数据模型,在信息加工环节上我们可以减少数据重复加工,一份数据可以多应用共享,每一个应用来说都可以轻装上阵,他可以聚焦自己关注的领域,不用太多去关注底层数据的处理逻辑,这样他可以开发瘦身,我们可以逐步形成开放协同应用体系,每一个应用可以提供更好专业化的数据服务。
整个大数据的体系还是放在我们智慧银行整体IT规划之下,希望提供个性化的客户服务、智能化的应用服务以及提供我们全天候的风险监测服务能力,来提升我们的运营效能。
技术层面我们要实现核心技术的自主掌控能力,基于弹性高效的IT服务架构我们银行可以更低的成本来做应用。
总体实施历程主要分成三个阶段。
第一个阶段就是我们规划与技术选型的阶段,从2015年开始做规划和技术选型,第二阶段在2015年7月份开始聚焦我们的应用平台建设,第三阶段从2016年3月份我们逐步在经营分析、客户营销、风险管理方面开始创新应用开发,到了今天差不多经历三年的时间。
未来新的应用还要不断推出,但系统建设的重心应该从量变到质变,逐步转向数据价值的挖掘层面
我们技术架构的方向就是希望打造一个实时智能的数据应用体系,基于更多的数据模型、业务模型,结合我们实时流处理能力,持续打造智能化的服务平台,更有效率去挖掘数据价值,提供应用数据的能力。
从实践过程来看我们从一开始注重整体的架构规划,从平台化、产品化和服务化的应用要求,希望能够聚焦提炼功能性的需求,包括技术和业务的公共需求,打造一个更好的平台化产品架构,来形成在实施过程当中的成果沉淀和带来更多共享的技术组件,加速应用领域的开发。
我们开始做的就是基于微服务技术的应用服务平台,针对这个平台之上去提炼公共业务服务的能力,这样一方面可以形成应用开发瘦身,另外一方面也提供标准的开发体系,帮助外包合作开发团队统一优化整个应用的服务支撑能力。
在选型这个阶段也是很重要的,我们也跟很多厂商交流,因为平台选型一旦把控不好,后面开发的成本增加,整个应用开发技术能力受到限制比较大。
首先主要聚焦在整体性能这上,那我们也用到了很多国际上的一些性能基准测试集,结合我们自己的场景需求,做到比较严格的测试选题。
整个测试评估耗时较长,但后来开发效率会更高;然后产品的开发API也是坚持SQL2003等标准,我们原有的应用能平滑迁移;最后运维简单和厂商的技术支持能力也比较重要。
那在实施过程当中我们还是遇到了一些问题,包括开源项目迭代比较快的,过程中缺陷较多,为我们带来运营的风险也比较大;整个开发团队对数据库原理理解不深刻,分布式技术的系统知识比较缺乏,容易出很多的应用性能问题,造成开始上手会觉得整个系统性能会比以前传统数据库还要差等等。
针对这些问题我们制定了一些对策,非常重要还是一个知识转移,错误案例总结然后形成一些技术实施规范,逐步构建技术支持工具。
还有就是典型的大数据平台对我们类似交易监测等实时应用不是特别的适用,那我们也是及时引入内存数据库技术形成有效的补充。
银行应用面临的监管要求是比较高的,而开源技术在企业级应用大数据场景的可维护性也是相对来说差一些,那我们也是积极完善运维监控工具去填补这个空白,来提升整个系统的服务可用性。
整体技术实施关键点我给大家总结一下,性能这一块还是最重要的,我们实施过程当中出问题最多的还是应用性能的问题,我们需要建立包括SQL如何编写在内的性能规范,并且在开发阶段实现性能的自动化监控,不断适时总结存在的问题点和应对模式,逐渐提升团队的技术能力,做好知识传递。
同时在整个生产上线阶段我们要做好相应的数据模型管控,第二个是我们对于不同的应用特点按照实际需求做好公共平台资源池的资源分配,尽量保证每一个应用他分配的资源是基本合适的,总体成本也相对可以降低一些。
下面说介绍一下风控应用,我们其实是有近期目标和中长期目标的努力方向。
近期目标主要还是以降低成本提升效率为主,那一方面通过引用我们外部的数据服务,在我们风控应用里面我们做实时的服务集成,减少人数据采集的成本,减少我们整个流程的处理成本;第二个方面就是在初始的阶段,包括风控业务专家和专业人员的知识水平是不一样的,我们希望基于这个平台来去把各个专家的知识经验能够装进去,这样可以汇聚整个银行的集体智慧,减少高端人才的人力需求;第三个其实就是基于更多的数据,那我们不管是基于行业特点还是基于外部的一些事件等等,我们也可以按照客户的关系网络去划分这个客户群体,这样来制定差异化的风控策略,通过更多的数据也是能够覆盖更多的维度来优化我们的实际运行效果。
中远期的目标还是应对市场变化的能力问题。
首先我们要实现全天候的监测,这样我们的数据不仅限于个体数据,还有行业动态数据的监控以及分析,然后我们基于市场数据包括我们对一些行业标杆客户的大量样本统计,可以做更多维度的大数据统计,形成标杆企业的发展晴雨表,来去指导整个行业风险的评判。
对于这种突发事件的影响我们也是基于这个客户各种关联关系,包括资金交易、股权、担保关系来构成一个关系网络来去做风险传导的分析。
基于多维数据我们可以做客户分群,设计不同的风险监控指标体系,将原来主要关注是单个客户风险管理,逐步转移到同时关注组合风险,提前预判组合风险,也可以有利于我们更好把控宏观系统性风险,实现早期预警。
风险管理应用整个体系看,我们希望覆盖更多的业务团队与工作岗位,然后针对不同的特点开发相关的应用,那整个在客户全生命周期里面不同的阶段实现不同的风控能力,包括规划阶段指导往哪儿打的问题,然后减少信息采集的数据量,提供智能风控模型,加速客户的筛选以及对客户留存阶段实施合适频度的风控作业。
以上是每个阶段各系统可以提供的功能支撑,各应用形成了合理的协同作业。
业务规划平台主要是聚焦行业、地域,整合宏观政策、市场、行业的相关数据来去把控宏观风险,我们也与一些技术伙伴合作,在宏观层面实现语义机器人等智能化的数据服务。
信用风险预警这个系统主要是聚焦单个客户的风险信号生成,在这个基础上支撑包括信贷评审等多个风险业务应用了,统一提供智能化的风险数据服务,帮助快速构建我们的平台贷产品。
交易反欺诈应用我们采取专家经验规则结合机器学习模型,从以专家的经验规则为主,逐步过渡到包括无监督、半监督的欺诈检测算法(如随机森林算法),去做更加自动化的机器学习智能体系构建。
运营风险监测和交易反欺诈类似,我们下一个阶段主要改进机器学习算法,减少专家规则的依赖,形成异常书记标记的反馈体系,不断优化提高模型命中率。
从系统正式上线开始,异常行为发现的绝对数量在不断下降的,我们也是从业务部门得到较好的反馈,内部业务的合规性得到了很大提升。