《AI助力企业深度洞察数据》——永洪科技咨询部总监符鹏飞

2017.11.23 / View:

大家下午好,我是永洪符鹏飞,之前我们现在都在谈一个词叫AI,上午的时候我们(英)也跟大家分享了一下AI的一些故事,在AI领域,在人工智能包括在汽车,包括在图像识别,包括像一些资源能源处理等领域,都取得了很多的突破和进展。我们在一些企业的数据管理过程中,我们也会遇到各种各样的数据,比如说我们在做财物决策或者预算的时候,我们能不能根据我们财物的一些数据,历史的财物数据去看一下我今年的预算到底应该做多少会合适,明年做多少更合适,我的收入的预算会是什么样子的,或者说我在做这种生产过程的一些设备过程中,那能不能根据你机器的一些状态值,或者是一些状态属性来判断这个机器运行状态的良好情况是什么样,或者能不能根据企业用户的行为和数据去判别这个人能不能是我的VIP用户,或者我在做数据营销的时候能不能把他转化为用户,这个是我们经常遇到的。这些怎么去做,今天我给大家带来的分享是《AI助力企业深度洞察数据》。

    今天上午大家应该有看到,这是整个永洪数据生态的一个架构图,它结合我们永洪底层的平台以及建模平台,以及前端的可视化和服务,完成一个深度分析的数据应用。下面我就针对深度分析来给大家做一个简单的介绍。

    这是我们永洪深度分析模块的一个架构图,底层是一个计算,那么永洪的一个平台底层的计算平台是基于永洪的IBB的计算,包括内存的技术,包括历史存储提高我们的性能。第二个基于算法的时候,有些是第三方的算法,比如我们在做第三方算法的时候,我们永洪可以用AI的方式来去做这样的计算。中间层是我们的一个建模层,我们在做深度分析应用的时候,我们会面临着各种各样数据准备的一个过程,比如说我的数据如何从原始的系统做加工,加工之后如何转化成我要做深度分析用的一个模型,那这个过程中的话可能涉及到数据的关联,包括数据的异常检测,包括数据的一些分组等等这样的一个过程,永洪的平台里面可以在这个地方通过流程式的建模去实现建模的过程,处理干净之后可以作为我数据深度分析的入口。通过入口之后,通过我上面的一些算法模式,比如我们在做逻辑回归或者在做决策素,或者关联分析的时候,基于这些算法得出一些结果,我们得出这些结果之后,一方面来说给我们的数据里面打些标签。比如我们在做数据应用的时候,你这个人到底是不是可以被营销的,或者说你是什么样类型的人,你喜欢什么样的业务,或者喜欢什么样的产品等等,这样个性化的标签,可以在这个地方快速去完成。或者说我可以看一下变量相关性和关联性,大家基于这个架构的平台里边,底层是数据计算,之后的话通过流程式的建模快速进行流出和流入,这是简单一个架构。

    下面永洪的产品关于AI这块的定位是哪几个方面?第一个来说我们是降低AI应用的一个门槛,这块是怎么降低的呢?据说我们在企业里边做数字化运营的时候很多人面对的是业务部门,IT是很少的一部分,专门做数据分析这部分人可能会更少。其实我们的业务往往是在前行的,这方面需要一些预测型和建议型的指标辅助我的业务,但是这个过程往往是由其他人来做,这个过程能不能降低呢?留一些非专业或者非专业的数据挖掘工程师,留一些普通的业务用户。比如说我的财物人员或者说我的营销人员或者说我生产里面的某些员工,能够基于这个平台去做,永洪把它做成可视化简单的模型,如何去做调优和优化需要IT的支撑。

    第二个方面来说,数据量比较大的情况下,尤其是金融和互联网的情况下,数据量比较大的情况下,在跑一些算法的时候性能非常慢,有时候跑等一个结果需要很长时间,这个过程其实是非常漫长的,能不能把计算的效率提高,把它的性能提高,让用户能快速的感知。

    第三个是一体化,一体化就是说从数据的分析维度来看的话,从数据的介入到准备,到数据的分析和应用,往往在过去是割裂的平台。比如我通过一些建模工具完成了数据整合,完成了之后整合的数据又作为下一个数据源的入口,做完这个深度分析之后结果是在这个平台里用的,但是这个结果如何给我的BI平台或者给其他的业务系统共用,这个完全是割裂的,往往会有多个平台,多个工具,多个手段一起协作,往往会造成用人成本很高。所以说永洪我们在做深度分析领域产品的时候,把它的定位一体化,我们结合永洪的数据种类,结合永洪的深度分析,结合永洪最后的数据应用,把它做成一体化的平台。

    另一方面来说不同的行业,不同的客户,我们都会面临着定制化和个性化的需求,能不能做一些特定的高扩展性的算法,永洪在这方面是刚拓展的应用。

    下面围绕这个板块给大家讲一下,这是基于永洪平台,举个例子,这可能是我们在业务中经常见到的,我的数据员分在多个业务系统或者多个表里面,我的业务部门通过表格的函数通过复杂的加工输出最后一个表,在永洪的平台里面如果说我在做分析的时候,我最重要的结果也是最终的一个结果级,这个结果级来源于很多地方,有些地方架构信息和另一个部门的考核口径都不一样,通过这个方式可以通过流程式的建模方式完成了数据的建模和完成了数据的关联,最后输出这样一个结果级,输出结果级之后,比如说数据里面经常会存在一种情况,就是数据存在异常的值。比如说年龄属性,可能年龄属性的数据大于一百或者说小于零等等的情况。能不能在永洪快速把这个去掉,在右边可以看到这样的属性,可以极早发现异常。

    之后数据还有一些缺失值,我的金额属性缺失了,或者说我的年龄属性缺失了,缺失之后怎么处理?我是按照平均值还是最大值,最小值进行填充,还是去除呢?我们可以做一些填充工作。通过这样一个流程式的可视化处理的建模过程,我们把数据准备好之后,比如说进行下一步,比如说我要在一个银行里面要做一些量化营销,这个银行举个例子说,那可能我们在开展一个营销活动的时候,我们会有很多很多这样一些用户的联系数据,比如年龄数据,手机数据,交易数据,我们经过刚才的建模之后把它放在一个表里面。比如说我要去做一个分析,我在打电话的时候,我想判别出这个人是不是可以被营销的,比如我在买理财的时候给你推荐,我给你打电话你能不能被营销成功,做这样一个概率的分析。

    我们做了这样一个模型,把这个数据拿到以后,第一步通过拖拽的方式做一个采样,比如说60%随机采样,拿着这60%的样本级之后,比如说我要做一个数据分析,我拿其中的30%、40%、50%做测试,剩下的做见证。我去看看这个数据到底是不是一个可被营销的模型,它的准确率到底是多少。做完之后把这些数据经过演习和测试级的校验之后得出一个概率,比如成功的概率是97%、80%、75%。另一方面来说我再拿这样一些标签之后,我就输出了一个评分的结果级,当我以后的新增数据过来之后,我可以把新增的数据再通过一个数据源的方式接到评分的地方,当你数据新增之后,所有的都可以基于这个模型去做。

    做完这个之后,评分的结果相当于根据客户的数据得出了是否能被营销的数据,这些里面会有是否营销成功旁边有一个概率。我下一步真正去做营销的,涉及到数据的率选,在永洪的平台里面基于这个结果级做一个分析,用户拿到这个用户之后通过表格筛选的方式,筛选出可以被营销成功用户的明细出来,再通过BI的方式去看这个人的学历,他的喜好,他过去的购买行为是什么,把这些信息拿到之后,其实我在每次电话营销的时候就可以看到这个人的属性和过程是什么样子,做精准营销。过去在项目里面做过这样的测试,基本的准确率能达到83%左右。

    机遇往下一个,刚才说到第二个特点就是高性能,在永洪这一块岂能是我们一直的特性,就是基于永洪分布式的计算方式,包括算法优化的方式,包括数据挖掘算法在分布式集群上去跑,大大提高了计算的性能,降低了算法的时间。

    另一个来说在算法上也实现了峰值数据,不是所有的都适合分布式的场景,在这里面我们做了更多的优化。

    一体化这一块其实结合刚才银行电话营销那个例子来看,首先第一步我对接了各种各样的数据员,对接了数据员之后输出最后一个大表,这个表里面包含了用户所有的数据,做完这个数据之后再结合深度分析的板块,比如说通过数据采样包括数据分区,包括最后的一个分析结果,给你打上一个标签,是否被营销成功的标签,完成了一个数据准备和深度分析的深度结合。

    第二个方面来说,深度分析产生的算法的结果,它是直接可以被你的BI平台可以去引用的。比如说当我产生这个用户是可以被营销成功的,这个用户之后就可以根据他的用户ID号去关联他的明细数据,他的年龄属性和喜好属性,信息拿到以后再通过关联分析去得到最后的结论,这个用户通过什么样的方式营销它的成功率达到90%。

    另一方面就是BI跟深度用户的结合,我发现这个用户可以被算出,这个用户可以被营销成功的概率是83%,我可以看到83%是哪些属性和行为构成的呢?点击83%的时候,数据可以从其他维度上做反馈,可以实现数据的联动效果而不是动态的展现。

    那么在扩展性上来说,永洪的深度分析这个板块里面,我们的算法扩充了这样的几种,像关联分析、持续、分类、回归、可能性回归这样几个算法,把它做成标准的工具化,用户可以通过傻瓜式的拖拽方式就可以完成像我刚才给大家讲的银行的营销案例一样,我们可以自身的去完成这样一些模型。

    另一方面来说,比如说我们有一些个性化的需求,这些算法可能需要现行,或者说现有的里面可能不够,怎么办?在永洪我们深度集成的AI,我们可以通过AI的第三方算法包快速引入,我们可以基于AI的算法拓展我的挖掘的应用,大大满足了企业个性化的需求,未来我们在这方面也会有一些扩充。

    下面的话给大家去分享一下,我们在真真正正基于永洪平台,我们在过去的一些客户里面做过哪些案例,或者说做的哪些成果。举三个例子。

    第一个来说就是设备检修的案例,第二个是我们在做财物运算如何做的案例。第三个是运维监控的平台。三个案例有一些共性,其实做到其他的跨行业来说如何去做数据采集,如何根据数据的特征和行为,模拟出你预测的结果和模型的话,我们都可以去做这样的一些参考。

    比如说第一个来说,这是我们在过去的某一个核电站做的一个深度分析的应用,他们在做很多的这种生产设备的过程装备软件里面,会有一些这种激变器的组件,但这些组件的稳定性和损坏几率非常大,由于这种原因我们在做检修的时候,在做这种状况检查的时候出现了很大的问题,我们的人工成本会非常高,也会影响我整个生产的过程,这种情况下能不能通过一些解决方案,我估计这种激变器的组件的状态值和外部数据能不能给我一些预测的结果,什么时候会出现不良和损坏,把这个结果能不能提前的预测出来?而不是说需要我人工一个一个去做检查,那么我们就做了这样一个模型验证,在现有的条件下,我们最后的一个结论就是说,在永洪刚才有一个数据分区那个地方,你测试的时候准确率能达到92.9%,最后我们还拿了一些我们通过模型算出来的一些结果,跟机器自动模拟出来的结果,跟手工判断的结果我们做了比对,准确率是83.3%,其实准确率来说不是那么高,但我觉得还可以,在这个过程中永洪包括研发和实施团队,也是在跟客户一起把这个模型调的更好,也在这个实施的过程中。

    下面的话我们可以看一下,当时我们做的一个过程是什么样的。

    首先来说就是我们通过一些相关性的分析,相关性分析的话在永洪里面也是比较大的模块,我们通过拖拽的方式就可以拿到相关性分析,拿到分析之后大家可以看到,首先它是一些激变器电阻的数据,电阻、电压,包括开关状态和状态值,包括开关的时间和长、宽,包括它的电压的属性数据,拿到这些数据之后,我们通过相关性的分析看一下,这些指标之间的相关性是什么样子,是不是存在正相关,不相关和负相关的情况。我们发现有些指标是完全正相关的,蓝色的这部分,这个发生的时候另一个条件也在发生,包括它的发生频率是什么样子,当我们拿到这个之后,我们为什么做相关性分析呢?通过相关性分析我们就能看到,哪些指标和状态和属性是随机的,可能它是随机的,作为我下一个模型输出参数的依靠。

    那么我们通过这种分类的方式,我们可以看到通过你的一个判断,你的状态值的属性,你合格,不良,通过这种方式判断出你最后的结论,这是我们输出的过程。

    最后的话我们就是真的是拿到一些结果去做验证,这是人工的一个结果级,这是我们模型给出的一个结果级,我们做了一个比对,看看它的准确率是什么样子,可以通过这两个来看,有一种是命中的,有一种是没有命中的,总体的命中率是83.3%的情况。

    对于第二个案例来说是财物分析的案例,这个在很多公司我们都可能会遇到这样的一些情况,我们能不能根据现有的财物数据以及我的经营数据以及我的生产等各种各样的数据源来做财物的预测呢?比如说我根据我今年的财物预算,我如何去开展经营计划包括生产计划,包括人力招聘等等各种情况,其实财物预算来说是很重要的一个板块,能不能就是说把这个预算做的更加的准确一点呢?我们当时拿了一个,在做项目的时候拿了一个实训的模型来去看这样的情况。

    首先来说通过永洪的模型我们拿到了财物预算这样的数据,经过建模之后输出的数据源,拖入了实际分析我们得出了一个曲线,它的预测值和实际值的曲线图。得到这个值我们拿出来,我们根据历史数据去看预测值的准确性是什么样子,通过BI的分析方式,我们拿了1月份实际值和预测值的结果,包括它做了一个准确率的预判,其实它的准确率能达到94.99%,它的MIPE值能达到99.1%这是它的误差率。这种情况下它的预测准确率还是非常高的。

    下面我们做进一步的分析,我们把实际值和预测值放在一个曲线里面我们去看,它到底是一个什么样的情况,它是预测的值和实际值是什么样子,蓝色的点表示每个月实际发生的,灰色的是模型预测出来的,其实可以看到完全是相互匹配的一个过程。但是你可以看到在2016年的12月份,它出现了一个比较大幅的变动,这个是什么原因导致的呢?其实在2016年12月份因为某项政策的改革,导致营收出现了变动,而恰好在曲线图里面很好的把波动展现出来了,根据这个波动我们再去调整我财物的一个预测结果,就是过去我根据2017年的收入它是多少钱,根据这个模型给出一个建议是,它应该考虑到一些政策包括这种经济环境的因素,我调整我的预算,比如说降低了多少钱,而基于这个预算值再去做我以后的,比如说各个事业部,各个群体,每个人的分解过程是什么样子,完成率是什么样子,我可以充分的调整经济化和达成的情况,更有效的帮企业做经营决策,这是第二个例子。

    第三个其实它是一个运维的项目,其实在风电包括在工厂各种领域的话可能会经常遇到,我们可能在电网的时候通过一些输电配电的方式,在配的过程中我们发现有的时候可能会出现一些,因为负荷很高,会出现线索的情况,过去我们人根据经验去判断,你这个电区你去,下一个电区另一个人去,但是会出现异常情况,有些地区不出现。能不能把这个效率提的更高一点,能不能根据负荷的情况去预测一下未来一段时间哪些区域和片区,可能会出现异常的状态,根据这些出现的状态片区更合理的安排让这些抢修的人员,我们的解决方案就是说,根据过去的历史数据去预测它的负载率,根据负载率的变化之后,得出负载率在未来一时间预测的结果,当时定的标准是MDE值少于20就是较为准确的,我们在安排人活动中,能够在效率上有很大的帮助。

    这是我们当时在做的一个数据处理的过程,我们经过数据处理的方式,通过抽样和分区的方式,通过这个方式数据的转化,最后建模,最后做整体应用,应用之后比如说我得出的结论在某某地区可能会出现这种,在未来的时间一周发现限损或者负荷比较高的情况下,你更好的安排人员。这是一个实施步骤。做完这个之后下一步就是,比如说它是几个地区,是干江还是水厂还是民厅,这几个拿出来去看一下未来的某段时间它预测的情况是什么样子。

    最后的一个结果就是我们通过BI的可视化平台,把这个分析的结果给它实时展现出来。比如在第一个地方通过一些地图的方式,我们可以看到在这些片区,哪些是正常的,哪些是出现危险的,正常的用蓝色,出现危险的可以用人的属性把它表示出来,上面有一个预测值可能性有多大。

    最后通过一些品图和驻图的方式,把你想呈现的内容第一步传给你想传递的人。

    最后通过一个明细表的方式,把你负载的情况展现出来。比如在某个区域,它的负载率可能会很高,预约量很大,未来的一段时间它可能出现的故障频率会很高,怎么去看呢?可以点击负载率这个按钮,这个地方一点击之后可以把持续分析的模型看出来,比如你上限和上限是什么情况,他把未来一周的情况给你拟合出来了,然后你根据这个值再去判断,再去合理的安排你的人员,更好的去做检修,其实从效率上来说,会有一个比较大的提升。从过去我靠经验,现在我通过机器学习一些方式,告诉你你该怎么做,你应该怎么去操作了解这样一个过程。

    当然在AI领域里面,上面讲的几个是比较小的个别领域,但其实在各个行业里面,其实我们都有在做。那这些行业里面可能会非常多,比如对金融,像刚才讲的信用卡营销的案例,比如对于一些零售来说,那么如何根据你的购物习惯做一些个性化的推荐,从过去我可能了解一个群体属性,现在能不能做到根据一个人的消费习惯去根据每一个人去制定每一个的营销策略,比如一人营销这样的方式,通过物流和公安领域也有很多这样的应用,这样的应用我们在做的过程中结合我们算法的方式,以及我们永洪平台的支撑,再加上行业一些专家包括永洪服务一些服务,去更多的去帮助更多领域的一些数据应用的展开。

    我今天演讲的内容主要就是这样,从永洪的产品角度来说,我们在研发的过程中我们会从更应用,更实用这两个角度去展开,从服务的角度来说,基于我们的专家包括行业的一些经验积累加上我们的产品,更多的去做AI领域包括数据分析领域给客户带来价值,更多的还是希望基于我们的技术加服务,给客户取得更多的价值支撑,今天我的演讲就是这样,谢谢大家。

 

永洪BI
更敏捷、更快速、更强大

申请试用
Copyright © 2012-2023开发者:北京永洪商智科技有限公司版本:V10.0
京ICP备12050607号-1京公网安备110110802011451号 隐私政策应用权限