富国基金数据架构规划与实践
2016.08.06 / View:导读:我觉得数据的架构和建设是一个长期的过程,一旦走在这条路上,就应该从公司的战略角度来看待这件事。我们做数据集市、做量化和数据挖掘,到最后我们会做一些更加高级的应用,这样一步步地实现富国对数据的实践和掌握。
难得有这个机会给大家讲基金行业的数据实践。基金行业其实是一个资本行业,它最大的特征是轻资产,说白了我们就是做数据的。大家炒股的时候看的K线,它就是数据。今天给大家讲一下从资本行业和基金行业,我们会在哪些方向用哪些数据,然后对数据有什么样的要求,用到的技术又有什么样的特点,需要哪些来支撑我们的发展。
首先简单说一下富国基金。传统来看基金行业有两类:公募基金和私募基金,私募基金主要做二级市场和PE。富国于1999年成立,主要做传统二级市场,随着不断发展,我们成立子公司以后也会做一些其他的产品。富国现在是基金行业全牌照的公司,也是国内第一次在伦敦交易所做ETF的公司。从债券到货币,我们做了非常好的产品,并且都是靠数据来做这个产品的。到2015年12月底,我们的资产规模达到1923亿,市场排名第13位,长期资产管理规模(剔除货币基金、短期理财以及联接基金的重复计算)1700.50亿,市场排名第五。
上面我们说了基金就是一个采集数据、加工数据、分析数据,并进行业务决策的行业。那么富国的投资是怎么做的,为什么决定买或者卖某支股票,对股票的投研分析和资讯分析是怎么来的呢?富国基金有大量的券商分析研究员,我们会买很多的咨询数据,加上线下实地考察。如果要做一次股票,研究一个股票,我们都会做线下的实地考察分析,通过这些采集加上自分析和数据分析来得出未来投资决策的方向。所以我们站在数据角度来看,基金公司就是做分析决策的,这也吻合了大数据实践的方向。
另外,大家现在做投资的时候有两个流行的特点:1.智能投顾。2.FOF(基金中的基金)。这两个越来越成为投资行业特别是基金行业的主流。资本投顾会用到一些数据,就是做量化投资。FOF从选股票变成选基金,需要从中国市场大量的基金里找哪类基金是现在可以操作的,哪些基金是现在可以抛的。这虽然也包含了一些个人投资喜好,但是不管做智能投顾还是FOF,还是需要大量的数据分析。
基金公司的数据分析都应用到什么方面?
第一,投研。来分析宏观的、微观的市场经济情况,另外还要做量化的收益面。第二,电子商务。在电商方面,我们要对客户做行为分析,还有外部的大数据、大众理财、价格发现等等。第三,风险管理。投资有一个底线,就是风险控制,那么数据分析协助我们做事中风控和事后风控,以及合规与审计。第四,产品管理。这是指分析某支基金或某个产品的绩效,就是你赚了钱,在市场排名多少,这些钱是什么时候从哪个行业的哪支股票赚的。第五,营销绩效。这跟电商有一点类似,但是我们更多的是结合客户画像去做精准营销。这也是从业务方向来看,整个基金行业对数据的诉求。当然我们还有一个诉求就是运维数据,这里就不展开了。
用户对数据的要求是什么
以上说明了从数据角度来说,有这样五个方向的数据。那么从用户的角度来看,他对数据的要求是什么?我们来分析一下:
1.公司高管、营销部门,他们对数据的要求,就是可视化的展示。2.中台部门需要固定形式的报表及信息披露。3.投研部门,需要明晰数据和资讯数据。4.产品分析设计部门,需要灵活的分析。5.电商部门,他们需要能够自主分析和查询分析的数据。6.量化投研部门,他们需要海量的数据,并且对数据的计算性能要求很高,还能够在实验室做计算。所以我们未来做数据规划的时候,数据的系统架构要满足这些用户的要求。
企业如何建造数据系统架构
数据存储方面,一个是方向,一个是要求,最后是怎么存放。比如说这些都是我们要的数据,像一些结构化、半结构化、非结构化的数据,比如TA、估值、投资。企业的征信、司法、工商,还有电商、社交网络的数据也要有,网销、直销的数据也要有,生产环境应用技术日志、技术数据也要有。
在做选型和规划时,如何建造系统架构的平台呢?
首先要做的是看为什么要这个东西,先去了解一下,要从公司整个的发展、运营场景以及使用要求来设计这个架构,这才是一个切实可行的实践之道,而不是盲目地赶市场潮流。
第二作为一个决策者来讲,就是人、财、物。要想做好数据架构人最关键。另外是财,有多少预算可以花,比如说Hadoop不便宜,我们是一个商业型的企业,财这一块还是很重要的。最后还要考虑物,就是看数据源、数据种类和数据量,以及到底要选用什么样的数据库,是MPP架构,还是HBase?
第三,就是刚才我提的问题,是不是有一个单一技术就可以解决这些问题。
第四,现在很多架构各有利弊,所以大家不要怕,要去融合。我们很看好这样的一个趋势,那就是MPP的架构跟很多的架构在未来是融合的,这个融合将是有效数据架构的主旋律。
第五,支持大规模、分布式、并行数据处理与存储,拥有良好的线性性能拓展以及丰富的数据接入能力。这是我们当初选择数据架构时思考的问题,这个市场上有这么多的产品(图示),大家都会挑花眼,我们同样如此,感觉都很好。最后经过了很多的分析,我们最终的决策遵循了一个原则:使用那些相对较低投入成本,在指定时间(容忍时间)内完成数据处理、提取、统计分析等处理,根据实际需求找到合理的分析切面、纬度,实现数据价值最大化的产品。
富国基金采用的是怎样的数据架构
在提了要求以后,我们也想了自己有多少人,有多少钱,可以在多少时间内把这件事做好。最后我们做了一个混合架构,包括源数据、数据抽取、数据处理、数据集成、数据服务、终端。另外在抽取层不要用一些传统的重量级的商业化产品。在处理层可以采用实时处理,这样可以在未来提高ETL以及汇聚的计算能力,可以考虑用Hadoop或者Storm,这样数据的汇集、加工可以做到轻量化。存储方面,它是核心架构,这时考虑自身的商业应用,比如说实时竞争营销,像我们就是用Redis做的。那么在结构化的方面,我们采用了Vertica架构。
通过这些,我们采用了一种混合模式。我们觉得从目前的现状来讲,没有一种技术或者产品可以全部都做好,那么我们就融合这些产品来混合应用,最后打造一个数据服务平台。这个服务平台可以给高管做数据展示,可以给销售做数据分析,而且这个平台还要支持Excel,并且可以用PC、手机等终端展示。
这是我们今年1月份把整个架构做完的情况,从这里可以看到我们做了自助服务的报表和数据管理。
这个是我们的四期。我们在做规划时,认为富国基金做这样一个数据架构的路线图应该是这样的。首先,传统数据架构,虽然没有什么很大的问题,但是我们用了一些比较好的产品替换掉传统不合理的东西。现在我们在做第二期时做了一些数据集市,并准备在今年下半年或者明年上半年,做量化和数据挖掘,到最后我们会做一些更加高级的应用,这样一步步地实现富国对数据的实践和掌握。
在这里,我想分享一下我们自己的经验,就是数据的完善和治理,如果是很烂的数据,做出来的结果是没有人相信的,所以数据的治理和完善是非常大的命题。另外,和业务接轨,不要说技术一定要服务于业务。我们需要以业务为目标,避免闭门造车。另外还有要有继承性和持续性。这是我给大家的一些建议。
最后,我觉得数据的架构和建设是一个长期的过程,一旦走在这条路上,就应该从公司的战略角度来看待这件事,这是一个战略性的问题。我们要坚持不懈地持续发展,而不是换一个领导一个思路。
感谢大家的聆听,谢谢。
永洪BI
更敏捷、更快速、更强大