新媒体时代的数据可视化
2016.08.06 / View:导读:我相信在我们所有跟数据打交道的环节中,通过可视化分析的界面不仅让用户可以看到这些东西,还可以根据看到的结果实时进行反馈,从而提升了智能,这些智能并不是用人工智能的方法。所以在人工2.0时代,可视化是密不可分、必不可少的一个环节。
很高兴在这里跟大家分享我的一些想法,这个PPT是我们在一个月以前为中国工程院做人工智能2.0的科学战略与规划的时候,在探索在数据和人工智能关系时的一个想法的记录。其实在可视化是非常年轻的学科方向,它的发展和人工智能的发展是非常接近的,我们可以看到在科学界,大家谈到科学研究已经进入到了数据密集型科学。我归纳了一下,我认为在可视化研究领域,同样已经走到了第四个阶段。
可视化,大数据时代的成像利器
我们可以看到可视化本质是用人眼的感知能力来增强人脑的认知能力,所以在祖先几百万年的演化当中产生了眼睛,并且在大脑附近,以方便对人眼的信息进行快速的处理。我们的视觉信息占到整个人的信息70%以上,这就是为什么说眼观六路,耳听八方。
然后我们发展了很多物理机械设备,比如说放大镜,显微镜,让我们看到眼睛看不到的信息。到了数字成像的时代,我们可以保存下来对信息进行后处理,加工。比如说医疗领域,有CT、有红外、有摇杆、有显微,这些东西让我们了解世界,拥有了处理更大任务的能力。
那么在即将到来,或者是大家已经在预备在做的大数据的时代,有更多的信息没有办法通过物理和数字的方式获取。比如说网络,互联网使个人的信息越来越多;比如说物联网,布在全球各地的空间或者是设备的信号,这样新的数据形态使得我们需要一种更好的电子眼来帮助和理解这个世界。
所以可视化在早期由统计局发明以后,到90年代由科学家对科学领域进行可视化,再到情报分析领域,这几种潮流汇总到一起成为了现代可视化数据所强调的重要成分。因此我们可以说,到现在为止我们讲的人工智能是1.0时代,我们可以认为可视化已经公认为是数据信息世界的成像利器。
我总结了几个行业的大应用,比如说大科学、大工程、大安全、互联网与社交媒体、物联网和智慧城市。
在大工程领域,我们在做工程设计里面,有很多的软件帮助我们进行模拟计算,同时在大工程物理空间里面也布满了相当多的传感器。比如说海南发射中心发射一个火箭,火箭上会有8000多个传感器,这些数据和仿真数据和测试数据,将不同环节的信息进行分析,然后我们来帮助用户实时决策。
实际上我们还有一个非常重要的任务是,可视化是最重要的手段。比如说大安全领域, 像360公司专门成立两个部门,研究可视化分析对于网络安全和企业安全的重要性。那么在国土安全、公共安全、金融安全方面也有这方面的需求,可以对实时情况进行监控。
互联网与社交媒体。这个例子是我们基于获取的某一个城市所有人的手机机站数据以及交通数据、在微博的数据,这三类是信息空间、物理空间、社交空间的代表,基于这三个数据,他们所带来的特点是这些数据系数分布,碎片化的信息之间存在着很细微的关联,怎么样通过可视化的界面,让用户解决掉一个把数据进行关联、时空断裂的信息进行整合的任务呢?我们进行了尝试,我们基于一个CPS数据帮助客户非常快速的研究出一个人,我们分析出了他的身份、他可能的社交关系,比如说他什么时候跟人一起上班,他可能跟谁住在一起,他跟谁可能是亲戚。
一个孕妇在微博上发了七个微博,通过这个微博,我们可以知道他七天之内怎么生产,怎么回家,他跟谁有可能是亲戚关系,这些很快地都能梳理出来。我们觉得这样一种分析手段,正像永洪所做的一样,让用户不需要关注对于数据的细节,只需要关注它任务的完成,以及快速的分析出结果。
在物联网和智慧城市领域,我们也有做很多数据的应用。我们曾跟360公司合作了一个小项目,发现他们的云计算平台每一个节点,每一分钟都会产生相当多的监控数据,我们可以用云计算平台对这种流数据进行分析。在社交网络里面也有,比如说这是NBA粉丝做了一个NBA的文本报道,传统的阅读方式是文本式的,我们把这个系统直接关联到新闻报道,可以自动生成可以对整场比赛的可视化的解读。
在智能交通领域,在智能电网、物流、制造领域已经有了一些科学成果的出现。这是我们跟美国博世研究院,它在汽车芯片生产里面,每分钟会传来生产过程中的数据。我们采取了一部分的汽车流水线上的数据。
在科学领域,例如Science连续发文指出,借助可视化手段将人机智能有机结合,形成韧劲式分析环境可有效提升数据分析的效率。那么这种模式是什么呢?这里有一个图,右边是指信息空间,左边是指人脑用户。我们把信息空间呈现在这个上面,让用户通过可视化来解读。那么可视化分析,把人的智能跟机器智能进行结合,这种结合实际上在BI上的一些决策已经有所体现。特别是在以下三重情况下,交互的分析应该是必需的。第一个是不存在可信的自动分析方法。第二,分析任务没有良好的定义,甚至不知道任务是什么。第三,应急、复杂环境对抗事件等条件下,人的智能更有效和可靠。
在科学领域,像天文、物理、化学、地质、气象研究都有非常多的科学家用云计算,用超级计算来做计算模拟。除了计算模拟数据,还有我们在各个地方所观察的数据,以及反演、推测的数据。这就给我们科学家建立了一个三维空间模型。这是我们给国家气象局,为他们五大类数据,包括预测数据、标杆数据、常规数据、融合数据做的可视化分析的全球平台。
在人工智能2.0的挑战有四个方面
第一,大数据处理各个环节和可视化应该有机的融合。传统的认为进行数据处理、加工后再做可视化,而现在国外已经用软件证明用数据获取、数据清洗、预测仿真、数据分析、数据模型都可以用可视化。我们可以看到交互的智能分析的大框架下,可视化不是一个独立的环节,它会跟每一个环节有机的融合在一起,该用的时候可以用,不该用的时候可以借助人或者借助机器。
我在这里给大家看一下我们自己做的小的工作,这个看的是911发生报警那天的数据,它用文本记录下了很多信息,什么时间,什么地点,什么时候爆炸,讲了什么话。我们在想如果数据质量不好,所以我们帮助用户来观察数据怎么样,并且面向纬度也进行了分析。
第二,在未来可视化和智能结合的地方是科学计算领域。在美国所有的国家实验室,都有可视化的机构,中国也有这样的机构。但是传统的可视化和科学的融合是计算结果做可视化,我认为在未来计算、数据,这个数据包括原始数据、中间结果和最终结果以及人的分析,就是科学家的知识和分析和可视化应该放在一起。
spark平台上人群据雷德计算过程可视分析,我们最开始发现可能算一两天都算不出来结果,后来我们自己做了这样一个过程的可视化分析,我们把每一个节点和硬盘使用率、故障的信息做一个直观的呈现,还把结算过程中的结果进行呈现,并且把每一个源代码进行关联,这样可以对于数据的本身,对于我们完成任务有一个非常直观的,驾驭式的探索。
第三,这是可视化从业人员做教育和科研中的一个重任,现在可以看到有非常多的底层的可视化数据库。事实上,我们并不能用一个软件解决问题。我觉得未来会存在非常大的需求,面向不同的数据形态和应用场景可以定制出非常多的可视化标准件或者通用系统软件。现在有三种方式,一种是永洪的,一个是编程,还有一个新的,就是如果客户不满足与现有的模板,那么我们需要有一个交互开发环境。
我给大家看一个小例子,让用户设计一个从数据到信息图的过程的自由的定制。我们可以让用户提供了很多底层、中层、高层的可视化组建模板,用户可以进行流程化的定制。同时也可以把用户设计的想法通过左下角的场景图进行刻画,我们提供了一个画板。当有一个简单任务的时候,我们可以让用户用流程化的方式定制出他的形态。
第四,我觉得我们在相当多的政府,像我们的管理中心,存在着相当多的应用需求,和真实应用场景下的态势感知与临场决策。我们知道今年是VR元年,VR是一个很重要的应用。那么在我们的救急、在公共安全,在自然的场景模拟里面有相当多的应用需要实时的把当时发生的情况通过信息获取手段进行获取。同时我们希望结合历史数据,结合在之前通过计算机模拟所产生的数据进行分析。
在一个新疆恐怖案子里面,在昆明广场有恐怖分子砍杀案件,在这个过程中警方却没有办法很快的进行干预,而我们国家在监控领域有很多设备,比如说有摄像头,比如说有身份证,还有微博、微信、论坛都有公安干警在监控,但是我们还是做不到很快的把犯罪分子定位甚至预测,就是因为分析能力不足所造成的。
分析能力不足不是因为数据中心、数据存储不够好,而是因为我们缺乏一个非常有效的能够把实时的数据和静态数据、空间数据和非空间数据、未来的数据和预测的能力结合。特别是在分析过程中,它的一个特点是时空断裂,时间和空间是割裂的,甚至是说他俩是分布在时间空间的思维纬度里面相当的稀疏,因此很多领域,比如说在救灾、应急管理、公共安全领域已经在探索怎么样快速做这件事。我们希望能够把传感数据、社交数据、历史数据进行时空融合,最后进行关联整合,同时如果面临到非常复杂的时空场景,我们希望进行一个直观交互的呈现,最后能够得到决策的结果。
今天给大家看一下我们自己在做的,我们利用33块55寸大屏搭建了一个沉浸式的虚拟环境。这个环境是一个系统,这个系统是支持我们对于三维的场景或者是一个复杂的信息,基于数据库的也好,基于传感的也好,接入以后可以把二纬、三维、历史空间的进行转换,它分析的需求已经超过传统的PC上需要的计算、交互,因为再这样一个环境上,用户的交互不是用鼠标完成的,他可以用三维鼠标来做更多的实时反馈。
最后给大家看一个面临复杂应用场景的采用的新方式。大家知道我们在做数据库查询的时候,所有这些问题都需要用户非常熟练。但是用户只需要关注完成任务的时候,我们是不是需要一个分析更敏捷的手段。这个系统支持10种数据,是因为我们的数据获取还比较有限,这10种数据主要是涉及基站数据、汽车数据、路网、POI、微博数据等,我们首先进入了三维时空的预先表达,对于用户来讲不需要关心数据怎么来,怎么存,不需要关心数据的查询、聚类的细节,不需要一个用户的界面。上面是一个地图,地图上可以呈现各种目标、人、车、物以及所有数据范围里面的统计信息或者是合适的可视化手段。
再下面是用户的工作界面,我们认为工作界面不应该是程序,也不应该是报表,应该是一种最自然的交互手段。就像我们所有的小孩会直接用IPAD,但是他不会用计算机。也就是说用户想做分析,第一步是做查询,然后对查询进行反复迭代,我们对用户有一个制定查询来源和查询操作,然后有筛选、排序的指标就可以完成这个过程。
有一个例子是,新浪微博上有一个人说在某一天,大致一个时间从这个地方打车到那个地方,然后发现自己的手机丢了,就问怎么可以找回这个手机。这个在我们数据库里面是一个经典的OD查询工具,但是它存在场景复杂查询问题,但是我们只要有几个操作,定位出跟他很像的出租车有很多,然后可以看到人流,通过迭代,就可以成功的把这个出租车找出来。而且可以把他从上车到下车半小时做一个分析,比如说他下车以后有两个人上这个出租车,但是这两个人都没有拿这手机,我们的结论是出租车司机发现以后把手机关机拿走。这是我们可以提供一种快速的查询、分析、推理的能力。
所以我相信在我们所有跟数据打交道的环节中,通过可视化分析的界面不仅让用户可以看到这些东西,还可以根据看到的结果实时进行反馈,从而提升了智能,这些智能并不是用人工智能的方法。所以在人工2.0时代,可视化是密不可分、必不可少的一个环节。
我的报告就到这里,谢谢。
永洪BI
更敏捷、更快速、更强大