数据本身是枯燥的,然而通过可视化,它就能以一种直观、生动、形象的方式呈现出来,使得人们分析数据和提取有价值信息变得更加轻松。数据可视化很早就已出现,过去我们常用的Excel图表就是一个典型代表,它以一种简明直观的方式来刻画和呈现数据所反映的本质问题,辅助人们从堆积如山的数据中快速发现核心问题,可有效提升数据分析效率。
1、大数据可视化含义
大数据可视化可以说是传统数据可视化的一个继承和延伸,它是指将大规模海量数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。其基本思想是将数据库中每个数据项作为单个图元素表示,并以大量的数据集构成数据图像,将数据的各个属性值以多维数据的形式表示出来,方便人们从不同维度来观察数据,进而对数据进行更深入的观察和分析。大数据可视化是大数据整个过程的最后环节,也是非常重要的一个环节。
2、基本统计图表
统计图表是最早的数据可视化形式之一,也是基本的可视化元素,至今仍被广泛应用。基本统计图表是信息、数据、知识的视觉化表达,它利用人脑对于图形信息相对于文字信息更容易理解的特点,更高效、直观地传递信息。按照所呈现信息和视觉复杂程度其可分为三类。
原始数据绘图:用于可视化原始数据的属性值,直观呈现数据特征,其代表性方法有数据轨迹、柱状图、饼图、直方图、趋势图、等值线图、散点图、维恩图、热力图等。
简单统计值标绘:也就是盒须图,是一种通过标绘简单的统计值来呈现一维和二维数据分布的方法。其基本形式是用一个长方形盒子来表示数据的大致范围,并在盒子中用横线标明均值的位置。
多视图协调关联:将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,且允许用户进行交互分析,提升用户对数据的模式识别能力。
用于基本统计图表类的大数据工具有不少,传统的如微软办公软件Office中的Excel,新出现的如谷歌的Google Chart API、D3、Tableau、Visual.ly、国产的大数据魔镜等。
3、大数据可视化分类
传统的数据可视化起源于统计图形学,与信息图形、视觉设计等现代技术相关,其表现形式通常在二维空间。与之相比,大数据可视化(尤其是在信息和网络领域的可视化)往往更关注抽象的、高维的数据,空间属性较弱,与所针对的数据类型密切相关。因此其通常按照数据类型进行分类,大致有以下几种:
时空数据可视化:时间和空间是描述事物的必要元素,因此,时变数据和地理信息数据的可视化非常重要。对于前者,通常具有线性和周期性两种特征;对于后者,合理选择和布局地图上的可视化元素,尽可能呈现更多的信息是关键。
层次与网络结构数据可视化:网络数据是网络安全世界中最常见的数据类型。网络之间的连接、层次结构、拓扑结构等都属于这种类型。层次与网络结构数据通常使用点线图来可视化,如何在空间中合理有效地布局节点和连线是可视化的关键。
文本和跨媒体数据可视化:各种文本、跨媒体数据都蕴含着大量有价值信息,从这些非结构化数据中提取结构化信息并进行可视化,也是大数据可视化的重要部分。
多变量数据可视化:用来描述现实世界中复杂问题和对象的数据常常是多变量的高维数据,如何将其呈现在平面上也是可视化的重要挑战。我们可以将高维数据降维到低维度空间,采用相关联的多视图来表现不同维度。
4、高级分析工具
有很多高级分析工具可以用于大数据分析和可视化展现,例如:
R:一个用于统计计算和统计制图的优秀开源工具,常用于大数据集的统计与分析。主要功能包括数据存储和处理、数组运算、完整连贯的统计分析、统计制图、可操纵数据的输入和输出、分支、循环等。它的使用难度较高。
Weka:一款开源、基于Java环境的机器学习和数据挖掘软件,能进行复杂的数据分析以及生成一些简单的图表。
Gephi:一款用于社交图谱数据可视化分析的软件,可以制作很酷炫的可视化效果。