对于数据库研究人员和从业人员而言,从数据库(DB)到大数据(BD)的转变可以用“池塘捕鱼”到“大海捕鱼”做类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而 “大海捕鱼”则是大数据时代的数据管理方式。这些差异主要体现在如下几个方面:
1、数据规模
数据库和大数据最明显的区别就是规模。数据库规模相对较小,即便是先前认为比较大的数据库,比如 VLDB(Very Large Database),和大数据XLDB(Extremely Large Database)比起来还是差很远。
数据库的处理对象一般以 MB 为基本单位,而大数据则是GB、TB、PB 为基本处理单位。
2、数据类型
传统数据库数据种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而大数据的种类数以亿计,而这些数据既包括结构化、半结构化以及非结构化的数据,重要的是半结构化和非结构化数据所占份额越来越大。
3.模式(Schema)和数据的关系
传统的数据库都是先有模式,然后才会产生数据。而大数据很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。
4.处理对象
传统数据库数据是其处理的对象。而大数据的处理对象除了是数据以外,还能通过这些数据去预测其他数据出现的可能性,将收集到的数据作为一种资源来辅助解决其他诸多领域的问题。