詹士 发自 凹非寺
量子位 | 公众号 QbitAI
“大数据已死。”
说这话的,正是来自google十年员工,数据分析产品BigQuery创始成员之一,Jordan Tigani。
在最新发布的一篇博文中,他表示——
大数据概念在十多年前开始兴起,时至今日,销售们仍用“海量数据带来指数级增长曲线”说法,来勾起(唬住)客户为相关服务买单的欲望,否则就将被数字时代抛弃。作者自己也曾是其中之一。
但现在,Jordan Tigani不仅认为这种说法行不通,还称——“数据大小根本不是问题所在。”
那么问题在哪?他认为,我们已无需担心数据大小,而应专注于如何使用数据来做出更好的决策。
如此言论之下,也吸引了不少业内人士的围观和热议。
他的上述观点有何依据?
不妨从证明过程看起。
(值得注意的是,作者表示,证明过程中相关图表曲线并不是严格参考了数据,而是凭记忆手绘的,这位资深从业者强调——重要的是曲线形状趋势,而非确切数值。)
Jordan Tigani先从一张PPT聊开去。
这是一条数据量随时间增长,呈现指数级增长的曲线,在过去十年,几乎每个大数据产品推销都从该曲线开启。他曾就职的谷歌、SingleStore都不例外。
亮出曲线后,销售们会顺势鼓吹产品,告诉客户——大数据时代来了!你需要我手里的产品和服务!
但Jordan Tigani认为,多年来的事实已证明,处理数据的老方法已经行不通了,且大多数应用程序也不需要处理大量数据。
一个佐证是近些年传统架构的数据管理系统复兴,诸如SQLite、Postgres、MySQL都增长强劲,与之对比,“NoSQL”甚至“NewSQL”增长却停滞不前。
一个明显例子是MongoDB,它是排名最高的NoSQL类数据库,也同样是最火的横向扩展类数据库,此前几年MongoDB增长势头强劲,但最近规模却小幅下降,且与MySQL等主流数据库仍存差距。
Jordan Tigani认为——如果大数据真是未来,那情况应该不一样。
鼓吹大数据时代就在眼前的另一个说法是——每个人都会被产生的数据淹没。
但Jordan Tigani在研究客户中发现绝大多数客户总数据存储量不超过1TB,即便大型企业,其数据量级也soso。
根据他的从业经验,所服务的最大客户数据存储量是第二大客户的2倍,第二大客户又是第三位的2倍。
这样一来,客户数据大小与数量服从幂律分布。
只有极少数客户拥有PB级数据,成千上万客户每月存储费用不超过10美元,而他们服务客户存储资源使用的中位数,连100GB都不到。
不仅作者本人这么认为,Gartner、Forrester等机构分析师及其他从业者也表示,大部分企业的数据库量级都小于1TB,且100GB是常态。
拿一家超千名客户的公司举例,即便每个客户每天下一个订单,里面包含100项数据,每天生成数据仍小于1字节,三年后是1GB,而要达到1TB,这家公司得做几千年生意。
另一个例子是之前作者接触了一家E轮独角兽公司,且还在快速成长中,但即便这样,他们的财务数据、客户数据、营销跟踪数据及服务日志加起来,也只有几GB。
就这,能叫大数据?
还不算完,即便看“已有”部分,也有问题。
由于现代云平台将存储与计算分开,两部分利用量级也有很大差距,即——数据存储增长速度,远大于计算资源需求增速。
具体来说,企业数据的存储量随时间推移,肯定是线性增加的,但大部分分析计算需求是针对近期数据,不可能一遍又一遍反复读取旧数据。因此,计算需求不会同步迅速增加。
Jordan Tigani的一个客户就是这样。
作为全球头部零售商,他们原有100TB本地数据,迁移到云上后,数据量变成了30PB,增加了300倍,如果计算资源需求也随之拉满,那他们在数据分析上的花费将达几十亿美元,但事实上,他们只花了很小一笔费用。
作者认为,大量计算服务不被需要,也就意味着前沿架构不太有必要,甚至分布式处理也Duck不必。
与之类似,分析数据的工作负载也远小于数据体量。
多数时候,人们往往只会查询前1小时、前1天或上周数据,较小的表会被频繁查询,但大表就不一定了。
在作者本人BigQuery工作经历中,数据量巨大的客户几乎从不查询大量数据,除非他们正在生成一些报告。
这种需求,也不要求性能优先,且仅是企业一周几十万个查询中的极少数。
正如下图,90%查询任务涉及的数据量级不超过100MB,仅1%超过10GB,且即便查询巨型表,数据库也可通过一定处理,减少计算量和延迟。
一个侧面佐证是——业内符合原本“大数据”定义的产品也在变少。
在当初,大数据的定义之一是“任何单机无法处理相关任务/场景需求”,比如00年代,数据工作负载对于单个商业计算机来说,带不动是常态。
但今天,一个AWS的标准实例所用到的物理服务器包含了64核及256GB RAM,如果为优化实例再多掏一点钱,又能在原基础上增加2个数量级RAM,这几乎覆盖所有工作负载需求。
既然大数据时代结束了,那是不是说,相关从业者要下岗了?
作者也提出了自己的看法——
结束了,但没完全结束。
具体来说,作者认为,大数据的另一种内涵是“当数据保存的支出小于其挖掘价值,那就应该放弃”,因而,我们需要判定哪些数据需要及时清除,以及背后的原因,这将成为数据工作的重要部分。
这当中,也包括不同时期同一数据以不同字段存储,需要有人来加以维护和留有记录。
此外,基于相关监管规定,很多类型数据(比如涉及个人隐私的电话号码)也需要定期清除。
再有,便是一些公司需要定期判断哪些旧数据要清理,以避免未来可能的法律风险。(手动狗头)
对于Jordan Tigani上述观点及论证,有网友表示支持,还联想到之前类似的工作经历。
也有网友表示:
当XX已死,说明它真实被认可的地方会被保留下来。
值得一提的是,并非所有人都赞同作者的观点。
尤其鉴于“XX已死”将话说得太满,有网友认为:
在近期AI大火之际,判决AI所依赖的大数据已死,也是挺敢说。
当红炸子鸡ChatGPT背后老板Sam Altman,此前在旧金山一次技术活动中,也谈过对大数据的看法,Sam认为——
- AI研究领域取得令人印象深刻的进步,不仅依靠海量数据,同时更需要海量的计算。
上述观点不仅强调了海量数据重要性,对比Jordan Tigani所认为的“重存储轻计算”看法,正好相反。
另一个不同声音来自一位名叫Lewis Gavin的大数据与软件工程师,此前他曾在Medium上发文,主题也是围绕“大数据是否消亡”
他认为:
- 大数据不会死,只会变得更重要。
所给出理由是:一方面依据是全球生成的数据总量仍在加速增长,且细分领域中,处理“大数据”正成为常态。
基于此,Lewis Gavin认为——所谓“大数据死亡”,只是营销说法的消亡,但Big Data处理技术和应用仍存在,且它会成为习以为常的现象。
IDC于1月24日发布的一篇预测证明了大数据市场仍在增长,内容指出——
未来几年,全球大数据和分析软件市场将实现强劲增长,且具体到该板块各细分领域,未来几年增长率均为双位数。
有意思的是,有网友提出“大数据的死亡”并不是个技术话题。
他表示:数据之所以没发挥价值,其实是商界精英们往往忽略数据内蕴藏的结论。
另一位网友也表示赞同,还称:
自己曾开玩笑,数据科学家的工作其实不是搞分析,而是为高管们前瞻性观点提供有力证明。(手动狗头)
参考链接:
[1]https://motherduck.com/blog/big-data-is-dead/
[2]https://news.ycombinator.com/item?id=34694926
[3]https://Twitter.com/jrdntgn/status/1622986160833437697
[4]https://towardsdatascience.com/big-data-will-be-dead-in-5-years-ef4344269aef
[5]https://www.bigcompute.org/speaker-series/fireside-with-sam-altman
— 完 —
量子位 QbitAI · 头条号签约