您当前的位置:首页 > 互联网百科 > 大数据

大数据工具变迁简史:人的需求,略大于算法的疆域

时间:2023-01-13 11:46:32  来源:钛媒体APP   作者:

图片来源@视觉中国

 

文 | 晨山资本,作者 | 吴文超

 

近年来,人们频频「遭遇」各类大数据工具,体验到许多前所未有的变化。不管是惊喜还是惊吓,数据工具都在加速整个社会的数字化转型,面对这样的趋势,加深我们对数据工具的认识和理解将越来越重要。

本文对大数据工具的变迁作了阶段性总结,并对未来数据产品的新方向进行探讨。通过当下可识别的坐标,铭刻十年前的历史引爆点,呈现数据生态链的环环相扣,也看见大数据工具不只是一套封闭的技术体系,人与数据产品互缘同构,它的一头接入算法的革新脉络,另一头与人的生产生活有机相连,持续回应更新的现实、观念和技术,并不断衍生出新的形态支撑各个行业的运转。

不过,无论解题工具(数据工具)多好,解题思路(算法)多棒,最终我们还是要一遍遍回到最原始的价值拷问——我们解题是为了什么?我们还将探讨工具大众化、跨云互通、架构融合和数据安全等数据产品的新方向。

自1946年计算机发明以来,我们经历了软件、互联网、移动互联网到现在万物可联的时代。计算机也从最初的辅助「计算」功能,到现在成为我们承载信息的重要「伴侣」。个人的社交、购物、旅行等生活内容,企业的设计、生产、经营和管理都以数据的形式被记录着。

这些变化,在近十余年,尤其是移动互联网(PC时代计算机还只是触达了少部分人)让普通人的信息被计算机记录开始,令大家感受尤其明显。这背后同时也是一段数据工具的变迁史

01 历史引爆点与萌芽期

在互联网出现之前,软件还主要服务于企业,过程中诞生了如Oracle、SAP、IBM等为企业提供信息化的软件公司。在漫长的时期中,软件承载着数据记录、计算和管理能力,数据库也以Oracle、IBM等公司的产品服务于数据管理需求为主。

在后期,随着企业经营决策复杂性的提升,利用数据分析进行决策的需求逐渐被提出,出现了Teradata等数据仓库产品,Oracle、IBM等传统数据库企业也都纷纷推出自己的解决方案。这几十年的时间里,大家更多讲的是软件而非数据。甚至到PC互联网时期,真正接触和使用计算机的人依然有限。

2010年左右,智能手机的出现,移动互联网的爆发,实现「人联」,才真正开启了数据时代。也是在这前后,数据量的爆发式增长带来了数据工具的爆发

▲ 2010年左右是数据工具爆发的奇点

2010年左右数据工具大爆发,数据平台架构百花齐放

2010年之前传统数仓还是以处理信息化系统中的结构化数据为主。2010年,为了应对移动互联网中出现的大量用户行为日志等非结构化数据,以Hadoop为代表的大数据平台在此背景下诞生,揭开了大数据工具的序幕。并于随后几年出现了一大批围绕着Hadoop生态的大数据产品。

Hadoop批量处理能力强,但实时性差,难以满足应用系统对用户提供更加实时服务的需求,此时Spark、Flink等流式处理平台横空出世。批流数据并行的Lambda、KAppa等架构逐渐成为主流。

随着Hadoop的非实时性缺陷越来越让人难以忍受、硬件成本的持续下降和云计算的渗透,MPP架构的数仓再次回到人们的视野,尤其是Snowflake以云数仓的方式刷新了大家对传统数仓的认知,国内新的数仓解决方案也如雨后春笋般出现。

然而,数据平台架构演进的步伐并没有因此停止,数据湖、湖仓一体等架构在最近两年又被大家提出和应用。

事实上,百花齐放的数据平台架构背后是数据和应用复杂度的提升,优秀的产品永远致力于把功能做到极致,突破自身产品能力的边界;而优秀的用户永远在寻找适合自己的架构设计和产品组合,用户和产品就这样并行推动数据工具的发展。在这过程中也诞生了大量优秀的数据产品企业,如Splunk、Databricks、Snowflake、Clickhouse等。

▲ 数据平台架构的变迁

数据工具是一个生态链

以上更多是从横向看整个数据架构的变迁,但纵向来看,任何一个数据架构都并不是孤立的,而是需要一整套数据处理的工具链才能完成数据处理的闭环,包括采集传输、查询处理、数据转换和分析、输出等多个环节。虽然数据流的顺序可能不完全一样,但模块基本一致。生态产品的诞生也和前面架构设计的多样性、应用的多样性息息相关。

我们看到另外一个比较主流的创业方向便是兼容于各种数据工具和应用系统的生态工具,如做数据采集的Fivetran、管道传输的Kafka和建模转换引擎dbt

 数据处理的典型环节 资料来源:a16z.com

数据产品众多,架构选型成为关键

经过十余年的发展,受益于开源、国内外互联网大企业的引领和创业公司不断创新,数据工具也是层出不穷,每一个数据处理环节都有大量可选工具。

工具没有绝对优劣,而用工具的人至关重要,如何搭建适合业务需求的工具组合才是用户需要重点关心的问题

▲ 数据处理的各个环节工具众多

02 需求和算法驱动数据产品滚滚向前

现在我们拥有众多大数据的工具,但工具背后本身诞生的背景是什么,为什么会有如此多的工具?

这最终还是要回归到方法和价值上:我们处理的思路有什么革新?为什么要处理各种各样的数据,以及处理这些数据能带来多大的价值?

解题思路,算法驱动

我们首先来看看人们处理数据的思路有多大的变化。「思路」在计算机领域换个词就叫「算法」,而「算法工程师」这个岗位大体是伴随着数据科学和人工智能诞生的。

在软件时代,算法更多停留在传统统计方法的应用:排序、求和、求统计值等,其最典型的应用在BI产品中,用于轻量级企业内部数据洞察。

在互联网时代,信息量的爆炸给统计机器学习带来新的机会,包括经典的逻辑回归、SVM、KNN等分类、聚类算法在搜索、推荐引擎中被大量使用。

同样是在2010年,Ale.NET在ImageNet中图像识别的优异表现揭开了深度神经网络的序幕,大量的神经网络模型、算法被提出,不仅仅应用在图像领域,同样应用在语音、文本等非结构化数据中。而深度神经网络对数据的依赖达到了前所未有的高峰,数据甚至成为了AI的第一生产要素,这又对数据处理工具提出了更高的要求。

近年来,AI逐渐走入大模型时代,拥有高算力、大数据量的互联网企业训练了超大规模参数的通用AI模型,尤其是在文本和内容生成领域。这再一次推动了数据使用的新模式,对大模型使用者的数据要求从大而全走向细而精。

▲ 算法发展史

无论你的解题工具(数据工具)多好,解题思路(算法)多棒,最终我们都要回答一个最原始的价值问题:我们解题是为了什么?有什么作用?

解题目的,价值驱动

在软件时代,数据聚合的目的更多是为了企业内部进行经营决策,所以BI是数据最早的出口形态。到了移动互联网时代,各种数据被互联网企业收集,进行用户洞察分析,提升搜索引擎电商甚至信息流图文、视频的推荐准确率,提高用户点击率,数据价值崭露头角。

随着机器学习和神经网络的发展,人们发现数据可以被利用的思路和方法被进一步打开,更多非结构化数据、半结构化数据和最原始的结构化数据被收集,开始用于广泛的商业场景

产品的研发迭代

互联网企业是利用用户数据迭代产品的最大受益者。数据辅助产品设计不仅仅可以在互联网、软件开发领域,在其他行业领域也可以被应用——服装设计中通过收集用户购买行为来进行款式设计,餐饮口味选品可以通过收集用户点评数据来辅助决策。

数据助力营销

其实最早的BI很重要的一个应用场景就是被用于营销洞察,但彼时缺乏足够的外部数据支撑。随着近年来电商的崛起和线上购物渗透率的快速提升,企业对外部消费者的洞察也越来越精确,精准的数据营销也成为数据应用的典型场景。

数据助力企业管理

传统的企业管理更多关注流程管控,缺乏精细化的资源管理和决策依据。在数据时代,员工的表现、企业的生产、销售都进一步被数据化,企业管理者拥有更多的维度洞察整个企业的人事和过程的管理。

数据助力人机协作

目前我们看到的数据应用大部分还是围绕着「人」的数据。随着「物联」越来越普及,机器和设备的数据也被大幅收集,人们可以更加了解机器,人机协作也变得越来越高效和精准。

▲ 数据应用发展史

目前数据在很多行业还处于渗透期,大家更多关注营销,但并没有更深入地推进到产品研发、企业经营管理和人机协作领域。随着数据在金融、电信、工业、政务、医疗教育甚至农业等行业应用,个人和企业将被深度数据化,行为和决策受数据驱动,执行过程被数据记录,劳动成果被数据化衡量,甚至整个社会的运转都是由数据在背后驱动,这将对数据工具提出新的需求。

03 数据产品发展方向:大众化、跨云、架构融合和安全

数据产品的诞生从源头来看是需求的驱动,从路径上看需要IT基础设施的助力,包括算法的迭代、硬件性能提升及成本下降,企业IT架构的调整。需求和技术的相互促进将带来更多创新机会。

工具大众化

人类生产工具的最终目的是提升生产效率。让复杂的工作变得更简单,让机器去负担最复杂的那部分运算逻辑,让人关注工作中更具创造性的部分

上面所列的绝大多数数据处理工具都有较高的技术门槛和使用门槛,但企业最终使用数据的是决策者、运营人员和业务人员。他们并不具备高超的IT技能,这就无形中增加了企业使用数据过程中的沟通成本。所以,未来数据工具大众化也一定是大家追求的目标。国外不少产品用Excel的形态来方便业务人员使用数据,降低工具使用的门槛。虽然这种形态无法发挥大数据工具的所有能力,但在用户体验上还是更进了一步。

大众化UI(交互界面)的形态并没有局限,但如何保证易用性才是问题的关键。也只有产品更加大众化,才能进一步扫清数据工具持续提升渗透率和用户基数的障碍。

▲ Sigma产品用Excel Spreadsheet的形态方便用户使用数据

产品跨云平台能力

公有云厂商向来是底层技术实力比较强的企业,其数据类产品当然也并不落下风。Snowflake能在AWS生态繁荣发展的前提也是使用AWS的S3来存储。而AWS在数据产品中从提取传输、存储、数据处理到消费都有对应的云产品。

如果公有云客户的第一选择还是考虑云厂商第一方产品,那第三方产品是不是就完全没有机会了呢?

▲ AWS全套数据产品链

即使放眼全球,多云和混合云架构也是企业的主流选择。这就给大量独立的数据工具提供了广阔的生存空间。跨云数据产品也将成为未来企业需要考虑的重点。无论是公有云还是非公有云,数据产品能兼容于各类异构云/云原生基础设施,将成为用户采用的前提。

▲ 全球92%的企业都有多云战略

产品架构融合能力

以往我们进行软件架构设计的时候,硬件成本是重要的考量因素:如何节约内存?如何降低CPU消耗?如何平衡IO吞吐和读写性能?随着摩尔定律的深入和后摩尔定律时代的到来,硬件复杂度提高,能力越来越强,硬件的单位成本也随之下降。

▲ 4Gb和8Gb DRAM 价格过去5年呈下降趋势 资料来源:macroMicro

这时候我们需要考虑如何把更多的事交给硬件去做,而软件也在扩展自身功能的边界。以近年来较受关注的概念HTAP(混合事务型和分析型数据库)为例,传统AP(分析型数据库)更关注吞吐、TP(交易型数据库)更关注实时读写,但随着硬件IO能力的提升,大家开始探讨为什么不能有一款数据库可以同时兼容二者的能力呢?

▲ OLAP和OLTP数据库正在融合

除了HTAP,在数据库领域新兴的其他趋势如批流一体、湖仓一体、AI Native(算法/AI内生在数据库产品中)等等,无不体现了硬件能力提升背后软件功能的边界越来越宽的趋势。因此,数据产品应在设计之初就考虑未来产品的可扩展能力,如何逐步拓宽自己的功能边界,以获取更大的市场

前面提到数据类产品未来将在各个行业深入渗透,但行业和行业之间对产品的要求千差万别。到底是产品本身能力扩展能够适应绝大多数行业,抑或未来出现行业版产品呢?这也是非常值得探讨的话题。

数据安全

如果不解决安全问题,数据的价值发挥将受到极大的限制

随着数据价值的不断提升,数据安全的价值也会越来越大。不久前,工信部等16部门联合发布的《关于促进数据安全产业发展的指导意见》提出,到2025年,我国数据安全产业规模超过1500亿元,年复合增长率超过30%。要知道,2022年整个网络安全的市场规模也不超过1000亿元,而这里面还包含了70多个产品品类。晨山资本在《数安法》颁布之前就已经布局了数据安全运营、API安全、隐私计算数据安全新兴方向,也从这些企业的发展感受到市场对数据安全需求的快速提升,也就不难理解政策部门对2025年数据安全规模的乐观预期了。

回头来看,大数据工具的变迁历史不过短短十余年,不过天下难事,必作于易,天下大事也必作于细,前路还有很多可能性。2023年,期待能看到更多充满生命力的创新涌现,也希望更多数据方向的创业者来和我们一起交流探讨!



Tags:大数据   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
“霸王条款”“刷单炒信”“大数据杀熟”怎么破解?这部法规都明确了!
预付式消费、直播带货、“一老一小”、“霸王条款”、“刷单炒信”、“大数据杀熟”、自动续费、强制搭售……这些新领域的侵权你遇到过吗?消费者合法权益怎么保...【详细内容】
2024-04-11  Search: 大数据  点击:(10)  评论:(0)  加入收藏
市场监管总局:禁止“大数据杀熟”规范“自动续费”
本报讯 (记者韩昱) 近日,《中华人民共和国消费者权益保护法实施条例》(以下简称《条例》)正式发布。4月9日,国新办举行国务院政策例行吹风会,市场监管总局副局长柳军介绍《条例》有...【详细内容】
2024-04-10  Search: 大数据  点击:(4)  评论:(0)  加入收藏
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30  Search: 大数据  点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30  Search: 大数据  点击:(40)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  Search: 大数据  点击:(40)  评论:(0)  加入收藏
Java后端+Java大数据+前端
web前端开发主要涉及创建网页或网站的用户界面,包括布局、样式、动画、交互等。web前端开发需要掌握HTML、CSS、JavaScript等基础语言,以及各种框架和库,如React、Vue、Bootstr...【详细内容】
2023-12-28  Search: 大数据  点击:(110)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  Search: 大数据  点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19  Search: 大数据  点击:(43)  评论:(0)  加入收藏
MongoDB与大数据处理:构建高性能分布式数据库
MongoDB是一种非关系型数据库,具有高度灵活性和可扩展性。在处理大量数据时,索引的优化是提升查询性能的关键。下面将介绍一些MongoDB索引优化的指南,帮助用户更好地利用索引来...【详细内容】
2023-12-18  Search: 大数据  点击:(73)  评论:(0)  加入收藏
Java与MySQL大数据处理的技巧
处理海量数据是现代应用程序中常见的挑战之一,尤其是在Java与MySQL这样的技术栈中。下面将介绍一些处理海量数据的技巧和策略,并讨论如何通过Java与MySQL实现高效的大数据处理...【详细内容】
2023-11-29  Search: 大数据  点击:(213)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(40)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(53)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(40)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(43)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(71)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(65)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(67)  评论:(0)  加入收藏
站内最新
站内热门
站内头条